2020年,人工智能(AI)技術(shù)從概念驗(yàn)證邁向規(guī)模化應(yīng)用的關(guān)鍵一年。在這一進(jìn)程中,數(shù)據(jù)處理技術(shù)作為AI系統(tǒng)的基石,其成熟度與適用性直接決定了AI項(xiàng)目能否成功落地。本報(bào)告將深入剖析AI落地過程中數(shù)據(jù)處理環(huán)節(jié)面臨的核心挑戰(zhàn),并探討切實(shí)可行的應(yīng)對(duì)策略。
一、核心挑戰(zhàn):從“實(shí)驗(yàn)室”到“生產(chǎn)線”的數(shù)據(jù)鴻溝
- 數(shù)據(jù)質(zhì)量與標(biāo)注瓶頸:現(xiàn)實(shí)世界的數(shù)據(jù)往往存在大量噪聲、缺失值與不一致性。高質(zhì)量的標(biāo)注數(shù)據(jù)稀缺且成本高昂,特別是對(duì)于需要細(xì)粒度標(biāo)注的計(jì)算機(jī)視覺、自然語言處理任務(wù)。弱監(jiān)督、半監(jiān)督學(xué)習(xí)雖為緩解標(biāo)注壓力提供了思路,但其在實(shí)際復(fù)雜場(chǎng)景中的泛化能力仍有待驗(yàn)證。
- 數(shù)據(jù)孤島與隱私合規(guī):企業(yè)數(shù)據(jù)常分散于不同部門與系統(tǒng),形成“數(shù)據(jù)孤島”,難以匯聚形成可用于訓(xùn)練的有效數(shù)據(jù)集。隨著《個(gè)人信息保護(hù)法》等法規(guī)的出臺(tái),數(shù)據(jù)隱私與安全合規(guī)要求空前嚴(yán)格。如何在保障用戶隱私與數(shù)據(jù)安全的前提下,合法合規(guī)地利用數(shù)據(jù),成為必須跨越的障礙。聯(lián)邦學(xué)習(xí)、差分隱私等技術(shù)提供了潛在解決方案,但其計(jì)算效率與模型性能的平衡仍需優(yōu)化。
- 數(shù)據(jù)處理的實(shí)時(shí)性與工程化:許多AI應(yīng)用場(chǎng)景,如實(shí)時(shí)風(fēng)控、工業(yè)質(zhì)檢,要求數(shù)據(jù)處理與模型推理具備低延遲、高吞吐的特性。這要求數(shù)據(jù)處理管道(Data Pipeline)必須高度工程化、自動(dòng)化,并能與模型訓(xùn)練、部署流程無縫集成。構(gòu)建和維護(hù)這樣一套健壯、高效的數(shù)據(jù)流水線,對(duì)團(tuán)隊(duì)的技術(shù)架構(gòu)與工程能力提出了極高要求。
- 多模態(tài)與動(dòng)態(tài)數(shù)據(jù)融合:AI應(yīng)用正日益復(fù)雜,往往需要同時(shí)處理文本、圖像、語音、時(shí)序數(shù)據(jù)等多種模態(tài)。如何有效地對(duì)齊、融合這些異構(gòu)、動(dòng)態(tài)變化的數(shù)據(jù),從中提取統(tǒng)一、深層的語義信息,是提升模型認(rèn)知能力的關(guān)鍵,也是當(dāng)前技術(shù)的前沿難點(diǎn)。
二、應(yīng)對(duì)策略:構(gòu)建面向AI的數(shù)據(jù)基礎(chǔ)設(shè)施與治理體系
面對(duì)上述挑戰(zhàn),企業(yè)需系統(tǒng)性地構(gòu)建以AI為導(dǎo)向的數(shù)據(jù)能力,而非零散地解決單個(gè)問題。
- 實(shí)施以AI應(yīng)用為目標(biāo)的數(shù)據(jù)戰(zhàn)略:企業(yè)應(yīng)從頂層設(shè)計(jì)入手,將數(shù)據(jù)戰(zhàn)略與AI業(yè)務(wù)目標(biāo)緊密結(jié)合。規(guī)劃統(tǒng)一的數(shù)據(jù)中臺(tái)或數(shù)據(jù)湖,在合規(guī)框架下打破部門壁壘,實(shí)現(xiàn)數(shù)據(jù)的互聯(lián)互通與統(tǒng)一治理,為AI提供高質(zhì)量的“燃料”。
- 投資自動(dòng)化與智能化的數(shù)據(jù)工程工具鏈:積極引入和開發(fā)自動(dòng)化數(shù)據(jù)標(biāo)注、數(shù)據(jù)清洗、特征工程工具,降低對(duì)人工的依賴,提升數(shù)據(jù)準(zhǔn)備的效率與一致性。采用MLOps理念,將數(shù)據(jù)處理、模型訓(xùn)練、部署監(jiān)控等環(huán)節(jié)流水線化,實(shí)現(xiàn)AI模型的持續(xù)集成與持續(xù)部署。
- 前瞻性布局隱私計(jì)算與安全技術(shù):將隱私保護(hù)設(shè)計(jì)(Privacy by Design)理念融入數(shù)據(jù)處理全流程。積極探索聯(lián)邦學(xué)習(xí)、安全多方計(jì)算、可信執(zhí)行環(huán)境等隱私計(jì)算技術(shù)在業(yè)務(wù)場(chǎng)景中的試點(diǎn)應(yīng)用,在數(shù)據(jù)“可用不可見”的前提下挖掘價(jià)值,筑牢合規(guī)防線。
- 培養(yǎng)跨領(lǐng)域的數(shù)據(jù)科學(xué)團(tuán)隊(duì):成功的AI落地離不開既懂業(yè)務(wù)、又精通數(shù)據(jù)與算法的復(fù)合型人才。企業(yè)應(yīng)著力培養(yǎng)或引進(jìn)能夠理解數(shù)據(jù)、處理數(shù)據(jù)并通過數(shù)據(jù)驅(qū)動(dòng)決策的團(tuán)隊(duì),彌合業(yè)務(wù)、數(shù)據(jù)科學(xué)與工程之間的 gap。
三、展望:數(shù)據(jù)處理技術(shù)的未來演進(jìn)
數(shù)據(jù)處理技術(shù)將更加趨向自動(dòng)化、智能化與實(shí)時(shí)化。AI for Data(利用AI技術(shù)來提升數(shù)據(jù)處理能力)將成為重要趨勢(shì),例如利用AI自動(dòng)進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)、關(guān)聯(lián)發(fā)現(xiàn)與特征生成。云原生、邊緣計(jì)算與數(shù)據(jù)處理的結(jié)合將更緊密,以支持無處不在的智能計(jì)算需求。
2020年及之后,數(shù)據(jù)處理已不再是AI的幕后輔助,而是決定其落地成敗的主戰(zhàn)場(chǎng)。只有系統(tǒng)性地克服數(shù)據(jù)層面的挑戰(zhàn),構(gòu)建堅(jiān)實(shí)、靈活、合規(guī)的數(shù)據(jù)基座,人工智能才能真正釋放其 transformative(變革性)的潛力,驅(qū)動(dòng)產(chǎn)業(yè)實(shí)現(xiàn)智能化升級(jí)。