數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展值得關注
2025-02-05 09:24:29? ?來源:光明日報 責任編輯:蔡秀明 我來說兩句 |
【光明時評】數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展值得關注 近日,,四部委聯(lián)合印發(fā)《關于促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》(以下簡稱《實施意見》),,提出“到2027年,,數(shù)據(jù)標注產(chǎn)業(yè)專業(yè)化,、智能化及科技創(chuàng)新能力顯著提升,,產(chǎn)業(yè)規(guī)模大幅躍升,,年均復合增長率超過20%”的發(fā)展目標,。我國針對數(shù)據(jù)標注產(chǎn)業(yè)發(fā)布系統(tǒng)性指導文件,,是我國為護航人工智能產(chǎn)業(yè),、提升新質(zhì)生產(chǎn)力水平作出的重要布局,。 數(shù)據(jù)標注產(chǎn)業(yè)是對數(shù)據(jù)進行篩選、清洗,、分類,、注釋、標記和質(zhì)量檢驗等加工處理的新興產(chǎn)業(yè),?!秾嵤┮庖姟窞槲覈鴶?shù)據(jù)標注行業(yè)指明了專業(yè)化、智能化的發(fā)展方向,。數(shù)據(jù)標注是將復雜,、隨性的人類可識別信號翻譯成簡單、規(guī)范的機器可識別信號的過程,。產(chǎn)業(yè)探索期,,“有多少人工就有多少智能”的特征為我國奠定了良好的數(shù)據(jù)標注產(chǎn)業(yè)基礎。 從2021年起,,中央文件中對數(shù)據(jù)標注的政策指向更加明確,,提出提升數(shù)據(jù)的多樣化處理能力、聚焦數(shù)據(jù)標注等數(shù)據(jù)處理環(huán)節(jié)等,,從數(shù)據(jù)標注能力,、數(shù)據(jù)標注的應用方向等角度為市場指明了發(fā)展思路。當前,,人工智能應用場景的細分,,對數(shù)據(jù)標注準確性和專業(yè)性的要求日漸提升。例如輔助診療AI的醫(yī)療影像標注需要人體結構,、病灶特征等知識,,智能制造AI的數(shù)據(jù)標注需要生產(chǎn)流程,、產(chǎn)品構造等知識,法院輔助裁判AI的文書標注需要法律法規(guī),、司法解釋等知識,。數(shù)據(jù)標注產(chǎn)業(yè)現(xiàn)已進入從勞動密集型向知識密集型轉型的新階段。以技術引領,,優(yōu)化人力,、數(shù)據(jù)、能源等要素供應,,是數(shù)據(jù)標注產(chǎn)業(yè)順利轉型的有效保障,。 深度學習模型的多層次非線性復雜架構,會使得數(shù)據(jù)標注的少量錯誤在迭代后被放大,。當前,,優(yōu)化算法高維空間求解過程具有不可預知性,這導致通過錯誤標注樣本提煉出的錯誤規(guī)律不能被直接消除,,而需要重新學習大量新的正確標注樣本來糾正,,試錯成本高昂。人工標注容易出現(xiàn)標注質(zhì)量不穩(wěn)定,、準確性,、客觀性難以保障等問題,。例如,,同一位員工在不同時間和心境下會將同一表述標注成不同情感;不同的員工對圖像中人物年齡的判斷不同,;員工可能因為注意力不集中或認知有限而忽略掉某些病灶等,。 近年來,自動標注技術迅速發(fā)展,,數(shù)據(jù)標注逐漸從純?nèi)斯俗⑾蛉藱C協(xié)作標注轉變,,人力更多承擔關鍵決策角色。增強深度學習和自然語言處理等技術實力,,通過算法優(yōu)化和多模態(tài)融合不斷提升標注精度,,有利于提高我國數(shù)據(jù)標注產(chǎn)業(yè)的市場競爭力。開展職業(yè)能力建設,,增加標注員工對特定行業(yè)和標注技術的知識儲備,,既可為產(chǎn)業(yè)發(fā)展提供充足后備人才,又有助于應對技術發(fā)展對就業(yè)可能造成的沖擊,。 人工智能應用場景的不斷開發(fā)是數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展的驅(qū)動力,。但反過來,萬物依存表現(xiàn)出的數(shù)據(jù)互聯(lián)特性也使得數(shù)據(jù)標注自身成為驅(qū)動,,為人工智能應用場景的開發(fā)提供靈感和保障,。例如,,對交通指示、路況,、人類行動軌跡等多類數(shù)據(jù)的標注使自動駕駛成為可能,,而路況、車況,、企業(yè)分布等信息又促使智能交通管理迅速發(fā)展,。 中國是全球數(shù)據(jù)量產(chǎn)大國,且數(shù)據(jù)類型豐富,,涵蓋各個領域和行業(yè),。但目前數(shù)據(jù)要素還有較大挖掘潛力。出于對商業(yè)競爭,、數(shù)據(jù)泄露等問題的擔憂,,很多企業(yè)不愿意開展數(shù)據(jù)標注業(yè)務。在通過區(qū)塊鏈等技術保障安全的基礎上,,以公共數(shù)據(jù)標注為切入點,,形成成熟的數(shù)據(jù)標注標準,并基于此搭建數(shù)據(jù)要素流通平臺,,將有助于撬動企業(yè)數(shù)據(jù)標注,,實現(xiàn)數(shù)據(jù)互聯(lián)共享,充分釋放數(shù)據(jù)活力,。 數(shù)據(jù)存儲,、調(diào)用和標注計算需要占用大量存力算力資源,存力算力中心的運行,、冷卻需要依托于大量,、穩(wěn)定的能源供應。為了降低能耗,、減少資源浪費,、保障產(chǎn)業(yè)可持續(xù)發(fā)展,除了優(yōu)化標注算法,、平衡工作時段,、完善資源調(diào)度外,還需充分考慮數(shù)據(jù)標注基地與數(shù)據(jù)來源地,、存力算力中心所在地的距離,,合理規(guī)劃數(shù)據(jù)傳輸路徑。 2024年5月國家數(shù)據(jù)標注基地試點公布,,7個城市承擔起了在產(chǎn)業(yè)生態(tài)構建,、能力提升和場景應用等方面先行先試的重任。這些城市的選擇充分考慮了其地方配套支撐優(yōu)勢,。然而,,數(shù)據(jù)資源豐富的地區(qū)通常面臨較大的能源供應限制,,“東數(shù)西算”工程能夠為重塑我國數(shù)字經(jīng)濟地理格局、應對我國資源的地域分配不均問題發(fā)揮重要作用,。未來,,7個數(shù)據(jù)標注基地的發(fā)展也應考慮數(shù)字經(jīng)濟地理格局,盤活周邊已有數(shù)據(jù),、存力算力,、人力資源,宏觀布局新增配套資源建設,,在優(yōu)化能源供應的同時帶動區(qū)域經(jīng)濟發(fā)展,。 (作者:唐嘯 鄧哲,分別系清華大學公共管理學院黨委副書記,、長聘副教授,,北京市科學技術研究院助理研究員) |
相關閱讀:
![]() |
![]() |
打印 | 收藏 | 發(fā)給好友 【字號 大 中 小】 |
信息網(wǎng)絡傳播視聽節(jié)目許可(互聯(lián)網(wǎng)視聽節(jié)目服務/移動互聯(lián)網(wǎng)視聽節(jié)目服務)證號:1310572 廣播電視節(jié)目制作經(jīng)營許可證(閩)字第085號
網(wǎng)絡出版服務許可證 (署)網(wǎng)出證(閩)字第018號 增值電信業(yè)務經(jīng)營許可證 閩B2-20100029 互聯(lián)網(wǎng)藥品信息服務(閩)-經(jīng)營性-2015-0001
福建日報報業(yè)集團擁有東南網(wǎng)采編人員所創(chuàng)作作品之版權,,未經(jīng)報業(yè)集團書面授權,,不得轉載、摘編或以其他方式使用和傳播
職業(yè)道德監(jiān)督,、違法和不良信息舉報電話:0591-87095403(工作日9:00-12:00,、15:00-18:00) 舉報郵箱:[email protected] 福建省新聞道德委舉報電話:0591-87275327