【下功夫 解難題 探新路】如何筑牢人工智能數(shù)據(jù)底座?江蘇聚力打造全國(guó)領(lǐng)先數(shù)據(jù)產(chǎn)業(yè)
來源: 荔枝新聞中心
2026-04-19 15:25:00
數(shù)據(jù)作為人工智能的三大核心要素之一,直接決定人工智能的能力上限。作為數(shù)據(jù)要素資源大省,江蘇正全速推進(jìn)數(shù)據(jù)產(chǎn)業(yè)提質(zhì)發(fā)展,為人工智能產(chǎn)業(yè)構(gòu)筑堅(jiān)實(shí)的發(fā)展基石。
荔枝新聞中心記者黃蒙說:“數(shù)據(jù)是人工智能的核心要素。隨著人工智能產(chǎn)業(yè)的飛速發(fā)展,對(duì)高質(zhì)量數(shù)據(jù)的需求也與日俱增。這也催生出了數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注等新興產(chǎn)業(yè)?,F(xiàn)在我們就來到了一家位于無錫的數(shù)據(jù)企業(yè),看看這里是如何‘生產(chǎn)’高質(zhì)量數(shù)據(jù)的?!?/p>
走進(jìn)江蘇省具身智能機(jī)器人工業(yè)數(shù)據(jù)采集與實(shí)訓(xùn)中心,一排排人形機(jī)器人在訓(xùn)練師的指導(dǎo)下,學(xué)習(xí)分類生產(chǎn)線上的各類物料。當(dāng)人工智能觸達(dá)物理世界,“物品是什么、如何抓取、擺放到什么位置”這些與物理環(huán)境交互反饋的真實(shí)數(shù)據(jù),已然成為人形機(jī)器人研發(fā)的關(guān)鍵環(huán)節(jié)。
天奇股份具身智能事業(yè)部人形機(jī)器人數(shù)據(jù)采集員喬旭說:“我們這是一個(gè)真實(shí)產(chǎn)線的模擬場(chǎng)景,它采集了相機(jī)的視覺數(shù)據(jù)、手臂關(guān)節(jié)的軌跡數(shù)據(jù)。數(shù)據(jù)采集后交付給大模型開發(fā)的工程師進(jìn)行大模型訓(xùn)練,隨后植入到機(jī)器人本體中,就可以到工廠中實(shí)際使用了?!?/p>
當(dāng)前,訓(xùn)練一個(gè)具身智能大腦需要百萬級(jí)“人類行為數(shù)據(jù)”。在無錫這家數(shù)據(jù)采集中心,近百臺(tái)機(jī)器人正源源不斷產(chǎn)出適用于不同工業(yè)場(chǎng)景的訓(xùn)練數(shù)據(jù)。伴隨著具身智能機(jī)器人的爆發(fā)式增長(zhǎng),這類數(shù)據(jù)產(chǎn)品更是呈現(xiàn)出供不應(yīng)求的市場(chǎng)態(tài)勢(shì)。
天奇股份具身智能事業(yè)部大模型算法首席科學(xué)家童隨兵說:“數(shù)據(jù)是提升我們模型智能化程度的一個(gè)催化劑?;谛聰?shù)據(jù),我們就能夠持續(xù)進(jìn)化機(jī)器人。年前已經(jīng)交付了30萬條機(jī)器人的操作數(shù)據(jù),今年大約有500萬條的數(shù)據(jù)交付量。要把數(shù)據(jù)采集中心打造成為長(zhǎng)三角的數(shù)據(jù)平臺(tái)。”
如果說人形機(jī)器人的“大腦訓(xùn)練”尚處于起步階段,那么發(fā)展較早的大模型正依托海量數(shù)據(jù)支撐,持續(xù)拓展知識(shí)應(yīng)用邊界。在國(guó)內(nèi)最大數(shù)據(jù)標(biāo)注企業(yè)——澳鵬科技(無錫)有限公司,醫(yī)學(xué)標(biāo)注專家正通過專業(yè)標(biāo)注“教導(dǎo)”醫(yī)療大模型。隨著人工智能技術(shù)加速向垂直領(lǐng)域滲透,越來越多的專業(yè)技術(shù)人才投身數(shù)據(jù)標(biāo)注行業(yè),成為“專業(yè)AI導(dǎo)師”。
澳鵬數(shù)據(jù)醫(yī)療標(biāo)注專家許加路熹說:“您可以看到我們這一個(gè)病例是腦膠質(zhì)瘤的轉(zhuǎn)移灶。我給了6個(gè)選項(xiàng)、6個(gè)相應(yīng)的選擇處理交給大模型。我的任務(wù)是讓這兩個(gè)模型回答這個(gè)問題的正確率低,讓這道題難到大模型回答不上來。”
記者:“你是這些大模型的‘考官’?!?/p>
許加路熹說:“是的,我給它們出一個(gè)非常高階的醫(yī)療的病例難題去難倒它們。工程師可以根據(jù)我們反饋的題目去發(fā)現(xiàn)大模型它還有哪些不足的地方?!?/p>
除AI醫(yī)療領(lǐng)域外,澳鵬的數(shù)據(jù)標(biāo)注服務(wù)已覆蓋具身智能、大模型、自動(dòng)駕駛等多個(gè)前沿領(lǐng)域。憑借數(shù)據(jù)標(biāo)注領(lǐng)域的領(lǐng)先技術(shù)積累,企業(yè)近五年復(fù)合營(yíng)收增長(zhǎng)率高達(dá)90%,2025年?duì)I收超7億元,服務(wù)客戶覆蓋國(guó)內(nèi)頭部AI企業(yè)、互聯(lián)網(wǎng)公司及車聯(lián)網(wǎng)企業(yè)。
澳鵬數(shù)據(jù)客戶服務(wù)部高級(jí)總監(jiān)王芳說:“數(shù)據(jù)標(biāo)注就是教AI去理解這個(gè)世界。我們前期會(huì)教AI去認(rèn)圖去識(shí)字。現(xiàn)在,我們更多的是在為AI編寫高階的思維教科書。在技術(shù)專家這塊,我們是有代碼、金融、醫(yī)療、法律等十大垂類的專家人才。其中,醫(yī)療團(tuán)隊(duì)有500多人,有15%的人都是有執(zhí)業(yè)醫(yī)師資格證?!?/p>
為助推更多數(shù)據(jù)企業(yè)提速發(fā)展,今年,江蘇正式啟動(dòng)全省首批2110家數(shù)據(jù)企業(yè)入庫(kù)培育工作,標(biāo)志著江蘇數(shù)據(jù)企業(yè)培育體系全面落地。以無錫為代表,當(dāng)?shù)啬壳耙呀ǔ?0個(gè)高質(zhì)量數(shù)據(jù)集,覆蓋工業(yè)制造、醫(yī)療健康、智慧交通等14個(gè)重點(diǎn)行業(yè)領(lǐng)域;集聚數(shù)據(jù)標(biāo)注企業(yè)25家,產(chǎn)業(yè)營(yíng)收達(dá)44.8億元,其中僅數(shù)據(jù)標(biāo)注業(yè)務(wù)營(yíng)收就突破7.4億元。
無錫市數(shù)據(jù)局副局長(zhǎng)袁祿來說:“堅(jiān)持‘人工智能+’行動(dòng)到哪里,高質(zhì)量數(shù)據(jù)集建設(shè)和應(yīng)用就跟到哪里。今年,我們計(jì)劃新增高質(zhì)量數(shù)據(jù)集100個(gè)、新招引25家數(shù)據(jù)標(biāo)注企業(yè),力爭(zhēng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)規(guī)模增速能突破60%,爭(zhēng)創(chuàng)國(guó)家級(jí)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)創(chuàng)新試驗(yàn)區(qū)?!?/p>
去年以來,江蘇加快推動(dòng)“人工智能+”行動(dòng),推動(dòng)人工智能賦能科學(xué)研究、產(chǎn)業(yè)發(fā)展、新興產(chǎn)業(yè)、消費(fèi)提質(zhì)、民生服務(wù)、社會(huì)治理和對(duì)外合作7大領(lǐng)域,持續(xù)加大數(shù)據(jù)資源供給,推動(dòng)高質(zhì)量數(shù)據(jù)集、語料庫(kù)開放共享與流通交易。針對(duì)數(shù)據(jù)產(chǎn)業(yè),江蘇專門出臺(tái)“發(fā)展數(shù)據(jù)標(biāo)注產(chǎn)業(yè)建設(shè)高質(zhì)量數(shù)據(jù)集”實(shí)施方案,明確到2027年底,江蘇將建成全國(guó)領(lǐng)先、全球具有影響力的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)集群,產(chǎn)業(yè)規(guī)模全國(guó)占比超10%,年均復(fù)合增長(zhǎng)率超20%,為人工智能高質(zhì)量發(fā)展提供強(qiáng)勁數(shù)據(jù)支撐。
記者│江蘇廣電總臺(tái)荔枝新聞中心
黃蒙 李澤灝
記者│江蘇廣電總臺(tái)無錫中心站
路明杰
編輯│江蘇廣電總臺(tái)荔枝新聞中心
張萌