免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DataMaster:當(dāng)AI開始成為自己的數(shù)據(jù)工程師

0
分享至



當(dāng) AI 開始參與訓(xùn)練 AI

過去,AI 研發(fā)基本是一條由人主導(dǎo)的流水線。

人類收集數(shù)據(jù)、清洗數(shù)據(jù)、寫訓(xùn)練代碼、設(shè)計實驗,再把整理好的數(shù)據(jù)交給模型學(xué)習(xí)。但現(xiàn)在,這條流程正在發(fā)生變化。

AI 開始進入 AI 研發(fā)流程本身:它會寫代碼,會修 bug,會調(diào)用工具,會跑實驗,也能圍繞一個目標(biāo)持續(xù)試錯,把失敗結(jié)果變成下一輪改進的線索。

過去幾年,這個趨勢最先出現(xiàn)在代碼和實驗側(cè)。編碼智能體讓軟件開發(fā)的一部分流程變得自動化,科研智能體也開始嘗試在長程任務(wù)中不斷探索、驗證和修正方向。

但如果 AI 真的要參與訓(xùn)練 AI,還有一個更底層的問題繞不開。

數(shù)據(jù)。

在真實機器學(xué)習(xí)開發(fā)里,模型和訓(xùn)練流程往往不是每天都能動的?;A(chǔ)模型已經(jīng)選好,訓(xùn)練方法已經(jīng)跑通,大改一次就意味著更高成本、更長驗證周期和新的工程風(fēng)險。

相比之下,真正被反復(fù)調(diào)整的,常常是數(shù)據(jù):找哪些樣本、過濾哪些噪聲、怎樣清洗轉(zhuǎn)換、如何組合不同來源,訓(xùn)練效果不好時下一輪該改規(guī)模、質(zhì)量還是分布。

換句話說,當(dāng)模型和訓(xùn)練方法越來越標(biāo)準(zhǔn)化,數(shù)據(jù)就成了最現(xiàn)實、也最關(guān)鍵的優(yōu)化空間。

這篇來自上海交通大學(xué)、卡內(nèi)基梅隆大學(xué)、浙江大學(xué)、北京航空航天大學(xué)等機構(gòu)的工作,提出一個新的角色:AI 數(shù)據(jù)工程師。



  • 論文標(biāo)題:DataMaster: Data-Centric Autonomous AI Research
  • 項目地址:https://github.com/sjtu-sai-agents/DataMaster
  • 論文地址:https://arxiv.org/abs/2605.10906



它讓智能體圍繞一個給定任務(wù),自動尋找外部數(shù)據(jù)、篩選數(shù)據(jù)源、清洗和轉(zhuǎn)換數(shù)據(jù)、構(gòu)建訓(xùn)練輸入,并根據(jù)下游模型反饋繼續(xù)迭代。

更關(guān)鍵的是,整個過程中,模型不變,訓(xùn)練算法也不變。

換句話說,DataMaster 問的不是“怎樣設(shè)計一個更強的模型”,而是:當(dāng)模型和訓(xùn)練流程都固定時,AI 能不能通過自己準(zhǔn)備更好的數(shù)據(jù),把模型繼續(xù)訓(xùn)強?

為什么數(shù)據(jù)工程不能只靠一次生成

數(shù)據(jù)工程看起來像是在 “調(diào)數(shù)據(jù)”,但它并不是一條直線。

首先,它有很多分支。同一個任務(wù)可以先找新數(shù)據(jù),也可以先清洗舊數(shù)據(jù);可以擴大數(shù)據(jù)規(guī)模,也可以提高數(shù)據(jù)質(zhì)量;可以改變樣本比例,也可以改變輸入格式。每一步選擇,都會打開新的可能路徑。

其次,它高度依賴前面的選擇。前面選了什么數(shù)據(jù),會影響后面哪些清洗方法有效;前面做了什么特征,也會影響模型最終能學(xué)到什么。數(shù)據(jù)工程不是孤立操作,而是一連串相互影響的決策。

最后,它的效果很難提前判斷。一份數(shù)據(jù)看起來相關(guān),不代表訓(xùn)練后一定有用;一次清洗看起來合理,也不代表模型分數(shù)一定提升。很多時候,只有真正跑完訓(xùn)練和評估,才能知道這次數(shù)據(jù)改動有沒有價值。

所以,DataMaster 沒有把數(shù)據(jù)工程當(dāng)成一次性生成任務(wù),而是把它變成了一場可以分叉、可以回看、可以持續(xù)優(yōu)化的搜索。

一棵數(shù)據(jù)樹,一個數(shù)據(jù)池,一段全局記憶

為了完成這件事,DataMaster 設(shè)計了三個核心部件:一棵數(shù)據(jù)樹、一個數(shù)據(jù)池,以及一段全局記憶。

數(shù)據(jù)樹負責(zé)探索不同的數(shù)據(jù)改造路徑。樹上的每個節(jié)點,都是一次數(shù)據(jù)工程嘗試。紅色節(jié)點負責(zé)向外尋找潛在有用的數(shù)據(jù)源,黑色節(jié)點負責(zé)把數(shù)據(jù)清洗、轉(zhuǎn)換、組合成可以真正訓(xùn)練的版本。

這兩個角色很像一個數(shù)據(jù)團隊里的分工:紅色節(jié)點是 “偵察兵”,負責(zé)擴大搜索范圍;黑色節(jié)點是 “工程兵”,負責(zé)把找到的數(shù)據(jù)真正變成模型能吃的訓(xùn)練輸入。

數(shù)據(jù)池負責(zé)保存所有已經(jīng)發(fā)現(xiàn)的數(shù)據(jù)源。一個分支找到的數(shù)據(jù),不會只服務(wù)于當(dāng)前嘗試,而是會變成整個系統(tǒng)都能復(fù)用的數(shù)據(jù)資產(chǎn)。后續(xù)節(jié)點可以繼續(xù)從這里讀取、組合和改造候選數(shù)據(jù)。

全局記憶則負責(zé)記錄每一次嘗試的結(jié)果:用了什么數(shù)據(jù),做了什么處理,訓(xùn)練分數(shù)有沒有提升,失敗原因是什么,哪些處理策略值得復(fù)用。下一次系統(tǒng)再做決策時,就不必從零開始。

三者合在一起,讓 DataMaster 不再像一個一次性腳本,而更像一個會積累經(jīng)驗的數(shù)據(jù)工程團隊。



圖 1:DataMaster 框架圖。數(shù)據(jù)樹負責(zé)分叉探索,數(shù)據(jù)池負責(zé)共享候選數(shù)據(jù),全局記憶負責(zé)沉淀成功和失敗經(jīng)驗。

只動數(shù)據(jù),能漲多少?

DataMaster 最關(guān)鍵的實驗,不是證明它 “能自動跑流程”,而是證明數(shù)據(jù)側(cè)自動迭代本身就能帶來真實收益。

論文在兩個場景中驗證了這一點。

第一個是MLE-Bench Lite。這個場景更接近傳統(tǒng)機器學(xué)習(xí)工程:任務(wù)本身給定了數(shù)據(jù)和初始訓(xùn)練方案,智能體不能隨意改訓(xùn)練代碼,只能圍繞數(shù)據(jù)做選擇、清洗、特征構(gòu)造和格式適配。

結(jié)果很直接:初始方案的獎牌率是 35.91%,DataMaster 提升到 68.18%,提高 32.27 個百分點;金牌率也從 22.73% 提升到 45.45%。

第二個是PostTrainBench。這個場景更接近大模型后訓(xùn)練:基礎(chǔ)模型固定,訓(xùn)練流程固定,而且沒有現(xiàn)成訓(xùn)練數(shù)據(jù),智能體必須自己發(fā)現(xiàn)和整理后訓(xùn)練數(shù)據(jù)。

在這里,DataMaster 把平均分從基礎(chǔ)模型的 8.47% 提升到31.17%,提高 22.70 個百分點。和其他基線相比,它也取得了最高平均分。

實驗結(jié)果速覽:



更值得注意的是 GPQA 結(jié)果。

GPQA 是 PostTrainBench 中最能體現(xiàn)高難專業(yè)能力的任務(wù)之一。它考察的是研究生級別的科學(xué)知識和推理能力,覆蓋物理、化學(xué)、生物等領(lǐng)域,并不只是簡單的常識問答。

在這個任務(wù)下,DataMaster 的 GPQA 分數(shù)從基礎(chǔ)模型的 18.75% 一路提升到31.02%。論文里的測試時擴展分析顯示,這個提升不是一次性發(fā)生的,而是隨著搜索預(yù)算增加逐步出現(xiàn):DataMaster 在迭代過程中不斷發(fā)現(xiàn)并整合更相關(guān)的科學(xué)數(shù)據(jù)、推理數(shù)據(jù)和 MedQA 數(shù)據(jù),最終形成了更適合 GPQA 的訓(xùn)練數(shù)據(jù)配置。

這個結(jié)果最有意思的地方在于,DataMaster 沒有更換基礎(chǔ)模型,也沒有重新設(shè)計訓(xùn)練算法。它做的只是圍繞數(shù)據(jù)側(cè)持續(xù)試錯:找什么數(shù)據(jù)、怎么篩選、如何組合、如何適配訓(xùn)練。最終,它在 GPQA 上達到 31.02%,超過了專家訓(xùn)練的指令模型參考分數(shù) 30.35%,也超過了 Codex、DataFlex、ML-Master 2.0 等基線在該任務(wù)上的結(jié)果。



圖 3:GPQA 上的測試時擴展曲線。隨著數(shù)據(jù)搜索和訓(xùn)練預(yù)算增加,DataMaster 的最佳節(jié)點分數(shù)持續(xù)上升,并最終超過指令模型參考線。

當(dāng)然,這不意味著 DataMaster 在所有能力上都超過人工后訓(xùn)練模型。PostTrainBench 的整體平均分上,專家指令模型仍然更高。更準(zhǔn)確的理解是:在 GPQA 這樣一個需要專業(yè)科學(xué)數(shù)據(jù)和復(fù)雜推理能力的任務(wù)上,自動化數(shù)據(jù)工程已經(jīng)能夠找到足夠有效的數(shù)據(jù)配置,在單項能力上接近甚至超過人工設(shè)計的后訓(xùn)練數(shù)據(jù)參考。

為了避免這個結(jié)果被理解成 “訓(xùn)練到了測試集”,論文還專門做了 GPQA 的數(shù)據(jù)泄漏檢查:包括屏蔽 benchmark 和 test-split 相關(guān)來源、基于測試集哈希去重、記錄外部數(shù)據(jù)來源和內(nèi)容哈希;在 7479 條發(fā)現(xiàn)的訓(xùn)練樣本上,沒有發(fā)現(xiàn)精確匹配或模糊匹配,3 到 5 元詞組重疊率也保持在 0.08% 到 1.06% 的較低水平。



圖 2:不同大模型作為智能體底座時,DataMaster 在 PostTrainBench 七項任務(wù)上的表現(xiàn)。

這也是 DataMaster 想傳遞的關(guān)鍵信號:數(shù)據(jù)工程不是訓(xùn)練前的輔助步驟,也不是簡單把數(shù)據(jù)量堆大。對于特定能力來說,真正重要的可能是能不能找到更相關(guān)的數(shù)據(jù),能不能把不同來源的數(shù)據(jù)組織成適合模型學(xué)習(xí)的形式,以及能不能根據(jù)訓(xùn)練反饋持續(xù)修正數(shù)據(jù)策略。

當(dāng)數(shù)據(jù)也成為 AI 的決策對象

DataMaster 的意義,不只是提出了一個新的智能體系統(tǒng)。

更重要的是,它把一個長期被當(dāng)作 “前置準(zhǔn)備” 的環(huán)節(jié),變成了 AI 可以主動搜索、比較、驗證和復(fù)用的對象。

過去,數(shù)據(jù)通常被看作訓(xùn)練開始之前就已經(jīng)準(zhǔn)備好的東西。模型訓(xùn)練得好不好,當(dāng)然和數(shù)據(jù)有關(guān),但數(shù)據(jù)工程本身往往被放在模型研發(fā)流程之外:先由人類收集、清洗、整理,再交給訓(xùn)練算法使用。

DataMaster 改變的是這個位置關(guān)系。

在它的設(shè)定里,數(shù)據(jù)不再只是訓(xùn)練流程的輸入,而是進入了智能體的決策循環(huán):系統(tǒng)會決定找什么數(shù)據(jù)、如何處理數(shù)據(jù)、如何組合數(shù)據(jù),并根據(jù)下游反饋繼續(xù)調(diào)整數(shù)據(jù)策略。

這讓“以數(shù)據(jù)為中心” 的 AI 研發(fā)變得更加具體。它不只是說數(shù)據(jù)重要,而是進一步追問:數(shù)據(jù)能不能像代碼、模型和實驗一樣,被智能體持續(xù)優(yōu)化?

當(dāng)然,一旦數(shù)據(jù)工程開始自動化,新的問題也會變得更重要。外部數(shù)據(jù)從哪里來,是否合規(guī),是否污染測試集,是否能追蹤來源,系統(tǒng)為什么選擇這批數(shù)據(jù)而不是另一批數(shù)據(jù),都需要被記錄和審計。

也就是說,自主數(shù)據(jù)工程真正走向真實世界,不只是要讓 AI 更會做數(shù)據(jù),還要讓 AI 的數(shù)據(jù)決策過程本身變得透明、可控、可復(fù)盤。

這可能是 DataMaster 留下的更大問題:當(dāng) AI 開始管理數(shù)據(jù)時,人類真正需要管理的,是 AI 管理數(shù)據(jù)的方式。

如果說過去的模型是在學(xué)習(xí)人類準(zhǔn)備好的數(shù)據(jù),那么 DataMaster 指向的是下一步:AI 開始參與決定自己應(yīng)該學(xué)習(xí)什么數(shù)據(jù)。

這也是它最值得關(guān)注的地方。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王治郅魔鬼訓(xùn)練,2米26張子宇減脂成功,女籃新核心將現(xiàn)

王治郅魔鬼訓(xùn)練,2米26張子宇減脂成功,女籃新核心將現(xiàn)

墨史軒
2026-06-17 17:47:35
霍爾木茲海峽,突傳大消息!美伊談判,變數(shù)突現(xiàn)!特朗普,最新發(fā)聲!黃金、白銀,全線下跌!

霍爾木茲海峽,突傳大消息!美伊談判,變數(shù)突現(xiàn)!特朗普,最新發(fā)聲!黃金、白銀,全線下跌!

證券時報
2026-06-19 08:22:28
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

譚談社會
2026-06-19 02:26:14
女子入住主題酒店第5天,發(fā)現(xiàn)房間假花里藏有攝像頭,鏡頭正對床鋪,酒店回應(yīng)

女子入住主題酒店第5天,發(fā)現(xiàn)房間假花里藏有攝像頭,鏡頭正對床鋪,酒店回應(yīng)

上觀新聞
2026-06-19 15:42:38
烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

項鵬飛
2026-06-18 17:36:42
賈玲坦言自己又活過來了,大方承認體重反彈了,直言已活得通透了

賈玲坦言自己又活過來了,大方承認體重反彈了,直言已活得通透了

吃瓜蒙主
2026-06-19 01:30:04
給亞洲足球丟臉了:卡塔爾球員嚴重犯規(guī),致加拿大球員提前報銷

給亞洲足球丟臉了:卡塔爾球員嚴重犯規(guī),致加拿大球員提前報銷

俯身沖頂
2026-06-19 09:00:26
拒絕劉鑾雄名分!呂麗君養(yǎng)大的私生子,今憑全科滿分成豪門黑馬

拒絕劉鑾雄名分!呂麗君養(yǎng)大的私生子,今憑全科滿分成豪門黑馬

不似少年游
2026-06-18 16:45:02
人為啥是大屁股、雙乳房,肛門還被裹?背后全是演化中的生存取舍

人為啥是大屁股、雙乳房,肛門還被裹?背后全是演化中的生存取舍

奇怪的鯊魚們
2026-06-15 10:29:35
吳倩自曝小時候被狗咬傷后,被爸爸打掉牙齒,不敢吐硬吞進肚子

吳倩自曝小時候被狗咬傷后,被爸爸打掉牙齒,不敢吐硬吞進肚子

韓小娛
2026-06-18 16:09:38
河北學(xué)霸抗癌7年花200萬,親戚勸她別拖累母親,她:我憑啥就該死

河北學(xué)霸抗癌7年花200萬,親戚勸她別拖累母親,她:我憑啥就該死

從零到一研究所
2026-06-17 13:49:18
董方卓公開質(zhì)疑梅西戴帽!直言進了淘汰賽誰會慣著你,引發(fā)熱議

董方卓公開質(zhì)疑梅西戴帽!直言進了淘汰賽誰會慣著你,引發(fā)熱議

振剛說足球
2026-06-19 10:30:27
江蘇啟動沿江、江淮及淮北部分地區(qū)防汛Ⅳ級應(yīng)急響應(yīng)

江蘇啟動沿江、江淮及淮北部分地區(qū)防汛Ⅳ級應(yīng)急響應(yīng)

現(xiàn)代快報
2026-06-18 19:43:28
9年前,那個3歲識千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

9年前,那個3歲識千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

東方不敗然多多
2026-06-18 16:17:45
理想智駕負責(zé)人實測FSD后:國內(nèi)無第一梯隊,別再自我麻痹

理想智駕負責(zé)人實測FSD后:國內(nèi)無第一梯隊,別再自我麻痹

我是一個粉刷匠2
2026-06-18 02:58:29
連夜驅(qū)逐!世界杯爆沖突,多國人員慘被牽連,國際足聯(lián)討好也白搭

連夜驅(qū)逐!世界杯爆沖突,多國人員慘被牽連,國際足聯(lián)討好也白搭

悅心知足
2026-06-19 05:16:33
B費和C羅誰攤手抱怨更多?黃健翔:那肯定是B費啊,C羅都是心里罵

B費和C羅誰攤手抱怨更多?黃健翔:那肯定是B費啊,C羅都是心里罵

風(fēng)過鄉(xiāng)
2026-06-19 06:55:55
“肯定出事了!”男子一天沒來吃面,老板急得報警!發(fā)現(xiàn)時男子癱倒在床、意識微弱,之前就出過問題……

“肯定出事了!”男子一天沒來吃面,老板急得報警!發(fā)現(xiàn)時男子癱倒在床、意識微弱,之前就出過問題……

環(huán)球網(wǎng)資訊
2026-06-19 14:46:07
今晚起,央八江西浙江衛(wèi)視黃金時段呈現(xiàn)三部大作!演員陣容強大

今晚起,央八江西浙江衛(wèi)視黃金時段呈現(xiàn)三部大作!演員陣容強大

東方不敗然多多
2026-06-19 11:09:17
世界杯:最快進球誕生!法甲悍將送點莫科納準(zhǔn)絕平 南非1-1捷克

世界杯:最快進球誕生!法甲悍將送點莫科納準(zhǔn)絕平 南非1-1捷克

釘釘陌上花開
2026-06-19 02:27:50
2026-06-19 16:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

男子醉駕撞死16歲少女 最初被認定全責(zé)復(fù)議后變主責(zé)

頭條要聞

男子醉駕撞死16歲少女 最初被認定全責(zé)復(fù)議后變主責(zé)

體育要聞

加拿大球員小腿變形重傷 亞洲冠軍輸球輸人

娛樂要聞

吳倩自曝小時被爸爸打掉牙齒硬吞進肚

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

本地
教育
時尚
手機
軍事航空

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

教育要聞

第31課-飛機上,如何讓外國人愿意跟你換座位?

鞋子專場|| 有了它,衣柜里的衣服突然變得好搭了

手機要聞

Pixel 10手機用戶反饋AI“搶鏡”問題,Gmail無法正?;貜?fù)郵件

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關(guān)懷版