免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)把8個(gè)AI和8臺(tái)機(jī)器人關(guān)在一起,它們學(xué)會(huì)了自己做實(shí)驗(yàn)

0
分享至



如果未來(lái)的機(jī)器人實(shí)驗(yàn)室里沒(méi)有人類(lèi)研究員,會(huì)發(fā)生什么?

今天,英偉達(dá)高級(jí)研究科學(xué)家、具身智能負(fù)責(zé)人 Jim Fan 公布了一個(gè)名為 “ENPIRE ”的新項(xiàng)目。在這個(gè)實(shí)驗(yàn)室里,8 個(gè) AI coding agent 與 8 臺(tái)機(jī)器人組成了一支“科研團(tuán)隊(duì)”:它們自己設(shè)計(jì)實(shí)驗(yàn)、自己修改代碼、自己驗(yàn)證結(jié)果,并持續(xù)優(yōu)化機(jī)器人策略,而人類(lèi)研究員只負(fù)責(zé)設(shè)定目標(biāo)和觀察結(jié)果。


圖|ENPIRE 機(jī)器人實(shí)驗(yàn)平臺(tái)(來(lái)源:NVIDIA)

8 個(gè)實(shí)驗(yàn)單元上,各自配備了兩條 6 自由度 YAM 機(jī)械臂、一臺(tái) Intel RealSense 深度攝像頭,以及一臺(tái)搭載單塊 NVIDIA RTX 5090 顯卡(32GB 顯存)的工作站。所有訓(xùn)練、推理和 agent 運(yùn)行均在本地完成,沒(méi)有依賴(lài)共享計(jì)算集群。

研究團(tuán)隊(duì)同時(shí)測(cè)試了 Codex、Claude Code 和 Kimi Code 三種 coding agent。在模擬環(huán)境中三者都能夠完成任務(wù),但在真實(shí)機(jī)器人上的表現(xiàn)存在明顯差異,其中 Codex 整體表現(xiàn)最好,達(dá)到目標(biāo)成功率所需時(shí)間最短。

Jim Fan 將其稱(chēng)為“AutoResearch(自動(dòng)科研)進(jìn)入物理世界的一次嘗試”。他還在帖子中打趣說(shuō),希望以后團(tuán)隊(duì)能全員溜號(hào)去度假,實(shí)驗(yàn)室全靠機(jī)器人和 AI 自己跑,老板黃仁勛都發(fā)現(xiàn)不了。

玩笑歸玩笑,這句話(huà)也交代了 ENPIRE 的一個(gè)重要目標(biāo):讓機(jī)器人在真實(shí)環(huán)境中的研發(fā)逐步實(shí)現(xiàn)自主循環(huán)。

這也是 NVIDIA GEAR(Generalist Embodied Agent Research)實(shí)驗(yàn)室近年來(lái) Physical AI 路線(xiàn)的延伸。此前團(tuán)隊(duì)重點(diǎn)關(guān)注機(jī)器人基礎(chǔ)模型、世界模型和仿真平臺(tái),而 ENPIRE 則進(jìn)一步將 attention 轉(zhuǎn)向機(jī)器人研發(fā)流程。目前,相關(guān)技術(shù)論文已經(jīng)同步上線(xiàn),官方表示全部代碼和系統(tǒng)在未來(lái)都將開(kāi)源。


(來(lái)源:NVIDIA)

給 AI 一個(gè)機(jī)器人身體

在 ENPIRE 中,核心角色是AI coding agent,即能夠自主編寫(xiě)、執(zhí)行和調(diào)試代碼的 AI 系統(tǒng)。與傳統(tǒng)聊天機(jī)器人不同,它們能夠主動(dòng)調(diào)用工具、運(yùn)行程序,并根據(jù)反饋持續(xù)修改代碼。

過(guò)去,它們只能在屏幕里寫(xiě)代碼、跑程序;現(xiàn)在,它們?cè)?ENPIRE 中第一次擁有了真實(shí)世界中的機(jī)械臂、攝像頭和實(shí)驗(yàn)對(duì)象。它們寫(xiě)下的代碼,不只是生成一個(gè)數(shù)字結(jié)果,而是直接驅(qū)動(dòng)機(jī)器人去抓取、插入、剪切和操作真實(shí)物體。

過(guò)去幾年里,自動(dòng)化科研已經(jīng)在數(shù)字世界取得了不少進(jìn)展。去年 Andrej Karpathy 開(kāi)源的 autoresearch 項(xiàng)目,可以讓 AI 自動(dòng)完成模型訓(xùn)練和實(shí)驗(yàn)管理;AI Scientist 等系統(tǒng)則已經(jīng)能夠自動(dòng)生成研究方案、運(yùn)行實(shí)驗(yàn)并撰寫(xiě)論文。

但這些系統(tǒng)有一個(gè)共同特點(diǎn):它們始終運(yùn)行在數(shù)字環(huán)境之中。代碼運(yùn)行完成就會(huì)得到結(jié)果,模擬器里的物理規(guī)律是確定的,一次失敗可以零成本重新開(kāi)始。

真實(shí)世界則完全不同。機(jī)器人碰撞時(shí)的摩擦力會(huì)發(fā)生變化,物體位置無(wú)法被精確復(fù)原,光照條件和傳感器噪聲也始終在波動(dòng)。論文中提到,在模擬環(huán)境中的“Push-T”(機(jī)器人通過(guò)推動(dòng)而非抓取的方式,將一個(gè) T 形積木移動(dòng)到指定區(qū)域)任務(wù)里,三個(gè)被測(cè)試的 coding agent 全部成功完成了任務(wù);但當(dāng)同樣的方法被部署到真實(shí)機(jī)器人上時(shí),其中兩個(gè) agent 都失敗了。

所以,為了應(yīng)對(duì)真實(shí)世界的非確定性,ENPIRE 整個(gè)系統(tǒng)被拆分為兩個(gè)階段。

第一階段需要少量人類(lèi)參與。coding agent 首先在人類(lèi)指導(dǎo)下搭建一套“環(huán)境基礎(chǔ)設(shè)施”,包括安全邊界、自動(dòng)重置和自動(dòng)驗(yàn)證機(jī)制。所謂安全邊界,就是規(guī)定機(jī)器人不能執(zhí)行哪些危險(xiǎn)動(dòng)作;自動(dòng)重置負(fù)責(zé)在實(shí)驗(yàn)結(jié)束后恢復(fù)場(chǎng)景;自動(dòng)驗(yàn)證則負(fù)責(zé)判斷一次操作究竟成功還是失敗。這些模塊一旦完成,就不再修改,而是作為后續(xù)所有實(shí)驗(yàn)共享的基礎(chǔ)設(shè)施。

第二階段則完全自主。獲得環(huán)境接口之后,coding agent 開(kāi)始真正意義上的“研究工作”。它們會(huì)閱讀相關(guān)論文尋找靈感,提出新的算法假設(shè),修改訓(xùn)練代碼,調(diào)整強(qiáng)化學(xué)習(xí)和行為克隆策略的超參數(shù),然后部署到真實(shí)機(jī)器人上驗(yàn)證效果,再根據(jù)實(shí)驗(yàn)結(jié)果繼續(xù)改進(jìn)。

Jim Fan 用一句話(huà)概括了這個(gè)過(guò)程:“我們所做的只是為 Codex 提供了一個(gè)通往原子世界的 API,其余的一切都是涌現(xiàn)?!?/p>


(來(lái)源:論文)

AI 如何在真實(shí)世界做實(shí)驗(yàn)

為了驗(yàn)證這一框架,研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)真實(shí)機(jī)器人任務(wù)。一個(gè)是上文提到的 Push-T 任務(wù),團(tuán)隊(duì)要求機(jī)器人通過(guò)推的方式將一個(gè) T 形積木移動(dòng)到指定區(qū)域;還有一個(gè)是插針任務(wù),要求機(jī)器人把大頭針準(zhǔn)確插入直徑僅 4 毫米的孔洞;GPU 插入任務(wù)則是真正將 GPU 插進(jìn)主板插槽;而剪扎帶任務(wù)則要求機(jī)器人拿起剪刀并剪斷扎帶尾部。

這些任務(wù)都涉及高精度操作,其中不少還需要實(shí)時(shí)視覺(jué)反饋和復(fù)雜接觸控制。在團(tuán)隊(duì)發(fā)布的演示視頻中,GPU 插入和剪扎帶也是重點(diǎn)展示的內(nèi)容:前者要求機(jī)器人將 GPU 精確插入主板插槽,后者則涉及抓取剪刀并完成工具使用。

在插針任務(wù)中,agent 的表現(xiàn)尤其值得關(guān)注。為了提高成功率,它們自主嘗試了行為克隆、在線(xiàn)強(qiáng)化學(xué)習(xí)、離線(xiàn)強(qiáng)化學(xué)習(xí)以及多種混合方案,并不斷調(diào)整批量大小、策略更新頻率和正則化參數(shù)。最終,系統(tǒng)實(shí)現(xiàn)了連續(xù) 50 次成功插針的目標(biāo)。

更有意思的是,這支 agent 團(tuán)隊(duì)并不是簡(jiǎn)單地進(jìn)行參數(shù)搜索。團(tuán)隊(duì)的論文附錄展示了一棵“假設(shè)演化樹(shù)(Idea Tree)”,記錄了 agent 在實(shí)驗(yàn)過(guò)程中提出、驗(yàn)證和放棄的各種改進(jìn)思路。不同 agent 會(huì)圍繞獎(jiǎng)勵(lì)設(shè)計(jì)、訓(xùn)練方式、超參數(shù)設(shè)置等方向展開(kāi)探索,再根據(jù)實(shí)驗(yàn)結(jié)果決定哪些路線(xiàn)繼續(xù)保留、哪些路線(xiàn)被淘汰。

其中,僅調(diào)整行為克隆中的一個(gè)正則化項(xiàng),就帶來(lái)了 10.8% 的成功率提升,成為整個(gè)實(shí)驗(yàn)過(guò)程中貢獻(xiàn)最大的單項(xiàng)改動(dòng)。而最終的收斂速度也超過(guò)了此前依賴(lài)人類(lèi)持續(xù)參與的機(jī)器人強(qiáng)化學(xué)習(xí)方法。

機(jī)器人數(shù)量成為新的 scaling 資源?

不過(guò),這些都還不是這個(gè)項(xiàng)目最引人關(guān)注的部分。

研究團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)機(jī)器人和 coding agent 的數(shù)量增加時(shí),達(dá)到同樣性能目標(biāo)所需的研發(fā)時(shí)間會(huì)明顯縮短。為此,他們搭建了由 1 臺(tái)、4 臺(tái)和 8 臺(tái)機(jī)器人組成的不同規(guī)模實(shí)驗(yàn)系統(tǒng)。結(jié)果顯示,在插針任務(wù)中,1 臺(tái)機(jī)器人需要超過(guò) 1.5 小時(shí)才能達(dá)到接近完美的成功率;4 臺(tái)機(jī)器人縮短到約 50 分鐘;8 臺(tái)機(jī)器人則進(jìn)一步縮短到約 40 分鐘。


(來(lái)源:論文)

多個(gè) coding agent 會(huì)同時(shí)探索不同路線(xiàn)。有的嘗試新的強(qiáng)化學(xué)習(xí)算法,有的修改獎(jiǎng)勵(lì)函數(shù),還有的負(fù)責(zé)調(diào)整訓(xùn)練基礎(chǔ)設(shè)施。一旦某個(gè)方向被證明有效,其他代理會(huì)通過(guò) Git 自動(dòng)復(fù)制、合并甚至直接復(fù)用這些成果;而效果不佳的路線(xiàn)則被快速淘汰。

從形式上看,這有些像一個(gè)由 AI 組成的研究團(tuán)隊(duì):多個(gè) agent 并行開(kāi)展實(shí)驗(yàn),并持續(xù)共享彼此的發(fā)現(xiàn)。這或許也意味著機(jī)器人實(shí)驗(yàn)室開(kāi)始出現(xiàn)類(lèi)似 AI 領(lǐng)域的“擴(kuò)展效應(yīng)(scaling effect)”。

過(guò)去,大模型能力的提升往往來(lái)自更多 GPU、更多數(shù)據(jù)和更大的參數(shù)規(guī)模;而在 ENPIRE 中,研究團(tuán)隊(duì)開(kāi)始嘗試回答另一個(gè)問(wèn)題:如果增加機(jī)器人數(shù)量和并行實(shí)驗(yàn)規(guī)模,是否也能持續(xù)加快機(jī)器人的學(xué)習(xí)和研發(fā)過(guò)程。

但這種加速也有相應(yīng)的代價(jià)。論文顯示,隨著代理數(shù)量增加,總 token 消耗呈現(xiàn)超線(xiàn)性增長(zhǎng)。原因在于,每個(gè)代理不僅要做自己的實(shí)驗(yàn),還需要持續(xù)閱讀和理解其他代理的研究進(jìn)展。換句話(huà)說(shuō),系統(tǒng)用更高的計(jì)算成本換來(lái)了更短的研發(fā)時(shí)間。

另一個(gè)有趣的發(fā)現(xiàn)來(lái)自知識(shí)遷移。

完成插針任務(wù)之后,研究人員要求 agent 總結(jié)自己學(xué)到的經(jīng)驗(yàn),并生成一份 Markdown 文檔。當(dāng)新的 GPU 插入任務(wù)開(kāi)始時(shí),這份總結(jié)被直接附加到任務(wù)說(shuō)明中。結(jié)果顯示,這些文字形式的經(jīng)驗(yàn)總結(jié)能夠幫助 agent 更快掌握新任務(wù)。這說(shuō)明,在 autoresearch 的過(guò)程中被遷移的不是模型參數(shù),也不是訓(xùn)練數(shù)據(jù),而是方法論。這與人類(lèi)研究者記錄實(shí)驗(yàn)筆記、總結(jié)經(jīng)驗(yàn)再應(yīng)用到新課題的方式頗為相似。

但目前來(lái)看,ENPIRE 還是存在一定的局限性。首先,系統(tǒng)并非完全自主運(yùn)行。研究人員仍需要提前搭建實(shí)驗(yàn)環(huán)境、定義安全邊界、設(shè)計(jì)自動(dòng)驗(yàn)證機(jī)制,并為不同任務(wù)開(kāi)發(fā)對(duì)應(yīng)的重置流程。agent 能夠自主改進(jìn)策略,但實(shí)驗(yàn)平臺(tái)仍然依賴(lài)大量前期工程投入。

其次,ENPIRE 目前驗(yàn)證的任務(wù)規(guī)模仍然相對(duì)有限,無(wú)論是 Push-T、插針還是 GPU 插入,本質(zhì)上都屬于結(jié)構(gòu)化程度較高的桌面操作任務(wù)。系統(tǒng)能否擴(kuò)展到更開(kāi)放、更復(fù)雜的真實(shí)環(huán)境,仍有待進(jìn)一步驗(yàn)證。

1.https://x.com/DrJimFan/status/2066921736369766762

2.https://research.nvidia.com/labs/gear/enpire/

運(yùn)營(yíng)/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日媒:給中國(guó)30年也造不出日本發(fā)動(dòng)機(jī)!馬斯克:中國(guó)車(chē)企值得尊敬

日媒:給中國(guó)30年也造不出日本發(fā)動(dòng)機(jī)!馬斯克:中國(guó)車(chē)企值得尊敬

杰絲聊古今
2026-05-19 14:57:38
波蘭磨刀:誰(shuí)將是壓垮俄羅斯的最后一根稻草

波蘭磨刀:誰(shuí)將是壓垮俄羅斯的最后一根稻草

民間胡扯老哥
2026-03-23 18:56:09
才播4集,收視率第一!40集諜戰(zhàn)大劇于和偉、王奎榮再掀諜戰(zhàn)風(fēng)云

才播4集,收視率第一!40集諜戰(zhàn)大劇于和偉、王奎榮再掀諜戰(zhàn)風(fēng)云

樂(lè)楓電影
2026-02-10 13:47:50
五年翻了一倍,政府債務(wù)突破100萬(wàn)億,反而是我們的優(yōu)勢(shì)?

五年翻了一倍,政府債務(wù)突破100萬(wàn)億,反而是我們的優(yōu)勢(shì)?

白淺娛樂(lè)聊
2026-06-18 02:27:37
凱恩2026凈資產(chǎn):拜仁合同年薪超2億元

凱恩2026凈資產(chǎn):拜仁合同年薪超2億元

甜度百分百21
2026-06-19 01:32:36
97%國(guó)產(chǎn)化率還嫌不夠?張雪:剩下那3%,是給日本意大利留面子!

97%國(guó)產(chǎn)化率還嫌不夠?張雪:剩下那3%,是給日本意大利留面子!

小許論事
2026-06-13 15:48:10
張雪峰再登熱搜,人大代表資格終止,網(wǎng)友評(píng)論一邊倒,令人淚目

張雪峰再登熱搜,人大代表資格終止,網(wǎng)友評(píng)論一邊倒,令人淚目

李昕言溫度空間
2026-05-27 21:44:24
毛主席審閱正軍級(jí)任免名單,看到一個(gè)人的名字后:讓他去江西軍區(qū)

毛主席審閱正軍級(jí)任免名單,看到一個(gè)人的名字后:讓他去江西軍區(qū)

歷史的煙火
2026-03-22 05:31:04
科學(xué)打臉!鄱陽(yáng)湖研究實(shí)錘:黑魚(yú)根本長(zhǎng)不到“百斤王”,別再被騙了

科學(xué)打臉!鄱陽(yáng)湖研究實(shí)錘:黑魚(yú)根本長(zhǎng)不到“百斤王”,別再被騙了

粵語(yǔ)音樂(lè)噴泉
2026-06-06 03:16:52
G7沒(méi)有發(fā)布聯(lián)合公報(bào):德法不愿為日本得罪中國(guó),一個(gè)時(shí)代結(jié)束了

G7沒(méi)有發(fā)布聯(lián)合公報(bào):德法不愿為日本得罪中國(guó),一個(gè)時(shí)代結(jié)束了

三石記
2026-06-18 07:58:06
老胡這次徹底刷新了壞的下限!

老胡這次徹底刷新了壞的下限!

胖胖說(shuō)他不胖
2026-06-08 11:50:14
新店選址定了!廣州首家山姆單層標(biāo)桿大店落地花都

新店選址定了!廣州首家山姆單層標(biāo)桿大店落地花都

南方都市報(bào)
2026-06-18 21:15:40
一場(chǎng)3-1,世界杯首輪結(jié)束,最新排名:法國(guó)第2,西班牙葡萄牙第3

一場(chǎng)3-1,世界杯首輪結(jié)束,最新排名:法國(guó)第2,西班牙葡萄牙第3

侃球熊弟
2026-06-18 12:08:33
向佐坦白曾“為了熱度跟錢(qián),哄郭碧婷配合上節(jié)目”,稱(chēng)向太“親手撕破我好多段感情”

向佐坦白曾“為了熱度跟錢(qián),哄郭碧婷配合上節(jié)目”,稱(chēng)向太“親手撕破我好多段感情”

南方都市報(bào)
2026-06-17 21:39:47
75萬(wàn)成本狂賺3億美金!26歲小伙拒向資本低頭,新片震驚好萊塢

75萬(wàn)成本狂賺3億美金!26歲小伙拒向資本低頭,新片震驚好萊塢

桃桃淘電影
2026-06-17 10:00:35
2000元價(jià)位這3款“熱銷(xiāo)”中端機(jī),公認(rèn)的“高配低價(jià)”

2000元價(jià)位這3款“熱銷(xiāo)”中端機(jī),公認(rèn)的“高配低價(jià)”

小愚測(cè)評(píng)
2026-06-18 23:54:59
難怪一直挑釁!稀土斷供半年,日本找到新出路,不怕中國(guó)的制裁

難怪一直挑釁!稀土斷供半年,日本找到新出路,不怕中國(guó)的制裁

健身狂人
2026-06-18 08:41:59
3換1!野獸派大前鋒!雷霆最快速度交易

3換1!野獸派大前鋒!雷霆最快速度交易

籃球教學(xué)論壇
2026-06-18 18:40:13
菜市場(chǎng)“最臟”的5種菜,業(yè)內(nèi)人從不食用,不少顧客卻天天搶著買(mǎi)

菜市場(chǎng)“最臟”的5種菜,業(yè)內(nèi)人從不食用,不少顧客卻天天搶著買(mǎi)

復(fù)轉(zhuǎn)這些年
2026-05-28 16:38:53
釋永信與師姐釋永梅合影:20多年前,她胸前掛著當(dāng)時(shí)最時(shí)尚手機(jī)

釋永信與師姐釋永梅合影:20多年前,她胸前掛著當(dāng)時(shí)最時(shí)尚手機(jī)

離離言幾許
2026-06-03 22:53:39
2026-06-19 03:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16851文章數(shù) 515030關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克承認(rèn)扛不住了,蘋(píng)果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂(lè)要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博??礗PO,賺錢(qián)業(yè)務(wù)與資本敘事是兩門(mén)生意

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

藝術(shù)
親子
時(shí)尚
本地
游戲

藝術(shù)要聞

臺(tái)北東區(qū)新門(mén)戶(hù)!南港雙星,像一道“城市裂痕”

親子要聞

多款紙尿褲被檢測(cè)出有毒物質(zhì),網(wǎng)友說(shuō):誰(shuí)還敢生孩子啊?

看不懂球,還看不懂帥哥嗎?

本地新聞

世界杯黑馬佛得角:河北人開(kāi)超市,溫州人當(dāng)老板

PS5版《GTA6》已有店家開(kāi)始預(yù)定!售價(jià)545元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版