免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NVIDIA團隊讓編程Agent接管真實機器人實驗,成功率達99%

0
分享至

編輯|楊文

自動化研究,這一次真正走出代碼沙盒,進入了真實的物理世界。

最近,NVIDIA GEAR 實驗室負責人 Jim Fan 介紹了一個名為 ENPIRE 的最新項目。這是他們首次在機器人硬件上實現(xiàn)了自動化研究



他們把 8 個 Codex Agent 放到一個機器人艦隊里,分配好 GPU 算力和充足的 token 預算,只給出一個簡單目標:盡快解決任務、讓機器人保持忙碌但確保安全、不要浪費算力

接下來人類就基本退出干預。Agent 自主驅(qū)動整個閉環(huán),包括自動重置場景、搜索文獻、實現(xiàn)想法并搭建基礎設施、訓練和部署策略、自我驗證、分析日志并改代碼,不斷迭代,直到在真實硬件上可靠完成高精度靈巧任務,比如系扎帶、插針盒整理、安裝 GPU 等。



視頻鏈接:https://mp.weixin.qq.com/s/5AquJh3AsSdudyrXqAsoAQ

他們還觀察到一種「物理 scaling law」,增加并行機器人數(shù)量(例如從少量增加到 8 個),能顯著加快任務解決速度。

目前,該實驗室的部分系統(tǒng)已實現(xiàn)徹夜無人類干預的自我迭代,研究人員僅需在早晨查看報告即可。

Jim Fan 稱,未來目標是讓團隊成員安心休假,甚至連 NVIDIA CEO 黃仁勛都察覺不到實驗室仍在自主運行

ENPIRE 項目計劃完全開源,屆時普通開發(fā)者也有望在家中搭建類似的自主機器人研究系統(tǒng)。



項目地址:https://research.nvidia.com/labs/gear/enpire/

ENPIRE 系統(tǒng)架構(gòu):四個模塊構(gòu)成閉環(huán)

ENPIRE 是一個專為編碼 Agent 設計的框架系統(tǒng),通過四個核心模塊構(gòu)建可重復的物理反饋循環(huán):環(huán)境模塊(EN)負責自動重置和驗證,策略改進模塊(PI)啟動策略優(yōu)化,Rollout 模塊(R)支持單臺或多臺機器人并行評估策略,進化模塊(E)則讓編碼 Agent 分析日志、查閱文獻、改進訓練基礎設施和算法代碼以解決失敗模式。

這一閉環(huán)系統(tǒng)將真實世界機器人學習轉(zhuǎn)化為一個由 Agent 管理的、可控的優(yōu)化過程,從而最大限度減少人工投入,同時支持在不同訓練配方和 Agent 變體之間開展公平的消融實驗。

在 ENPIRE 的支持下,前沿編程 Agent 能夠自主開發(fā)策略,并在 PushT、將插針整理進針盒、使用切刀剪斷扎帶等具有挑戰(zhàn)性的真實世界靈巧操作任務中,實現(xiàn) 99% 的成功率。

關(guān)鍵發(fā)現(xiàn):重置環(huán)境比完成任務本身更容易

其中一個關(guān)鍵觀察是:對許多機器人任務而言,重置環(huán)境往往比完成任務本身更容易。

因此,ENPIRE 的做法是,先讓 Agent 通過 Code-as-Policy 構(gòu)建自動重置環(huán)境。很多情況下,所謂重置其實就是一個 pick-and-place 任務,可以由 Cap-X 解決。

隨后,智能體會編寫基于啟發(fā)式規(guī)則的獎勵函數(shù)。研究團隊再將該環(huán)境放入沙箱,并啟動 Agent 圍繞得分開展自動化研究。

這也呼應了 Karpathy 對自動化研究的定義:這里所說的自動化研究,并不是簡單調(diào)一個超參數(shù),或改動某一小段代碼。Agent 會從互聯(lián)網(wǎng)上探索不同范式,并重寫一切可能推動性能提升的部分,包括算法、訓練目標,甚至數(shù)據(jù)加載器。

在插針任務中,一個 Agent 甚至自行編寫了接觸力安全控制器,其效果超過了單純調(diào)節(jié)若干強化學習參數(shù)。



新指標MRU與MTU

ENPIRE 的擴展能力取決于 Agent 團隊規(guī)模和算力資源,只不過在這里,真正稀缺的資源不是 GPU,而是機器人時間。

當研究團隊為 Agent 提供 8 臺機器人,而不是 1 臺機器人時,插針任務達到接近完美表現(xiàn)所需的時間,從 1.5 小時以上縮短到了約 40 分鐘。這些 Agent 通過 Git 進行協(xié)調(diào):共享代碼、放棄不理想的想法,并自主地挑選彼此的最佳運行結(jié)果。



這指向了一個更大的變化:機器人研究正在變成一種環(huán)境設計工作,即為 coding Agent 搭建可以在其中進行自動化研究的環(huán)境;算法工作則上移到了更高一層,轉(zhuǎn)向構(gòu)建一種 Agent 能夠自行閉合的反饋循環(huán)。

而這個循環(huán)會不斷復利式累積:Agent 今天掌握的一項技能,明天就會成為構(gòu)建并重置更困難任務環(huán)境的基礎模塊。能力會自舉出新的能力。



在這一范式下,真正的硬約束是真實世界交互預算。

因此,研究團隊提出了兩個指標:

  • 平均機器人利用率(Mean Robot Utilization,MRU):機器人實際運行實驗的時間占總真實耗時的比例。
  • 平均 Token 利用率(Mean Token Utilization,MTU):衡量 Agent 將 token 轉(zhuǎn)化為研究進展的效率。

在他們的實驗中,MRU 始終低于 50%。也就是說,機器人有一半時間都處于空閑狀態(tài),在等待 Agent 思考。因此,更好的 harness 和更快的模型,會直接轉(zhuǎn)化為實際收益。



PushT 是一個沿用已久的機器人操作基準。通常,要完成這個任務,需要大量人類示范數(shù)據(jù),再加上數(shù)小時的行為克隆訓練。



視頻鏈接:https://mp.weixin.qq.com/s/5AquJh3AsSdudyrXqAsoAQ

但他們看到,Codex、Claude Code 和 Kimi Code 都用一套基于規(guī)則的啟發(fā)式方法,在不到 2 小時內(nèi)「解決」了這個任務:不使用神經(jīng)網(wǎng)絡,不進行訓練,也不依賴任何人類數(shù)據(jù)。



視頻鏈接:https://mp.weixin.qq.com/s/5AquJh3AsSdudyrXqAsoAQ

真實世界中的啟發(fā)式 PushT,其中機械臂會先執(zhí)行 go home 回到初始位姿,以避免遮擋視覺感知。

為了讓更多人能在家嘗試物理世界中的自動化研究,他們基于 @LeRobotHF 的 SO-101 套件 + NVIDIA Jetson Thor 開發(fā)了一整套全棧系統(tǒng)。這套系統(tǒng)可以完成 PushT 任務。

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
英國博主:西方國家系統(tǒng)性的集體討厭中國,壓根不是偏見

英國博主:西方國家系統(tǒng)性的集體討厭中國,壓根不是偏見

怪味歷史連連看
2026-06-17 14:59:56
曼贊比創(chuàng)世界杯紀錄,成最年輕替補雙響球員,身價一年從75萬歐暴漲至5000萬歐

曼贊比創(chuàng)世界杯紀錄,成最年輕替補雙響球員,身價一年從75萬歐暴漲至5000萬歐

紅星新聞
2026-06-19 07:53:30
新加坡媒體抹黑《阿嬤》升級!官媒回懟,言辭犀利,直戳其肺管子

新加坡媒體抹黑《阿嬤》升級!官媒回懟,言辭犀利,直戳其肺管子

娛樂圈筆娛君
2026-06-18 11:18:25
葡萄牙爆冷不到24小時,央媒對C羅的稱呼變了,連梅西也無法反駁

葡萄牙爆冷不到24小時,央媒對C羅的稱呼變了,連梅西也無法反駁

寒士之言本尊
2026-06-19 15:15:53
阿根廷前大使急了:再敢往中國發(fā)一次問題牛肉,我們就完了

阿根廷前大使急了:再敢往中國發(fā)一次問題牛肉,我們就完了

鍋鍋愛歷史
2026-05-31 14:05:42
周杰倫女兒正臉照曝光!迷你版他,沒遺傳昆凌美貌,眼睛大小成謎

周杰倫女兒正臉照曝光!迷你版他,沒遺傳昆凌美貌,眼睛大小成謎

白面書誏
2026-06-17 14:22:14
油價大跌1040元/噸,92汽油跌入“7字頭”,下次調(diào)價或大降開端!

油價大跌1040元/噸,92汽油跌入“7字頭”,下次調(diào)價或大降開端!

豬友巴巴
2026-06-19 09:37:40
被萬斯激怒了!以軍連夜發(fā)起進攻:以慘重傷亡代價攪黃日內(nèi)瓦談判

被萬斯激怒了!以軍連夜發(fā)起進攻:以慘重傷亡代價攪黃日內(nèi)瓦談判

共工之錨
2026-06-20 00:28:16
一場3-1,讓世界杯K組變亂了:葡萄牙退居第三,亞洲勁旅出線危險

一場3-1,讓世界杯K組變亂了:葡萄牙退居第三,亞洲勁旅出線危險

林子說事
2026-06-19 09:23:59
墻倒眾人扶,沒想到,曾被人民日報點名表揚的李維剛,如今更牛了

墻倒眾人扶,沒想到,曾被人民日報點名表揚的李維剛,如今更牛了

趣文說娛
2026-06-17 21:27:16
東京對中國改稱呼,解放軍也送日本一個新稱謂,高市已等不到電話

東京對中國改稱呼,解放軍也送日本一個新稱謂,高市已等不到電話

流史歲月
2026-06-18 21:30:03
同學聚會,發(fā)現(xiàn)一個扎心的現(xiàn)實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內(nèi)

同學聚會,發(fā)現(xiàn)一個扎心的現(xiàn)實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內(nèi)

品讀時刻
2026-06-13 09:03:28
滕哈格辟謠:我沒有給C羅盛過飯,他也不會檢查其他人的餐盤

滕哈格辟謠:我沒有給C羅盛過飯,他也不會檢查其他人的餐盤

懂球帝
2026-06-20 00:11:00
iPod翻紅真相:年輕人買舊播放器,不是為了聽歌

iPod翻紅真相:年輕人買舊播放器,不是為了聽歌

全棧遛狗員
2026-06-19 01:32:12
發(fā)現(xiàn)了嗎?女人不管個子高矮,只要腰細屁股大,身材就不會差

發(fā)現(xiàn)了嗎?女人不管個子高矮,只要腰細屁股大,身材就不會差

皓皓情感說
2026-06-19 19:56:21
麥克風沒關(guān)!加拿大總理與特朗普私聊中國電動車,意外對全球公開

麥克風沒關(guān)!加拿大總理與特朗普私聊中國電動車,意外對全球公開

煙雨洛神生
2026-06-19 03:33:05
大批律師陷入生存困境,律所照搬保險代理人模式是核心癥結(jié)

大批律師陷入生存困境,律所照搬保險代理人模式是核心癥結(jié)

生活新鮮市
2026-06-19 08:26:31
冠軍心態(tài)!阿根廷遭遇高強度壓迫時傳球成功率89%是首輪各隊最高

冠軍心態(tài)!阿根廷遭遇高強度壓迫時傳球成功率89%是首輪各隊最高

云隱南山
2026-06-19 06:38:32
馮琳越來越有大牌主持人的氣質(zhì)了

馮琳越來越有大牌主持人的氣質(zhì)了

動物奇奇怪怪
2026-06-20 02:35:12
6天5個漲停板!股民:又一次賣飛了!

6天5個漲停板!股民:又一次賣飛了!

數(shù)據(jù)挖掘分析
2026-06-19 15:13:12
2026-06-20 03:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

藝術(shù)
手機
旅游
健康
數(shù)碼

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機”畫家,把絲綢畫出了呼吸感

手機要聞

賣爆了!小米 17T 系列四天熱銷 7 萬臺,首周預估破 10 萬臺,爭霸中端

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

吃粽子的3條保胃法則,消化科醫(yī)生推薦

數(shù)碼要聞

SSD太貴換回HDD:機械硬盤價格連漲5個季度!

無障礙瀏覽 進入關(guān)懷版