免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

30分鐘人類第一人稱視頻,零樣本教會機器人雙臂操作

0
分享至



過去要 30 天機器人遙操作,現(xiàn)在只要戴上一副眼鏡走一走。 當機器人的數(shù)據(jù)接口從實驗室搬到日常生活,制約 scale 的瓶頸就不再是數(shù)據(jù)量,而是數(shù)據(jù)接口本身。



HumanEgo 總覽:人類戴 Aria 眼鏡采集第一人稱視頻(左),轉(zhuǎn)化為交互中心表征并訓練 flow matching 策略(中),策略零樣本遷移到機器人——不受環(huán)境、相機、本體限制(右)。

視覺-語言大模型這幾年的成功,本質(zhì)上吃的是一個廉價、可無限擴展的數(shù)據(jù)接口——互聯(lián)網(wǎng)。任何人寫博客、拍照片,都在為下一代大模型喂數(shù)據(jù)。

但機器人學習一直沒有這樣的接口。當前 SOTA 操作策略依賴機器人遙操作(teleoperation)數(shù)據(jù):專業(yè)操作員通過控制器遠程操作機器人,把每一次抓取、放置手動"演示"給機器人。這條路又貴又慢,必須在裝備齊全的實驗室里完成,而且數(shù)據(jù)和機器人硬件強耦合——換一個機器人、換一個工作站,數(shù)據(jù)幾乎完全不能復用。

最近一年,學界開始嘗試把人類第一人稱視頻當作機器人的訓練數(shù)據(jù),從 EgoMimic、EgoZero 到 AINA,不同團隊都在探索這條路。但已有工作大多沿著兩條路線展開:要么用人類視頻與機器人數(shù)據(jù)做協(xié)同訓練(co-training),要么先在數(shù)千小時視頻上做大規(guī)模預訓練——兩者都還沒有完全擺脫對機器人數(shù)據(jù)的依賴。一個自然的問題隨之而來:一個普通人,只拿一副智能眼鏡、幾分鐘視頻,能不能直接訓練出一個可部署的機器人策略

來自馬里蘭大學(UMD)的團隊提出新框架HumanEgo,給出了肯定的答案:

只用 30 分鐘人類第一人稱視頻,不需要任何機器人數(shù)據(jù)、不需要針對機器人的后訓練、不需要互聯(lián)網(wǎng)級預訓練,就能在 4 個真實世界雙手協(xié)作任務上達到92.5%成功率,并零樣本遷移到不同機器人、相機與場景。

值得一提的是,HumanEgo 一經(jīng)公開便在社區(qū)引發(fā)廣泛關注:X(推特)相關討論帖瀏覽量已接近10 萬,開源代碼在短短數(shù)日內(nèi)收獲230+ GitHub star,不少研究者留言希望復現(xiàn)這套從人類視頻學習的流程。



  • 論文標題:
  • HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
  • 作者團隊:
  • Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos(University of Maryland)
  • 論文鏈接:
  • https://arxiv.org/abs/2605.24934
  • 項目主頁:
  • https://humanego-ai.github.io
  • 代碼倉庫:
  • https://github.com/TX-Leo/HumanEgo
  • 完整視頻:
  • https://www.youtube.com/watch?v=pdL46diijuY

為什么"人類視頻"這么難直接拿來用?

讓普通人戴上 Meta Aria 這類智能眼鏡,就能在廚房、車間、辦公室里采集帶 6-DoF 頭部軌跡和 3D 手部關鍵點的高質(zhì)量視頻。但人類視頻要直接訓練機器人,橫亙著兩道難關:

其一,跨形態(tài)的表征鴻溝(embodiment gap)。 人手和機器人夾爪在視覺外觀運動學上都不同:人手有 21 個關節(jié)、會自遮擋;機器人夾爪是金屬平行開合。直接用人手視頻訓練的策略,部署到機器人上必然失效。

其二,極少數(shù)據(jù)下的學習難題。 30 分鐘視頻僅約 60 條軌跡,這個數(shù)據(jù)量下主流模仿學習(ACT、Diffusion Policy)極易過擬合,更別提泛化到?jīng)]見過的場景。





數(shù)據(jù)采集:戴一副 Aria Gen1 眼鏡,在任意環(huán)境完成演示,每條演示只需幾秒,無需標定或?qū)S霉ぷ髡尽?/p>

核心思路:

把表征建在"交互"上,而不是"身體"上

HumanEgo 的核心 insight 可以濃縮為一句話:機器人不該模仿人的身體,而該恢復任務相關的"手-物交互幾何"。

團隊把場景中每只手和每個物體都看作一個實體(entity),為每個實體計算一個 29 維的交互中心 Token(Interaction-Centric Token, ICT),編碼實體在參考系下的 6D 位姿、左右手相對該實體的位姿,以及抓取狀態(tài)。



系統(tǒng)架構:視覺端通過摳除人臂 + 渲染虛擬夾爪消除外觀差異;空間端用 ICT 序列編碼實體間關系;flow matching 策略配合三個密集輔助目標,從分鐘級人類數(shù)據(jù)學出雙手機器人動作。

這個表征有三個關鍵性質(zhì):

實體相對——每個 token 描述"手相對物體怎么靠近、抓取、運輸",正是操作的本質(zhì)信號;

形態(tài)無關——人手經(jīng)過簡單重定向被抽象成"虛擬雙指夾爪",無論人手還是 Trossen / UR5 / Franka 夾爪,都產(chǎn)生同樣的 token;

變長接口——場景里有幾個物體就有幾個 token,天然適配不同任務。



手到夾爪:人手 21 個關鍵點被重定向為一個 SE(3) 虛擬夾爪 + 1 維開合狀態(tài)。

物體一側(cè),團隊用 Grounding DINO + SAM2 檢測分割,CoTracker3 跨幀追蹤關鍵點并三角化到 3D,再用 Orient-Anything 估計朝向。抓取時物體常被手遮擋,HumanEgo 引入運動學鎖定(kinematic latching)——從抓取那一刻起把物體位姿剛性綁定到手上,保證遮擋期間表征依然穩(wěn)定連續(xù)。所有這些量都來自現(xiàn)成感知模型,無需任何人工標注。

視覺端,HumanEgo 用 SAM2 + LaMa摳除人手人臂,再把虛擬夾爪和物體關鍵點渲染回原圖,得到"看起來已經(jīng)像機器人在操作"的本體無關觀測——用輕量渲染繞開了昂貴的域適應或圖像翻譯。

策略采用flow matching(比 diffusion 更快、比 ACT 更具表達力),并疊加三個密集輔助目標:物體運動預測、2D 軌跡回歸、潛在一致性。它們在 3D 物理、2D 視覺、潛在空間三個互補空間里預測場景如何演變,讓每條演示不再只產(chǎn)生一個動作監(jiān)督,而是榨出四種密集信號——這正是低數(shù)據(jù)下高效學習的關鍵。

實驗:

92.5% 成功率,比遙操作高 41%

團隊在 4 個真實世界雙手任務上系統(tǒng)評估,分別考驗抓取放置、長程多步、接觸密集雙手協(xié)同、持續(xù)旋轉(zhuǎn)控制——其中拆疊杯子要求三步動作零誤差累積,澆花則要兩臂嚴格按時序配合。



Serve Bread:從任意位置抓起面包,平穩(wěn)放到盤子中央。



Downstack Cups:長程多步——推倒、抓取、重新堆疊三個嵌套杯子,任一步出錯都會累積。



Water Flowers:接觸密集雙手協(xié)同——一臂舉噴頭,一臂開閥門,嚴格時序配合。



Adjust Table:握住搖把連續(xù)旋轉(zhuǎn)三整圈,全程不松手。

每個任務 40 次試驗,對比 5 個零樣本基線(EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT)與匹配時長的 ACT 遙操作基線。結(jié)果:



HumanEgo-30 在四個任務上全面領先;僅用 15 分鐘數(shù)據(jù)的 HumanEgo-15 已超過用 30 分鐘機器人數(shù)據(jù)訓練的 ACT。

  • 92.5%平均成功率(30 分鐘人類視頻,四任務);
  • 僅 15 分鐘人類數(shù)據(jù)即達75%,已超過 30 分鐘遙操作的 51%;
  • 比匹配時長的 ACT 遙操作高41%
  • 8 分鐘人類視頻(57.5%)即超過30 分鐘機器人數(shù)據(jù)(52.5%)——3.75× 數(shù)據(jù)效率

五個零樣本基線只能捕捉操作的局部側(cè)面,在需要精確手-物推理的任務上集體失守(最高不超過 45%),HumanEgo 是唯一在四個任務上都保持高成功率的方法。



數(shù)據(jù)效率曲線:人類數(shù)據(jù)曲線全程高于機器人遙操作,8 分鐘即反超 30 分鐘遙操作。

更關鍵的是消融實驗。團隊對比五種表征配置發(fā)現(xiàn):純視覺方法的天花板只有 32.5%,無論怎么摳圖、渲染;而一旦加入 ICT,成功率直接跳到 85%(+52.5pp),完整模型達 95%。顯式的交互中心空間表征,才是跨形態(tài)遷移的真正使能者。



表征消融:純視覺天花板 32.5%,加入 ICT 后躍升至 85%;三個輔助目標進一步帶來增益。

一個策略,零樣本適配多種機器人、相機與環(huán)境

把單一策略直接部署到 9 個分布外條件(不同機器人 / 相機 / 光照 / 物體)下,成功率全部維持在85–95%,無需任何重訓練或微調(diào)。



零樣本跨條件泛化:跨本體、跨相機、跨環(huán)境均保持 85–95% 成功率。



跨本體:同一策略零樣本部署到不同機器人手臂。



跨環(huán)境:更換背景、光照、干擾物,策略依然穩(wěn)定。



跨設置:更換相機、視角、桌面高度,策略零樣本適配。

不止四個任務:更多真實世界能力

除四個主任務外,HumanEgo 同樣能學會一系列日常操作,全部來自分鐘級人類視頻:



給設備充電。



擰開瓶蓋。



開門。



開柜子。



抽取紙巾。

寫在最后:當數(shù)據(jù)接口從實驗室搬到日常

HumanEgo 單看是一項技術工作,但它真正想說的是一個更大的判斷:機器人學習的瓶頸,不是"數(shù)據(jù)太少",而是"數(shù)據(jù)接口和機器人硬件綁死了"。

當可穿戴的第一人稱視頻成為新的數(shù)據(jù)接口,機器人數(shù)據(jù)收集就從"實驗室里的稀缺資源"變成"人人可參與、可設計的工作流":任何人都能貢獻數(shù)據(jù),采集可以發(fā)生在真實世界的任意角落,同一份數(shù)據(jù)可以跨多個機器人復用。團隊也指出了下一步方向——把這套范式擴展到多指靈巧操作、長程工業(yè)流程,以及從大規(guī)模人類視頻中持續(xù)學習。正如論文結(jié)尾所寫——有了對的表征和學習目標,人類第一人稱視頻可以成為機器人學習的通用數(shù)據(jù)接口。



視頻鏈接:https://mp.weixin.qq.com/s/C7rvC5-3WDndJJYTHEIIGA?click_id=129

HumanEgo 完整演示視頻(約 1 分 30 秒):一鏡看完數(shù)據(jù)采集、方法原理與真實機器人執(zhí)行。

關于團隊

HumanEgo 由馬里蘭大學(UMD)研究團隊完成,作者包括 Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作 王治是馬里蘭大學的研究者,研究聚焦于面向機器人學習的可擴展數(shù)據(jù)接口——如何讓人類經(jīng)驗通過可穿戴感知 scale 成下一代通用操作策略,方向涵蓋跨形態(tài)學習與從人類視頻中高效學習。HumanEgo 正是這一思路的集中體現(xiàn)。

個人主頁:https://tx-leo.github.io

導師 Yiannis Aloimonos是馬里蘭大學計算機系教授、UMIACS 計算機視覺實驗室主任,主動視覺(active vision)與認知機器人領域的奠基性學者之一,長期研究視覺、行動與語言的交匯,致力于讓機器人像人一樣在與世界的交互中學習。

個人主頁:

https://robotics.umd.edu/clark/faculty/350/Yiannis-Aloimonos

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
票房只有500,多位明星加盟也沒用,主旋律這塊金字招牌崩了

票房只有500,多位明星加盟也沒用,主旋律這塊金字招牌崩了

影視高原說
2026-06-18 07:19:48
協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

讓生活充滿溫暖
2026-06-19 01:39:10
世界杯第二場小組賽三大爆冷預警

世界杯第二場小組賽三大爆冷預警

甜度百分百21
2026-06-19 01:19:04
全紅嬋正式退出暫無工作安置,晨跑鍛煉身型消瘦

全紅嬋正式退出暫無工作安置,晨跑鍛煉身型消瘦

章民解說體育
2026-06-18 16:07:09
英格蘭頭號臥底!4-2 贏球也洗不動!爛到圖赫爾直接氣炸

英格蘭頭號臥底!4-2 贏球也洗不動!爛到圖赫爾直接氣炸

奶蓋熊本熊
2026-06-18 06:24:36
6月18日,萬眾期待的2026年養(yǎng)老金調(diào)整通知公布了嗎?能漲2%嗎?

6月18日,萬眾期待的2026年養(yǎng)老金調(diào)整通知公布了嗎?能漲2%嗎?

社保小達人
2026-06-18 10:01:30
被調(diào)侃“吃小孩”,挪威球星哈蘭德經(jīng)常和女友制作晚餐,用三文魚當主食,每天還吃牛心、牛肝和飲用特殊過濾水,補充6000卡路里的熱量

被調(diào)侃“吃小孩”,挪威球星哈蘭德經(jīng)常和女友制作晚餐,用三文魚當主食,每天還吃牛心、牛肝和飲用特殊過濾水,補充6000卡路里的熱量

大象新聞
2026-06-17 19:49:04
全國唯一!南京同時集齊五大會員制超市,南京的商業(yè)真的被低估了

全國唯一!南京同時集齊五大會員制超市,南京的商業(yè)真的被低估了

億通電子游戲
2026-06-18 13:07:25
6戰(zhàn)全勝!國乒新星強勢爆發(fā),殺出最大驚喜,王勵勤幕后布局曝光

6戰(zhàn)全勝!國乒新星強勢爆發(fā),殺出最大驚喜,王勵勤幕后布局曝光

許穩(wěn)很機智
2026-06-18 09:47:22
再見1號!布克改穿球衣號碼!正式開啟生涯新篇章

再見1號!布克改穿球衣號碼!正式開啟生涯新篇章

籃球?qū)崙?zhàn)寶典
2026-06-18 15:57:46
清廷猛將劉松山去受降反被擊斃,其侄率軍報仇,西北只剩無盡廝殺

清廷猛將劉松山去受降反被擊斃,其侄率軍報仇,西北只剩無盡廝殺

磊子講史
2026-06-15 11:58:57
原來她早已去世,曾帶病演出,從發(fā)病到離世僅16天,死因令人心痛

原來她早已去世,曾帶病演出,從發(fā)病到離世僅16天,死因令人心痛

她時尚丫
2026-06-18 19:43:41
心理學上有個詞叫“空椅子技巧”:討厭一個人時,其實不必鬧翻臉,最高級的處理方式就是用“空椅子技巧”

心理學上有個詞叫“空椅子技巧”:討厭一個人時,其實不必鬧翻臉,最高級的處理方式就是用“空椅子技巧”

心理觀察局
2026-06-16 07:47:21
協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

鐵錘侃侃而談
2026-06-19 00:45:58
高開低走?慘遭3連敗 首輪戰(zhàn)罷亞洲球隊2勝4平3負 新軍皆遭開門黑

高開低走?慘遭3連敗 首輪戰(zhàn)罷亞洲球隊2勝4平3負 新軍皆遭開門黑

狍子歪解體壇
2026-06-18 12:02:25
湖南省懷化市城市發(fā)展集團有限公司黨委委員、副總經(jīng)理龍超群接受審查調(diào)查

湖南省懷化市城市發(fā)展集團有限公司黨委委員、副總經(jīng)理龍超群接受審查調(diào)查

界面新聞
2026-06-18 11:23:14
“小馬云”突然歸來,拿下抖音帶貨榜一!

“小馬云”突然歸來,拿下抖音帶貨榜一!

新浪財經(jīng)
2026-06-16 17:59:51
小米挖孔機蓋案再開庭,車主感覺“對我們很侮辱”

小米挖孔機蓋案再開庭,車主感覺“對我們很侮辱”

ZAKER新聞
2026-06-17 19:20:13
兩性關系:不管你信不信,女性過了50歲后,基本都有這兩個現(xiàn)狀

兩性關系:不管你信不信,女性過了50歲后,基本都有這兩個現(xiàn)狀

心理觀察局
2026-06-16 06:33:05
江西出土一女尸,褪下她的衣服時,發(fā)現(xiàn)下體綁著3條素羅帶子

江西出土一女尸,褪下她的衣服時,發(fā)現(xiàn)下體綁著3條素羅帶子

抽象派大師
2026-06-17 04:56:35
2026-06-19 04:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

手機
健康
時尚
本地
公開課

手機要聞

iOS 27「查找」App升級:支持隱藏共享位置與自定義時長

吃粽子的3條保胃法則,消化科醫(yī)生推薦

看不懂球,還看不懂帥哥嗎?

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版