免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GuidedVLA給動作解碼器裝上可控可解釋的注意力專家

0
分享至





具身智能要想真正走進復雜真實場景,VLA(Vision-Language-Action,視覺 - 語言 - 動作)模型只會「看圖聽話再出動作」還不夠。更關(guān)鍵的問題是:當機器人伸手之前,它到底看向了哪里?

如果模型真的盯住了目標物,理解了當前操作階段,也掌握了空間幾何,動作自然更穩(wěn)。但在很多端到端訓練的 VLA 中,動作解碼器仍然像一個黑箱。它可能在關(guān)注杯子,也可能在關(guān)注背景紋理、相機偽影、光照變化,甚至只是記住了訓練場景里的擺放習慣。

一換場景,就容易「看錯重點」。

針對這一問題,復旦大學可信具身智能研究院、上海交通大學、香港大學 OpenDriveLab 等機構(gòu)提出了 GuidedVLA。它的核心思路非常直接:不要再讓動作解碼器自己在黑箱里「悟」該看什么,而是顯式指定不同 attention head 的職責,讓它們分別學習物體定位、空間幾何和任務(wù)階段。

說白了,GuidedVLA 給 VLA 的動作解碼器寫了一張「注意力分工表」。

這讓機器人動作生成不只是更強,也變得更可控、更可解釋:哪個頭看物體,哪個頭看深度,哪個頭判斷任務(wù)走到哪一步,都有明確分工。

目前,該工作已被 RSS 2026 接收,代碼、模型和數(shù)據(jù)集均已開源。



  • 論文標題:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
  • 論文鏈接:https://arxiv.org/abs/2605.12369
  • 項目主頁:https://guidedvla.github.io/project_page/



視頻鏈接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真機與仿真演示:研究團隊把可控、可解釋的注意力頭專門化機制接入 π0 基座,在多類操作任務(wù)中驗證了其泛化能力。

01 機器人失敗時,它到底看錯了什么?

當前 VLA 模型的主流路線,是把動作作為一種特殊模態(tài)接入視覺語言模型。模型接收圖像觀測和語言指令,再輸出機器人動作。

這條路線很強,也足夠簡潔。

但它有一個隱含前提:動作解碼器能夠自動學會哪些視覺和語言特征與任務(wù)真正相關(guān)。

現(xiàn)實并不總是這樣。

論文觀察到,在缺少顯式引導時,VLA 的 action decoder 容易過擬合偽相關(guān)(spurious correlations)。比如背景紋理、偶然的相機偽影、環(huán)境噪聲,都可能被模型當成決策線索。某些 cross-attention head 偶爾會看向正確區(qū)域,但這種行為高度隨機,會隨著場景和 head 改變。

這就像一個學生做題時,偶爾能抓住關(guān)鍵詞,但并沒有形成穩(wěn)定的方法論。

研究團隊在 LIBERO-Plus layout 擾動設(shè)定下量化了這一問題。π0 基線的物體注意力正確率僅為26.5%;技能識別方面,linear probe 準確率也只有48.4%

這組數(shù)字說明,VLA 的大腦里不缺視覺語言知識,真正不穩(wěn)定的是動作解碼這最后一環(huán)。

GuidedVLA 的科研問題也由此展開:如果動作解碼器總是在隱式學習,能不能直接告訴它該看什么?

02 給動作解碼器一張「注意力分工表」



GuidedVLA 的核心洞見,是把 action decoder 從一個「單體黑箱」拆成一組功能專家。

Transformer 的多頭注意力天然包含多個 attention head。過去,這些 head 的功能大多由端到端訓練自己形成,研究者很難控制它們具體學到什么。GuidedVLA 則反過來做:人為指定部分 head 的任務(wù),用不同輔助信號監(jiān)督它們捕捉不同的任務(wù)相關(guān)因子。

這套分工主要包含三類注意力專家。

Object Head:負責看對目標物

它監(jiān)督注意力圖集中到任務(wù)相關(guān)物體區(qū)域,比如要抓的物體、要放的位置,同時抑制干擾物和背景區(qū)域。對于雜亂桌面、小目標或透明物體,這一步尤其關(guān)鍵。機器人很多時候不是不會抓,而是從第一眼就沒有穩(wěn)定地看對目標。

Skill Head:負責知道現(xiàn)在做到哪一步

很多機器人任務(wù)不是單步操作,而是長程序列。比如先抓取、再移動、再放置;先掃垃圾、再倒入托盤。如果模型不清楚當前處在哪個階段,就可能提前跳步,或者在最后一步突然失敗。Skill Head 通過技能階段監(jiān)督,讓動作解碼器顯式感知任務(wù)進度。

Depth Head:負責看懂 3D 幾何

有些失敗并不是語義錯了,而是幾何不準。按鈴、插入、套疊、對齊高度,都需要更可靠的空間信息。Depth Head 不通過額外 loss 監(jiān)督,而是結(jié)構(gòu)性地接入凍結(jié)深度編碼器的特征,讓特定 head 只 attend 到深度 keys/values 上,從而補上標準 2D 視覺編碼器缺少的幾何感。

三類 head 對應(yīng)機器人操作中的三個基礎(chǔ)問題:

  • 目標是誰?
  • 當前該做哪一步?
  • 空間位置準不準?

這正是 GuidedVLA 可解釋性的來源:把動作決策拆成了可以指定、可以觀察、可以驗證的注意力分工。

03 為什么它能即插即用?

直接改造一個已經(jīng)預訓練好的 VLA,很容易帶來另一個問題:新監(jiān)督還沒學好,原來的能力先被破壞了。

GuidedVLA 借鑒了 ControlNet 式殘差適配器來避免這一點。它保留原始主干注意力分支,同時新增一個 factor-specific 的控制分支。這個控制分支通過 zero-initialized projection 再與主分支融合。

由于 ZeroConv 在訓練開始時初始化為 0,控制分支一開始不會干擾原模型行為;隨著訓練推進,它再逐步把 object、skill、depth 等任務(wù)相關(guān)偏置注入動作解碼器。

換句話說,它不是推倒重訓,而是在 π0 這樣的基座模型上加一個可插拔控制層。

先保住原來的能力,再把該看的重點加進去。

為了讓這套機制可擴展,團隊還設(shè)計了自動因子標注流水線。物體掩碼由 Qwen3-VL 給出前景點提示,再用 SAM2 在視頻段中傳播掩碼,最后進行人工核驗;技能標簽由 Qwen3-VL 按預定義技能表生成階段標簽,并轉(zhuǎn)換為軟目標;深度頭則直接使用凍結(jié)深度編碼器特征,不需要人工深度標注。

效率提升也很明顯:92% 的 episode 無需人工修正。標注 50 個 episode 時,自動流水線約需4 分鐘,純?nèi)斯t約需43.5 分鐘。

也就是說,GuidedVLA 并不是用高昂人工成本換來可解釋性,而是把「顯式引導」做成了一套可以規(guī)模化的訓練接口。

04 GuidedVLA 在泛化測試上真的能看對重點,提升穩(wěn)定性嗎?

GuidedVLA 真正要證明的是:這種可控、可解釋的分工,能否在分布偏移和真實機器人上帶來穩(wěn)定收益。

首先是 LIBERO-Plus。這個基準專門評估機器人策略在分布偏移下的魯棒性,包含相機視角、機器人初態(tài)、語言變化、光照、背景、噪聲和布局 7 類擾動。

在總分上,π0 為68.2,加入 object head 后達到73.4,加入 skill head 后為72.5,加入 depth head 后為71.7。三類 head 全部加入后,GuidedVLA 達到75.4,超過 DreamVLA 的69.9、OpenVLA-OFT 的69.6、RIPT-VLA 的68.4等對比方法。



LIBERO-Plus 結(jié)果表:GuidedVLA 在 7 類擾動維度和 4 類任務(wù)上整體表現(xiàn)更強,三類注意力專家疊加后平均成功率達到 75.4。

更有意思的是,不同 head 的優(yōu)勢和它們的職責高度吻合:object head 在 Object 套件上單頭最強,skill head 在 Goal 套件上單頭最強,depth head 在 Spatial 套件上單頭最強。

這證明了三類注意力專家真的在各自擅長的問題上發(fā)揮作用。



RoboTwin 2.0 結(jié)果:GuidedVLA 在 8 個隨機化、未見設(shè)定的操作任務(wù)中,將 π0 平均成功率從 77.38% 提升到 90.63%。

在 RoboTwin 2.0 上,這種分工也非常直觀。Click Bell 需要精確控制 Z 軸,depth head 將成功率從35%提升到63%;Beat Hammer Block 需要高度對齊,成功率從78%提升到96%;Lift Pot 涉及嚴格的抓取、穩(wěn)定、抬起序列,skill head 取得單頭最佳結(jié)果。

一個負責看準,一個負責排步驟,一個負責補幾何。

這就是「注意力專家」的價值。

05 到真機上,還能扛住干擾物和光照變化嗎?

真實機器人實驗覆蓋兩個雙臂平臺:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務(wù);后者包括燒杯放入加熱套、套疊燒杯、將燒杯放上加熱裝置等實驗室操作任務(wù)。

每個任務(wù)和模型進行 20 次試驗。團隊設(shè)置了三類泛化條件:物體位置變化的 In-Domain 設(shè)定、加入干擾物和雜亂場景的 Scene 設(shè)定,以及光強 / 色溫變化的 Lighting 設(shè)定。

結(jié)果顯示,GuidedVLA 在三類設(shè)定下都穩(wěn)定優(yōu)于 Base Policy:

  • In-Domain:從55.8%提升到75.8%
  • Scene:從44.2%提升到67.5%
  • Lighting:從57.5%提升到79.2%



視頻鏈接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真機任務(wù)示例:疊碗放架。長程操作中,Skill Head 幫助模型維持階段感,避免中途跳步。

真機任務(wù)示例:燒杯放入加熱套。透明剛性物體和緊幾何約束更考驗目標定位與空間幾何。

06 可解釋性驗證:因子質(zhì)量越高成功率越高



因子質(zhì)量與任務(wù)成功率的關(guān)系:Object、Skill、Depth 三類因子質(zhì)量越高,整體成功率越高。

GuidedVLA 進一步回答了一個更有趣的問題:這些因子質(zhì)量真的和任務(wù)成功率相關(guān)嗎?

團隊沒有只做「有無注意力頭」的二元對比,而是連續(xù)調(diào)節(jié)三類因子質(zhì)量,觀察成功率變化。

Object Head 方面,隨著落在物體區(qū)域內(nèi)的注意力比例從 0.25 增加到 1.0,成功率從61.3%提升到77.4%。這說明動作 token 是否真正看向目標物,會直接影響操作表現(xiàn)。

Skill Head 方面,隨著技能識別準確率提高,成功率從66.2%提升到77.7%。模型越清楚當前任務(wù)階段,越不容易在長程任務(wù)中跳步或亂序。

Depth Head 方面,當真實深度特征比例從 0 增加到 1.0,成功率從15.0%提升到74.2%。對于精細操作,明確的 3D 幾何線索是任務(wù)能否成功的關(guān)鍵條件之一。



三類注意力專家的可視化結(jié)果:Object Head 聚焦目標區(qū)域,Depth Head 編碼 3D 結(jié)構(gòu),Skill Head 跟蹤任務(wù)階段變化。

更進一步,論文還驗證了「分工」本身的重要性。一個自然想法是:既然 object、skill、depth 都有用,能不能讓所有 head 一起學習所有因子?

答案是否定的。

專門化分工優(yōu)于「一鍋燴」式混合訓練。在 Spatial、Goal、Long 以及總體分數(shù)上,GuidedVLA 都明顯領(lǐng)先 mixture 方案。

當所有 head 混合學習所有目標時,不同因子的特征會糾纏在一起,性能反而下降。t-SNE 可視化顯示,GuidedVLA 中專門化的 object、depth、skill head 形成了更清晰的分簇;而 mixture 方案中,不同 head 的表征明顯重疊。



左:GuidedVLA 的專門化注意力頭形成更清晰的特征分簇;右:Mixture 方案中,不同 head 的表示明顯重疊,因子之間更容易糾纏。

這說明 GuidedVLA 的關(guān)鍵不只是「多加監(jiān)督」,而是「讓不同監(jiān)督進入不同專家」。

可控,來自可指定。

可解釋,來自可分工。

總結(jié)

GuidedVLA 最值得關(guān)注的地方,是它把動作解碼器中最黑箱的一部分,變成了可以被人為指定、觀察和驗證的結(jié)構(gòu)。

過去,VLA 輸出一個動作,研究者很難判斷它到底看對了目標物、理解了任務(wù)階段,還是只是依賴某個視覺捷徑。GuidedVLA 則把這個過程拆成 object、skill、depth 三類注意力專家,讓動作決策出現(xiàn)了更清晰的內(nèi)部分工。

當然,這項工作仍然依賴預定義因子。如何自動發(fā)現(xiàn)任務(wù)相關(guān)因子,尤其是在連續(xù)任務(wù)中自動發(fā)現(xiàn)技能結(jié)構(gòu),仍是未來需要進一步探索的問題。

但它給出了一條很務(wù)實的路線:讓 VLA 不只是變大,也要變得更可控、更可解釋。

讓每一次操控,都有跡可循。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
老了才明白:只有一個兒子的家庭,兒媳再好,也別交出這5樣東西

老了才明白:只有一個兒子的家庭,兒媳再好,也別交出這5樣東西

熱心市民小黃
2026-06-19 12:06:51
警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

警惕:上了年紀再過性生活,最怕這2點!保護男性精氣,做好4點

美食格物
2026-05-27 19:03:09
紀委監(jiān)委能恢復你多久前刪掉的微信?答案可能讓你睡不著覺

紀委監(jiān)委能恢復你多久前刪掉的微信?答案可能讓你睡不著覺

黑哥講現(xiàn)代史
2026-05-21 13:52:20
人到中年,女人最吃的從來不是甜言蜜語,是走心的偏愛

人到中年,女人最吃的從來不是甜言蜜語,是走心的偏愛

青蘋果sht
2026-05-20 05:30:11
國務(wù)院任免國家工作人員(2026年6月18日)

國務(wù)院任免國家工作人員(2026年6月18日)

環(huán)球網(wǎng)資訊
2026-06-18 18:53:23
基民懵了!節(jié)前近700億資金借道ETF離場,火爆的電網(wǎng)、芯片竟被狂拋

基民懵了!節(jié)前近700億資金借道ETF離場,火爆的電網(wǎng)、芯片竟被狂拋

每日經(jīng)濟新聞
2026-06-19 11:56:08
鐘南山發(fā)現(xiàn):能活到90歲的老人,基本在60歲,就已經(jīng)不做這6事了

鐘南山發(fā)現(xiàn):能活到90歲的老人,基本在60歲,就已經(jīng)不做這6事了

番外行
2026-06-08 08:20:59
八國聯(lián)軍侵華已過百年,至今沒有一個中國人能笑著走出俄羅斯冬宮

八國聯(lián)軍侵華已過百年,至今沒有一個中國人能笑著走出俄羅斯冬宮

史之銘
2026-06-18 07:04:05
老一輩是怎么做到天天做飯,不點外賣的?網(wǎng)友:買五斤土豆八塊錢

老一輩是怎么做到天天做飯,不點外賣的?網(wǎng)友:買五斤土豆八塊錢

另子維愛讀史
2026-06-19 21:50:19
手臂粗大蛇鉆進電動車死活不走,湖南男子壯著膽子載蛇回家,20分鐘路程騎出一身冷汗:嚇死了,生怕它突然出來咬我

手臂粗大蛇鉆進電動車死活不走,湖南男子壯著膽子載蛇回家,20分鐘路程騎出一身冷汗:嚇死了,生怕它突然出來咬我

瀟湘晨報
2026-06-19 08:24:12
套路深??!浙江女子每月請同事吃喝不低5000,私下高息借款1.8億

套路深??!浙江女子每月請同事吃喝不低5000,私下高息借款1.8億

火山詩話
2026-05-16 16:19:22
第一集就全裸出鏡,女神新劇破格出演了

第一集就全裸出鏡,女神新劇破格出演了

來看美劇
2026-04-27 16:21:10
布達拉宮地下世界復雜得嚇人!
金碧輝煌下藏著1200多個“地壟”

布達拉宮地下世界復雜得嚇人! 金碧輝煌下藏著1200多個“地壟”

西樓知趣雜談
2026-06-12 08:54:44
8000萬桶原油,準備通過霍爾木茲海峽

8000萬桶原油,準備通過霍爾木茲海峽

華爾街見聞官方
2026-06-19 20:09:38
92歲臺灣老兵“回重慶認親”,落地便當場責問子女,指著眼前這片土地:“這不還是臺北?”

92歲臺灣老兵“回重慶認親”,落地便當場責問子女,指著眼前這片土地:“這不還是臺北?”

起飛做故事
2026-06-08 20:26:13
內(nèi)塔尼亞胡沒給面子,特朗普當著全世界的面,給了以色列一記耳光

內(nèi)塔尼亞胡沒給面子,特朗普當著全世界的面,給了以色列一記耳光

安然有思
2026-06-19 21:52:50
油價大跌1040元/噸,92汽油跌入“7字頭”,下次調(diào)價或大降開端!

油價大跌1040元/噸,92汽油跌入“7字頭”,下次調(diào)價或大降開端!

豬友巴巴
2026-06-19 09:37:40
一個普遍規(guī)律:低層次的社交,靠的是飯局;中層次的社交,靠的是利益;而高層次的社交,靠的是這兩個關(guān)鍵核心

一個普遍規(guī)律:低層次的社交,靠的是飯局;中層次的社交,靠的是利益;而高層次的社交,靠的是這兩個關(guān)鍵核心

心理觀察局
2026-05-12 09:17:28
央視直播中國男籃VS澳大利亞,楊瀚森被曝缺席,郭士強測試新打法

央視直播中國男籃VS澳大利亞,楊瀚森被曝缺席,郭士強測試新打法

體育大學僧
2026-06-19 17:31:10
退學博士耿同學實名舉報母校北航,學院官網(wǎng)直接癱瘓

退學博士耿同學實名舉報母校北航,學院官網(wǎng)直接癱瘓

老貓觀點
2026-06-18 07:57:32
2026-06-20 00:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
親子
藝術(shù)
數(shù)碼
公開課

吃粽子的3條保胃法則,消化科醫(yī)生推薦

親子要聞

小寶你到底喝沒喝孟婆湯??!

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機”畫家,把絲綢畫出了呼吸感

數(shù)碼要聞

SSD太貴換回HDD:機械硬盤價格連漲5個季度!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版