免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網易首頁 > 網易號 > 正文 申請入駐

ColaVLA:自動駕駛大模型,不一定非要把「思考過程」寫成文字

0
分享至



過去兩年,自動駕駛和大模型的結合越來越熱。一個很自然的方向是:既然視覺語言模型已經具備很強的場景理解和推理能力,那能不能讓它像人類司機一樣,先理解環(huán)境、再做判斷、最后輸出軌跡?

這條路線聽起來很合理,但真正落到自動駕駛上,很快就會遇到一個問題:很多方法雖然引入了大模型,卻仍然把「推理」做成了文本鏈式推理。也就是說,模型要先生成中間解釋,再把這些解釋一步步轉成動作或軌跡。這樣做的優(yōu)點是看起來 「更會思考」,但代價也非常明顯:文本是離散 token,而軌跡是連續(xù)控制;文本推理還依賴自回歸解碼,速度慢、鏈路長,不太適合實時駕駛。

來自清華大學與香港中文大學 MMLab 的研究團隊提出了全新的隱空間推理與層次化軌跡規(guī)劃的 VLA 框架 --ColaVLA,論文已經被 CVPR2026 主會接收。



  • 論文標題:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
  • 論文鏈接: https://arxiv.org/abs/2512.22939
  • 代碼鏈接: https://github.com/pqh22/ColaVLA

這篇論文給出的答案很直接:自動駕駛中的推理,不一定要寫成文字。

與其讓模型「邊說邊想」,不如讓它在統一潛空間里完成推理,再把結果直接交給動作規(guī)劃器。這樣既能保留 VLM 的語義先驗和知識能力,又能繞開顯式文本生成帶來的延遲和表示錯位。

整篇論文最重要的貢獻,其實可以概括成兩句話:第一,把推理從文本空間搬到潛空間;第二,把軌跡生成從串行過程改成分層并行過程。



一、核心思路:先「想清楚」,再「開出來」

ColaVLA 的整體框架由兩個核心部分組成:

  • Cognitive Latent Reasoner:負責完成高層駕駛認知
  • Hierarchical Parallel Planner:負責把高層策略展開成連續(xù)軌跡

作者的目標不是簡單把一個大模型接到規(guī)劃器前面,而是重新定義「推理」和「動作」之間的接口,讓二者真正對齊。

先看前半部分,也就是潛空間推理器。作者把它設計成一個很像人類司機的四步過程:

  • Understand
  • Recognize
  • Rethink
  • Decide

這四步看上去很直觀,但真正巧妙的地方在于,它們都不是通過自然語言完成的,而是在統一潛空間中隱式完成。

第一步 Understand,是先整體看懂場景。模型會把多視角視覺信息、固定駕駛提示和 ego 車狀態(tài)一起送入共享 VLM,先建立一個全局場景理解,而不是一上來就直接回歸軌跡。

第二步 Recognize,是從大量視覺信息里篩出真正和當前駕駛動作相關的關鍵實體。這里論文設計了一個 ego-adaptive router,根據當前自車狀態(tài)動態(tài)選擇最重要的視覺 token,保留的通常是車道、鄰近車輛、行人、交通燈這些安全關鍵線索,而不是無差別地處理整張圖。

第三步 Rethink,則是在壓縮后的關鍵信息上再做一次 “復核式推理”,并借助一組可學習的 meta-query 來表示不同高層駕駛策略。

最后一步 Decide,輸出的也不是一句解釋文本,而是一組面向動作生成的高層駕駛先驗。這樣一來,模型就不再需要把推理結果先翻譯成自然語言,再從語言翻譯回動作空間,而是直接完成從認知到策略的內部閉合。



二、真正落到動作層面,它的規(guī)劃器為什么更合理?

很多自動駕駛方法的問題,不只是上游推理方式不合適,下游軌跡生成方式也未必真正符合駕駛動作的結構。有些方法一次性直接回歸整條軌跡,雖然簡單,但缺少層次;有些方法依賴復雜生成過程,雖然表達能力強,但效率和部署穩(wěn)定性不一定理想。

ColaVLA 這里的思路很清晰:駕駛軌跡本來就是分層的,所以生成過程也應該分層。

論文提出的Hierarchical Parallel Planner有三個關鍵詞:

  • 先粗后細
  • 保持因果
  • 并行解碼

它不是把未來軌跡當作一個扁平輸出,而是先確定粗粒度意圖,再逐步補足中間細節(jié)。這更像真實駕駛員的決策方式:先想清楚「往哪去」,再決定「具體怎么走」。

同時,作者還設計了一個 causality-preserving 的注意力機制,保證不同尺度之間的信息流是從粗到細、逐層細化的,而不是相互泄漏。這樣一來,多尺度結構就不只是形式上的分解,而是真正具有因果約束的軌跡生成過程。

更重要的是,這個 planner 可以在單次前向傳播中并行完成多尺度、多模式軌跡解碼,不用再像文本 CoT 那樣一步一步串行生成。



三、實驗結果說明了什么?

從結果上看,ColaVLA 最打動人的地方,不只是「指標更高」,而是它同時兼顧了精度、安全和效率。

1. Open-loop:不只是預測更準,而且更安全

在 nuScenes 的開環(huán)評測中,ColaVLA 在動作類方法里取得了最優(yōu)綜合表現,平均 L2 誤差為0.30 m,平均碰撞率為0.23%。相比強基線 SOLVE-E2E,L2 進一步下降,碰撞率也明顯降低。

這說明它輸出的軌跡并不只是數值上更接近真值,而是在安全性層面也更優(yōu)。



2. Closed-loop:真正體現方法價值的部分

在更關鍵的閉環(huán)評測 NeuroNCAP 中,ColaVLA 的平均得分達到3.48,平均碰撞率降到36.8%,明顯優(yōu)于多種前序方法。

論文特別指出,相比依賴文本推理、并使用額外數據的 ImpromptuVLA,ColaVLA 在不顯式生成文本思維鏈的情況下,依然取得了更好的閉環(huán)表現。

這個結果很有說服力,因為它說明:對自動駕駛來說,更長、更復雜的文字推理鏈,并不一定能帶來更好的真實駕駛行為;真正關鍵的,還是內部決策表征是否適合動作生成,以及規(guī)劃器是否具有合理的因果結構。



3. 推理效率:它把「落地可能性」往前推了一步

效率上,ColaVLA 也給出了非常亮眼的結果。在扎實的工程優(yōu)化后,它的在 H200 上的端到端推理延遲為228 ms/frame,而對比的文本式方法整體快了5 倍到 10 倍左右。

這意味著,把推理從文本搬到潛空間,并不只是概念上更優(yōu)雅,而是真的換來了實打實的速度收益。對于強調閉環(huán)和實時性的自動駕駛來說,這一點尤其關鍵。

四、消融實驗最值得記住的幾點

這篇論文的消融實驗也比較完整,但最值得記住的其實只有四點。

第一,潛空間推理本身確實有效。只要加入 latent reasoning,模型的軌跡誤差就會下降;再加入 rethink 階段,效果還會進一步提升。這說明「先抓關鍵、再做復核」的認知鏈條不是敘事包裝,而是真正有助于決策質量。

第二,分層并行規(guī)劃器本身也很重要。即便把 reasoning 模塊去掉,作者的 planner 在閉環(huán)上依然明顯優(yōu)于普通 MLP 頭和 diffusion 頭,說明它確實更符合真實駕駛動作的生成邏輯。

第三,關鍵 token 不是越多越好,而是平衡最好最重要。保留太少會丟信息,保留太多又會引入冗余,論文最終選擇了一個在表達能力和效率之間更均衡的配置。

第四,最優(yōu)的軌跡生成方式不是一次性回歸整條軌跡,而是先確定關鍵點,再逐層補齊中間細節(jié),這和駕駛動作本身的因果結構是對得上的。

五、這篇論文真正有價值的地方是什么?

如果只把 ColaVLA 看成「又一個自動駕駛模型」,其實低估了它。

我覺得這篇工作的更大意義在于,它提出了一個非常明確的判斷:

自動駕駛中的推理,不一定需要顯式寫成文字。

過去很多工作默認認為,大模型的優(yōu)勢來自「會解釋」「會說話」「能輸出思維鏈」。但 ColaVLA 給出的答案是:在自動駕駛這種連續(xù)控制任務里,更重要的也許不是「讓模型把思考說出來」,而是「讓模型在內部真正想清楚,并用更適合動作生成的方式表達出來」。

從這個角度看,它代表的是一種很值得重視的范式變化:

  • 從text reasoning轉向latent reasoning
  • 從sequential decoding轉向parallel decoding
  • 從「展示推理過程」轉向「兼顧安全、效率和閉環(huán)表現」

論文最后的結論也很清楚:把推理從文本遷移到潛空間,為自動駕駛中的知識驅動決策提供了一條更可擴展、也更現實的路徑。

六、總結

如果要用一句話總結 ColaVLA,我會這樣說:

它不是讓自動駕駛大模型「更會說」,而是讓它「更會在內部想清楚,再更快地開出來」。

這篇論文最核心的貢獻,不只是提出了一個新模塊,也不只是刷新了幾項指標,而是它證明了下面幾件事:

  1. 自動駕駛里的推理,可以不依賴顯式文本思維鏈;
  2. 潛空間推理同樣可以保留高層駕駛決策能力;
  3. 分層并行、因果一致的規(guī)劃器,更適合真實駕駛動作生成;
  4. 當推理形式和動作生成真正對齊時,系統才能同時獲得更好的安全性、效率和閉環(huán)表現。

對于后續(xù)自動駕駛大模型的發(fā)展來說,這篇工作很可能代表著一個很值得繼續(xù)深入的方向:

不是把大模型硬塞進自動駕駛,而是重新設計一種真正適合自動駕駛的大模型推理方式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
爭議!央視社媒刪梅西內容 網友爆料:23點緊急通知 直播別給特寫

爭議!央視社媒刪梅西內容 網友爆料:23點緊急通知 直播別給特寫

念洲
2026-06-19 09:28:22
中午12點!CCTV5直播日本隊世界杯“生死戰(zhàn)”,輸球=小組難晉級

中午12點!CCTV5直播日本隊世界杯“生死戰(zhàn)”,輸球=小組難晉級

寶哥精彩賽事
2026-06-19 10:21:26
大批律師陷入生存困境,律所照搬保險代理人模式是核心癥結

大批律師陷入生存困境,律所照搬保險代理人模式是核心癥結

生活新鮮市
2026-06-19 08:26:31
大媽順走奔馳螺絲后續(xù)!長相曝光,被老板找到后說:以為你不要了

大媽順走奔馳螺絲后續(xù)!長相曝光,被老板找到后說:以為你不要了

寒士之言本尊
2026-06-18 17:37:03
醫(yī)生發(fā)現:能吃能喝的老人,基本在70歲,就已經不做這6件事了!

醫(yī)生發(fā)現:能吃能喝的老人,基本在70歲,就已經不做這6件事了!

芹姐說生活
2026-06-19 18:04:02
腿被踢斷,告別世界杯!24歲新星最新傷情,主帥表態(tài),肇事者發(fā)聲

腿被踢斷,告別世界杯!24歲新星最新傷情,主帥表態(tài),肇事者發(fā)聲

萌蘭聊個球
2026-06-19 10:56:25
葡萄牙全隊幾乎無人幸免!社媒被C羅粉絲刷屏:那矮子把球傳給他

葡萄牙全隊幾乎無人幸免!社媒被C羅粉絲刷屏:那矮子把球傳給他

風過鄉(xiāng)
2026-06-19 20:08:02
演員李現被聘為世界杯開球嘉賓,成為首位在世界杯正賽開球的中國內地藝人;本人是皇家馬德里俱樂部的多年球迷

演員李現被聘為世界杯開球嘉賓,成為首位在世界杯正賽開球的中國內地藝人;本人是皇家馬德里俱樂部的多年球迷

揚子晚報
2026-06-19 16:32:11
世衛(wèi)組織推薦的肌肉不流失四大黃金法則,照著做,準沒錯

世衛(wèi)組織推薦的肌肉不流失四大黃金法則,照著做,準沒錯

觀星賞月
2026-06-18 15:29:58
演員閆學晶發(fā)文:多人憑空編造、傳播其“軍官證造假”“偷稅漏稅”“與他人存在不正當關系”等不實消息,已就此起訴

演員閆學晶發(fā)文:多人憑空編造、傳播其“軍官證造假”“偷稅漏稅”“與他人存在不正當關系”等不實消息,已就此起訴

大風新聞
2026-06-19 17:37:05
極速達,害了山姆

極速達,害了山姆

中國新聞周刊
2026-06-19 13:14:39
私生活混亂、被央視“開除”、陪睡上位,她身上哪個標簽是真的?

私生活混亂、被央視“開除”、陪睡上位,她身上哪個標簽是真的?

素衣讀史
2026-06-18 21:37:31
今年端午節(jié)發(fā)現一個反?,F象:越來越多的年輕人開始不買艾草了

今年端午節(jié)發(fā)現一個反常現象:越來越多的年輕人開始不買艾草了

枕邊聊育兒
2026-06-19 11:54:57
俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

桂系007
2026-06-19 15:33:44
徹底沒了!特斯拉 FSD 買斷將在 7 月 1 日全面下架

徹底沒了!特斯拉 FSD 買斷將在 7 月 1 日全面下架

XCiOS俱樂部
2026-06-19 18:13:33
江蘇端午雨水按下“暫停鍵”,7~9級雷暴大風在路上,氣溫跌至30℃以下

江蘇端午雨水按下“暫停鍵”,7~9級雷暴大風在路上,氣溫跌至30℃以下

現代快報
2026-06-19 20:31:48
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

北緯的咖啡豆
2026-06-18 21:59:34
巨大失誤!韓國門將接球脫手,羅莫進球,墨西哥1比0韓國

巨大失誤!韓國門將接球脫手,羅莫進球,墨西哥1比0韓國

澎湃新聞
2026-06-19 10:58:27
奉陪到底!中方強勢取消3500億美芯訂單,馬斯克:這只是個開始

奉陪到底!中方強勢取消3500億美芯訂單,馬斯克:這只是個開始

荒野科技
2026-06-18 20:14:11
實測DeepSeek“識圖模式”:兩次上傳梁文鋒照片,都識別成張一鳴

實測DeepSeek“識圖模式”:兩次上傳梁文鋒照片,都識別成張一鳴

紅星資本局
2026-06-19 14:23:12
2026-06-19 20:59:05
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數 142674關注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

手機
藝術
本地
旅游
公開課

手機要聞

618大匯總:蘋果成最大贏家,國產誰笑到了最后?

藝術要聞

俄羅斯襲擊烏克蘭基輔,千年洞窟修道院陷火海

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

旅游要聞

賽龍舟、踢世界杯……這個端午假期,上海耀雪冰雪世界玩出“冰火新高度”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版