用結(jié)構(gòu)替代數(shù)據(jù)，因果世界模型如何重塑具身智能大腦

2026-06-18 15:05:24　來源: 鈦媒體APP

北京舉報(bào)

分享至

2026年正在成為具身智能的落地元年。

年初至今，一大批企業(yè)密集完成新一輪融資，產(chǎn)業(yè)信號(hào)再明顯不過：這一波浪潮，已經(jīng)從實(shí)驗(yàn)室沖進(jìn)了商業(yè)化的前夜。然而，熱錢涌入的同時(shí)，一個(gè)老問題始終沒有解決——機(jī)器人的“身體”越來越強(qiáng)，但“大腦”還遠(yuǎn)遠(yuǎn)不夠聰明。

就在紅杉資本AI Ascent2026大會(huì)上，英偉達(dá)機(jī)器人方向負(fù)責(zé)人JimFan給出了一個(gè)極具爭議的論斷：“VLA已死，世界動(dòng)作模型WAM當(dāng)立?！边@句話在行業(yè)內(nèi)外迅速掀起軒然大波，但爭議的背后，是行業(yè)對現(xiàn)有技術(shù)路線已經(jīng)到了忍耐極限。

沒隔多久，圖靈獎(jiǎng)得主YannLeCun離開Meta后創(chuàng)立的AMILabs，鎖定的也是世界模型及相關(guān)方向，即使公司還沒拿出公開模型，但估值已經(jīng)沖到了35億美元。

從美國到中國，從學(xué)界到產(chǎn)業(yè)界，一場圍繞機(jī)器人大腦技術(shù)路線的角逐已經(jīng)全面展開。

而就在多數(shù)人涌向世界模型這條大道時(shí)，創(chuàng)立于2026年的新一代人工智能公司Aether AI，其創(chuàng)始人、加州大學(xué)圣地亞哥分校（UCSD）助理教授黃碧薇選了一條更少人走的路：構(gòu)建以因果智能為核心的下一代AI范式。

黃碧薇師從多位因果學(xué)術(shù)奠基人Kun Zhang, Clark Glymour, Peter Spirtes，和Bernhard Sch?lkopf，在她看來，因果世界模型并不是對現(xiàn)有技術(shù)路線的簡單改良，而是從"相關(guān)性學(xué)習(xí)"到"因果性理解"的底層范式轉(zhuǎn)移。這套邏輯，正在成為具身智能“大腦”路線之爭中一條獨(dú)立的技術(shù)路徑。

從“ 背答案 ”到理解世界

在黃碧薇的定義中，因果世界模型必須同時(shí)做到三件事：從觀測數(shù)據(jù)（視頻像素或文字符號(hào)）中識(shí)別出真正的因果變量，找出這些變量之間的因果結(jié)構(gòu)，然后建模整個(gè)系統(tǒng)的因果動(dòng)力學(xué)，也就是系統(tǒng)如何隨時(shí)間演化、如何隨行動(dòng)而改變。

聽上去很抽象，但放在機(jī)器人抓取杯子的例子中就很好理解。傳統(tǒng)的VLA（Vision-Language-Action）模型，學(xué)習(xí)方式本質(zhì)上是在“背”數(shù)據(jù)：把“這個(gè)角度、這個(gè)光線下的杯子抓取動(dòng)作”記下來，下次遇到一樣的場景就能復(fù)現(xiàn)。但光照變了、桌面高了、杯子換了個(gè)材質(zhì)，模型就抓瞎，因?yàn)樗鼜臎]“想清楚”過手對杯壁施加摩擦力、杯子被抬升這一整套因果鏈條到底是什么。

過去幾年里，VLA模型一直是構(gòu)建機(jī)器人大腦的主流范式。它將視覺感知、語言理解和動(dòng)作生成三個(gè)模塊集成在一起，通過大規(guī)模演示數(shù)據(jù)的模仿學(xué)習(xí)，讓機(jī)器人能夠執(zhí)行各種復(fù)雜任務(wù)。

問題在于，泛化能力跟不上。VLA路線天然偏重語言部分，底層邏輯是把復(fù)雜的物理世界先翻譯成語言，再靠海量動(dòng)作數(shù)據(jù)做模仿學(xué)習(xí)。這么做的好處是，讓機(jī)器人在固定任務(wù)上快速上手，但一旦面對陌生環(huán)境或長尾場景，短板就暴露無遺——它對物理世界缺少真正的理解。

隨著機(jī)器人的硬件日趨成熟，越來越多的行業(yè)人士認(rèn)識(shí)到，具身智能真正的瓶頸不在“身體”而在“大腦”，大腦的通用與泛化能力才是亟待突破的關(guān)鍵節(jié)點(diǎn)。行業(yè)迫切需要一條能讓機(jī)器人真正“理解”物理世界的技術(shù)路線。

因果世界模型走的就是這條路。用黃碧薇的話來說，這套模型的核心是讓機(jī)器人擁有因果認(rèn)知能力——不會(huì)因?yàn)樽烂娓吡?厘米或者碰到一個(gè)從沒見過的場景就手足無措。它理解的是物體受力后運(yùn)動(dòng)的底層規(guī)律，物理參數(shù)變了，也能舉一反三。

黃碧薇表示，相比傳統(tǒng)模型是用暴力數(shù)據(jù)擬合來掩蓋結(jié)構(gòu)的缺失，因果模型是用智能的結(jié)構(gòu)設(shè)計(jì)替代盲目的大數(shù)據(jù)訓(xùn)練。

換句話說，一旦模型厘清了背后的因果機(jī)制，環(huán)境變化通常只影響部分因果環(huán)節(jié)，不需要推倒重來。只需少量新數(shù)據(jù)就能完成更新。在早期小規(guī)模模型上，這種因果方法已經(jīng)帶來25%-50% 成功率提升。

這組數(shù)字對應(yīng)的產(chǎn)業(yè)現(xiàn)實(shí)是：具身智能極度“數(shù)據(jù)饑渴”。斯坦福的ALOHA等項(xiàng)目證明了遙操作數(shù)據(jù)收集的昂貴和低效，而一旦因果模型能夠在更大規(guī)模場景中驗(yàn)證類似的數(shù)據(jù)效率，它對整個(gè)行業(yè)的訓(xùn)練成本曲線將產(chǎn)生直接影響。

黃碧薇表示，因果世界模型的核心邏輯在于：打造一個(gè)擁有因果認(rèn)知能力的機(jī)器人，它不會(huì)因?yàn)樽烂娓吡?厘米或遇到從未見過的場景就束手無策。它能理解物體受力后運(yùn)動(dòng)的底層規(guī)律，哪怕物理參數(shù)變了，也能舉一反三地適應(yīng)。這正是因果AI相較于VLA的核心優(yōu)勢——泛化能力?！拔覀兇蟾胖挥昧?0條數(shù)據(jù)，就把一些之前做不好的操作任務(wù)提高了非常多?！?/p>

因果智能的另一個(gè)長處在于推理深度，大約二十年前，計(jì)算機(jī)科學(xué)家Judea Pearl通過發(fā)現(xiàn)和系統(tǒng)地研究「因果階梯」（Ladder of Causation），在理解因果關(guān)系方面取得了突破，該框架著重說明了觀察、做事和想象的獨(dú)特作用。它的認(rèn)知能力分三個(gè)層次：第一層是觀察層面的預(yù)測，這也是當(dāng)前AI普遍所處的層次；第二層是干預(yù)——“如果我做了A，結(jié)果會(huì)變成什么”；第三層是反事實(shí)推理——“如果我當(dāng)初做了B而不是A，結(jié)果會(huì)不會(huì)更好”。第三層正是人腦在做決策前能在意識(shí)里預(yù)先演練、做出預(yù)判的核心機(jī)制。

落到機(jī)器人身上，就意味著它能在執(zhí)行抓取之前，先在“思維”中模擬物體的運(yùn)動(dòng)軌跡，再選擇最優(yōu)操作路徑。黃碧薇把這稱為一種“物理直覺”。

因果如何從概念變成可訓(xùn)練的系統(tǒng)

因果世界模型的想象力，凝結(jié)在一套四層架構(gòu)之中。

黃碧薇強(qiáng)調(diào)，區(qū)別于市面零散外掛的因果模塊，以及基于現(xiàn)有大模型微調(diào)的改良方案，Aether AI因果世界模型的設(shè)計(jì)目標(biāo)從一開始就很明確：把因果認(rèn)知從理論構(gòu)想一步步落地為可擴(kuò)展、可訓(xùn)練的工程化AI范式。

“四層架構(gòu)并非獨(dú)立的模塊，它們是彼此支撐、層層遞進(jìn)的技術(shù)棧，最終目標(biāo)是徹底改變底層AI算法的認(rèn)知邏輯?！?/p>

第一層是因果驅(qū)動(dòng)的智能體系統(tǒng)。當(dāng)前主流的智能體系統(tǒng)，運(yùn)作邏輯本質(zhì)上還是“日志記錄加簡單回放”——把瀏覽記錄、工作日志和上下文信息平鋪直敘地存下來，直接用于后續(xù)任務(wù)。一臺(tái)機(jī)器在某個(gè)平臺(tái)上學(xué)會(huì)的訂票技能，換一個(gè)平臺(tái)就完全失效，而且Token消耗驚人。

因果驅(qū)動(dòng)的智能體系統(tǒng)則不同，它從海量信息中提取底層結(jié)構(gòu)化知識(shí)。“真正的認(rèn)知源于結(jié)構(gòu)化，而非簡單的數(shù)據(jù)堆砌?！秉S碧薇說。結(jié)構(gòu)一旦被提取出來，跨平臺(tái)、跨場景時(shí)的穩(wěn)定性會(huì)大幅提升。

第二層是因果世界模型。這是整套架構(gòu)的核心。作為系統(tǒng)的認(rèn)知核心，這一層負(fù)責(zé)理解物理世界的運(yùn)行規(guī)律。它接收上層傳來的子任務(wù)，在內(nèi)部模擬“如果這樣做，世界會(huì)怎樣變化”，然后生成精確的任務(wù)指令，驅(qū)動(dòng)上層的智能體系統(tǒng)。黃碧薇認(rèn)為，當(dāng)前的大語言模型和VLA模型，停留在非常表層的符號(hào)處理上——它們能讀懂“因?yàn)椤浴边@類連接詞，卻無法理解這些詞語背后真正的物理機(jī)制。

因果世界模型的目標(biāo)，就是從像素層面貫通到物理層面，讓模型真正“理解”動(dòng)作的因果鏈。

第三層是模塊化架構(gòu)層，觸及神經(jīng)網(wǎng)絡(luò)本身的架構(gòu)設(shè)計(jì)，目標(biāo)是構(gòu)建一個(gè)真正模塊化的神經(jīng)架構(gòu)——不同區(qū)域主管不同功能，區(qū)域之間既解耦又協(xié)同，共同完成復(fù)雜任務(wù)。

黃碧薇指出了，當(dāng)前混合專家模型都存在一個(gè)普遍問題，就是專家模型之間功能的高度重疊。一個(gè)10個(gè)專家的MoE模型，常常只有一兩個(gè)專家承擔(dān)幾乎所有工作。因果世界模型追求的是真正的功能性分區(qū)，各模塊各司其職又相互配合，在保持效率的同時(shí)釋放更強(qiáng)的復(fù)雜認(rèn)知能力。

第四層是底層基礎(chǔ)層，該層基礎(chǔ)架構(gòu)仍以Transformer為主。黃碧薇的解釋很務(wù)實(shí)：Transformer簡潔的可擴(kuò)展性已經(jīng)經(jīng)受過千億級參數(shù)的工程考驗(yàn)，沒必要推倒重來。

因果AI的突破方式是在現(xiàn)有Transformer核心架構(gòu)中引入因果性的刻畫維度。通過Causation Transformer（因果變換器），在保持其可擴(kuò)展性的前提下，同時(shí)考慮時(shí)間延遲關(guān)系、瞬時(shí)影響和隱因子的動(dòng)態(tài)作用，把模型的學(xué)習(xí)能力從“表層詞元相關(guān)性”提升到“詞元級因果性”。

在推進(jìn)節(jié)奏上，黃碧薇告訴筆者，短期內(nèi)優(yōu)先集中攻克第一層智能體系統(tǒng)和第二層因果世界模型，預(yù)計(jì)未來幾個(gè)月內(nèi)會(huì)公開成果；第三層和第四層的架構(gòu)及基礎(chǔ)設(shè)施改造安排在明年?！霸诘谝粚雍偷诙拥耐七M(jìn)中，可以直接利用現(xiàn)有模型作為函數(shù)近似器進(jìn)行優(yōu)化迭代?！边@意味著因果AI并不是一場推倒重來的工程重建，而是一條從相關(guān)性范式向因果范式平滑過渡的漸進(jìn)路徑。

具體到數(shù)據(jù)策略，團(tuán)隊(duì)采用模擬數(shù)據(jù)（約50%—60%）、第一人稱視角數(shù)據(jù)（約30%）和遙操作數(shù)據(jù)（約10%—15%）的混合配比，同時(shí)設(shè)計(jì)了一套“數(shù)據(jù)飛輪”機(jī)制——模型本身可以作為視頻生成器，產(chǎn)出長尾和邊緣場景的數(shù)據(jù)，反哺自我進(jìn)化。

Aether AI的技術(shù)路線選擇，放在更大的行業(yè)背景下看會(huì)更有意思。

從產(chǎn)業(yè)巨頭到學(xué)術(shù)先驅(qū)，大家都在為機(jī)器人的“大腦”尋找下一站。黃碧薇選的路徑，是讓機(jī)器人具備因果認(rèn)知能力。與單純的世界模型路線不同，因果世界模型強(qiáng)調(diào)的是結(jié)構(gòu)化的因果鏈條，而非在更大規(guī)模的數(shù)據(jù)上繼續(xù)做相關(guān)性學(xué)習(xí)。

這些差異，決定了面對新環(huán)境時(shí)的表現(xiàn)完全不同?；谙嚓P(guān)性的模型，應(yīng)對新環(huán)境的唯一辦法是重新采集大量數(shù)據(jù)，把全部變量的聯(lián)合分布從頭學(xué)一遍。而因果模型厘清因果機(jī)制之后，只需部分更新即可。

具身智能需要一個(gè)能“思考”的大腦

從行業(yè)應(yīng)用角度看，因果世界模型的價(jià)值可以分階段釋放：短期內(nèi)，企業(yè)可將自身領(lǐng)域的特定數(shù)據(jù)上傳微調(diào)，獲得定制化的世界模型，用于復(fù)雜場景的決策輔助；中長期，模型將部署到機(jī)器人本體，使其在工業(yè)制造、家庭服務(wù)、特種作業(yè)等場景中展現(xiàn)真正的適應(yīng)性。

而Aether AI也并不打算將自己局限在具身智能上。黃碧薇將公司的長期愿景定位為"打造像LLM一樣通用的下一個(gè)模型范式"，具身智能只是第一個(gè)落地錨點(diǎn)。未來可以延伸到科學(xué)發(fā)現(xiàn)、金融建模、數(shù)學(xué)證明等需要深度推理的領(lǐng)域。

事實(shí)上，全球頂尖的AI研究機(jī)構(gòu)都已經(jīng)意識(shí)到了因果智能的重要性。OpenAI在2025年成立了專門的因果推理研究團(tuán)隊(duì)，DeepMind將因果發(fā)現(xiàn)作為其通用人工智能(AGI)路線圖的核心組成部分，YannLeCun更是將因果推理視為世界模型不可或缺的能力。

這些都表明，因果智能已經(jīng)從學(xué)術(shù)界的邊緣話題，變成了產(chǎn)業(yè)界的核心戰(zhàn)場。

除此以外，當(dāng)前投資人對因果重要性的認(rèn)知也在不斷提升，但在Aether AI之前，還沒有真正哪家跑因果、真正懂因果的人去做因果這件事，許多宣稱“因果”的公司只是停留在非常表層的概念使用上。

盡管挑戰(zhàn)重重，黃碧薇對因果世界模型的未來仍然充滿信心。她認(rèn)為，AI的發(fā)展已經(jīng)站在了“黎明前夕”。

“我相信VLA會(huì)被更具因果理解能力的架構(gòu)所取代?！秉S碧薇判斷，但她也承認(rèn)，從相關(guān)性到因果性的范式轉(zhuǎn)換不會(huì)一蹴而就。就像LLM在跑出來之前“沒人相信，極少有人相信”一樣，因果世界模型也需要一個(gè)標(biāo)志性的時(shí)刻來證明自己。

（文｜Leo張ToB雜談，作者｜張申宇，編輯丨楊林）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.