網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

硬氪專訪 | 智源研究院院長(zhǎng)王仲遠(yuǎn)：VLA不會(huì)死，但世界模型是未來(lái)

2026-06-15 09:58:31　來(lái)源: 36氪

北京舉報(bào)

分享至

作者 | 邱曉芬

編輯 | 袁斯來(lái)

過(guò)去幾個(gè)月，“世界模型”（World Model）從學(xué)術(shù)黑話迅速膨脹成AI和機(jī)器人行業(yè)里的關(guān)鍵詞。

行業(yè)的目光轉(zhuǎn)向背后是切實(shí)的焦慮。

一方面，經(jīng)過(guò)了過(guò)去兩年的野蠻生長(zhǎng)，具身智能暴露了當(dāng)前AI在物理世界中的短板——機(jī)器人能識(shí)別物體，卻不懂“推杯子會(huì)掉”；能聽懂指令，卻無(wú)法預(yù)判“擰瓶蓋需要多大的力”。世界模型正是試圖補(bǔ)上這個(gè)短板，讓機(jī)器人學(xué)會(huì)物理世界的規(guī)律、因果。

也就是說(shuō)，世界模型與具身智能的關(guān)系，本質(zhì)上是“大腦”與“身體”的關(guān)系。

另一面，大模型在經(jīng)歷了大語(yǔ)言、視覺模型、多模態(tài)的探索之后，需要從虛擬走向真實(shí)世界的下一階段。

只是，當(dāng)資本、技術(shù)專家、產(chǎn)業(yè)資源都傾注于此，世界模型到底如何上岸，人們沒有答案。

在智源研究院院長(zhǎng)王仲遠(yuǎn)看來(lái)，眼下全球圍繞世界模型的探索，正被撕扯成四條截然不同的分岔路——

第一類是以語(yǔ)言為中心的世界模型，包括VLM、VLA，模型在文本空間中預(yù)測(cè)下一個(gè)詞，學(xué)到的是語(yǔ)言描述的世界，并不能理解背后的物理后果；

第二類是以像素為中心的世界模型，像Sora和Seedance等視頻生成類模型，在視覺空間中學(xué)習(xí)視頻或圖像，學(xué)到的是像素描述的世界；

第三類是以三維結(jié)構(gòu)為中心的世界模型，包括3D重建以及李飛飛團(tuán)隊(duì)的World Labs Marble模型，不過(guò)模型重建3D空間不等于理解世界，幾何結(jié)構(gòu)也不代表物理狀態(tài)；

第四類是以視覺表征為中心的世界模型，比如楊立昆的JEPA系列模型，預(yù)測(cè)的是視覺表征的壓縮，但視覺嵌入演化不等于物理規(guī)律演化。

智源研究院院長(zhǎng)王仲遠(yuǎn)（圖源/企業(yè)）

作為一家非營(yíng)利性科研機(jī)構(gòu)，北京智源人工智能研究院同樣也是目前國(guó)內(nèi)世界模型領(lǐng)域的中堅(jiān)力量。

不同的是，智源研究院目前嘗試的確是第五個(gè)分類——以語(yǔ)言和視覺為中心，融合進(jìn)統(tǒng)一的「潛空間表征」：所有模態(tài)被壓縮進(jìn)同一個(gè)潛空間（latent space）仲，再由不同的"解碼器”（Decoder），按需還原成不同輸出形態(tài)。

舉個(gè)例子，這個(gè)“潛空間”就像給機(jī)器人大腦準(zhǔn)備了一張“萬(wàn)能草稿紙”，不管是看到的視頻畫面、聽到的文字指令，統(tǒng)統(tǒng)先在“紙”上壓縮成一種只有AI能懂的“密語(yǔ)筆記”，等需要時(shí)，機(jī)器人將會(huì)根據(jù)同一份筆記，畫出接下來(lái)的場(chǎng)景，演出機(jī)器人的動(dòng)作，或者算出物體的位置和力度。

在邁向世界模型進(jìn)的前幾年，智源研究院在AI上的動(dòng)作，就像是一部層層遞進(jìn)的"連續(xù)劇",一步步構(gòu)建從數(shù)字世界走向物理世界的通用基座——

從早年的"悟道"大模型，智源研究院將國(guó)內(nèi)大模型敘事從0推到公共視野，再到逐漸把競(jìng)爭(zhēng)點(diǎn)引導(dǎo)向原生多模態(tài)統(tǒng)一架構(gòu)（包括悟界·Emu3/悟界·Emu3.5），此后，智源研究院明確提出要向“下一狀態(tài)預(yù)測(cè)（NSP）”躍遷，并將這套邏輯接入悟·Physis和悟界·RoboBrain Orca的可部署系統(tǒng)中。

在這段期間，智譜AI、月之暗面、面壁智能、銀河通用等多家行業(yè)頭部企業(yè)的核心創(chuàng)始人唐杰、楊植麟、劉知遠(yuǎn)、王鶴等，也都均在智源開展過(guò)相關(guān)領(lǐng)域研究。

盡管世界模型熱得滾燙，王仲遠(yuǎn)卻對(duì)這股熱潮保持著難得的冷靜。他認(rèn)為，世界模型大概處在深度學(xué)習(xí)的2012年前后——彼時(shí)，數(shù)據(jù)孤島嚴(yán)重、路線未定、Benchmark還在打架，ChatGPT時(shí)刻尚未到來(lái)。

在他看來(lái)，世界模型接下來(lái)的硬仗，在于幾個(gè)維度的綜合比拼。

首先，模型不能只生成看起來(lái)真實(shí)但不符合真實(shí)物理規(guī)律的畫面，比如只是生成“會(huì)飛上天的豬”，還要具備長(zhǎng)時(shí)序一致性，不能不是幾秒鐘的視頻，而是連續(xù)變化的狀態(tài)。

其次，世界模型必須進(jìn)行因果邏輯推斷，需要理解動(dòng)作和結(jié)果之間的關(guān)系，比如，要明白蓋蓋子和沒蓋子的杯子同時(shí)掉落時(shí)，會(huì)發(fā)生什么。最后，世界模型需要作為基座模型應(yīng)用到多種場(chǎng)景，而不是只服務(wù)某個(gè)Demo或單一任務(wù)。

落到應(yīng)用側(cè)，在他看來(lái)，世界模型的價(jià)值會(huì)在兩大大方向兌現(xiàn)，除了用于突破具身智能的卡點(diǎn)，服務(wù)于機(jī)器人領(lǐng)域之外，世界模型還可以廣泛應(yīng)用于嚴(yán)肅工業(yè)、物理仿真、科學(xué)研究等真實(shí)物理場(chǎng)景。

“我們期待未來(lái)世界模型能成為真正的機(jī)器人大腦，世界模型解決了現(xiàn)在VLA、VLM解決不了的問(wèn)題，提供了泛化、長(zhǎng)程、復(fù)雜任務(wù)和主動(dòng)探索能力。但這會(huì)是一個(gè)長(zhǎng)期過(guò)程，可能需要三年甚至更長(zhǎng)時(shí)間?！?/strong>王仲遠(yuǎn)表示。

近期，王仲遠(yuǎn)與硬氪等媒體聊了聊對(duì)世界模型的看法、以及世界模型與具身智能的銜接點(diǎn)，以下是采訪實(shí)錄（略經(jīng)摘編）：

世界模型四條分岔路

硬氪：為什么今年智源大會(huì)重點(diǎn)談“世界模型”，它和過(guò)去的大模型路線是什么關(guān)系？

王仲遠(yuǎn)：我們不是突然提出世界模型這個(gè)概念。早在2024年智源大會(huì)上，我們就對(duì)人工智能的發(fā)展路徑做過(guò)預(yù)判：大語(yǔ)言模型之后，會(huì)進(jìn)入原生統(tǒng)一多模態(tài)，再進(jìn)入物理世界與硬件結(jié)合，進(jìn)一步走向微觀世界的AI for Science，最終通向物理AGI。

今年智源大會(huì)有兩大主題，一個(gè)是世界模型，一個(gè)是智能體。智能體現(xiàn)在非常熱，尤其是AI Coding已經(jīng)進(jìn)入蓬勃爆發(fā)階段；世界模型則是我們認(rèn)為人工智能從數(shù)字世界進(jìn)入物理世界時(shí)必須面對(duì)的下一代基座模型問(wèn)題。

硬氪：當(dāng)前世界模型有哪幾條技術(shù)路線？

王仲遠(yuǎn)：現(xiàn)在主流的有四條路：

以語(yǔ)言為中心路線（如Gemini3）：能感知多模態(tài)數(shù)據(jù)，通過(guò)語(yǔ)言思考并描述下一狀態(tài)，具備規(guī)劃決策能力。

以像素為中心路線（如Sora）：適合視頻生成，但不懂物理因果；

以三維結(jié)構(gòu)為中心路線（如李飛飛World Labs的Marble）：瞄準(zhǔn)元宇宙、游戲等數(shù)字世界仿真；

以視覺表征為中心路線（如LeCun的V-JEPA系列）：預(yù)測(cè)的是視覺表征的壓縮，但視覺嵌入演化不等于物理規(guī)律演化。

硬氪：智源的世界模型可以歸類于什么路線里？

王仲遠(yuǎn)：我們更傾向于在潛空間中學(xué)習(xí)世界知識(shí)，也就是Latent Relation，嘗試把世界知識(shí)真正壓縮到隱空間中，再通過(guò)不同Decoder輸出Language、Action和Vision。

智源選擇嘗試以語(yǔ)言為中心的分類和以視覺表征為中心的分類可能的融合，原因很簡(jiǎn)單，世界模型不僅要“看懂”物理世界，更要“理解”并“決策”。比如人類看到半杯水被打翻，大腦會(huì)自動(dòng)預(yù)判“水流方向、地面材質(zhì)對(duì)流速的影響”——這種能力需要將視覺信號(hào)與語(yǔ)言推理深度融合，而不是只生成畫面。

我也認(rèn)同LeCun對(duì)“大語(yǔ)言模型局限性”的判斷，但我并不認(rèn)為語(yǔ)言模型不重要，語(yǔ)言是人類知識(shí)的載體，放棄語(yǔ)言等于放棄了人類積累的物理常識(shí)。

硬氪：現(xiàn)在很多公司把視頻生成模型稱為世界模型，你怎么看？

王仲遠(yuǎn)：我非常明確地認(rèn)為，視頻生成不等于世界模型?，F(xiàn)在世界模型這個(gè)詞被廣泛使用，很大程度上是因?yàn)镺penAI發(fā)布Sora時(shí)用了“World Simulator”的表述。

世界模擬器用于描述視頻生成還算相對(duì)準(zhǔn)確，但視頻生成模型本身并不等同于世界模型。今年很流行的World Action Model，把視頻和Action拼接起來(lái)，也不能完全代表真正意義上的世界模型。

在我看來(lái)，真正的世界模型應(yīng)該是面向真實(shí)物理世界的下一代基座模型。它不是單純生成一段看起來(lái)很逼真的視頻，而是要理解真實(shí)物理世界的狀態(tài)變化、動(dòng)作因果、長(zhǎng)時(shí)間序列一致性和泛化能力。

語(yǔ)言模型時(shí)代的核心是Next Token Prediction，也就是預(yù)測(cè)下一個(gè)詞元。而世界模型時(shí)代的核心應(yīng)該是Next Physical State Prediction，預(yù)測(cè)下一個(gè)物理狀態(tài)。

語(yǔ)言模型可以用Prompt激發(fā)能力，世界模型則需要用State激發(fā)能力。語(yǔ)言模型更多是被動(dòng)觀察，世界模型必須主動(dòng)交互。語(yǔ)言模型可以是單模態(tài)或多模態(tài)，世界模型必須走向全模態(tài)。

硬氪：一個(gè)真正面向物理世界的世界基座模型，需要具備什么能力？

王仲遠(yuǎn)：我認(rèn)為至少需要幾個(gè)能力。

第一，要物理正確，光學(xué)折射、重力、流體、物體運(yùn)動(dòng)都要符合真實(shí)物理規(guī)律。視頻生成模型可能生成一群在天上飛的豬，但物理世界不會(huì)這樣運(yùn)行。如果機(jī)器人裝上一個(gè)不能區(qū)分真實(shí)和虛幻的“大腦”，它可能誤以為自己是鋼鐵俠，這會(huì)帶來(lái)嚴(yán)重風(fēng)險(xiǎn)。

第二，要有動(dòng)作因果可溯。模型不能只知道畫面變化，還要知道Action會(huì)導(dǎo)致什么結(jié)果。比如，一瓶水有沒有蓋蓋子，當(dāng)人類看到它快掉落時(shí)，自然會(huì)預(yù)判不同后果，世界模型需要把這種動(dòng)作與后果之間的關(guān)系學(xué)進(jìn)去。

第三，要有長(zhǎng)時(shí)間序列一致性。很多視頻生成模型可以生成5秒、10秒甚至1分鐘的視頻，但并不代表它真正理解時(shí)間。如果給一個(gè)瓶子加水，旁邊有一個(gè)時(shí)鐘，鏡頭移開再移回來(lái)，模型要知道現(xiàn)實(shí)中確實(shí)經(jīng)過(guò)了10秒或20秒，而不是隨意生成一個(gè)看似合理的畫面。

第四，要有通用泛化能力。世界基座模型必須能應(yīng)用在多個(gè)下游場(chǎng)景，就像大語(yǔ)言模型可以用于很多任務(wù)一樣。它不能只是一個(gè)特定場(chǎng)景的工具，而要能服務(wù)具身、物理仿真、科學(xué)預(yù)測(cè)等多種任務(wù)。

世界模型或成為真正的機(jī)器人大腦

硬氪：當(dāng)前具身智能最大的問(wèn)題是什么？

王仲遠(yuǎn)：我認(rèn)為具身智能還處在非常早期。現(xiàn)在的具身模型多數(shù)還是單場(chǎng)景、被動(dòng)任務(wù)執(zhí)行者。它們可以在特定工廠、特定任務(wù)、特定數(shù)據(jù)下工作，比如看到包裹就執(zhí)行抓取、分揀、放置。這類場(chǎng)景中，VLA或者更簡(jiǎn)單的模型都可能有效。

但問(wèn)題在于，它們很難泛化。真實(shí)物理世界是復(fù)雜的，有時(shí)間、空間、物理規(guī)律，也有人類創(chuàng)造的各種工具和環(huán)境變化。機(jī)器人如果只是被動(dòng)執(zhí)行指令，靠一個(gè)場(chǎng)景一個(gè)場(chǎng)景解決問(wèn)題，就很難真正大規(guī)模落地。

我認(rèn)為，世界模型和具身智能是相互呼應(yīng)的。具身智能暴露了當(dāng)前模型在物理世界中的短板，世界模型則試圖補(bǔ)上這個(gè)短板。

硬氪：現(xiàn)在也有一些論調(diào)稱，“VLA已死”，世界模型是不是具身智能的必要路線，兩者的關(guān)系是什么？

王仲遠(yuǎn)：我的判斷是：VLA是當(dāng)下，世界模型是未來(lái)。

VLA當(dāng)然有用，而且有很大用處。它可以促進(jìn)機(jī)器人在特定場(chǎng)景落地，甚至有些特定場(chǎng)景不一定需要更復(fù)雜的世界模型，只要看到包裹就執(zhí)行動(dòng)作，搜集特定數(shù)據(jù)就可以完成任務(wù)。

但VLA有局限，比如泛化性不足，其次是長(zhǎng)程任務(wù)、復(fù)雜場(chǎng)景和空間物理規(guī)律理解能力不足。再者，VLA模型往往比較大，部署響應(yīng)速度和Latency較高，不一定能滿足真實(shí)物理世界中高頻動(dòng)作執(zhí)行的要求。世界模型要解決的是更底層的問(wèn)題。

硬氪：世界模型對(duì)機(jī)器人執(zhí)行任務(wù)的幫助，能否舉一個(gè)具體的例子？

王仲遠(yuǎn)：世界模型不應(yīng)該只是生成數(shù)據(jù)，也不只是生成視頻。它更重要的能力是基于當(dāng)前Context和狀態(tài)，預(yù)測(cè)未來(lái)可能發(fā)生的狀態(tài)，并據(jù)此做出當(dāng)下最優(yōu)決策。

可以用一個(gè)比喻來(lái)理解，有點(diǎn)像《奇異博士》看到不同未來(lái)，然后選擇最優(yōu)結(jié)果。機(jī)器人面對(duì)真實(shí)環(huán)境時(shí)，也需要類似能力。它要理解當(dāng)前環(huán)境，預(yù)測(cè)不同動(dòng)作會(huì)帶來(lái)什么后果，再選擇最合適的動(dòng)作。

比如機(jī)器人在酒店或家庭環(huán)境中，看到一個(gè)門、一只手勢(shì)、一個(gè)聲音指令、一個(gè)房間狀態(tài)，它需要結(jié)合歷史記憶和當(dāng)前Context做出判斷：是關(guān)廚房的門，還是關(guān)房間的門，還是采取其他動(dòng)作。這不是簡(jiǎn)單的圖像識(shí)別，也不是簡(jiǎn)單的語(yǔ)言指令執(zhí)行，而是復(fù)雜推理后的物理決策。

這就是我們說(shuō)的世界模型要指揮Agent物理實(shí)體執(zhí)行Action。執(zhí)行之后，還要繼續(xù)采集反饋，評(píng)估任務(wù)是否完成，并進(jìn)入下一輪狀態(tài)預(yù)測(cè)和決策。

硬氪：世界模型最終是否會(huì)成為真正的機(jī)器人大腦？

王仲遠(yuǎn)：這是我們的期待。我們希望未來(lái)的世界模型能夠在具身場(chǎng)景下真機(jī)部署，解決VLA、VLM和傳統(tǒng)動(dòng)作執(zhí)行無(wú)法解決的問(wèn)題。機(jī)器人需要有泛化能力、長(zhǎng)程任務(wù)能力、復(fù)雜推理能力、主動(dòng)探索能力。它不僅要能看懂世界，還要能理解動(dòng)作后果，規(guī)劃未來(lái)狀態(tài)，指揮機(jī)器人執(zhí)行動(dòng)作，并根據(jù)反饋修正決策。

這件事不會(huì)短期完成。世界模型是一個(gè)長(zhǎng)期過(guò)程，瞄準(zhǔn)的不是短期落地應(yīng)用，而是下一個(gè)人工智能時(shí)代的核心能力。短期內(nèi)，具身機(jī)器人會(huì)先在具體場(chǎng)景中落地，采集數(shù)據(jù)，形成閉環(huán)；長(zhǎng)期看，世界模型有機(jī)會(huì)成為真正意義上的機(jī)器人大腦。

硬氪：世界模型現(xiàn)在最難突破的技術(shù)難點(diǎn)是什么？

王仲遠(yuǎn)：一個(gè)核心難點(diǎn)是數(shù)據(jù)，尤其是真實(shí)物理世界的數(shù)據(jù)。

大語(yǔ)言模型的爆發(fā)依賴互聯(lián)網(wǎng)數(shù)據(jù)。世界模型要進(jìn)入物理世界，也需要足夠多、足夠高質(zhì)量的真實(shí)物理數(shù)據(jù)。現(xiàn)在真實(shí)世界數(shù)據(jù)仍然非常缺乏，而且是散落的孤島，沒有形成足夠充足、可復(fù)用、可訓(xùn)練的數(shù)據(jù)體系。

視頻數(shù)據(jù)是目前最容易Scale Up（規(guī)模化）的數(shù)據(jù)，因?yàn)樗Ａ看嬖?，也確實(shí)包含大量真實(shí)物理世界的信息。但問(wèn)題在于，現(xiàn)在科研技術(shù)還沒有充分挖掘視頻數(shù)據(jù)里的物理信息。

除了視頻，我們還需要真實(shí)交互數(shù)據(jù)、異構(gòu)感知數(shù)據(jù)、動(dòng)作軌跡數(shù)據(jù)、人類指令數(shù)據(jù)、機(jī)器人執(zhí)行反饋數(shù)據(jù)。具身機(jī)器人在真實(shí)工廠、酒店、家庭等場(chǎng)景中工作時(shí)，會(huì)產(chǎn)生大量有價(jià)值的數(shù)據(jù)，這些數(shù)據(jù)閉環(huán)可能會(huì)加速世界基座模型的訓(xùn)練和爆發(fā)。

硬氪：如果真實(shí)物理世界數(shù)據(jù)不足，是否可以依靠仿真數(shù)據(jù)？

王仲遠(yuǎn)：仿真數(shù)據(jù)有必要，能彌補(bǔ)真實(shí)數(shù)據(jù)采集不足，但我對(duì)完全依賴仿真數(shù)據(jù)構(gòu)建更強(qiáng)模型是有疑慮的。因?yàn)榉抡鏀?shù)據(jù)本身是人類構(gòu)造的，它的精準(zhǔn)度不一定足夠，如果用不夠精準(zhǔn)的海量數(shù)據(jù)訓(xùn)練模型，能不能構(gòu)建出真正理解物理世界的模型？這是需要驗(yàn)證的。

未來(lái)可能會(huì)像語(yǔ)言模型訓(xùn)練中的數(shù)據(jù)配比一樣，把互聯(lián)網(wǎng)數(shù)據(jù)、視頻數(shù)據(jù)、仿真數(shù)據(jù)、真實(shí)機(jī)器人數(shù)據(jù)、科學(xué)數(shù)據(jù)等，放在一起訓(xùn)練世界基座模型。

但不同數(shù)據(jù)如何配比，現(xiàn)在還沒有標(biāo)準(zhǔn)答案，數(shù)據(jù)質(zhì)量和配比會(huì)直接決定模型能力，這很大程度上仍然依賴研究員的判斷、實(shí)驗(yàn)和下游任務(wù)驗(yàn)證。最直觀的驗(yàn)證方式就是具身智能，模型真正部署到機(jī)器人上，能不能在訓(xùn)練數(shù)據(jù)之外完成任務(wù)，能不能在復(fù)雜場(chǎng)景中做出合理決策，這些會(huì)成為判斷數(shù)據(jù)和模型能力的重要標(biāo)準(zhǔn)。

硬氪：如果世界模型還很早期，具身智能短期如何落地？

王仲遠(yuǎn)：短期內(nèi)，具身智能會(huì)沿途下蛋，也就是先解決具體場(chǎng)景問(wèn)題，比如工廠分揀、打包、貼紙、放充電器、合上蓋子，或者酒店服務(wù)等To B場(chǎng)景。

這些場(chǎng)景本身有商業(yè)價(jià)值，也能在落地過(guò)程中采集數(shù)據(jù)。機(jī)器人在真實(shí)場(chǎng)景中干活，會(huì)產(chǎn)生人類指令、人類交互、動(dòng)作軌跡、任務(wù)結(jié)果等數(shù)據(jù)，這些數(shù)據(jù)反過(guò)來(lái)會(huì)幫助未來(lái)世界基座模型訓(xùn)練。

所以我們不能等所有數(shù)據(jù)都Ready之后再探索技術(shù)路徑，技術(shù)要先行，產(chǎn)品和系統(tǒng)會(huì)跟上。就像深度學(xué)習(xí)、Transformer、大語(yǔ)言模型的發(fā)展一樣，技術(shù)路徑往往早于產(chǎn)品爆發(fā)。

世界模型尚未到GPT時(shí)刻

硬氪：世界模型最可能率先落地在哪些場(chǎng)景？

王仲遠(yuǎn)：具身智能肯定是最重要的應(yīng)用場(chǎng)景之一，除此之外，世界模型也可以用于物理仿真、科學(xué)實(shí)驗(yàn)、AI for Science等場(chǎng)景。

現(xiàn)在的很多模型無(wú)法解決這些真實(shí)場(chǎng)景中的問(wèn)題，歸根結(jié)底，我們希望有一個(gè)面向真實(shí)物理世界的基座模型，幫助人工智能更好地感知、理解物理世界，并具備推理和決策能力。

硬氪：如果類比大語(yǔ)言模型的發(fā)展階段，世界模型現(xiàn)在處于什么階段？

王仲遠(yuǎn)：我認(rèn)為世界模型和具身智能大概處在2012年的時(shí)期。那個(gè)時(shí)候深度學(xué)習(xí)剛剛興起，從2012年到2018年，再到2022年底ChatGPT發(fā)布，大語(yǔ)言模型真正爆發(fā)走了大約十年?，F(xiàn)在世界模型還沒有到GPT時(shí)代，因?yàn)閿?shù)據(jù)非常缺乏，技術(shù)路線也沒有完全收斂。

但人工智能演化速度越來(lái)越快，世界模型可能三年到五年，隨著視頻數(shù)據(jù)進(jìn)一步被挖掘，具身機(jī)器人不斷在真實(shí)場(chǎng)景落地，真實(shí)物理世界數(shù)據(jù)不斷累積，世界模型會(huì)更快進(jìn)入爆發(fā)階段。

硬氪：大語(yǔ)言模型時(shí)代，中美通常被認(rèn)為有六到十二個(gè)月差距。世界模型時(shí)代，中國(guó)和海外是否還有差距？

王仲遠(yuǎn)：大語(yǔ)言模型早期，我們更多是在跟隨。世界模型是世界上最前沿的研究方向，概念、路線、模型形態(tài)都還沒有完全收斂。我覺得世界模型沒有差距，大家站在同一起跑線。

硬氪：未來(lái)世界模型的競(jìng)爭(zhēng)會(huì)集中在哪些方面？

王仲遠(yuǎn)：現(xiàn)在大家都說(shuō)自己在做世界模型，但很多所謂世界模型其實(shí)是工具，或者是解決特定場(chǎng)景的模型，并不一定是通用世界基座模型。未來(lái)真正關(guān)鍵的競(jìng)爭(zhēng)點(diǎn)，我認(rèn)為包括幾個(gè)方面：

第一，能否具備真實(shí)物理可驗(yàn)證能力。模型不能只生成看起來(lái)真實(shí)的畫面，而要符合真實(shí)物理規(guī)律。

第二，能否具備長(zhǎng)時(shí)序一致性。真實(shí)世界不是幾秒鐘的視頻，而是連續(xù)變化的狀態(tài)。

第三，能否進(jìn)行因果邏輯推斷。模型需要理解動(dòng)作和結(jié)果之間的關(guān)系。

第四，能否作為基座模型，用不同數(shù)據(jù)微調(diào)后應(yīng)用到多種場(chǎng)景，而不是只服務(wù)一個(gè)Demo或一個(gè)垂直任務(wù)。

我認(rèn)為世界模型最后一定需要通過(guò)系統(tǒng)和產(chǎn)品來(lái)證明。只有當(dāng)它能在機(jī)器人、物理仿真、科學(xué)實(shí)驗(yàn)等真實(shí)任務(wù)中體現(xiàn)價(jià)值，行業(yè)才會(huì)逐漸收斂對(duì)世界模型的定義和路線判斷。

硬氪：過(guò)去大模型積累的基礎(chǔ)設(shè)施能否復(fù)用？世界模型對(duì)算力等等，有什么新的要求嗎？

王仲遠(yuǎn)：我比較樂觀地認(rèn)為，現(xiàn)有的大模型算力基礎(chǔ)設(shè)施、訓(xùn)練框架、數(shù)據(jù)工具鏈都可以在很大程度上復(fù)用。悟界Emu3.5當(dāng)時(shí)強(qiáng)調(diào)的一個(gè)理念，就是采用類似大語(yǔ)言模型的架構(gòu)，并證明它能夠Scale Up。

到了世界模型階段，依然需要處理聲音、圖像、動(dòng)作軌跡、語(yǔ)言等各種模態(tài)，這些在多模態(tài)和具身領(lǐng)域已經(jīng)有基礎(chǔ)。但是，新的挑戰(zhàn)在于Action和State怎么采集、怎么表達(dá)、怎么訓(xùn)練。世界模型會(huì)帶來(lái)新的需求，但基礎(chǔ)設(shè)施并不是完全從零開始。

首頁(yè)圖源｜企業(yè)供圖

排版｜范馨雅

end

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

索尼研發(fā)乒乓球機(jī)器人打敗日本頂尖選手

每日經(jīng)濟(jì)新聞 2026-04-23 17:49:24
1641 跟貼 1641

智源王仲遠(yuǎn)：世界模型是通往物理AGI之橋

鈦媒體APP 2026-06-18 19:29:20
0 跟貼 0

半年融資近2億，他要用AI發(fā)球機(jī)器人解決全球1億人的訓(xùn)練難題｜硬氪專訪

36氪 2026-04-14 09:11:33
0 跟貼 0

機(jī)器人半馬成績(jī)，超越人類紀(jì)錄

財(cái)聯(lián)社 2026-04-20 00:27:12
1 跟貼 1

人形機(jī)器人半馬跑姿大賞，有的比人快多了！有的“狀況百出”

每日經(jīng)濟(jì)新聞 2026-04-20 00:25:36
8 跟貼 8

持續(xù)領(lǐng)跑世界模型驅(qū)動(dòng)物理AGI，極佳視界再獲10億元B2輪融資

36氪 2026-06-19 17:24:18
0 跟貼 0

今年7月中國(guó)將在上海舉辦2026世界人工智能大會(huì)

每日經(jīng)濟(jì)新聞 2026-06-17 18:26:02
0 跟貼 0

新穎鰭足機(jī)器人，水陸兩棲行動(dòng)自如，適應(yīng)各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0

LLM數(shù)據(jù)量大管飽，機(jī)器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0

亦莊機(jī)器人馬拉松現(xiàn)場(chǎng)名場(chǎng)面合集

量子位 2026-04-20 00:34:54
0 跟貼 0

520，人類如何回應(yīng)AI的告白

虎嗅APP 2026-05-20 20:04:19
0 跟貼 0

朱旻琦：具身智能用一天進(jìn)化一天、聰明一天機(jī)器人普及核心痛點(diǎn)是需要二次開發(fā)和適配

財(cái)聯(lián)社 2026-04-17 16:59:02
0 跟貼 0

機(jī)器人打包運(yùn)輸?shù)恼_方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0

推特是全世界人民的弱智吧

虎嗅APP 2026-06-19 19:00:45
8 跟貼 8

剛剛，Codex 大更新，你在電腦的操作正在成為 AI 經(jīng)驗(yàn)包

愛范兒 2026-06-19 21:32:20
0 跟貼 0

SemiAnalysis：半數(shù)2026年美國(guó)數(shù)據(jù)中心將取消？這是被"AI編碼"出來(lái)的假警報(bào)

華爾街見聞官方 2026-06-19 19:35:10
0 跟貼 0

未來(lái)人類不用工作了，真的是好事嗎？

肖瑜看世界 2026-06-15 20:37:19
4 跟貼 4

我的機(jī)器人被修好了，太逗了

人間閑散客 2026-06-19 04:16:31
0 跟貼 0

硬氪首發(fā)|moody前高管搭檔大疆骨干入局陪伴機(jī)器人，錦秋領(lǐng)投，融資數(shù)千萬(wàn)

36氪 2026-06-19 18:09:44
0 跟貼 0

機(jī)器人前一秒動(dòng)作很優(yōu)雅，下一秒身體一扭倒地上了，網(wǎng)友：最后一下人類還真做不出來(lái)

星沙時(shí)報(bào) 2026-06-18 14:25:43
8 跟貼 8

察言觀色是藝術(shù)，心領(lǐng)神會(huì)是智慧#閱讀提升認(rèn)知 #強(qiáng)者思維邏輯

叫我金主編 2026-06-15 22:13:10
2 跟貼 2

跑車現(xiàn)場(chǎng)變成"戰(zhàn)斗機(jī)器人" 眾多觀眾高舉手機(jī)拍攝

觀象視頻 2026-06-18 15:29:40
851 跟貼 851

機(jī)器人老大要在數(shù)百名機(jī)器人找到隱藏的人類

小區(qū)顯眼包小周 2026-06-19 05:32:13
0 跟貼 0

日本造球形攝影機(jī)器人，在國(guó)際空間站拍攝日常

裝甲鏟史官 2026-04-09 11:33:37
0 跟貼 0

為什么人形機(jī)器人越逼真，我們卻越會(huì)感到害怕？

探謎未知世界 2026-06-16 20:39:00
3 跟貼 3

特斯拉為什么不學(xué)小鵬、奇瑞把Optimus用于接待、講解或?qū)в[？

不看車bukanche 2026-06-16 11:44:12
3 跟貼 3

女子用掃地機(jī)器人掃地，結(jié)果地毯被拖走了，小貓幫忙被拽下來(lái)！

油炸逗比 2026-06-18 14:24:30
3 跟貼 3

不能被機(jī)器人憨憨的外表所迷惑

小男孩追劇 2026-06-19 08:42:07
1 跟貼 1

唰的一下站起來(lái)了，國(guó)產(chǎn)機(jī)器人在老外面前倍有面

今日有趣事兒 2026-06-16 08:49:01
1 跟貼 1

俄羅斯開發(fā)狙擊機(jī)器人，戰(zhàn)場(chǎng)新生代隱身殺手

裝甲鏟史官 2026-05-04 10:42:34
0 跟貼 0

機(jī)器人做家務(wù)又進(jìn)化了…… Current Robotics發(fā)布模型Curr-0

量子位 2026-06-17 18:35:28
0 跟貼 0

柬埔寨對(duì)華免簽落地首日即有老廣團(tuán)出發(fā)

新快報(bào)新聞 2026-06-16 08:19:02
21537 跟貼 21537

嘲諷所有人形機(jī)器人？

網(wǎng)易科技態(tài)度見聞 2026-06-18 15:43:25
0 跟貼 0

完全自主！英偉達(dá)展示首個(gè)DIY機(jī)器人自學(xué)把顯卡插到主板上畫面呆萌

快科技 2026-06-19 14:32:08
0 跟貼 0

與電視無(wú)縫銜接的奇妙體驗(yàn)！

金碩故事匯 2026-06-18 08:05:52
0 跟貼 0

機(jī)器人做家務(wù)又進(jìn)化了

量子位 2026-06-16 12:31:29
0 跟貼 0

衛(wèi)生間尷尬一幕，男子上廁所時(shí)，被機(jī)器人強(qiáng)行推走！

瞇眼的少女 2026-06-19 13:53:44
1 跟貼 1

刷爆外網(wǎng)！8噸跑車變形機(jī)器人，現(xiàn)場(chǎng)噴火與人對(duì)戰(zhàn)

極果酷玩 2026-06-19 00:51:56
0 跟貼 0

小孩哥剛準(zhǔn)備夸贊?rùn)C(jī)器人，下一秒機(jī)器人就操作失誤打翻貨架

博聞視角 2026-06-19 12:19:58
0 跟貼 0

中國(guó)具身智能產(chǎn)業(yè)，要逃離“英偉達(dá)稅”

華商韜略 2026-06-18 10:58:35
0 跟貼 0

武昌火車站因暴雨被淹，有積水到達(dá)腳踝位置，車站工作人員：東西出站口已恢復(fù)正常，如果雨下得大還會(huì)積水
大風(fēng)新聞
2026-06-19 12:03:02

腸子都悔青了！獨(dú)行俠18年選了兩個(gè)聯(lián)盟頂級(jí)超巨，結(jié)果一個(gè)沒留住
阿訊說(shuō)天下
2026-06-17 13:22:35

中國(guó)移動(dòng)黨組副書記王利民，履新司法部
澎湃新聞
2026-06-19 13:03:10

27歲南方醫(yī)科大學(xué)研究生李阿鑫確診肺癌，獲獎(jiǎng)無(wú)數(shù)，因關(guān)節(jié)痛確診
不寫散文詩(shī)
2026-06-17 19:13:59

為什么往死里掃黃？網(wǎng)友分享太真實(shí)了，一次說(shuō)透
另子維愛讀史
2026-05-27 20:16:03

姚迪官宣退役！四大關(guān)注點(diǎn)，加盟科內(nèi)聯(lián)手朱婷四大硬性阻礙
范動(dòng)舍長(zhǎng)
2026-06-19 08:40:14

世體：拜仁欲續(xù)約奧利塞至2031年，年薪漲至2500萬(wàn)歐
懂球帝
2026-06-19 22:24:39

解讀信號(hào)：親密關(guān)系中的男女如何感知伴侶的性同意？
繆斯夫人
2026-06-17 08:05:52

美加墨世界杯首位女主裁亮相，39歲的彭索是三個(gè)孩子母親，曾執(zhí)裁女足世界杯決賽等比賽
極目新聞
2026-06-19 16:09:51

1991年，26歲的郭富城與25歲的黎明遠(yuǎn)赴瑞士，在飛機(jī)上的留影
娛你同歡
2026-06-07 23:03:11

“一絲不掛”還不知廉恥！內(nèi)娛為藝術(shù)獻(xiàn)身的流氓真相，該打破了
阿傖說(shuō)事
2026-06-17 09:58:31

醫(yī)生反復(fù)強(qiáng)調(diào)：人老了，寧可多喝幾口酒，都不要隨便喝這3樣
健康之光
2026-06-18 21:30:03

不打伊朗了，美軍突然調(diào)轉(zhuǎn)槍口，集結(jié)航母和遼寧艦“臉對(duì)臉”
陌初寒上只
2026-06-19 21:11:48

美官員稱以軍和黎真主黨同意?；?萬(wàn)斯稱以色列不能靠殺戮解決國(guó)家安全問(wèn)題
每日經(jīng)濟(jì)新聞
2026-06-19 23:45:30

世界杯10大疲勞球隊(duì)出爐：法國(guó)隊(duì)最累，葡萄牙隊(duì)與英格蘭隊(duì)2、3名
紅星新聞
2026-06-19 14:23:28

回旋鏢只有扎在自己身上才知道疼，用魔法才能打敗魔法
阿康四歲啦
2026-06-18 11:48:20

醫(yī)生發(fā)現(xiàn)：茶葉一換，每年糖尿病致死少一半，這4種茶葉，要少喝
馬蹄燙嘴說(shuō)美食
2026-06-17 16:03:07

2026高空驚悚王炸！《墜落2》窒息感拉滿
蕭狡科普解說(shuō)
2026-06-17 11:47:44

害，進(jìn)體制內(nèi)越來(lái)越難了！
黯泉
2026-06-18 21:32:21

游泳冠軍賽第4日綜述：張雨霏連奪2金，于子迪、徐放破紀(jì)錄奪冠
乒燒泳球
2026-06-19 20:26:29

2026-06-20 00:23:00

36氪

讓一部分人先看到未來(lái)

151693文章數(shù) 2848863關(guān)注度

往期回顧全部

科技要聞

Anthropic被禁，智譜卻漲瘋了

燒掉1000億元卻沒有贏家，外賣補(bǔ)貼大戰(zhàn)迎來(lái)監(jiān)管終局

庫(kù)克承認(rèn)扛不住了，蘋果漲價(jià)“不可避免”

Anthropic被管控，OpenAI開始慌了

谷歌27億美元請(qǐng)回來(lái)的AI大牛，突然跳槽OpenAI

頭條要聞

特朗普：伊朗走投無(wú)路徹底完蛋了我們就把這60天耗完

特朗普G7花式點(diǎn)評(píng)全球政要還稱與一國(guó)元首"墜入愛河"

母親過(guò)世妹妹精神分裂上海男子"閉關(guān)修行" 鄰居崩潰了

美伊?xí)勅∠?穆杰塔巴曾稱對(duì)備忘錄"持有不同意見"

美媒：華爾街也到中國(guó)借錢熊貓債受到熱捧

頭條要聞

特朗普：伊朗走投無(wú)路徹底完蛋了我們就把這60天耗完

特朗普G7花式點(diǎn)評(píng)全球政要還稱與一國(guó)元首"墜入愛河"

母親過(guò)世妹妹精神分裂上海男子"閉關(guān)修行" 鄰居崩潰了

美伊?xí)勅∠?穆杰塔巴曾稱對(duì)備忘錄"持有不同意見"

美媒：華爾街也到中國(guó)借錢熊貓債受到熱捧

體育要聞

世界杯最不知名球員，沒上場(chǎng)先漲粉600萬(wàn)

世界杯-金承奎送禮墨西哥1-0韓國(guó)率先頭名出線

6-0！加拿大擊敗9人卡塔爾，戴維帽子戲法，迎世界杯首勝

世界杯-瑞士4-1復(fù)仇10人波黑 20歲妖星雙響哲科點(diǎn)射

加拿大球員小腿變形重傷亞洲冠軍輸球輸人

娛樂要聞

孫藝珍曬母子合照！4歲小甜豆暴風(fēng)成長(zhǎng)

米粒10歲生日宴：伊能靜公婆同框，女兒大名曝光

蔣勤勤驕傲?xí)裢?，兒子被加州大學(xué)伯克利錄取

《給阿嬤的情書》香港首映票房：1天突破10萬(wàn)美元

黃子韜就違停致歉！涉事車輛未非法改裝

財(cái)經(jīng)要聞

Token低價(jià)陷阱

潑天的“黑金”行情，我等了5年

Anthropic被禁，智譜卻漲瘋了

飆升1240%，南大校友要IPO

李書福、張雪《對(duì)話》開聊！明晚，不見不散

汽車要聞

驚出冷汗！重慶實(shí)測(cè)奧迪A5L，華為智駕這波操作絕了…

有點(diǎn)小酷吉利熊貓勇士輕越野純電小車來(lái)了

舒適智能可城可野鄭州賽車場(chǎng)硬核易體驗(yàn)方程豹

強(qiáng)化運(yùn)動(dòng)屬性/1.6T版本動(dòng)力升級(jí) 艾瑞澤8征服版限時(shí)售10.29萬(wàn)起

新款瑪莎拉蒂GT跑車/GC敞篷跑車與格雷嘉SUV首發(fā)

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

數(shù)碼

時(shí)尚

健康

教育

房產(chǎn)要聞

商業(yè)清零式退潮，大量住宅登場(chǎng)！三亞又要大規(guī)模調(diào)規(guī)！

?？谖磥?lái)五年，教育和住房都要大變樣

最新房?jī)r(jià)：?？凇⑷齺?；新房、二手房全線下跌！

突發(fā)！三亞最火的商街，開始砸錢搶租客了！

數(shù)碼要聞

SSD太貴換回HDD：機(jī)械硬盤價(jià)格連漲5個(gè)季度！

小米單聯(lián)瑜：米家空調(diào)全系10年免費(fèi)加氟，冷媒泄漏量微乎其微

1500塊買張RTX 4090：拆開一看GPU核心都是塑料造！

核心越多反越慢！AMD修復(fù)軟件Bug：線程撕裂者性能暴增215%

夏天上衣穿短不穿長(zhǎng)，看看下面這幾款短上衣，顯高舒適顯比例

鞋子專場(chǎng)|| 有了它，衣柜里的衣服突然變得好搭了

瘋狂心動(dòng)的夏日穿搭，加點(diǎn)彩色更好看

看不懂球，還看不懂帥哥嗎？

吃粽子的3條保胃法則，消化科醫(yī)生推薦

外出踏青、郊游，千萬(wàn)警惕這種蟲子！

千滾水、隔夜水到底能喝嗎？真相來(lái)了！

外賣這樣吃，便利又健康！很多人不知道

中疾控發(fā)布春夏呼吸道疾病防護(hù)指南

教育要聞

頹廢不上進(jìn)，孩子擺爛不是父母的錯(cuò)！

2026高考500分左右想穩(wěn)就業(yè)，可以看看這3所大學(xué)，畢業(yè)很好找工作

懷進(jìn)鵬在內(nèi)蒙古調(diào)研

教育部：全力保障高等研究院建設(shè)有序推進(jìn)

這題有點(diǎn)難度，誰(shuí)想試試？

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

硬氪專訪 | 智源研究院院長(zhǎng)王仲遠(yuǎn)：VLA不會(huì)死，但世界模型是未來(lái)

Anthropic被禁，智譜卻漲瘋了

特朗普：伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

特朗普：伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

世界杯最不知名球員，沒上場(chǎng)先漲粉600萬(wàn)

孫藝珍曬母子合照！4歲小甜豆暴風(fēng)成長(zhǎng)

Token低價(jià)陷阱

驚出冷汗！重慶實(shí)測(cè)奧迪A5L，華為智駕這波操作絕了…

態(tài)度原創(chuàng)

商業(yè)清零式退潮，大量住宅登場(chǎng)！三亞又要大規(guī)模調(diào)規(guī)！

SSD太貴換回HDD：機(jī)械硬盤價(jià)格連漲5個(gè)季度！

夏天上衣穿短不穿長(zhǎng)，看看下面這幾款短上衣，顯高舒適顯比例

吃粽子的3條保胃法則，消化科醫(yī)生推薦

頹廢不上進(jìn)，孩子擺爛不是父母的錯(cuò)！

硬氪專訪 | 智源研究院院長(zhǎng)王仲遠(yuǎn)：VLA不會(huì)死，但世界模型是未來(lái)

Anthropic被禁，智譜卻漲瘋了

特朗普：伊朗走投無(wú)路徹底完蛋了我們就把這60天耗完

特朗普：伊朗走投無(wú)路徹底完蛋了我們就把這60天耗完

世界杯最不知名球員，沒上場(chǎng)先漲粉600萬(wàn)

孫藝珍曬母子合照！4歲小甜豆暴風(fēng)成長(zhǎng)

驚出冷汗！重慶實(shí)測(cè)奧迪A5L，華為智駕這波操作絕了…

商業(yè)清零式退潮，大量住宅登場(chǎng)！三亞又要大規(guī)模調(diào)規(guī)！

吃粽子的3條保胃法則，消化科醫(yī)生推薦

頹廢不上進(jìn)，孩子擺爛不是父母的錯(cuò)！