免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

硬氪專訪 | 智源研究院院長(zhǎng)王仲遠(yuǎn):VLA不會(huì)死,但世界模型是未來(lái)

0
分享至

作者 | 邱曉芬

編輯 | 袁斯來(lái)

過(guò)去幾個(gè)月,“世界模型”(World Model)從學(xué)術(shù)黑話迅速膨脹成AI和機(jī)器人行業(yè)里的關(guān)鍵詞。

行業(yè)的目光轉(zhuǎn)向背后是切實(shí)的焦慮。

一方面,經(jīng)過(guò)了過(guò)去兩年的野蠻生長(zhǎng),具身智能暴露了當(dāng)前AI在物理世界中的短板——機(jī)器人能識(shí)別物體,卻不懂“推杯子會(huì)掉”;能聽懂指令,卻無(wú)法預(yù)判“擰瓶蓋需要多大的力”。世界模型正是試圖補(bǔ)上這個(gè)短板,讓機(jī)器人學(xué)會(huì)物理世界的規(guī)律、因果。

也就是說(shuō),世界模型與具身智能的關(guān)系,本質(zhì)上是“大腦”與“身體”的關(guān)系。

另一面,大模型在經(jīng)歷了大語(yǔ)言、視覺模型、多模態(tài)的探索之后,需要從虛擬走向真實(shí)世界的下一階段。

只是,當(dāng)資本、技術(shù)專家、產(chǎn)業(yè)資源都傾注于此,世界模型到底如何上岸,人們沒有答案。

在智源研究院院長(zhǎng)王仲遠(yuǎn)看來(lái),眼下全球圍繞世界模型的探索,正被撕扯成四條截然不同的分岔路——

第一類是以語(yǔ)言為中心的世界模型,包括VLM、VLA,模型在文本空間中預(yù)測(cè)下一個(gè)詞,學(xué)到的是語(yǔ)言描述的世界,并不能理解背后的物理后果;

第二類是以像素為中心的世界模型,像Sora和Seedance等視頻生成類模型,在視覺空間中學(xué)習(xí)視頻或圖像,學(xué)到的是像素描述的世界;

第三類是以三維結(jié)構(gòu)為中心的世界模型,包括3D重建以及李飛飛團(tuán)隊(duì)的World Labs Marble模型,不過(guò)模型重建3D空間不等于理解世界,幾何結(jié)構(gòu)也不代表物理狀態(tài);

第四類是以視覺表征為中心的世界模型,比如楊立昆的JEPA系列模型,預(yù)測(cè)的是視覺表征的壓縮,但視覺嵌入演化不等于物理規(guī)律演化。


智源研究院院長(zhǎng)王仲遠(yuǎn)(圖源/企業(yè))

作為一家非營(yíng)利性科研機(jī)構(gòu),北京智源人工智能研究院同樣也是目前國(guó)內(nèi)世界模型領(lǐng)域的中堅(jiān)力量。

不同的是,智源研究院目前嘗試的確是第五個(gè)分類——以語(yǔ)言和視覺為中心,融合進(jìn)統(tǒng)一的「潛空間表征」所有模態(tài)被壓縮進(jìn)同一個(gè)潛空間(latent space)仲,再由不同的"解碼器”(Decoder),按需還原成不同輸出形態(tài)。

舉個(gè)例子,這個(gè)“潛空間”就像給機(jī)器人大腦準(zhǔn)備了一張“萬(wàn)能草稿紙”,不管是看到的視頻畫面、聽到的文字指令,統(tǒng)統(tǒng)先在“紙”上壓縮成一種只有AI能懂的“密語(yǔ)筆記”,等需要時(shí),機(jī)器人將會(huì)根據(jù)同一份筆記,出接下來(lái)的場(chǎng)景,出機(jī)器人的動(dòng)作,或者出物體的位置和力度。

在邁向世界模型進(jìn)的前幾年,智源研究院在AI上的動(dòng)作,就像是一部層層遞進(jìn)的"連續(xù)劇",一步步構(gòu)建從數(shù)字世界走向物理世界的通用基座——

從早年的"悟道"大模型,智源研究院將國(guó)內(nèi)大模型敘事從0推到公共視野,再到逐漸把競(jìng)爭(zhēng)點(diǎn)引導(dǎo)向原生多模態(tài)統(tǒng)一架構(gòu)(包括悟界·Emu3/悟界·Emu3.5),此后,智源研究院明確提出要向“下一狀態(tài)預(yù)測(cè)(NSP)”躍遷,并將這套邏輯接入悟·Physis和悟界·RoboBrain Orca的可部署系統(tǒng)中。

在這段期間,智譜AI、月之暗面、面壁智能、銀河通用等多家行業(yè)頭部企業(yè)的核心創(chuàng)始人唐杰、楊植麟、劉知遠(yuǎn)、王鶴等,也都均在智源開展過(guò)相關(guān)領(lǐng)域研究。

盡管世界模型熱得滾燙,王仲遠(yuǎn)卻對(duì)這股熱潮保持著難得的冷靜。他認(rèn)為,世界模型大概處在深度學(xué)習(xí)的2012年前后——彼時(shí),數(shù)據(jù)孤島嚴(yán)重、路線未定、Benchmark還在打架,ChatGPT時(shí)刻尚未到來(lái)。

在他看來(lái),世界模型接下來(lái)的硬仗,在于幾個(gè)維度的綜合比拼。

首先,模型不能只生成看起來(lái)真實(shí)但不符合真實(shí)物理規(guī)律的畫面,比如只是生成“會(huì)飛上天的豬”,還要具備長(zhǎng)時(shí)序一致性,不能不是幾秒鐘的視頻,而是連續(xù)變化的狀態(tài)。

其次,世界模型必須進(jìn)行因果邏輯推斷,需要理解動(dòng)作和結(jié)果之間的關(guān)系,比如,要明白蓋蓋子和沒蓋子的杯子同時(shí)掉落時(shí),會(huì)發(fā)生什么。最后,世界模型需要作為基座模型應(yīng)用到多種場(chǎng)景,而不是只服務(wù)某個(gè)Demo或單一任務(wù)。

落到應(yīng)用側(cè),在他看來(lái),世界模型的價(jià)值會(huì)在兩大大方向兌現(xiàn),除了用于突破具身智能的卡點(diǎn),服務(wù)于機(jī)器人領(lǐng)域之外,世界模型還可以廣泛應(yīng)用于嚴(yán)肅工業(yè)、物理仿真、科學(xué)研究等真實(shí)物理場(chǎng)景。

“我們期待未來(lái)世界模型能成為真正的機(jī)器人大腦,世界模型解決了現(xiàn)在VLA、VLM解決不了的問(wèn)題,提供了泛化、長(zhǎng)程、復(fù)雜任務(wù)和主動(dòng)探索能力。但這會(huì)是一個(gè)長(zhǎng)期過(guò)程,可能需要三年甚至更長(zhǎng)時(shí)間?!?/strong>王仲遠(yuǎn)表示。

近期,王仲遠(yuǎn)與硬氪等媒體聊了聊對(duì)世界模型的看法、以及世界模型與具身智能的銜接點(diǎn),以下是采訪實(shí)錄(略經(jīng)摘編):

世界模型四條分岔路

硬氪:為什么今年智源大會(huì)重點(diǎn)談“世界模型”,它和過(guò)去的大模型路線是什么關(guān)系?

王仲遠(yuǎn):我們不是突然提出世界模型這個(gè)概念。早在2024年智源大會(huì)上,我們就對(duì)人工智能的發(fā)展路徑做過(guò)預(yù)判:大語(yǔ)言模型之后,會(huì)進(jìn)入原生統(tǒng)一多模態(tài),再進(jìn)入物理世界與硬件結(jié)合,進(jìn)一步走向微觀世界的AI for Science,最終通向物理AGI。

今年智源大會(huì)有兩大主題,一個(gè)是世界模型,一個(gè)是智能體。智能體現(xiàn)在非常熱,尤其是AI Coding已經(jīng)進(jìn)入蓬勃爆發(fā)階段;世界模型則是我們認(rèn)為人工智能從數(shù)字世界進(jìn)入物理世界時(shí)必須面對(duì)的下一代基座模型問(wèn)題。

硬氪:當(dāng)前世界模型有哪幾條技術(shù)路線?

王仲遠(yuǎn):現(xiàn)在主流的有四條路:

以語(yǔ)言為中心路線(如Gemini3):能感知多模態(tài)數(shù)據(jù),通過(guò)語(yǔ)言思考并描述下一狀態(tài),具備規(guī)劃決策能力。

以像素為中心路線(如Sora):適合視頻生成,但不懂物理因果;

以三維結(jié)構(gòu)為中心路線(如李飛飛World Labs的Marble):瞄準(zhǔn)元宇宙、游戲等數(shù)字世界仿真;

以視覺表征為中心路線(如LeCun的V-JEPA系列):預(yù)測(cè)的是視覺表征的壓縮,但視覺嵌入演化不等于物理規(guī)律演化。

硬氪:智源的世界模型可以歸類于什么路線里?

王仲遠(yuǎn):我們更傾向于在潛空間中學(xué)習(xí)世界知識(shí),也就是Latent Relation,嘗試把世界知識(shí)真正壓縮到隱空間中,再通過(guò)不同Decoder輸出Language、Action和Vision。

智源選擇嘗試以語(yǔ)言為中心的分類和以視覺表征為中心的分類可能的融合,原因很簡(jiǎn)單,世界模型不僅要“看懂”物理世界,更要“理解”并“決策”。比如人類看到半杯水被打翻,大腦會(huì)自動(dòng)預(yù)判“水流方向、地面材質(zhì)對(duì)流速的影響”——這種能力需要將視覺信號(hào)與語(yǔ)言推理深度融合,而不是只生成畫面。

我也認(rèn)同LeCun對(duì)“大語(yǔ)言模型局限性”的判斷,但我并不認(rèn)為語(yǔ)言模型不重要,語(yǔ)言是人類知識(shí)的載體,放棄語(yǔ)言等于放棄了人類積累的物理常識(shí)。

硬氪:現(xiàn)在很多公司把視頻生成模型稱為世界模型,你怎么看?

王仲遠(yuǎn):我非常明確地認(rèn)為,視頻生成不等于世界模型?,F(xiàn)在世界模型這個(gè)詞被廣泛使用,很大程度上是因?yàn)镺penAI發(fā)布Sora時(shí)用了“World Simulator”的表述。

世界模擬器用于描述視頻生成還算相對(duì)準(zhǔn)確,但視頻生成模型本身并不等同于世界模型。今年很流行的World Action Model,把視頻和Action拼接起來(lái),也不能完全代表真正意義上的世界模型。

在我看來(lái),真正的世界模型應(yīng)該是面向真實(shí)物理世界的下一代基座模型。它不是單純生成一段看起來(lái)很逼真的視頻,而是要理解真實(shí)物理世界的狀態(tài)變化、動(dòng)作因果、長(zhǎng)時(shí)間序列一致性和泛化能力。

語(yǔ)言模型時(shí)代的核心是Next Token Prediction,也就是預(yù)測(cè)下一個(gè)詞元。而世界模型時(shí)代的核心應(yīng)該是Next Physical State Prediction,預(yù)測(cè)下一個(gè)物理狀態(tài)。

語(yǔ)言模型可以用Prompt激發(fā)能力,世界模型則需要用State激發(fā)能力。語(yǔ)言模型更多是被動(dòng)觀察,世界模型必須主動(dòng)交互。語(yǔ)言模型可以是單模態(tài)或多模態(tài),世界模型必須走向全模態(tài)。

硬氪:一個(gè)真正面向物理世界的世界基座模型,需要具備什么能力?

王仲遠(yuǎn):我認(rèn)為至少需要幾個(gè)能力。

第一,要物理正確,光學(xué)折射、重力、流體、物體運(yùn)動(dòng)都要符合真實(shí)物理規(guī)律。視頻生成模型可能生成一群在天上飛的豬,但物理世界不會(huì)這樣運(yùn)行。如果機(jī)器人裝上一個(gè)不能區(qū)分真實(shí)和虛幻的“大腦”,它可能誤以為自己是鋼鐵俠,這會(huì)帶來(lái)嚴(yán)重風(fēng)險(xiǎn)。

第二,要有動(dòng)作因果可溯。模型不能只知道畫面變化,還要知道Action會(huì)導(dǎo)致什么結(jié)果。比如,一瓶水有沒有蓋蓋子,當(dāng)人類看到它快掉落時(shí),自然會(huì)預(yù)判不同后果,世界模型需要把這種動(dòng)作與后果之間的關(guān)系學(xué)進(jìn)去。

第三,要有長(zhǎng)時(shí)間序列一致性。很多視頻生成模型可以生成5秒、10秒甚至1分鐘的視頻,但并不代表它真正理解時(shí)間。如果給一個(gè)瓶子加水,旁邊有一個(gè)時(shí)鐘,鏡頭移開再移回來(lái),模型要知道現(xiàn)實(shí)中確實(shí)經(jīng)過(guò)了10秒或20秒,而不是隨意生成一個(gè)看似合理的畫面。

第四,要有通用泛化能力。世界基座模型必須能應(yīng)用在多個(gè)下游場(chǎng)景,就像大語(yǔ)言模型可以用于很多任務(wù)一樣。它不能只是一個(gè)特定場(chǎng)景的工具,而要能服務(wù)具身、物理仿真、科學(xué)預(yù)測(cè)等多種任務(wù)。

世界模型或成為真正的機(jī)器人大腦

硬氪:當(dāng)前具身智能最大的問(wèn)題是什么?

王仲遠(yuǎn):我認(rèn)為具身智能還處在非常早期。現(xiàn)在的具身模型多數(shù)還是單場(chǎng)景、被動(dòng)任務(wù)執(zhí)行者。它們可以在特定工廠、特定任務(wù)、特定數(shù)據(jù)下工作,比如看到包裹就執(zhí)行抓取、分揀、放置。這類場(chǎng)景中,VLA或者更簡(jiǎn)單的模型都可能有效。

但問(wèn)題在于,它們很難泛化。真實(shí)物理世界是復(fù)雜的,有時(shí)間、空間、物理規(guī)律,也有人類創(chuàng)造的各種工具和環(huán)境變化。機(jī)器人如果只是被動(dòng)執(zhí)行指令,靠一個(gè)場(chǎng)景一個(gè)場(chǎng)景解決問(wèn)題,就很難真正大規(guī)模落地。

我認(rèn)為,世界模型和具身智能是相互呼應(yīng)的。具身智能暴露了當(dāng)前模型在物理世界中的短板,世界模型則試圖補(bǔ)上這個(gè)短板。

硬氪:現(xiàn)在也有一些論調(diào)稱,“VLA已死”,世界模型是不是具身智能的必要路線,兩者的關(guān)系是什么?

王仲遠(yuǎn):我的判斷是:VLA是當(dāng)下,世界模型是未來(lái)。

VLA當(dāng)然有用,而且有很大用處。它可以促進(jìn)機(jī)器人在特定場(chǎng)景落地,甚至有些特定場(chǎng)景不一定需要更復(fù)雜的世界模型,只要看到包裹就執(zhí)行動(dòng)作,搜集特定數(shù)據(jù)就可以完成任務(wù)。

但VLA有局限,比如泛化性不足,其次是長(zhǎng)程任務(wù)、復(fù)雜場(chǎng)景和空間物理規(guī)律理解能力不足。再者,VLA模型往往比較大,部署響應(yīng)速度和Latency較高,不一定能滿足真實(shí)物理世界中高頻動(dòng)作執(zhí)行的要求。世界模型要解決的是更底層的問(wèn)題。

硬氪:世界模型對(duì)機(jī)器人執(zhí)行任務(wù)的幫助,能否舉一個(gè)具體的例子?

王仲遠(yuǎn):世界模型不應(yīng)該只是生成數(shù)據(jù),也不只是生成視頻。它更重要的能力是基于當(dāng)前Context和狀態(tài),預(yù)測(cè)未來(lái)可能發(fā)生的狀態(tài),并據(jù)此做出當(dāng)下最優(yōu)決策。

可以用一個(gè)比喻來(lái)理解,有點(diǎn)像《奇異博士》看到不同未來(lái),然后選擇最優(yōu)結(jié)果。機(jī)器人面對(duì)真實(shí)環(huán)境時(shí),也需要類似能力。它要理解當(dāng)前環(huán)境,預(yù)測(cè)不同動(dòng)作會(huì)帶來(lái)什么后果,再選擇最合適的動(dòng)作。

比如機(jī)器人在酒店或家庭環(huán)境中,看到一個(gè)門、一只手勢(shì)、一個(gè)聲音指令、一個(gè)房間狀態(tài),它需要結(jié)合歷史記憶和當(dāng)前Context做出判斷:是關(guān)廚房的門,還是關(guān)房間的門,還是采取其他動(dòng)作。這不是簡(jiǎn)單的圖像識(shí)別,也不是簡(jiǎn)單的語(yǔ)言指令執(zhí)行,而是復(fù)雜推理后的物理決策。

這就是我們說(shuō)的世界模型要指揮Agent物理實(shí)體執(zhí)行Action。執(zhí)行之后,還要繼續(xù)采集反饋,評(píng)估任務(wù)是否完成,并進(jìn)入下一輪狀態(tài)預(yù)測(cè)和決策。

硬氪:世界模型最終是否會(huì)成為真正的機(jī)器人大腦?

王仲遠(yuǎn):這是我們的期待。我們希望未來(lái)的世界模型能夠在具身場(chǎng)景下真機(jī)部署,解決VLA、VLM和傳統(tǒng)動(dòng)作執(zhí)行無(wú)法解決的問(wèn)題。機(jī)器人需要有泛化能力、長(zhǎng)程任務(wù)能力、復(fù)雜推理能力、主動(dòng)探索能力。它不僅要能看懂世界,還要能理解動(dòng)作后果,規(guī)劃未來(lái)狀態(tài),指揮機(jī)器人執(zhí)行動(dòng)作,并根據(jù)反饋修正決策。

這件事不會(huì)短期完成。世界模型是一個(gè)長(zhǎng)期過(guò)程,瞄準(zhǔn)的不是短期落地應(yīng)用,而是下一個(gè)人工智能時(shí)代的核心能力。短期內(nèi),具身機(jī)器人會(huì)先在具體場(chǎng)景中落地,采集數(shù)據(jù),形成閉環(huán);長(zhǎng)期看,世界模型有機(jī)會(huì)成為真正意義上的機(jī)器人大腦。

硬氪:世界模型現(xiàn)在最難突破的技術(shù)難點(diǎn)是什么?

王仲遠(yuǎn):一個(gè)核心難點(diǎn)是數(shù)據(jù),尤其是真實(shí)物理世界的數(shù)據(jù)。

大語(yǔ)言模型的爆發(fā)依賴互聯(lián)網(wǎng)數(shù)據(jù)。世界模型要進(jìn)入物理世界,也需要足夠多、足夠高質(zhì)量的真實(shí)物理數(shù)據(jù)。現(xiàn)在真實(shí)世界數(shù)據(jù)仍然非常缺乏,而且是散落的孤島,沒有形成足夠充足、可復(fù)用、可訓(xùn)練的數(shù)據(jù)體系。

視頻數(shù)據(jù)是目前最容易Scale Up(規(guī)模化)的數(shù)據(jù),因?yàn)樗A看嬖?,也確實(shí)包含大量真實(shí)物理世界的信息。但問(wèn)題在于,現(xiàn)在科研技術(shù)還沒有充分挖掘視頻數(shù)據(jù)里的物理信息。

除了視頻,我們還需要真實(shí)交互數(shù)據(jù)、異構(gòu)感知數(shù)據(jù)、動(dòng)作軌跡數(shù)據(jù)、人類指令數(shù)據(jù)、機(jī)器人執(zhí)行反饋數(shù)據(jù)。具身機(jī)器人在真實(shí)工廠、酒店、家庭等場(chǎng)景中工作時(shí),會(huì)產(chǎn)生大量有價(jià)值的數(shù)據(jù),這些數(shù)據(jù)閉環(huán)可能會(huì)加速世界基座模型的訓(xùn)練和爆發(fā)。

硬氪:如果真實(shí)物理世界數(shù)據(jù)不足,是否可以依靠仿真數(shù)據(jù)?

王仲遠(yuǎn):仿真數(shù)據(jù)有必要,能彌補(bǔ)真實(shí)數(shù)據(jù)采集不足,但我對(duì)完全依賴仿真數(shù)據(jù)構(gòu)建更強(qiáng)模型是有疑慮的。因?yàn)榉抡鏀?shù)據(jù)本身是人類構(gòu)造的,它的精準(zhǔn)度不一定足夠,如果用不夠精準(zhǔn)的海量數(shù)據(jù)訓(xùn)練模型,能不能構(gòu)建出真正理解物理世界的模型?這是需要驗(yàn)證的。

未來(lái)可能會(huì)像語(yǔ)言模型訓(xùn)練中的數(shù)據(jù)配比一樣,把互聯(lián)網(wǎng)數(shù)據(jù)、視頻數(shù)據(jù)、仿真數(shù)據(jù)、真實(shí)機(jī)器人數(shù)據(jù)、科學(xué)數(shù)據(jù)等,放在一起訓(xùn)練世界基座模型。

但不同數(shù)據(jù)如何配比,現(xiàn)在還沒有標(biāo)準(zhǔn)答案,數(shù)據(jù)質(zhì)量和配比會(huì)直接決定模型能力,這很大程度上仍然依賴研究員的判斷、實(shí)驗(yàn)和下游任務(wù)驗(yàn)證。最直觀的驗(yàn)證方式就是具身智能,模型真正部署到機(jī)器人上,能不能在訓(xùn)練數(shù)據(jù)之外完成任務(wù),能不能在復(fù)雜場(chǎng)景中做出合理決策,這些會(huì)成為判斷數(shù)據(jù)和模型能力的重要標(biāo)準(zhǔn)。

硬氪:如果世界模型還很早期,具身智能短期如何落地?

王仲遠(yuǎn):短期內(nèi),具身智能會(huì)沿途下蛋,也就是先解決具體場(chǎng)景問(wèn)題,比如工廠分揀、打包、貼紙、放充電器、合上蓋子,或者酒店服務(wù)等To B場(chǎng)景。

這些場(chǎng)景本身有商業(yè)價(jià)值,也能在落地過(guò)程中采集數(shù)據(jù)。機(jī)器人在真實(shí)場(chǎng)景中干活,會(huì)產(chǎn)生人類指令、人類交互、動(dòng)作軌跡、任務(wù)結(jié)果等數(shù)據(jù),這些數(shù)據(jù)反過(guò)來(lái)會(huì)幫助未來(lái)世界基座模型訓(xùn)練。

所以我們不能等所有數(shù)據(jù)都Ready之后再探索技術(shù)路徑,技術(shù)要先行,產(chǎn)品和系統(tǒng)會(huì)跟上。就像深度學(xué)習(xí)、Transformer、大語(yǔ)言模型的發(fā)展一樣,技術(shù)路徑往往早于產(chǎn)品爆發(fā)。

世界模型尚未到GPT時(shí)刻

硬氪:世界模型最可能率先落地在哪些場(chǎng)景?

王仲遠(yuǎn):具身智能肯定是最重要的應(yīng)用場(chǎng)景之一,除此之外,世界模型也可以用于物理仿真、科學(xué)實(shí)驗(yàn)、AI for Science等場(chǎng)景。

現(xiàn)在的很多模型無(wú)法解決這些真實(shí)場(chǎng)景中的問(wèn)題,歸根結(jié)底,我們希望有一個(gè)面向真實(shí)物理世界的基座模型,幫助人工智能更好地感知、理解物理世界,并具備推理和決策能力。

硬氪:如果類比大語(yǔ)言模型的發(fā)展階段,世界模型現(xiàn)在處于什么階段?

王仲遠(yuǎn):我認(rèn)為世界模型和具身智能大概處在2012年的時(shí)期。那個(gè)時(shí)候深度學(xué)習(xí)剛剛興起,從2012年到2018年,再到2022年底ChatGPT發(fā)布,大語(yǔ)言模型真正爆發(fā)走了大約十年?,F(xiàn)在世界模型還沒有到GPT時(shí)代,因?yàn)閿?shù)據(jù)非常缺乏,技術(shù)路線也沒有完全收斂。

但人工智能演化速度越來(lái)越快,世界模型可能三年到五年,隨著視頻數(shù)據(jù)進(jìn)一步被挖掘,具身機(jī)器人不斷在真實(shí)場(chǎng)景落地,真實(shí)物理世界數(shù)據(jù)不斷累積,世界模型會(huì)更快進(jìn)入爆發(fā)階段。

硬氪:大語(yǔ)言模型時(shí)代,中美通常被認(rèn)為有六到十二個(gè)月差距。世界模型時(shí)代,中國(guó)和海外是否還有差距?

王仲遠(yuǎn):大語(yǔ)言模型早期,我們更多是在跟隨。世界模型是世界上最前沿的研究方向,概念、路線、模型形態(tài)都還沒有完全收斂。我覺得世界模型沒有差距,大家站在同一起跑線。

硬氪:未來(lái)世界模型的競(jìng)爭(zhēng)會(huì)集中在哪些方面?

王仲遠(yuǎn):現(xiàn)在大家都說(shuō)自己在做世界模型,但很多所謂世界模型其實(shí)是工具,或者是解決特定場(chǎng)景的模型,并不一定是通用世界基座模型。未來(lái)真正關(guān)鍵的競(jìng)爭(zhēng)點(diǎn),我認(rèn)為包括幾個(gè)方面:

第一,能否具備真實(shí)物理可驗(yàn)證能力。模型不能只生成看起來(lái)真實(shí)的畫面,而要符合真實(shí)物理規(guī)律。

第二,能否具備長(zhǎng)時(shí)序一致性。真實(shí)世界不是幾秒鐘的視頻,而是連續(xù)變化的狀態(tài)。

第三,能否進(jìn)行因果邏輯推斷。模型需要理解動(dòng)作和結(jié)果之間的關(guān)系。

第四,能否作為基座模型,用不同數(shù)據(jù)微調(diào)后應(yīng)用到多種場(chǎng)景,而不是只服務(wù)一個(gè)Demo或一個(gè)垂直任務(wù)。

我認(rèn)為世界模型最后一定需要通過(guò)系統(tǒng)和產(chǎn)品來(lái)證明。只有當(dāng)它能在機(jī)器人、物理仿真、科學(xué)實(shí)驗(yàn)等真實(shí)任務(wù)中體現(xiàn)價(jià)值,行業(yè)才會(huì)逐漸收斂對(duì)世界模型的定義和路線判斷。

硬氪:過(guò)去大模型積累的基礎(chǔ)設(shè)施能否復(fù)用?世界模型對(duì)算力等等,有什么新的要求嗎?

王仲遠(yuǎn):我比較樂觀地認(rèn)為,現(xiàn)有的大模型算力基礎(chǔ)設(shè)施、訓(xùn)練框架、數(shù)據(jù)工具鏈都可以在很大程度上復(fù)用。悟界Emu3.5當(dāng)時(shí)強(qiáng)調(diào)的一個(gè)理念,就是采用類似大語(yǔ)言模型的架構(gòu),并證明它能夠Scale Up。

到了世界模型階段,依然需要處理聲音、圖像、動(dòng)作軌跡、語(yǔ)言等各種模態(tài),這些在多模態(tài)和具身領(lǐng)域已經(jīng)有基礎(chǔ)。但是,新的挑戰(zhàn)在于Action和State怎么采集、怎么表達(dá)、怎么訓(xùn)練。世界模型會(huì)帶來(lái)新的需求,但基礎(chǔ)設(shè)施并不是完全從零開始。

首頁(yè)圖源|企業(yè)供圖

排版|范馨雅

end

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
武昌火車站因暴雨被淹,有積水到達(dá)腳踝位置,車站工作人員:東西出站口已恢復(fù)正常,如果雨下得大還會(huì)積水

武昌火車站因暴雨被淹,有積水到達(dá)腳踝位置,車站工作人員:東西出站口已恢復(fù)正常,如果雨下得大還會(huì)積水

大風(fēng)新聞
2026-06-19 12:03:02
腸子都悔青了!獨(dú)行俠18年選了兩個(gè)聯(lián)盟頂級(jí)超巨,結(jié)果一個(gè)沒留住

腸子都悔青了!獨(dú)行俠18年選了兩個(gè)聯(lián)盟頂級(jí)超巨,結(jié)果一個(gè)沒留住

阿訊說(shuō)天下
2026-06-17 13:22:35
中國(guó)移動(dòng)黨組副書記王利民,履新司法部

中國(guó)移動(dòng)黨組副書記王利民,履新司法部

澎湃新聞
2026-06-19 13:03:10
27歲南方醫(yī)科大學(xué)研究生李阿鑫確診肺癌,獲獎(jiǎng)無(wú)數(shù),因關(guān)節(jié)痛確診

27歲南方醫(yī)科大學(xué)研究生李阿鑫確診肺癌,獲獎(jiǎng)無(wú)數(shù),因關(guān)節(jié)痛確診

不寫散文詩(shī)
2026-06-17 19:13:59
為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說(shuō)透

為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說(shuō)透

另子維愛讀史
2026-05-27 20:16:03
姚迪官宣退役!四大關(guān)注點(diǎn),加盟科內(nèi)聯(lián)手朱婷四大硬性阻礙

姚迪官宣退役!四大關(guān)注點(diǎn),加盟科內(nèi)聯(lián)手朱婷四大硬性阻礙

范動(dòng)舍長(zhǎng)
2026-06-19 08:40:14
世體:拜仁欲續(xù)約奧利塞至2031年,年薪漲至2500萬(wàn)歐

世體:拜仁欲續(xù)約奧利塞至2031年,年薪漲至2500萬(wàn)歐

懂球帝
2026-06-19 22:24:39
解讀信號(hào):親密關(guān)系中的男女如何感知伴侶的性同意?

解讀信號(hào):親密關(guān)系中的男女如何感知伴侶的性同意?

繆斯夫人
2026-06-17 08:05:52
美加墨世界杯首位女主裁亮相,39歲的彭索是三個(gè)孩子母親,曾執(zhí)裁女足世界杯決賽等比賽

美加墨世界杯首位女主裁亮相,39歲的彭索是三個(gè)孩子母親,曾執(zhí)裁女足世界杯決賽等比賽

極目新聞
2026-06-19 16:09:51
1991年,26歲的郭富城與25歲的黎明遠(yuǎn)赴瑞士,在飛機(jī)上的留影

1991年,26歲的郭富城與25歲的黎明遠(yuǎn)赴瑞士,在飛機(jī)上的留影

娛你同歡
2026-06-07 23:03:11
“一絲不掛”還不知廉恥!內(nèi)娛為藝術(shù)獻(xiàn)身的流氓真相,該打破了

“一絲不掛”還不知廉恥!內(nèi)娛為藝術(shù)獻(xiàn)身的流氓真相,該打破了

阿傖說(shuō)事
2026-06-17 09:58:31
醫(yī)生反復(fù)強(qiáng)調(diào):人老了,寧可多喝幾口酒,都不要隨便喝這3樣

醫(yī)生反復(fù)強(qiáng)調(diào):人老了,寧可多喝幾口酒,都不要隨便喝這3樣

健康之光
2026-06-18 21:30:03
不打伊朗了,美軍突然調(diào)轉(zhuǎn)槍口,集結(jié)航母和遼寧艦“臉對(duì)臉”

不打伊朗了,美軍突然調(diào)轉(zhuǎn)槍口,集結(jié)航母和遼寧艦“臉對(duì)臉”

陌初寒上只
2026-06-19 21:11:48
美官員稱以軍和黎真主黨同意?;?萬(wàn)斯稱以色列不能靠殺戮解決國(guó)家安全問(wèn)題

美官員稱以軍和黎真主黨同意?;?萬(wàn)斯稱以色列不能靠殺戮解決國(guó)家安全問(wèn)題

每日經(jīng)濟(jì)新聞
2026-06-19 23:45:30
世界杯10大疲勞球隊(duì)出爐:法國(guó)隊(duì)最累,葡萄牙隊(duì)與英格蘭隊(duì)2、3名

世界杯10大疲勞球隊(duì)出爐:法國(guó)隊(duì)最累,葡萄牙隊(duì)與英格蘭隊(duì)2、3名

紅星新聞
2026-06-19 14:23:28
回旋鏢只有扎在自己身上才知道疼,用魔法才能打敗魔法

回旋鏢只有扎在自己身上才知道疼,用魔法才能打敗魔法

阿康四歲啦
2026-06-18 11:48:20
醫(yī)生發(fā)現(xiàn):茶葉一換,每年糖尿病致死少一半,這4種茶葉,要少喝

醫(yī)生發(fā)現(xiàn):茶葉一換,每年糖尿病致死少一半,這4種茶葉,要少喝

馬蹄燙嘴說(shuō)美食
2026-06-17 16:03:07
2026高空驚悚王炸!《墜落2》窒息感拉滿

2026高空驚悚王炸!《墜落2》窒息感拉滿

蕭狡科普解說(shuō)
2026-06-17 11:47:44
害,進(jìn)體制內(nèi)越來(lái)越難了!

害,進(jìn)體制內(nèi)越來(lái)越難了!

黯泉
2026-06-18 21:32:21
游泳冠軍賽第4日綜述:張雨霏連奪2金,于子迪、徐放破紀(jì)錄奪冠

游泳冠軍賽第4日綜述:張雨霏連奪2金,于子迪、徐放破紀(jì)錄奪冠

乒燒泳球
2026-06-19 20:26:29
2026-06-20 00:23:00
36氪 incentive-icons
36氪
讓一部分人先看到未來(lái)
151693文章數(shù) 2848863關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場(chǎng)先漲粉600萬(wàn)

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長(zhǎng)

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
時(shí)尚
健康
教育

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

數(shù)碼要聞

SSD太貴換回HDD:機(jī)械硬盤價(jià)格連漲5個(gè)季度!

夏天上衣穿短不穿長(zhǎng),看看下面這幾款短上衣,顯高舒適顯比例

吃粽子的3條保胃法則,消化科醫(yī)生推薦

教育要聞

頹廢不上進(jìn),孩子擺爛不是父母的錯(cuò)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版