免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界模型賽道,VAST 選了一條還沒有人走過的路

0
分享至


今年除了 Agent 賽道,世界模型也成為 AI 行業(yè)新的必爭之地,前段時間李飛飛和楊立昆相繼宣布獲得 10 億美元融資,世界模型也走到了一個十字路口。

APPSO 曾分析過當(dāng)前世界模型的五大門派,它們有著不同的技術(shù)路線,如楊立昆的 JEPA 派,是做抽象表征預(yù)測;李飛飛的空間智能派,用 World Labs 的 Marble 在做顯式 3D 重建;DeepMind 的學(xué)習(xí)型仿真派,推出 Genie 實現(xiàn)可交互虛擬環(huán)境等。


▲ 圖片由 AI 生成

這些早在 ChatGPT 出現(xiàn)前的 AI 學(xué)者,甚至是 AI 教父/教母,都在說大語言模型的文本訓(xùn)練范式已到瓶頸,AI 要理解物理世界必須靠世界模型,但到底要做什么樣的「世界模型」,沒有一個達(dá)成共識的定義

這幾天,AI 公司 VAST 完成了 A+ 及 A++ 輪的融資,合計金額近 2 億美元。而在今年三月初,VAST 才完成了 5000 萬美元的 A 輪融資。

提到 VAST,可能會有點陌生,但是 Tripo 3D 生成是不是很耳熟?我們之前分享的 Seedance 2.0 x GPT Image 2 兩大模型的組合玩法,就曾多次提到過利用 Tripo AI 將 GPT Image 2 生成的多視角圖片,轉(zhuǎn)成一個 3D 模型。


▲ Tripo 是 VAST 旗下的通用 3D 大模型

VAST 首席科學(xué)家曹炎培表示,從第一天開始,VAST 真正在做的,就是解鎖下一代互動內(nèi)容的底層基礎(chǔ)設(shè)施,也是為通用人工智能打造專屬世界底座。

這件事被拆成了兩步,第一步完成 「造萬物」;第二步實現(xiàn)動態(tài) 「造世界」,為用戶和智能體提供可演化、可試錯的完整虛擬環(huán)境。

造萬物,是用 AI 3D 生成那些符合管線標(biāo)準(zhǔn)的資產(chǎn);造世界,才是世界模型要干的事,理解空間尺度、狀態(tài)演化,從而支持多人交互。

單純的 3D 靜態(tài)資產(chǎn)撐不起一個可交互的世界,曹炎培認(rèn)為,資產(chǎn)只是「世界底層的狀態(tài)」,離一個會運轉(zhuǎn)的世界還差著一整套規(guī)則。

和五大門派都不一樣的地方在于,過去的世界模型把狀態(tài)和畫面壓在一個模型里一起預(yù)測,VAST 把這兩件事拆開,底層單獨維護(hù)一個世界狀態(tài),上層按需渲染畫面

這樣做的好處是,狀態(tài)獨立存在,物體離開鏡頭不會消失;一個狀態(tài)可以同時給多個人渲染不同視角,多人交互并發(fā)自然成立;用戶對世界的改變會真實留在狀態(tài)里,下一個進(jìn)來的人看到同樣的結(jié)果。

VAST 推出的 Project Eden,正是用這套邏輯把世界模型重做了一遍。它也成為全球首個允許對世界狀態(tài)進(jìn)行獨立維護(hù)與確定性控制的世界模型。

那問題也來了,世界模型的狀態(tài)和畫面為什么要拆開,又為什么是 VAST 先采取這樣的方式?

畫面流暢不等于世界在運轉(zhuǎn)

視頻生成做得更流暢,可以叫世界模型。靜態(tài) 3D 場景能走動,叫世界模型。能控制視角,也能叫世界模型。

世界模型這個詞,似乎什么都能往里裝了。

Google Genie 的演示視頻里,玩家在里面操控一個角色,往前走,畫面跟著生成。但可能一轉(zhuǎn)身,背后的場景就改變了,或者出現(xiàn)從沒存在過的東西,因為 Genie 是靠最近幾幀的記憶猜我們身后有什么。


▲ Genie 這一類世界模型,本質(zhì)上是生成了一段視覺上連貫的視頻

我們把這一類稱為視頻生成派,在他們的技術(shù)實現(xiàn)里,世界模型就是預(yù)測下一幀,給模型喂動作輸入,讓它生成接下來的畫面,反復(fù)接龍,就能模擬一個世界。

曹炎培管這種叫「一鏡到底」,空間、事件、視角、外觀全被壓進(jìn)一段自回歸視頻的歷史幀里。鏡頭一移開,那個位置的狀態(tài)沒人保管,等你回頭,模型只能靠 Transformer 里的 KV cache 重新幻想一遍。

說白了,它記住的不是世界,是幾幀畫面。

而另一類是李飛飛的 World Labs、騰訊的 HY World,可以被稱為空間智能派,能夠?qū)С隹蓮?fù)用的 3D 資產(chǎn)是這類模型最常見的特征。

他們嘗試先把三維空間構(gòu)建出來,讓 AI 真正理解幾何和物理關(guān)系,再談其他。

例如,World Labs 的 Marble 能生成一段有限范圍的世界,我們可以在里面自由游覽。在這個生成的固定世界里,視角一致性解決了,因為 3D 資產(chǎn)是靜態(tài)的。但同時,這個世界也丟失了時間維度,場景永遠(yuǎn)停在生成那一刻,沒有物理變化,沒有事件發(fā)生,沒有因果關(guān)系。


▲ 生成的世界是固定的,燈不會隨著時間的流逝熄滅,天也不會亮

我們能走進(jìn)去,但什么都改變不了,也沒有什么會因為我們的行為而變化。

對 VAST 來說,世界模型不能只是去生成像素,也不能只是一個靜態(tài)空間。

一個可交互的世界模型,必須有一個跨時間持續(xù)存在、能被多視角同時觀察和查詢的底層狀態(tài),而且這個狀態(tài)是在不斷被更新的。

像做大世界游戲一樣做世界模型

既然無法把空間、事件、視角等狀態(tài)壓縮進(jìn)單一的視覺信息里,那就徹底把它們拆開。

就像我們玩的大世界游戲一樣,游戲的服務(wù)器會維護(hù)著一套世界狀態(tài),誰在哪里、什么東西被打壞了、哪個寶箱被開啟了。我們的電腦屏幕只是基于這套狀態(tài),結(jié)合本地文件夾里上百 G 的游戲文件,做一次實時渲染。


地圖數(shù)據(jù)和畫面渲染是兩套完全分開的系統(tǒng),有人進(jìn)入我們的大世界,大家還是共享同一個靜態(tài)文件的底層世界,各自的畫面只是不同視角的渲染結(jié)果。

VAST Project Eden 做的,就是把這套邏輯用生成式 AI 重寫一遍。他們放棄了傳統(tǒng)模型大一統(tǒng)的黑盒邏輯,設(shè)計了一套「狀態(tài)與渲染原生解耦」的三層算法結(jié)構(gòu)。

底層是結(jié)構(gòu)化狀態(tài),管的是這個世界里有什么、發(fā)生了什么——場景幾何、物體身份、事件邏輯,完全獨立于任何相機(jī)視角。當(dāng)玩家在世界模型里做出任何行為動作,系統(tǒng)首先更新的就是這套底層狀態(tài)。

中間是轉(zhuǎn)換層,它會根據(jù)「當(dāng)前是誰在觀察、從哪個視角觀察」,把世界狀態(tài)轉(zhuǎn)換成一組局部條件信息。像是做了這個動作之后,這個視角下能看到哪些物體、它們的大致空間關(guān)系、當(dāng)前發(fā)生了哪些事件變化等。

上層才是生成式渲染,基于這些條件,把畫面真正「畫」出來,補足光照、材質(zhì)、動態(tài)細(xì)節(jié)。

這么一分拆,視頻模型的職責(zé)就只剩一件事:當(dāng)一個高質(zhì)量的渲染器。它不用記住整個世界,也不用猜某個物體還在不在,那些都交給底層狀態(tài)。它擅長的本來就是畫得好看,現(xiàn)在讓它專心畫得好看就行。

當(dāng)世界模型開始維護(hù)一個持續(xù)存在的底層狀態(tài)后,訓(xùn)練數(shù)據(jù)也跟著變了。

在 Project Eden 的定義里,真正適合訓(xùn)練世界模型的數(shù)據(jù),得同時包含兩層信息:底層的推演狀態(tài),和高質(zhì)量的視覺畫面。兩層對不齊,就不算「原生數(shù)據(jù)」。

數(shù)據(jù)從哪來?

VAST 利用 Tripo 長期積累的 3D 基礎(chǔ)模型能力,對海量的互聯(lián)網(wǎng) 2D 視頻進(jìn)行反向解構(gòu),恢復(fù)深度、相機(jī)位姿、幾何軌跡等信息,重新還原背后的空間狀態(tài)。

曹炎培直言,如果沒有這套 3D 理解和生成能力,「我們可能都沒法開始做世界模型」。

另一方面,從游戲引擎中找到物體坐標(biāo)、碰撞關(guān)系、動作輸入等合成數(shù)據(jù),形成「狀態(tài)-結(jié)果」的完全對應(yīng)數(shù)據(jù),模型便能學(xué)到,一個動作發(fā)生之后,世界狀態(tài)會如何演化。

互聯(lián)網(wǎng)視頻負(fù)責(zé)泛化和廣度,引擎數(shù)據(jù)負(fù)責(zé)精準(zhǔn)和控制,缺了哪一頭都不成立。

這或許是未來的 AI 世界

當(dāng)世界狀態(tài)成為一個持續(xù)存在的獨立系統(tǒng)后,這種架構(gòu)層面的差異,在能力層面直接體現(xiàn)出來。

最明顯的變化就是環(huán)境持久化。用戶在 Project Eden 里進(jìn)入一個場景,往前走或是做出其他動作,都是在原有的場景上進(jìn)行活動。底層狀態(tài)一直在那里,從沒消失過,不需要從歷史幀重建。

這件事聽起來平淡,對視頻生成路線卻是一道至今難以邁過的坎。

多人共享同一個世界,也是同樣的道理。兩個玩家進(jìn)入同一個底層狀態(tài),玩家 A 推動箱子到達(dá)了點位,玩家 B 看到的也是同步的箱子位置。在這套解耦架構(gòu)里,多個玩家共享的是同一個世界底座,狀態(tài)只有一份,渲染各算各的。


根據(jù)一些 Demo 的表現(xiàn),VAST 已經(jīng)跑通了兩個玩家共同推箱子、兩輛賽車在同一賽道競速(不同屏幕)的場景。在純視頻框架下,幾乎沒有辦法做這件事,它必須依靠一個唯一的全局狀態(tài)。


打靶的例子更能說明問題。當(dāng)玩家用水槍發(fā)射,系統(tǒng)可以確定性地判斷當(dāng)前朝向和靶子的相對位置,精確計算是否擊中,記錄得分,這個結(jié)果永久留在狀態(tài)里。



同樣一件事丟給視頻生成,它能生成一段「水柱擊中靶子」的畫面,卻無法把這個結(jié)果可靠地存下來。

視頻生成模型擅長的是像不像,不是對不對。世界模型要的恰恰是后者,曹炎培說,一個模型如果沒法對動作做出正確的預(yù)測和推演,「也很難叫它世界模型」。

還有動作類型的泛化。以往大多數(shù)世界模型能支持的動作,說白了就是上下左右加跳躍,方向鍵能做的那幾種。

在 Project Eden 的 Demo 里還有趕羊、滅火、劃船這類動作。這背后同樣是解耦架構(gòu)帶來的訓(xùn)練效率優(yōu)勢,狀態(tài)推演只需要學(xué)「給定這個動作,下一個狀態(tài)是什么」,不用同時學(xué)「這個過程看起來怎樣」,比攪在一起學(xué)省力得多。




這些能力拼在一起,才像一個真正在運轉(zhuǎn)的世界,而不是一段畫質(zhì)很高的動態(tài)視頻。

Eden 的架構(gòu),為世界模型提供了新可能

雖然 Project Eden 只是 VAST 團(tuán)隊提出的一次世界模型研究預(yù)覽,但其背后的架構(gòu)選擇,為行業(yè)提供了一條值得長期關(guān)注的探索方向。

世界模型這個詞現(xiàn)在人人都在說,但說的不是同一件事。誰能做持久化、誰能做多人、誰能高效拓展,除了有算力和融資量的因素,路線本身也在篩選玩家。

純視頻路線的世界模型,消耗的算力可能是生成一段 Sora 視頻的成百倍,結(jié)局可能會像 Sora 一樣在商業(yè)上此路不通。

但如果狀態(tài)維護(hù)放云端,畫面渲染做到端側(cè),像本地圖形渲染一樣,用戶不必為每一幀付費,事情就不一樣了。

VAST 提到他們現(xiàn)有的 3D 生成技術(shù)積累,恰好是訓(xùn)練世界模型數(shù)據(jù)的核心來源。用 3D 基礎(chǔ)模型能力對海量互聯(lián)網(wǎng)視頻進(jìn)行反向解構(gòu),提取深度和幾何軌跡,把普通視頻轉(zhuǎn)化成帶狀態(tài)標(biāo)注的訓(xùn)練數(shù)據(jù)。

而隨著 Project Eden 的推進(jìn),在未來,隨著多人并發(fā)問題在工程層面進(jìn)一步解決,它或許還將顛覆現(xiàn)有的傳統(tǒng) DCC 工具,如 Blender,與類似 UE、Unity 等游戲引擎。

世界模型將不再按單次生成收費,是作為基礎(chǔ)設(shè)施在內(nèi)容分發(fā)、運行時進(jìn)行,類似游戲引擎或云服務(wù)商的座席模式。

一方面,它是一個 AI 原生的沙盒平臺,用戶只需要通過自然語言或簡易動作,就能一鍵創(chuàng)作出可供多人共享的、具備物理邏輯的互動數(shù)字世界,極大地降低了內(nèi)容創(chuàng)作的門檻。

VAST 想做的,是把造世界這件事的門檻,壓到拍照那么低。類似于 UGC 互動內(nèi)容平臺,生成的世界也可能像短視頻一樣進(jìn)入我們的生活,成為新的互動娛樂生態(tài)。

另一方面針對科研和產(chǎn)業(yè),它能夠提供具備完整物理規(guī)則、長時序一致性、且可自由干預(yù)的仿真環(huán)境,能成為適配具身智能訓(xùn)練與性能評測的高質(zhì)量仿真基座。

世界模型,就這樣越來越接近一個真正持續(xù)運轉(zhuǎn)的世界底座。

曹炎培在內(nèi)部把路線劃成三個里程碑:

第一步,驗證狀態(tài)推演和畫面呈現(xiàn)真能完美解耦,Project Eden 放出的 Demo 就是在交這份答卷;

第二步,攻克狀態(tài)預(yù)測的泛化,讓模型對「彈指打碎一面墻」這種泛化的動作也能推演出自洽的結(jié)果;

第三步,才是多人并發(fā)和推理成本這些工程上的硬骨頭。至于真正的商業(yè)化,他預(yù)計是一件非常中長期的事。

與最早人們還會爭論 AI 生成的圖片/視頻像不像,到現(xiàn)在 AI 可以一次性直出,海報、宣傳視頻,AI 都能搞定這件事一樣,世界模型大概也在這條路上,從誰的畫面更真實,變成誰的世界能夠持續(xù)運轉(zhuǎn)、更穩(wěn)定承載多人交互,以及沉淀越來越多用戶創(chuàng)造的內(nèi)容。

從預(yù)測下一幀像素,到推演下一個狀態(tài),世界模型的終點開始清晰了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1-3輸日本!林詩棟爆冷,溫瑞博3-1大逆轉(zhuǎn),蒯曼+石洵瑤晉級16強

1-3輸日本!林詩棟爆冷,溫瑞博3-1大逆轉(zhuǎn),蒯曼+石洵瑤晉級16強

體育就你秀
2026-06-19 21:03:11
王者歸來!莊宇珊全能封神,中國女排發(fā)扣攔皆出色,3-0復(fù)仇法國

王者歸來!莊宇珊全能封神,中國女排發(fā)扣攔皆出色,3-0復(fù)仇法國

金毛愛女排
2026-06-19 22:41:38
哈?Q1狂燒250億!OpenAI財報泄露全網(wǎng)炸鍋

哈?Q1狂燒250億!OpenAI財報泄露全網(wǎng)炸鍋

量子位
2026-06-18 13:10:38
廣西29歲美女“奇跡木木”去世!前1天熬夜做陪玩,收費20遭跑單

廣西29歲美女“奇跡木木”去世!前1天熬夜做陪玩,收費20遭跑單

她時尚丫
2026-06-19 20:36:41
2026下半年!算力金屬!被嚴(yán)重低估的10大王者!(最新名單)

王二哥老搞笑
2026-06-19 07:58:58

相差15歲姐弟戀!00后體育生愛上重慶單親媽媽,喜歡叫對方姐姐

相差15歲姐弟戀!00后體育生愛上重慶單親媽媽,喜歡叫對方姐姐

那年秋天
2026-05-03 11:50:10
iPhone 18 Pro 最新爆料炸了!蘋果這次要把安卓打懵了!

iPhone 18 Pro 最新爆料炸了!蘋果這次要把安卓打懵了!

明美無限
2026-06-19 20:15:40
勃列日涅夫的曾孫被俘,俄上將發(fā)出終極警示

勃列日涅夫的曾孫被俘,俄上將發(fā)出終極警示

西樓飲月
2026-06-19 18:18:53
《侏羅紀(jì)世界3》為史上最貴電影

《侏羅紀(jì)世界3》為史上最貴電影

尺素a
2026-06-19 17:21:55
四川宜賓警方通報“159瓶茅臺被跨省扣押3年后多瓶失蹤”

四川宜賓警方通報“159瓶茅臺被跨省扣押3年后多瓶失蹤”

界面新聞
2026-06-18 23:05:42
抄社保的底!這39股社保剛新進(jìn),股價就暴跌,最高被套40%

抄社保的底!這39股社保剛新進(jìn),股價就暴跌,最高被套40%

鵬哥投研
2026-06-19 11:18:58
原本的劇情開始反轉(zhuǎn):南方某船廠的核潛艇,疑似已經(jīng)裝上了圍殼?

原本的劇情開始反轉(zhuǎn):南方某船廠的核潛艇,疑似已經(jīng)裝上了圍殼?

國平視野
2026-06-19 15:05:43
表情包刷屏全網(wǎng) “魔人布?xì)W”哈蘭德成世界杯最火球員

表情包刷屏全網(wǎng) “魔人布?xì)W”哈蘭德成世界杯最火球員

3DM游戲
2026-06-19 14:35:01
被萬斯激怒了!以軍連夜發(fā)動進(jìn)攻:以慘重傷亡代價攪黃日內(nèi)瓦談判

被萬斯激怒了!以軍連夜發(fā)動進(jìn)攻:以慘重傷亡代價攪黃日內(nèi)瓦談判

蕭獻(xiàn)記錄風(fēng)土人情
2026-06-19 22:18:02
中東,突發(fā)大消息!以色列發(fā)動空襲!特朗普最新發(fā)聲

中東,突發(fā)大消息!以色列發(fā)動空襲!特朗普最新發(fā)聲

證券時報
2026-06-19 15:05:17
離開你都奪冠了,和你組隊卻一無所獲!6年原地踏步,你該改變了

離開你都奪冠了,和你組隊卻一無所獲!6年原地踏步,你該改變了

老梁體育漫談
2026-06-19 00:13:49
蔣勤勤驕傲?xí)裢蓿匣s獲海淀區(qū)三好學(xué)生,被加州大學(xué)伯克利錄取

蔣勤勤驕傲?xí)裢?,老虎榮獲海淀區(qū)三好學(xué)生,被加州大學(xué)伯克利錄取

音樂時光的娛樂
2026-06-19 11:16:17
2026車市最大騙局:省油電車全虧錢,爛大街油車才是真贏家

2026車市最大騙局:省油電車全虧錢,爛大街油車才是真贏家

民間胡扯老哥
2026-05-24 13:40:40
難怪蒙古人要殺光完顏氏,你不看靖康之恥有多慘?皇帝輪番受辱

難怪蒙古人要殺光完顏氏,你不看靖康之恥有多慘?皇帝輪番受辱

史筆似塵鉤
2026-06-10 20:48:19
曝霍啟山將和娜然結(jié)婚,女方過往黑料被扒,曾是房祖名女友?

曝霍啟山將和娜然結(jié)婚,女方過往黑料被扒,曾是房祖名女友?

手工制作阿殲
2026-06-20 01:22:09
2026-06-20 02:16:49
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38991文章數(shù) 2601941關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
時尚
健康
旅游
數(shù)碼

教育要聞

高考送考就是全社會對孩子最大的溺愛!

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

吃粽子的3條保胃法則,消化科醫(yī)生推薦

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

數(shù)碼要聞

SSD太貴換回HDD:機(jī)械硬盤價格連漲5個季度!

無障礙瀏覽 進(jìn)入關(guān)懷版