免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

智源大會(huì) | 天工AI重新定義世界模型,公布Matrix-Game 3.5 最新技術(shù)突破

0
分享至

6月12日-13日,第8屆智源大會(huì)在北京舉行。本屆大會(huì)吸引了2位圖靈獎(jiǎng)得主、8位院士、30位30歲以下青年科學(xué)家、40余位AI企業(yè)CEO及創(chuàng)始人等參會(huì),圍繞Agent、世界模型、具身智能、AI自進(jìn)化與AI安全等前沿議題展開討論。

其中世界模型成為本屆大會(huì)最受關(guān)注的議題之一,來自具身智能、機(jī)器人控制、游戲引擎、物理AI基礎(chǔ)設(shè)施等不同領(lǐng)域的研究者提出了各自的技術(shù)路線,共同探討世界模型相關(guān)深度議題。


昆侖萬維旗下Skywork首席科學(xué)家劉揚(yáng)受邀出席6月13日的世界模型分論壇,發(fā)表演講以及參與圓桌討論。在演講環(huán)節(jié),他以《Matrix-Game:長時(shí)序記憶下的實(shí)時(shí)流式交互式世界模型》為主題,系統(tǒng)闡述了Matrix-Game的研發(fā)歷程、最新進(jìn)展,基于對(duì)世界模型的深度思考,他提出了“下一幀狀態(tài)生成和動(dòng)作生成應(yīng)該進(jìn)行聯(lián)合訓(xùn)練”的全新框架。此外,他首次公布了 Matrix-Game 3.5 的核心技術(shù)突破。Matrix-Game 3.5 計(jì)劃于2026年7月正式發(fā)布,團(tuán)隊(duì)也將在近期發(fā)布包含更多技術(shù)細(xì)節(jié)的報(bào)告。

1.定義世界模型:從“預(yù)測下一幀”到“狀態(tài)-動(dòng)作聯(lián)合生成”

當(dāng)前,全球世界模型賽道呈現(xiàn)技術(shù)路線快速分化的格局。盡管路線各異,一個(gè)共識(shí)正在浮現(xiàn):世界模型已從純學(xué)術(shù)命題演進(jìn)為機(jī)器人、仿真、游戲與通用AI底層能力的競爭。 在國內(nèi),昆侖萬維的 Matrix-Game 是該賽道中起步最早、系統(tǒng)化程度最高的力量之一。


從技術(shù)落地來看,全球世界模型賽道的主流技術(shù)路線已逐漸清晰:先進(jìn)行大規(guī)模雙向DiT預(yù)訓(xùn)練,再通過Self-Forcing或Causal Forcing蒸餾為因果模型,配合KVCache實(shí)現(xiàn)流式推理,最終達(dá)到25FPS的實(shí)時(shí)交互水平,同時(shí)輔以記憶注入機(jī)制解決長時(shí)程一致性問題。

昆侖萬維的Matrix-Game 2.0正是這一技術(shù)范式中首個(gè)開源的實(shí)現(xiàn)方案,而Matrix-Game 3.0則首次系統(tǒng)性地將記憶問題納入開源解決方案。目前,Skywork的Matrix團(tuán)隊(duì)正全力推進(jìn)從3.0到3.5的升級(jí)迭代,核心目標(biāo)在于攻克世界模型長時(shí)序生成中的記憶瓶頸,并實(shí)現(xiàn)5B參數(shù)模型在720P分辨率下的實(shí)時(shí)生成能力。


基于長期的研究,劉揚(yáng)指出,“世界模型”一詞在業(yè)內(nèi)的定義混亂程度遠(yuǎn)超普遍認(rèn)知——視頻生成、3D表征、交互式模擬器等不同方向的研究者所指并非同一對(duì)象。


他在演講中提出了自己的理解框架:

理解當(dāng)下狀態(tài):這超越純視覺信息。一個(gè)真正的世界模型需要理解物體級(jí)別的物理屬性——墻是否可穿越、水的溫度等。純視覺信號(hào)天然無法覆蓋這些信息。

預(yù)測下一個(gè)狀態(tài):在充分理解當(dāng)前狀態(tài)的基礎(chǔ)上,模型需對(duì)世界的后續(xù)演化做出推斷。

將預(yù)測結(jié)果渲染呈現(xiàn):使開發(fā)者和用戶能夠觀測“下一幀”。

然而,團(tuán)隊(duì)的思考并未停留于此。Matrix Game的實(shí)際訓(xùn)練揭示了一個(gè)更關(guān)鍵的結(jié)論:狀態(tài)的預(yù)測與動(dòng)作的生成應(yīng)當(dāng)聯(lián)合訓(xùn)練,而非分而治之。

當(dāng)我們把下一幀狀態(tài)的生成和動(dòng)作的生成進(jìn)行聯(lián)合訓(xùn)練,發(fā)現(xiàn)無論對(duì)狀態(tài)理解還是狀態(tài)和動(dòng)作的預(yù)測,都會(huì)帶來顯著的提升。

這意味著他眼中更完整的世界模型,是對(duì)狀態(tài)與動(dòng)作的聯(lián)合理解與聯(lián)合生成——而非單向的觀測世界、預(yù)測下一幀。根據(jù)具體應(yīng)用場景,模型可以側(cè)重輸出狀態(tài)(用于交互模擬器)或側(cè)重輸出動(dòng)作(用于機(jī)器人控制)。這一統(tǒng)一框架是Skywork團(tuán)隊(duì)對(duì)世界模型認(rèn)知的核心升級(jí)。

2.Matrix-Game 1.0-3.5:以游戲?yàn)榍锌?,通向通用交互世?/b>

自研發(fā)之初,團(tuán)隊(duì)選擇游戲作為世界模型訓(xùn)練與交互驗(yàn)證的切入點(diǎn)。他認(rèn)為,游戲天然是世界模型的完美載體。給定視覺輸入和當(dāng)前狀態(tài),接受玩家動(dòng)作指令,輸出下一幀——這一循環(huán)與世界模型的核心任務(wù)同構(gòu)。同時(shí),游戲引擎能夠在可控條件下生成高質(zhì)量數(shù)據(jù),并精確記錄視覺畫面與對(duì)應(yīng)動(dòng)作,這是自然界視頻數(shù)據(jù)無法替代的。

自2024年下半年啟動(dòng)研發(fā)以來,Matrix Game在不到兩年內(nèi)完成了多次關(guān)鍵跨越:

2025年3月,發(fā)布Matrix-Game 1.0:成為最早公開的可交互世界模型之一。

2025年8月,發(fā)布Matrix-Game 2.0:業(yè)界首個(gè)實(shí)現(xiàn)分鐘級(jí)實(shí)時(shí)長序列交互的世界模型,單卡B100、720P@25FPS,從概念驗(yàn)證走向工業(yè)可部署,業(yè)界首個(gè)開源方案。Matrix-Game 2.0獲得了頂級(jí)學(xué)術(shù)團(tuán)隊(duì)的高度認(rèn)可,DiT(Diffusion Transformer)作者、紐約大學(xué)助理教授謝賽寧團(tuán)隊(duì)基于Matrix-Game 2.0開源底座,發(fā)布了全球首個(gè)多人視頻世界模型Solaris,充分彰顯了Matrix-Game 2.0在基礎(chǔ)模型領(lǐng)域的技術(shù)影響力與開源生態(tài)價(jià)值。

2026年3月,發(fā)布Matrix-Game 3.0:5B參數(shù)蒸餾模型實(shí)現(xiàn)720P@40FPS實(shí)時(shí)生成,補(bǔ)齊了世界模型公認(rèn)的三大短板——記憶(記不住)、長時(shí)程(跑不久)、實(shí)時(shí)性(跑不動(dòng)),躋身全球第一梯隊(duì)。

Matrix Game-3.5:本次演講首次系統(tǒng)披露3.5的核心技術(shù)突破。該版本的最大變化是從游戲場景向真實(shí)場景全面擴(kuò)展,支持多風(fēng)格動(dòng)態(tài)切換與指令控制,并引入NPC交互能力。同時(shí),本版本全新升級(jí)了長時(shí)記憶能力。

他用一句話概括了對(duì)未來的判斷:“世界模型不應(yīng)只是一個(gè)仿真器,而應(yīng)是一個(gè)聯(lián)合訓(xùn)練的統(tǒng)一模型——對(duì)狀態(tài)與動(dòng)作同時(shí)理解、同時(shí)生成,根據(jù)應(yīng)用場景自由組合?!?/b>

3.突破世界模型的數(shù)據(jù)瓶頸:構(gòu)建無限數(shù)據(jù)引擎

劉揚(yáng)在演講中強(qiáng)調(diào),數(shù)據(jù)是決定世界模型能力的下限。團(tuán)隊(duì)在實(shí)踐中發(fā)現(xiàn),傳統(tǒng)數(shù)據(jù)采集方式存在三大痛點(diǎn):人工采集成本高昂、實(shí)機(jī)采集耗時(shí)耗力、效率極低,無法滿足大模型規(guī)?;枨?。而世界模型需要全新的數(shù)據(jù)生成方式 —— 能夠無限生成帶物理因果關(guān)系的數(shù)據(jù),實(shí)現(xiàn)全自動(dòng)、高效率、低成本。


為此,Skywork團(tuán)隊(duì)構(gòu)建了三條自動(dòng)化數(shù)據(jù)生產(chǎn)管線,輸出 Video + Pose + Action + Language 的高質(zhì)量世界模型訓(xùn)練數(shù)據(jù)。截至目前,數(shù)據(jù)引擎已產(chǎn)出:

  • 500萬+ 高質(zhì)量視頻切片
  • 1萬+ 有效訓(xùn)練小時(shí)數(shù)
  • 1200+ 覆蓋游戲場景數(shù)

這一無限數(shù)據(jù)引擎的具體實(shí)現(xiàn)包括三個(gè)層面:

第一,基于Unreal Engine 5的自主探索管線。團(tuán)隊(duì)在UE5中搭建常見游戲場景,部署RL Agent進(jìn)行自由探索,在探索過程中實(shí)現(xiàn)毫秒級(jí)同步采集,完整記錄視覺畫面、動(dòng)作狀態(tài)及一系列相關(guān)語義信息。

第二,跨游戲自動(dòng)化控制與探索管線。覆蓋《GTA V》《荒野大鏢客2》《賽博朋克2077》等主流3A游戲,實(shí)現(xiàn)跨游戲的自動(dòng)控制、自動(dòng)探索、自動(dòng)錄制與自動(dòng)標(biāo)注。

第三,開放平臺(tái)視頻自動(dòng)挖掘管線。從開放平臺(tái)自動(dòng)獲取游戲視頻,通過VLM(視覺大模型)評(píng)分篩選高質(zhì)量片段,自動(dòng)完成鏡頭切分、過濾與結(jié)構(gòu)化標(biāo)注。

4.Matrix-Game 實(shí)踐中的關(guān)鍵挑戰(zhàn)與技術(shù)突破

本次演講中花了大量篇幅闡述訓(xùn)練過程中遭遇的獨(dú)特難題,這些細(xì)節(jié)在論文中通常不會(huì)呈現(xiàn),也是最引發(fā)現(xiàn)場觀眾關(guān)注的部分,為業(yè)內(nèi)對(duì)世界模型的訓(xùn)練提供了諸多實(shí)戰(zhàn)經(jīng)驗(yàn)參考。


挑戰(zhàn)一:動(dòng)作信號(hào)與視覺畫面缺乏一一對(duì)應(yīng)

大規(guī)模爬取游戲視頻數(shù)據(jù)在理論上具有吸引力,但實(shí)際操作中發(fā)現(xiàn):游戲畫面向右上45度偏轉(zhuǎn),可能由鼠標(biāo)、鍵盤或鍵鼠組合完成——同一視覺變化對(duì)應(yīng)多種動(dòng)作,模型學(xué)習(xí)時(shí)會(huì)陷入嚴(yán)重歧義。“爬數(shù)據(jù)本身并不能解決動(dòng)作標(biāo)注的問題。我們需要大量主動(dòng)構(gòu)建數(shù)據(jù)場景,明確告訴模型:在這種情況下,物理規(guī)則是什么?!?/b>

挑戰(zhàn)二:模型理解動(dòng)作指令,卻不理解動(dòng)作的物理后果

以《荒野大鏢客》為例,模型很早就能理解“往前走”這一動(dòng)作指令,但當(dāng)游戲主角行至墻前,模型無法認(rèn)知“墻不可穿越”,會(huì)直接生成穿墻畫面。理解動(dòng)作的含義與理解該動(dòng)作在物理世界中產(chǎn)生的結(jié)果,是兩項(xiàng)不同的任務(wù)。

為此,團(tuán)隊(duì)建立了一套主動(dòng)數(shù)據(jù)標(biāo)注體系,大量手工構(gòu)建邊界場景,將這些“昂貴但不可跳過”的物理知識(shí)注入訓(xùn)練數(shù)據(jù)。

挑戰(zhàn)三:注入控制參數(shù)會(huì)破壞原始視頻分布

從1.0到3.0版本,團(tuán)隊(duì)一直將動(dòng)作控制信號(hào)作為額外參數(shù)注入模型(鼠標(biāo)信號(hào)通過Self-Attention注入,鍵盤信號(hào)通過Cross-Attention注入)。這一直觀做法帶來了持續(xù)代價(jià):每次加入?yún)?shù)都會(huì)破壞模型對(duì)原始視頻分布的認(rèn)知,需要大量額外訓(xùn)練來“修復(fù)”基礎(chǔ)能力。

3.5版本對(duì)此做出了根本性改變:不再引入額外參數(shù),轉(zhuǎn)而采用PRoPE(Projective Position Encoding)機(jī)制,通過相機(jī)投影矩陣讓模型直接感知相機(jī)相對(duì)位姿。這不僅降低了對(duì)原始視頻分布的破壞,也極大增強(qiáng)了泛化能力。

挑戰(zhàn)四:記憶檢索方式?jīng)Q定長時(shí)程一致性的上限

早期版本的記憶機(jī)制是原樣存儲(chǔ)歷史幀,推理時(shí)檢索相關(guān)幀并拼接到上下文中。這一方法存在明顯問題:占用大量上下文窗口、跨幀拼接時(shí)易出現(xiàn)畫面沖突、難以靈活更新。

3.5版本進(jìn)行了架構(gòu)層面的升級(jí):將歷史幀切分為三維坐標(biāo)系下的空間塊(spatial tokens),檢索時(shí)按空間位置匹配,再重組成當(dāng)前視角的記憶圖。這一設(shè)計(jì)帶來三重優(yōu)勢:畫面一致性更高、相機(jī)軌跡保持更穩(wěn)定,以及記憶可隨時(shí)更新、替換、刪除,靈活性大幅提升。

劉揚(yáng)展望道,Skywork團(tuán)隊(duì)的下一個(gè)目標(biāo)是構(gòu)建原生統(tǒng)一的世界模型框架——讓狀態(tài)理解與動(dòng)作生成從串聯(lián)走向聯(lián)合,從分裂走向統(tǒng)一。以此為支點(diǎn),團(tuán)隊(duì)將推動(dòng)世界模型跨越游戲的邊界,邁向機(jī)器人控制與物理世界交互的廣闊疆域。他相信,世界模型終將成為通用人工智能的關(guān)鍵基石,重新定義智能體與物理世界的每一次交互。

在這條道路上,昆侖萬維將持續(xù)深耕,步履不停。

昆侖萬維天工A

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海交大:骨質(zhì)疏松的人,需要的不是鈣片,而是每天堅(jiān)持這8習(xí)慣

上海交大:骨質(zhì)疏松的人,需要的不是鈣片,而是每天堅(jiān)持這8習(xí)慣

路醫(yī)生健康科普
2026-06-19 17:05:03
歌星李瓊:我這輩子最后悔的事兒,就是讓央視主持人朱迅替我報(bào)幕

歌星李瓊:我這輩子最后悔的事兒,就是讓央視主持人朱迅替我報(bào)幕

蹲坑看世界
2026-06-17 15:30:50
萬斯警告以色列別不知好歹:特朗普是全球唯一同情以色列的國家元首;以色列的防御武器三分之二由美國制造、美國納稅人出資

萬斯警告以色列別不知好歹:特朗普是全球唯一同情以色列的國家元首;以色列的防御武器三分之二由美國制造、美國納稅人出資

大象新聞
2026-06-19 13:45:24
拒絕3年1.82億合同!湖人隊(duì)徹底攤牌,詹姆斯最理想下家或出爐

拒絕3年1.82億合同!湖人隊(duì)徹底攤牌,詹姆斯最理想下家或出爐

兵哥籃球故事
2026-06-19 15:39:53
金?卡戴珊回洛杉磯出街!男友風(fēng)襯衫搭黑絲又美又颯

金?卡戴珊回洛杉磯出街!男友風(fēng)襯衫搭黑絲又美又颯

述家娛記
2026-06-12 10:17:00
56歲出軌女人自述:我與他偷偷來往多年,但丈夫一直沒有發(fā)現(xiàn)

56歲出軌女人自述:我與他偷偷來往多年,但丈夫一直沒有發(fā)現(xiàn)

千秋歷史
2026-05-27 19:44:17
英偉達(dá)掀起GPU取代5G基站芯片革命:超130家企業(yè)站隊(duì)支持

英偉達(dá)掀起GPU取代5G基站芯片革命:超130家企業(yè)站隊(duì)支持

快科技
2026-06-18 14:33:09
外交部發(fā)言人就韓國外交部官員完整公開重申中韓建交聯(lián)合公報(bào)涉臺(tái)表述答記者問

外交部發(fā)言人就韓國外交部官員完整公開重申中韓建交聯(lián)合公報(bào)涉臺(tái)表述答記者問

澎湃新聞
2026-06-19 00:39:26
今天的伊朗再次證明:若中美開戰(zhàn),75年前抗美援朝是最佳方案!

今天的伊朗再次證明:若中美開戰(zhàn),75年前抗美援朝是最佳方案!

麓谷隱士
2026-06-06 09:31:52
菲律賓政壇劇變:13票贊成,菲或向俄求助

菲律賓政壇劇變:13票贊成,菲或向俄求助

鐵血江湖人
2026-06-20 03:07:41
“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺(tái)銘,如今怎么樣了

“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺(tái)銘,如今怎么樣了

秋姐居
2026-06-17 19:28:51
幫日本“續(xù)命”翻車!韓國自作聰明中轉(zhuǎn)鎢粉,被中方一招精準(zhǔn)鎖死

幫日本“續(xù)命”翻車!韓國自作聰明中轉(zhuǎn)鎢粉,被中方一招精準(zhǔn)鎖死

小馬姨
2026-06-19 13:15:40
中國停發(fā)印度簽證?真相究竟是怎樣的?

中國停發(fā)印度簽證?真相究竟是怎樣的?

輝哥說動(dòng)漫
2026-06-19 09:35:44
蒙特拉:沒想到批評(píng)聲會(huì)到這種程度,我們應(yīng)得到更多尊重

蒙特拉:沒想到批評(píng)聲會(huì)到這種程度,我們應(yīng)得到更多尊重

懂球帝
2026-06-19 14:16:47
虎撲網(wǎng)友深夜求助:這人到底是誰?

虎撲網(wǎng)友深夜求助:這人到底是誰?

影視情報(bào)室
2026-06-19 00:23:46
爪哇是僅次于日本,與中國有血海深仇的鄰國

爪哇是僅次于日本,與中國有血海深仇的鄰國

一曲一場談
2026-06-19 13:56:06
墻倒眾人扶,沒想到,曾被人民日報(bào)點(diǎn)名表揚(yáng)的李維剛,如今更牛了

墻倒眾人扶,沒想到,曾被人民日報(bào)點(diǎn)名表揚(yáng)的李維剛,如今更牛了

趣文說娛
2026-06-17 21:27:16
國乒5人晉級(jí)16強(qiáng):陳熠輸日本二線林詩棟一輪游,1/8決賽對(duì)陣出爐

國乒5人晉級(jí)16強(qiáng):陳熠輸日本二線林詩棟一輪游,1/8決賽對(duì)陣出爐

排球黃金眼
2026-06-20 04:31:03
俞敏洪拋出驚人言論:我有兩個(gè)大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

俞敏洪拋出驚人言論:我有兩個(gè)大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

心理觀察局
2026-06-03 07:17:10
宋江喝下毒酒時(shí)才明白:真正要他命的不是皇帝,而是一個(gè)已死之人

宋江喝下毒酒時(shí)才明白:真正要他命的不是皇帝,而是一個(gè)已死之人

青青會(huì)講故事
2025-10-04 10:25:03
2026-06-20 06:08:49
投資者網(wǎng) incentive-icons
投資者網(wǎng)
相信促進(jìn)信息透明是最好的服務(wù)
23592文章數(shù) 97249關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯-美國2-0澳大利亞 提前一輪小組出線

頭條要聞

世界杯-美國2-0澳大利亞 提前一輪小組出線

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

手機(jī)
游戲
健康
旅游
房產(chǎn)

手機(jī)要聞

賣爆了!小米 17T 系列四天熱銷 7 萬臺(tái),首周預(yù)估破 10 萬臺(tái),爭霸中端

任天堂完全獨(dú)占新游開預(yù)購!7月23日發(fā)售 女主好性感

吃粽子的3條保胃法則,消化科醫(yī)生推薦

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

無障礙瀏覽 進(jìn)入關(guān)懷版