免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MBench: 清華x騰訊聯(lián)合定義視頻世界模型的長期記憶能力

0
分享至





隨著視頻生成技術的發(fā)展,模型正在從短視頻片段合成,向流式長視頻生成演進。然而,僅僅做到視覺上的逼真是不夠的。一個功能完備的視頻世界模型,必須能夠在長時序交互中保持穩(wěn)定的內部狀態(tài),并遵循真實世界的物理定律與邏輯規(guī)則。

為了系統(tǒng)化地量化和評估這一核心能力,清華大學與騰訊微信視覺團隊推出了MBench—— 一個專門針對流式視頻生成模型和世界模型記憶能力的評測基準。



  • 項目主頁: https://peanutup.github.io/MBench-project/
  • 代碼倉庫: https://github.com/study-overflow/MBench
  • 排行榜鏈接:https://huggingface.co/spaces/study-overflow/MBench_Leaderboard

為什么關注 “記憶能力”?

雖然現(xiàn)有的視頻生成技術已經(jīng)可以合成視覺上可信的視頻片段,但在走向長視頻生成和功能性的世界模擬時,一個根本性的挑戰(zhàn)依然存在:模型必須能夠忠實地維持現(xiàn)實世界的視覺特征、語義規(guī)則、內在動力學和物理規(guī)律,并可靠地支持長時序的預測、推理與交互。如果缺乏這種能力,隨著生成時間的延長或交互的增加,視頻往往會出現(xiàn)物體和人物視覺特征突變、場景結構崩塌或因果關系錯誤等現(xiàn)象。

這種從 “視覺合成” 向 “世界建?!?的跨越,本質上需要模型具備長期記憶能力,以維持內部世界狀態(tài)在長時序和復雜交互中的穩(wěn)定性與一致性。

然而,當前的視頻生成評測基準(如 VBench 等)主要側重于單次短視頻生成的視覺質量、運動連貫性或文本對齊。這些指標能夠衡量生成的視頻 “看起來真不真”,卻忽略了對世界 “持久屬性” 保留能力的量化。為了填補這一空白,系統(tǒng)性地衡量模型能否真正記住并模擬物理世界,MBench 首次將視頻和世界模型在長時序下的記憶能力作為核心觀測對象進行了專項基準測試。



MBench 和主流視頻世界模型 benchmark 的比較

MBench 的多維度架構

MBench 基于 1040 個案例,將記憶能力解構為三個互補的核心維度,并進一步細分為 12 個可量化的子維度,涵蓋了從靜態(tài)屬性到動態(tài)因果的全方位記憶要求:



MBench 的評測維度劃分

  • 實體一致性 (Entity Consistency):

實體一致性關注模型保留個體參與者持久身份和屬性的能力。包括物體一致性(幾何、紋理)和人類一致性(身份特征、外觀細節(jié))。簡單來說,就是當一個人或物體被遮擋、離開畫面再回來時,它的樣子、穿著、特征是否保持不變。

  • 環(huán)境一致性 (Environment Consistency):

環(huán)境一致性衡量模擬場景的穩(wěn)定性。包括空間一致性(通過極線幾何和重投影誤差衡量 3D 布局)和渲染一致性(光照與風格的穩(wěn)定性)。環(huán)境一致性考驗的是模型對 3D 空間世界的理解能力 —— 當相機移動、旋轉再回到原位時,房間的布局、場景的結構是否和之前保持一致;而渲染一致性衡量視頻整體上光線的方向和整體的畫面風格是否能保持一致。

  • 因果一致性 (Causal Consistency):

因果一致性衡量模型能否記住事件的因果邏輯,分為自演化和交互。這是最高級的記憶能力:例如,當一個物體正在被打碎,而相機移開再轉回,地上應該產(chǎn)生相應的碎片;當你通過文本指令模型移動一個物體,模型應該準確執(zhí)行并記住新的位置,即使物體在當前的畫面中已經(jīng)變得不可見。

針對生成隨機性的評分機制:Trigger-Conditioned Scoring

在評估視頻模型的記憶能力時,團隊發(fā)現(xiàn)了一個主要的干擾因素(confound)—— 模型對記憶觸發(fā)事件的響應能力存在差異。例如,對于文本條件模型,其生成的視頻往往無法真正呈現(xiàn)提示詞中要求的鏡頭運動、物體遮擋或動態(tài)變化;對于動作驅動的世界模型,也可能存在生成的視頻無法正確響應相機運動的現(xiàn)象。這導致模型可能會通過生成靜態(tài)或保守內容的方式來避開挑戰(zhàn),從而獲得虛高的一致性評分。

為此,MBench 引入了觸發(fā)條件評分(Trigger-Conditioned Scoring)機制,將得分拆解為兩個部分:

1.觸發(fā)覆蓋率 (Trigger Coverage, C_trig):驗證模型是否成功執(zhí)行了記憶挑戰(zhàn)事件(如物體出鏡再入鏡)。

2.記憶可靠度 (Memory Reliability, S_rel):僅在成功觸發(fā)挑戰(zhàn)的樣本上計算一致性得分。

最終的 M-Score 取兩者的調和平均數(shù),旨在懲罰通過生成保守 / 靜態(tài)內容來規(guī)避一致性挑戰(zhàn)的行為,獎勵那些既能模擬動態(tài)世界又能保持一致性的模型。

對 14 個主流 SOTA 模型的評測發(fā)現(xiàn)


MBench 對 8 個文本驅動模型和 6 個動作驅動模型進行了大規(guī)模評測,評測結果表明,目前并不存在單一模型可以在所有維度上都表現(xiàn)出色,記憶能力仍然是流式視頻生成和世界模型的普遍瓶頸。



模型分數(shù)雷達圖



實驗評測結果

對實驗結果進行分析,還可以得到如下發(fā)現(xiàn):

  • 空間與因果能力是主要瓶頸:評測結果顯示,多數(shù)模型在長時序視角轉換下的空間幾何還原,以及涉及物理演化的因果邏輯保持上存在顯著缺陷,難以找回消失的視圖或延續(xù)畫面外的物理過程。
  • 動作驅動模型的 “偏科” 現(xiàn)象:動作條件模型雖然在空間穩(wěn)定性指標上表現(xiàn)較好,但存在一個普遍的失效模式 —— 即傾向于生成過度靜態(tài)的場景。這種方式雖然規(guī)避了空間坍縮,但模型實際上無法驅動復雜的物理演化。
  • 視覺逼真度不等于記憶穩(wěn)定性:實驗證明,能夠合成高質量、高保真畫面的模型,在長時序記憶維度上不一定占優(yōu)。這說明單純的視覺生成指標無法替代對模型內部狀態(tài)持久性的專項評估,證明了建立記憶能力基準的必要性。


從生成單張圖片到合成分鐘級視頻,視頻生成技術已經(jīng)取得了令人矚目的進步。然而,要實現(xiàn)能夠理解、預測并進行交互的世界模型,并讓流式視頻生成保持長時一致性,我們仍有很長的路要走。而 “記憶”,正是構建這些核心能力的基石。MBench 揭示了當前主流模型在記憶能力上的真實邊界,也為未來的研究指明了方向。

目前,MBench 已全面開源,開源內容包括:完整的 1040 個評測案例數(shù)據(jù)集、自動化評測代碼與工具鏈、實時更新的公開排行榜,以及詳細的技術報告與實驗結果。相信在 MBench 的推動下,我們終將迎來能夠 “記住世界、理解世界、預測世界” 的下一代視頻世界模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
演員必須用原名了!楊紫白鹿還好,王星越笑噴:這誰找得到

演員必須用原名了!楊紫白鹿還好,王星越笑噴:這誰找得到

吃瓜蒙主
2026-06-19 00:30:03
難怪不興百褶裙了!滿大街都是“?奶奶裙”,時髦不顯臃腫,洋氣

難怪不興百褶裙了!滿大街都是“?奶奶裙”,時髦不顯臃腫,洋氣

時尚穿搭生活館
2026-06-18 23:10:33
11倍大牛股跌停,兩個月股價大跌56%,公司最新回應

11倍大牛股跌停,兩個月股價大跌56%,公司最新回應

21世紀經(jīng)濟報道
2026-06-18 20:22:19
若海峽對岸發(fā)放「投誠食物」給大陸14億人,會產(chǎn)生什么影響嗎?

若海峽對岸發(fā)放「投誠食物」給大陸14億人,會產(chǎn)生什么影響嗎?

龍牙的一座山
2026-06-15 09:09:03
柬埔寨電詐最大黑手竟然是副總理?

柬埔寨電詐最大黑手竟然是副總理?

鳳眼論
2026-06-18 18:45:10
斯基拉:皇馬與恩佐原則上達成協(xié)議,合同至2032年

斯基拉:皇馬與恩佐原則上達成協(xié)議,合同至2032年

懂球帝
2026-06-18 14:43:15
醒醒吧!就算臺灣愿意和平統(tǒng)一,臺灣也不可能同意解放軍在臺駐軍

醒醒吧!就算臺灣愿意和平統(tǒng)一,臺灣也不可能同意解放軍在臺駐軍

阿曇你好
2026-05-22 18:33:43
中國女排3-2逆轉德國! 沒想到日媒賽后這樣報道 還用四個字定義我們

中國女排3-2逆轉德國! 沒想到日媒賽后這樣報道 還用四個字定義我們

銜春信
2026-06-18 02:43:57
拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

羅說NBA
2026-06-18 09:58:32
藏不住了,“足球小將”父親公開發(fā)聲,揭開董路私下最真實的一面

藏不住了,“足球小將”父親公開發(fā)聲,揭開董路私下最真實的一面

深析古今
2026-06-18 09:43:36
《給阿嬤的情書》香港首映火爆 超200場排片多場滿座

《給阿嬤的情書》香港首映火爆 超200場排片多場滿座

環(huán)球網(wǎng)資訊
2026-06-18 23:25:23
不管你信不信:老人臨終前誰在身邊、誰不在身邊,冥冥中皆有安排

不管你信不信:老人臨終前誰在身邊、誰不在身邊,冥冥中皆有安排

荷蘭豆愛健康
2026-05-10 20:06:39
G7沒有發(fā)布聯(lián)合公報:德法不愿為日本得罪中國,一個時代結束了

G7沒有發(fā)布聯(lián)合公報:德法不愿為日本得罪中國,一個時代結束了

三石記
2026-06-18 07:58:06
NBA歷史最佳陣容出爐:杜蘭特3陣,庫里科比僅2陣,1陣無可替代

NBA歷史最佳陣容出爐:杜蘭特3陣,庫里科比僅2陣,1陣無可替代

林子說事
2026-06-18 01:13:59
皇馬第三簽正式官宣!穆帥認可后防統(tǒng)帥,姆巴佩親自說服加入

皇馬第三簽正式官宣!穆帥認可后防統(tǒng)帥,姆巴佩親自說服加入

林子說事
2026-06-18 19:00:25
太諷刺!世界杯期間,以色列還關著巴勒斯坦女足國腳、美國女生

太諷刺!世界杯期間,以色列還關著巴勒斯坦女足國腳、美國女生

觀察者網(wǎng)
2026-06-18 10:55:10
中老年人同居一定要記?。簺]有生理上的需求,就不要再去搭伙了?

中老年人同居一定要記?。簺]有生理上的需求,就不要再去搭伙了?

游戲收藏指南
2026-06-05 17:44:29
醫(yī)生發(fā)現(xiàn):能吃能喝的老人,基本在70歲,就已經(jīng)不做這6件事了!

醫(yī)生發(fā)現(xiàn):能吃能喝的老人,基本在70歲,就已經(jīng)不做這6件事了!

醫(yī)學原創(chuàng)故事會
2026-06-16 18:47:09
上海市委書記陳吉寧:平庸與卓越的差別(強烈推薦)

上海市委書記陳吉寧:平庸與卓越的差別(強烈推薦)

新浪財經(jīng)
2026-06-18 07:10:25
贏球也被噴!英格蘭世界杯頭號臥底!球迷集體喊他滾出首發(fā)

贏球也被噴!英格蘭世界杯頭號臥底!球迷集體喊他滾出首發(fā)

瀾歸序
2026-06-18 06:41:12
2026-06-19 05:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
教育
藝術
親子
時尚

家居要聞

綠意盎然 自然之境

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

藝術要聞

臺北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

親子要聞

人類幼崽搞笑瞬間

看不懂球,還看不懂帥哥嗎?

無障礙瀏覽 進入關懷版