免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

arXiv:面向具身智能的世界模型綜述

0
分享至


導(dǎo)語

機器人自主操作、自動駕駛預(yù)判、智能體想象式?jīng)Q策的背后,是世界模型,具身人工智能的內(nèi)部模擬器。它賦予智能體感知、預(yù)測與規(guī)劃能力,是下一代通用人工智能的核心基石。這篇工作首次提出功能-時間-空間三軸統(tǒng)一分類框架,系統(tǒng)梳理世界模型從決策專用到通用模擬的演進脈絡(luò),量化對比全球頂尖模型性能,深度剖析領(lǐng)域核心挑戰(zhàn)與未來方向,為學(xué)術(shù)界構(gòu)建了全景式知識圖譜,也為工業(yè)界技術(shù)落地指明了清晰路徑。

關(guān)鍵詞:世界模型(World Models),具身人工智能(Embodied AI),時間建模,空間表示,自主智能體 (Autonomous Agents)

王璇丨作者

趙思怡丨審校


論文題目:A Comprehensive Survey on World Models for Embodied AI 論文鏈接:https://arxiv.org/html/2510.16732v1 發(fā)表時間:2025 年 10 月 19 日 論文來源:arXiv

從認知科學(xué)到通用模擬器:世界模型的進化之路

世界模型的思想根植于認知科學(xué),人類通過大腦內(nèi)部模型整合感官、預(yù)判事件、指導(dǎo)行動。受此啟發(fā),早期AI將其引入基于模型的強化學(xué)習(xí),通過學(xué)習(xí)環(huán)境狀態(tài)轉(zhuǎn)移提升樣本效率與規(guī)劃能力。2018年Ha與Schmidhuber的開創(chuàng)性工作正式確立"世界模型"概念,證明循環(huán)神經(jīng)網(wǎng)絡(luò)可編碼環(huán)境狀態(tài)、模擬未來軌跡以驅(qū)動策略優(yōu)化,直接催生了經(jīng)典的Dreamer系列模型。

大規(guī)模生成式與多模態(tài)學(xué)習(xí)的爆發(fā),推動世界模型從任務(wù)專用的決策輔助工具,進化為高保真通用環(huán)境模擬器。OpenAI Sora、Meta V-JEPA 2等模型不僅能生成長時序連貫視頻,更能捕捉復(fù)雜物理規(guī)律與物體交互,為跨領(lǐng)域具身智能奠定了通用基礎(chǔ)。

但領(lǐng)域的快速發(fā)展也導(dǎo)致術(shù)語混亂、分類體系割裂,現(xiàn)有綜述多局限于功能視角或自動駕駛等單一應(yīng)用,缺乏覆蓋全主流方法的統(tǒng)一框架。本次綜述提出的功能-時間-空間三軸分類法,正是為解決這一痛點而生,從三個核心維度構(gòu)建了邏輯自洽的分類體系,為領(lǐng)域研究提供了標準化分析工具。

三軸統(tǒng)一框架:拆解世界模型的核心設(shè)計維度

三軸分類框架是該綜述的核心貢獻,它從功能耦合性、時間建模方式、空間表示策略三個相互關(guān)聯(lián)的核心維度,厘清了世界模型的設(shè)計邏輯與技術(shù)路線。


圖1. 該綜述的結(jié)構(gòu)。沿三個軸對全球模型進行分類,并展示每種方法的代表性方案,為該領(lǐng)域提供了統(tǒng)一的視角

功能維度上,世界模型呈現(xiàn)決策耦合與通用目的的分野。決策耦合模型與下游任務(wù)深度綁定,在特定領(lǐng)域數(shù)據(jù)上訓(xùn)練,以實時高效的控制為目標,代表如覆蓋800+任務(wù)的DreamerV3、自動駕駛MILE、機器人操作ManiGaussian。通用目的模型則在大規(guī)模無標注數(shù)據(jù)上預(yù)訓(xùn)練通用物理規(guī)律,以跨域泛化為核心優(yōu)勢,典型如Sora、V-JEPA 2,但存在訓(xùn)練成本高、通用表示與具體決策銜接難的問題。

時間建模維度,核心是序列模擬與全局預(yù)測的權(quán)衡。序列模擬采用自回歸方式逐幀推演,結(jié)構(gòu)緊湊、樣本效率高且天然支持閉環(huán)控制,從早期RNN到如今的Transformer 狀態(tài)空間模型(TSSM)、狀態(tài)空間模型(SSM)如 Mamba均屬此類,但存在長時序誤差累積的致命缺陷。全局差異預(yù)測并行估計完整未來序列,通過全局約束緩解誤差,以JEPA系列為代表,卻難以適配需要逐步?jīng)Q策的控制場景,當(dāng)前研究正朝著融合兩者優(yōu)勢的方向推進。

空間表示維度,呈現(xiàn)從低維抽象到高維幾何的進化路徑。全局隱向量計算高效但丟失細粒度空間信息,是早期模型的主流選擇。令牌特征序列依托Transformer與LLM技術(shù),成為當(dāng)前跨模態(tài)建模的主流??臻g隱網(wǎng)格憑借BEV、體素等幾何先驗,在自動駕駛領(lǐng)域廣泛應(yīng)用;分解渲染表示則基于3D 高斯濺射(3DGS)和神經(jīng)輻射場(NeRF)等技術(shù),通過可微渲染實現(xiàn)視角一致、物理可信的高保真預(yù)測,是當(dāng)前最前沿的研究方向。

數(shù)據(jù)、評估與領(lǐng)域核心挑戰(zhàn)

數(shù)據(jù)與評估是世界模型發(fā)展的核心基礎(chǔ)設(shè)施,基于統(tǒng)一框架的量化對比則清晰呈現(xiàn)了領(lǐng)域進展與現(xiàn)存瓶頸。將數(shù)據(jù)資源劃分為四類:仿真平臺(MuJoCo、CARLA等)提供可控可擴展的虛擬環(huán)境,交互式基準(DMC、RLBench等)建立標準化性能標尺,百萬級軌跡的OXE等離線數(shù)據(jù)集支撐跨具身預(yù)訓(xùn)練,F(xiàn)ranka、Unitree系列等真實機器人平臺完成物理世界驗證。評估體系呈三層遞進:像素級質(zhì)量(FID、FVD等)、狀態(tài)級理解(mIoU、mAP等)、任務(wù)級性能(成功率、樣本效率等),但當(dāng)前指標過度側(cè)重像素保真度,忽視了物理一致性與因果推理等具身核心能力。


表1. nuScenes驗證集上開環(huán)規(guī)劃的性能對比

基于統(tǒng)一框架的量化對比顯示,DrivePhysica、MiLA分別領(lǐng)跑自動駕駛視頻生成的視覺保真度與時間一致性,COME在4D占用預(yù)測中表現(xiàn)最優(yōu),基于逆動力學(xué)的VidMan在機器人操作任務(wù)中成功率領(lǐng)先,SSR則在開環(huán)規(guī)劃中實現(xiàn)最低碰撞率。盡管進展顯著,領(lǐng)域仍面臨三大核心挑戰(zhàn):一是數(shù)據(jù)與評估碎片化,缺乏跨域統(tǒng)一數(shù)據(jù)集與物理導(dǎo)向的評估標準;二是計算效率瓶頸,Transformer、擴散模型的推理成本難以滿足實時控制需求;三是建模策略的固有矛盾,自回歸的誤差累積、全局預(yù)測的交互性不足、空間表示的效率與表達性失衡,共同限制了長時序復(fù)雜任務(wù)的落地。

未來展望:走向統(tǒng)一、高效、物理可信的世界模型

針對上述挑戰(zhàn),綜述指出了未來的研究方向。在數(shù)據(jù)與評估方面,需要構(gòu)建統(tǒng)一的多模態(tài)跨域數(shù)據(jù)集,并發(fā)展能夠評估物理一致性、因果推理和長時序動態(tài)的新型指標。在計算效率方面,模型壓縮技術(shù)和新型架構(gòu)是重要的突破點,它們有望在保持性能的同時,實現(xiàn)實時推理。在建模策略方面,融合自回歸和全局預(yù)測的優(yōu)勢、引入顯式 3D 幾何先驗和物理約束、結(jié)合大語言模型的推理能力,將是構(gòu)建下一代通用世界模型的關(guān)鍵路徑。

世界模型作為具身 AI 的核心,正在經(jīng)歷從專用到通用、從 2D 到 3D、從像素到物理的深刻變革。這篇綜述提出的三軸統(tǒng)一框架,不僅為學(xué)術(shù)界梳理了清晰的研究脈絡(luò),也為工業(yè)界的技術(shù)落地提供了重要參考。隨著數(shù)據(jù)、算法和算力的持續(xù)進步,我們有理由相信,未來的世界模型將能夠像人類大腦一樣,構(gòu)建出物理可信、因果一致的內(nèi)部世界,真正實現(xiàn)感知、預(yù)測與決策的統(tǒng)一,為通用人工智能的到來奠定堅實基礎(chǔ)。

具身智能讀書會

集智俱樂部聯(lián)合上海交通大學(xué)助理教授李永露、銀河通用機器人合伙人史雪松、南京大學(xué)LAMDA組博士生陳雄輝、香港大學(xué)在讀博士生穆堯,共同發(fā)起首季。讀書會計劃采用“自下而上”的層級結(jié)構(gòu),探討四個核心模塊:硬件系統(tǒng)(機器人本體設(shè)計),數(shù)據(jù)、仿真環(huán)境與Benchmark,機器人學(xué)習(xí),具體場景任務(wù)。希望通過重點討論經(jīng)典、前沿的重要文獻,幫助大家更好地學(xué)習(xí)機器人與具身智能技術(shù)前沿技術(shù),為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

8.

9.


#速遞

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
梁文鋒為什么選了劉強東,沒選馬云?

梁文鋒為什么選了劉強東,沒選馬云?

帥真商業(yè)
2026-06-18 10:20:26
普京也沒想到,搞定伊朗之后,美轉(zhuǎn)頭第一槍居然會打向俄羅斯!

普京也沒想到,搞定伊朗之后,美轉(zhuǎn)頭第一槍居然會打向俄羅斯!

離離言幾許
2026-06-20 01:18:26
心理學(xué)上說,極度坦誠的人其實很可怕:開始,你可能覺得他傻、性子直,但慢慢會發(fā)現(xiàn),他的境界極高,他的一切都可以攤開講,打的全是明牌

心理學(xué)上說,極度坦誠的人其實很可怕:開始,你可能覺得他傻、性子直,但慢慢會發(fā)現(xiàn),他的境界極高,他的一切都可以攤開講,打的全是明牌

心理觀察局
2026-05-22 07:29:28
文玩界的傷心是盤不紅么?是丟了!這下文玩界又多了一個傷心人

文玩界的傷心是盤不紅么?是丟了!這下文玩界又多了一個傷心人

鴻璐宣
2026-06-19 18:30:07
圣斗士天界篇第6話,天界12主神集體亮相,雅典娜竟是大地之神

圣斗士天界篇第6話,天界12主神集體亮相,雅典娜竟是大地之神

動漫小天堂
2026-06-19 11:18:32
你見過最驚艷的公司名稱是什么?網(wǎng)友:寧德時代換個地名完全不同

你見過最驚艷的公司名稱是什么?網(wǎng)友:寧德時代換個地名完全不同

另子維愛讀史
2026-06-18 22:27:37
六氟化鎢只是一波預(yù)熱!四類低估材料藏補漲機會,行情有望復(fù)制

六氟化鎢只是一波預(yù)熱!四類低估材料藏補漲機會,行情有望復(fù)制

時尚的弄潮
2026-06-19 07:52:07
成都這一夜,阿嬌“水桶腰、大象腿”是對畸形審美的反擊

成都這一夜,阿嬌“水桶腰、大象腿”是對畸形審美的反擊

健身迷
2026-05-07 12:11:32
徐志勝女友曝光,長相漂亮學(xué)歷高,見父母婚期將至,還是他的初戀

徐志勝女友曝光,長相漂亮學(xué)歷高,見父母婚期將至,還是他的初戀

庭小娛
2026-06-01 15:20:06
每年1000美元:桑德斯計劃讓每個美國人吃上AI紅利

每年1000美元:桑德斯計劃讓每個美國人吃上AI紅利

IT之家
2026-06-19 10:08:20
以官員證實與黎真主黨達成?;?>
    </a>
        <h3>
      <a href=新華社
2026-06-19 21:28:48
一家6口5本美國護照,卻還在國內(nèi)“撈金”,年營收上百億

一家6口5本美國護照,卻還在國內(nèi)“撈金”,年營收上百億

混沌錄
2026-06-19 16:14:07
大伯老炫耀兒子是公務(wù)員,我就說自己年薪60w,是他的10倍!結(jié)果大伯說:你深圳掙60w正常!但要論生活質(zhì)量,肯定還是我兒子高!

大伯老炫耀兒子是公務(wù)員,我就說自己年薪60w,是他的10倍!結(jié)果大伯說:你深圳掙60w正常!但要論生活質(zhì)量,肯定還是我兒子高!

品讀時刻
2026-06-09 09:05:04
美國一父親帶女兒進女廁被男子怒斥并報警,最新消息:報警男子已被公司解雇

美國一父親帶女兒進女廁被男子怒斥并報警,最新消息:報警男子已被公司解雇

現(xiàn)代快報
2026-06-19 15:20:06
“雷仁勛”刷屏!小女孩拆穿“雷軍的新裝”:小米股價一年暴跌60%,市值蒸發(fā)近萬億

“雷仁勛”刷屏!小女孩拆穿“雷軍的新裝”:小米股價一年暴跌60%,市值蒸發(fā)近萬億

新浪財經(jīng)
2026-06-19 15:51:18
烏克蘭一夜被炸醒!烏軍終于明白:戰(zhàn)術(shù)再精妙,也敵不過絕對火力

烏克蘭一夜被炸醒!烏軍終于明白:戰(zhàn)術(shù)再精妙,也敵不過絕對火力

面包夾知識
2026-06-17 14:22:49
“不理解但尊重”,家長打扮粉嫩幼態(tài)送娃上學(xué),網(wǎng)友:很不得體

“不理解但尊重”,家長打扮粉嫩幼態(tài)送娃上學(xué),網(wǎng)友:很不得體

蝴蝶花雨話教育
2026-06-03 00:05:12
香港知名星二代患膀胱癌,滿頭白發(fā)一臉滄桑,抗癌多年病情穩(wěn)定

香港知名星二代患膀胱癌,滿頭白發(fā)一臉滄桑,抗癌多年病情穩(wěn)定

小嵩
2026-06-20 01:48:25
2026年養(yǎng)老金政策落地,實現(xiàn)22連漲,這3類人群養(yǎng)老金漲幅有變化

2026年養(yǎng)老金政策落地,實現(xiàn)22連漲,這3類人群養(yǎng)老金漲幅有變化

職場資深秘書
2026-06-18 15:24:42
雷軍,“皇帝的新裝”很好看嗎?

雷軍,“皇帝的新裝”很好看嗎?

李萬卿
2026-06-19 01:00:05
2026-06-20 03:55:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識技能
5890文章數(shù) 4679關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

親子
時尚
手機
房產(chǎn)
公開課

親子要聞

從毒奶粉到毒紙尿褲,兒童用品安全防線為何屢屢失守

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

手機要聞

賣爆了!小米 17T 系列四天熱銷 7 萬臺,首周預(yù)估破 10 萬臺,爭霸中端

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版