免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GaussianDWM:用3D高斯表示統(tǒng)一自動駕駛場景理解與多模態(tài)生成

0
分享至



自動駕駛世界模型的研究目標已經(jīng)從單純預測未來視覺幀,擴展到構建可用于場景理解、空間定位和后續(xù)決策的世界表示。如果模型只能生成外觀上合理的未來圖像,卻無法回答場景中有哪些目標、目標位于何處,以及不同視角下的空間結構如何變化,那么它仍然缺少對三維駕駛環(huán)境的顯式建模能力。

GaussianDWM 關注的正是這一問題:在統(tǒng)一的 3D 場景表示中同時支持理解任務和生成任務。



  • 作者:Tianchen Deng, Xuefeng Chen, Yi Chen, Qu Chen, Yuyao Xu, Lijin Yang, Le Xu, Yu Zhang, Bo Zhang, Wuxiong Huang, Hesheng Wang 機構:上海交通大學、清華大學、曠視科技、Mach Drive
  • 論文名稱:GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
  • 開源地址:https://github.com/dtc111111/GaussianDWM

GaussianDWM 試圖把這兩件事放到同一個框架里:一邊做駕駛場景理解,一邊完成空間生成、時間生成和 RGB-D 生成。它的核心選擇是把 3D Gaussian scene representation 放在世界模型中間,用同一種 3D 表示同時承載幾何、外觀和語言語義。



面向場景理解的自動駕駛世界模型

過去幾年,Driving World Model 的討論大多圍繞生成能力展開。一個典型目標是:給定當前或歷史觀測,模型預測未來的駕駛場景,或者在車輛發(fā)生位姿變化時合成新的視角。這類能力對仿真、數(shù)據(jù)生成和閉環(huán)評測都很有價值,但它并沒有覆蓋自動駕駛系統(tǒng)真正需要面對的全部問題。

在真實駕駛場景里,模型還要能回答更加結構化的問題。例如,場景中是否存在某個被語言描述的目標?目標在圖像或 3D 空間里的位置在哪里?當前駕駛環(huán)境能否支持后續(xù)規(guī)劃?這些問題要求模型不僅能夠從圖像中提取視覺特征并生成結果,還需要把外觀、幾何結構和語義信息組織為一種可被語言模型讀取和利用的場景表示。

這也是 GaussianDWM 的出發(fā)點?,F(xiàn)有一些統(tǒng)一框架依賴 BEV 或 depth 特征做 feature-level alignment,但這種對齊更多發(fā)生在中間特征層,模型未必真正擁有一個統(tǒng)一的 3D 場景表征。GaussianDWM 選擇以 3D Gaussians 作為場景的底座,希望讓同一組表示既能進入 LLM 做理解,也能作為條件進入生成模塊。

把 3D Gaussian 變成 LLM 能讀懂的世界表示

GaussianDWM 的整體框架可以拆成三個部分:World Tokenizer、Scene Understanding 和 Multi-modal Generation。三個模塊之間不是簡單串聯(lián),而是圍繞同一個 3D Gaussian 表示展開:先把多視角圖像組織成帶語言語義的高斯場,再把這些高斯壓縮、采樣并投影到 LLM 的 embedding space,最后用 LLM 提取出的 world knowledge 繼續(xù)指導 RGB-D 生成。



第一步是 Language-enhanced 3D Gaussian Tokenizer。傳統(tǒng) 3D Gaussian primitive 通常關注位置、不透明度、尺度、旋轉等幾何和外觀屬性。GaussianDWM 在此基礎上加入語言特征,使每個 Gaussian primitive 不再只是一個可渲染的小單元,也成為一個攜帶語義信息的 3D token。

這些語言特征來自 CLIP,并繼承 SAM 提供的層次語義。為了控制存儲和計算開銷,方法中還使用 scene-wise language autoencoder,將原本 512 維的 CLIP feature 壓縮到 3 維。這樣做的目的不是把語言信息變成一個孤立的附加項,而是讓語義真正落在 3D 場景中的空間位置上。

不過,構建出高斯場只是第一步。LLM 并不能直接處理一個密集的 3D Gaussian 場,因此 GaussianDWM 引入 Gaussian Projector 和 task-aware sampling。Projector 負責把位置、opacity、scale、rotation 以及 language feature 映射到 LLM embedding space;sampling 則根據(jù)任務選擇更合適的 Gaussian tokens。

在全局理解任務中,模型使用 uniform sampling 和 top-k sampling 保留場景整體信息;在 2D/3D visual grounding 中,采樣會參考 text query 與 Gaussian feature 的 similarity,從稠密高斯中挑出更相關的部分。主實驗中,模型從場景里采樣 4096 個 Gaussian tokens 輸入 LLM。這個數(shù)量本身也說明了一個現(xiàn)實取舍:3D 表示足夠豐富,但必須先變得緊湊,語言模型才有可能穩(wěn)定地使用它。

理解結果反過來參與生成

GaussianDWM 的另一個關鍵設計,是沒有把理解和生成完全切開。生成模塊采用 dual-condition generation,同時接收 low-level condition 和 high-level world knowledge。前者主要來自 sparse RGB/depth condition,負責約束紋理和幾何;后者來自 LLM 提取出的 world knowledge,提供更高層的語義與空間先驗。

這種設計與駕駛場景中的多層次約束相匹配。low-level condition 主要由 sparse RGB/depth 提供,用于約束局部紋理和幾何結構,但對目標關系、空間布局和語義一致性的表達能力有限。high-level world knowledge 來自 LLM 的場景理解結果,能夠為生成過程補充語義和空間先驗。GaussianDWM 將二者結合,用 low-level condition 保持視覺細節(jié)和幾何約束,用 high-level world knowledge 強化場景關系與語義一致性,從而服務空間生成、時間生成和 RGB-D 生成。

在 NuInteract 上,

3D Gaussian 帶來更強的場景理解

為了驗證場景理解能力,GaussianDWM 在 NuInteract 上進行了評估。相比只依賴傳統(tǒng)視覺或語言特征的做法,3D Gaussian 給模型提供了更加明確的空間結構,也讓視覺定位任務獲得了明顯收益。

從主表結果看,GaussianDWM 的平均指標達到 59.23,高于 DriveMonkey 的 52.12。在 2D visual grounding 上,mAP 從 19.47 提升到 34.95;在 3D visual grounding 上,mAP 從 34.53 提升到 52.78。這組結果比較直接地說明,高斯表示并不是只對渲染或生成有用,它也能幫助 LLM 更好地理解 3D 駕駛環(huán)境。



在 nuScenes 上,

統(tǒng)一表示也服務 RGB-D 空間生成

多模態(tài)生成部分則主要在 nuScenes 上驗證。GaussianDWM 關注的不只是 RGB 圖像,還包括 RGB-D generation,這使得結果需要同時面對外觀質(zhì)量和空間幾何的一致性。

在空間生成任務中,當視角位移為 ±1m 時,GaussianDWM 的 FID/FVD 為 8.36/44.50;當視角位移為 ±2m 時,F(xiàn)ID/FVD 為 11.27/68.17。與 PVG、StreetGaussian、DiST-S 等方法相比,GaussianDWM 在小到中等位移下取得了更低的 FID/FVD。對于自動駕駛場景來說,這類結果的意義在于:模型不是單純做一張新圖,而是在盡量維持場景 3D 關系的前提下完成視角變化。







消融實驗:Gaussian、采樣和

World Knowledge 都是支撐模型能力的關鍵部分

論文中的消融實驗進一步解釋了每個設計的作用。去掉 Gaussian 后,模型平均指標為 53.32;加入 Gaussian 并使用 similarity sampling 后,平均指標提升到 59.23。這個差距說明,3D Gaussian 在理解任務中提供的不是可有可無的額外信息,而是能夠改變模型輸入質(zhì)量的核心表示。

在生成任務上,dual-condition 的作用也比較清楚。只使用 low-level condition 時,±1m 下的 FID 為 10.12;加入 high-level world knowledge 后,F(xiàn)ID 降到 8.36。更大的視角變化下,world knowledge 的貢獻更加明顯:在 ±4m 條件下,F(xiàn)ID 從 21.79 降到 18.91。換句話說,當?shù)蛯右曈X條件不足以覆蓋更大空間變化時,高層語義和空間先驗開始發(fā)揮更重要的作用。



視頻展示:把生成能力放到動態(tài)場景中看



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Overall visual walkthrough



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Spatial generation



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Temporal generation



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Future prediction grid



Long-sequence prediction

結語:統(tǒng)一駕駛世界模型

需要可生成,也需要可查詢

GaussianDWM 的核心觀點可以概括為一句話:自動駕駛世界模型不應只追求生成未來畫面,也需要形成一個能被理解、被查詢、被用于定位和規(guī)劃的 3D 世界表示。3D Gaussian 在這里扮演了連接器的角色,它把幾何、外觀和語言語義放到同一個場景表示中,再通過 task-aware sampling 和 Gaussian Projector 進入 LLM。

在這個框架下,LLM 不只是負責回答問題,也會提取 world knowledge feature,并把理解結果繼續(xù)交給生成模塊使用。NuInteract 和 nuScenes 上的結果表明,這種統(tǒng)一表示同時改善了場景理解和多模態(tài)生成。對于自動駕駛世界模型來說,這可能比單純追求更清晰的視頻更重要:模型最終要服務的是一個會移動、會交互、需要解釋當前世界并預測未來世界的系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
135億!Manus收購案重大轉機,傳騰訊出手

135億!Manus收購案重大轉機,傳騰訊出手

智東西
2026-06-18 23:13:55
香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設

香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設

悠悠說世界
2026-06-19 02:29:30
官方表態(tài)很清楚了:科技科技,還是科技

官方表態(tài)很清楚了:科技科技,還是科技

販財局
2026-06-17 15:56:30
寧波各區(qū)縣2026年1-4月財政收入:北侖突破200億,奉化大跌成墊底

寧波各區(qū)縣2026年1-4月財政收入:北侖突破200億,奉化大跌成墊底

水又木二
2026-06-18 12:48:39
國家衛(wèi)健委15號令發(fā)布!醫(yī)師多點執(zhí)業(yè)、外出會診、考試違紀規(guī)則全面改寫

國家衛(wèi)健委15號令發(fā)布!醫(yī)師多點執(zhí)業(yè)、外出會診、考試違紀規(guī)則全面改寫

醫(yī)客
2026-06-18 12:15:50
否認欺負楊思琦!香港老戲骨公開霸凌者身份:是商天娥和姓陳的

否認欺負楊思琦!香港老戲骨公開霸凌者身份:是商天娥和姓陳的

奇怪的鯊魚們
2026-06-17 13:13:35
烏克蘭“鯊魚”無人機接入星鏈:操作員在基輔,前線目標實時直播

烏克蘭“鯊魚”無人機接入星鏈:操作員在基輔,前線目標實時直播

桂系007
2026-06-15 23:29:54
“冤不冤?”內(nèi)蒙古,一女子還在哺乳期,就開始做上門按摩服務

“冤不冤?”內(nèi)蒙古,一女子還在哺乳期,就開始做上門按摩服務

阿振觀點
2026-06-01 20:09:42
撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

覃仕勇說史
2026-06-15 11:20:32
法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

聞識
2026-06-18 01:10:46
大碼模特現(xiàn)實里到底多大?

大碼模特現(xiàn)實里到底多大?

飛娛日記
2026-05-12 08:27:55
突然宣布:廣東一龍舟大賽,延期

突然宣布:廣東一龍舟大賽,延期

南方都市報
2026-06-18 21:59:21
26歲女子陰道分泌物異常,性交劇痛,病因竟是曾經(jīng)的一個手術……

26歲女子陰道分泌物異常,性交劇痛,病因竟是曾經(jīng)的一個手術……

醫(yī)學界婦產(chǎn)科頻道
2026-06-18 11:12:30
隊報:土耳其一解說員多次搞混伊朗新西蘭,停播至世界杯結束

隊報:土耳其一解說員多次搞混伊朗新西蘭,停播至世界杯結束

懂球帝
2026-06-18 22:20:25
世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

多雨的天
2026-06-19 04:23:53
李嘉誠預言要成真了?我國41.5%的城鎮(zhèn)家庭,或?qū)⒚鎸@三個難題

李嘉誠預言要成真了?我國41.5%的城鎮(zhèn)家庭,或?qū)⒚鎸@三個難題

阿尢說歷史
2026-06-14 13:30:57
男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

品讀時刻
2026-06-11 09:04:59
女人發(fā)展了“婚外關系”,大多會急于做三件事,不難發(fā)現(xiàn)

女人發(fā)展了“婚外關系”,大多會急于做三件事,不難發(fā)現(xiàn)

葉飛飛情感屋
2026-06-18 17:27:06
拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

羅說NBA
2026-06-18 09:58:32
獻血科普翻車,負責人被多人逼問:你捐了沒有?評論區(qū)早已清醒

獻血科普翻車,負責人被多人逼問:你捐了沒有?評論區(qū)早已清醒

原廣工業(yè)
2026-06-18 16:56:07
2026-06-19 05:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

藝術
手機
旅游
家居
公開課

藝術要聞

臺北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

手機要聞

iOS 27「查找」App升級:支持隱藏共享位置與自定義時長

旅游要聞

為何拍藍花楹別正午出門?避開 3 個高峰時段,隨手拍出干凈大片!

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版