GaussianDWM：用3D高斯表示統(tǒng)一自動駕駛場景理解與多模態(tài)生成

2026-06-14 19:24:09　來源: 機器之心Pro

天津舉報

分享至

自動駕駛世界模型的研究目標已經從單純預測未來視覺幀，擴展到構建可用于場景理解、空間定位和后續(xù)決策的世界表示。如果模型只能生成外觀上合理的未來圖像，卻無法回答場景中有哪些目標、目標位于何處，以及不同視角下的空間結構如何變化，那么它仍然缺少對三維駕駛環(huán)境的顯式建模能力。

GaussianDWM 關注的正是這一問題：在統(tǒng)一的 3D 場景表示中同時支持理解任務和生成任務。

作者：Tianchen Deng, Xuefeng Chen, Yi Chen, Qu Chen, Yuyao Xu, Lijin Yang, Le Xu, Yu Zhang, Bo Zhang, Wuxiong Huang, Hesheng Wang 機構：上海交通大學、清華大學、曠視科技、Mach Drive
論文名稱：GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
開源地址：https://github.com/dtc111111/GaussianDWM

GaussianDWM 試圖把這兩件事放到同一個框架里：一邊做駕駛場景理解，一邊完成空間生成、時間生成和 RGB-D 生成。它的核心選擇是把 3D Gaussian scene representation 放在世界模型中間，用同一種 3D 表示同時承載幾何、外觀和語言語義。

面向場景理解的自動駕駛世界模型

過去幾年，Driving World Model 的討論大多圍繞生成能力展開。一個典型目標是：給定當前或歷史觀測，模型預測未來的駕駛場景，或者在車輛發(fā)生位姿變化時合成新的視角。這類能力對仿真、數(shù)據(jù)生成和閉環(huán)評測都很有價值，但它并沒有覆蓋自動駕駛系統(tǒng)真正需要面對的全部問題。

在真實駕駛場景里，模型還要能回答更加結構化的問題。例如，場景中是否存在某個被語言描述的目標？目標在圖像或 3D 空間里的位置在哪里？當前駕駛環(huán)境能否支持后續(xù)規(guī)劃？這些問題要求模型不僅能夠從圖像中提取視覺特征并生成結果，還需要把外觀、幾何結構和語義信息組織為一種可被語言模型讀取和利用的場景表示。

這也是 GaussianDWM 的出發(fā)點?，F(xiàn)有一些統(tǒng)一框架依賴 BEV 或 depth 特征做 feature-level alignment，但這種對齊更多發(fā)生在中間特征層，模型未必真正擁有一個統(tǒng)一的 3D 場景表征。GaussianDWM 選擇以 3D Gaussians 作為場景的底座，希望讓同一組表示既能進入 LLM 做理解，也能作為條件進入生成模塊。

把 3D Gaussian 變成 LLM 能讀懂的世界表示

GaussianDWM 的整體框架可以拆成三個部分：World Tokenizer、Scene Understanding 和 Multi-modal Generation。三個模塊之間不是簡單串聯(lián)，而是圍繞同一個 3D Gaussian 表示展開：先把多視角圖像組織成帶語言語義的高斯場，再把這些高斯壓縮、采樣并投影到 LLM 的 embedding space，最后用 LLM 提取出的 world knowledge 繼續(xù)指導 RGB-D 生成。

第一步是 Language-enhanced 3D Gaussian Tokenizer。傳統(tǒng) 3D Gaussian primitive 通常關注位置、不透明度、尺度、旋轉等幾何和外觀屬性。GaussianDWM 在此基礎上加入語言特征，使每個 Gaussian primitive 不再只是一個可渲染的小單元，也成為一個攜帶語義信息的 3D token。

這些語言特征來自 CLIP，并繼承 SAM 提供的層次語義。為了控制存儲和計算開銷，方法中還使用 scene-wise language autoencoder，將原本 512 維的 CLIP feature 壓縮到 3 維。這樣做的目的不是把語言信息變成一個孤立的附加項，而是讓語義真正落在 3D 場景中的空間位置上。

不過，構建出高斯場只是第一步。LLM 并不能直接處理一個密集的 3D Gaussian 場，因此 GaussianDWM 引入 Gaussian Projector 和 task-aware sampling。Projector 負責把位置、opacity、scale、rotation 以及 language feature 映射到 LLM embedding space；sampling 則根據(jù)任務選擇更合適的 Gaussian tokens。

在全局理解任務中，模型使用 uniform sampling 和 top-k sampling 保留場景整體信息；在 2D/3D visual grounding 中，采樣會參考 text query 與 Gaussian feature 的 similarity，從稠密高斯中挑出更相關的部分。主實驗中，模型從場景里采樣 4096 個 Gaussian tokens 輸入 LLM。這個數(shù)量本身也說明了一個現(xiàn)實取舍：3D 表示足夠豐富，但必須先變得緊湊，語言模型才有可能穩(wěn)定地使用它。

理解結果反過來參與生成

GaussianDWM 的另一個關鍵設計，是沒有把理解和生成完全切開。生成模塊采用 dual-condition generation，同時接收 low-level condition 和 high-level world knowledge。前者主要來自 sparse RGB/depth condition，負責約束紋理和幾何；后者來自 LLM 提取出的 world knowledge，提供更高層的語義與空間先驗。

這種設計與駕駛場景中的多層次約束相匹配。low-level condition 主要由 sparse RGB/depth 提供，用于約束局部紋理和幾何結構，但對目標關系、空間布局和語義一致性的表達能力有限。high-level world knowledge 來自 LLM 的場景理解結果，能夠為生成過程補充語義和空間先驗。GaussianDWM 將二者結合，用 low-level condition 保持視覺細節(jié)和幾何約束，用 high-level world knowledge 強化場景關系與語義一致性，從而服務空間生成、時間生成和 RGB-D 生成。

在 NuInteract 上，

3D Gaussian 帶來更強的場景理解

為了驗證場景理解能力，GaussianDWM 在 NuInteract 上進行了評估。相比只依賴傳統(tǒng)視覺或語言特征的做法，3D Gaussian 給模型提供了更加明確的空間結構，也讓視覺定位任務獲得了明顯收益。

從主表結果看，GaussianDWM 的平均指標達到 59.23，高于 DriveMonkey 的 52.12。在 2D visual grounding 上，mAP 從 19.47 提升到 34.95；在 3D visual grounding 上，mAP 從 34.53 提升到 52.78。這組結果比較直接地說明，高斯表示并不是只對渲染或生成有用，它也能幫助 LLM 更好地理解 3D 駕駛環(huán)境。

在 nuScenes 上，

統(tǒng)一表示也服務 RGB-D 空間生成

多模態(tài)生成部分則主要在 nuScenes 上驗證。GaussianDWM 關注的不只是 RGB 圖像，還包括 RGB-D generation，這使得結果需要同時面對外觀質量和空間幾何的一致性。

在空間生成任務中，當視角位移為 ±1m 時，GaussianDWM 的 FID/FVD 為 8.36/44.50；當視角位移為 ±2m 時，F(xiàn)ID/FVD 為 11.27/68.17。與 PVG、StreetGaussian、DiST-S 等方法相比，GaussianDWM 在小到中等位移下取得了更低的 FID/FVD。對于自動駕駛場景來說，這類結果的意義在于：模型不是單純做一張新圖，而是在盡量維持場景 3D 關系的前提下完成視角變化。

消融實驗：Gaussian、采樣和

World Knowledge 都是支撐模型能力的關鍵部分

論文中的消融實驗進一步解釋了每個設計的作用。去掉 Gaussian 后，模型平均指標為 53.32；加入 Gaussian 并使用 similarity sampling 后，平均指標提升到 59.23。這個差距說明，3D Gaussian 在理解任務中提供的不是可有可無的額外信息，而是能夠改變模型輸入質量的核心表示。

在生成任務上，dual-condition 的作用也比較清楚。只使用 low-level condition 時，±1m 下的 FID 為 10.12；加入 high-level world knowledge 后，F(xiàn)ID 降到 8.36。更大的視角變化下，world knowledge 的貢獻更加明顯：在 ±4m 條件下，F(xiàn)ID 從 21.79 降到 18.91。換句話說，當?shù)蛯右曈X條件不足以覆蓋更大空間變化時，高層語義和空間先驗開始發(fā)揮更重要的作用。

視頻展示：把生成能力放到動態(tài)場景中看

視頻鏈接：https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Overall visual walkthrough

視頻鏈接：https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Spatial generation

視頻鏈接：https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Temporal generation

視頻鏈接：https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Future prediction grid

Long-sequence prediction

結語：統(tǒng)一駕駛世界模型

需要可生成，也需要可查詢

GaussianDWM 的核心觀點可以概括為一句話：自動駕駛世界模型不應只追求生成未來畫面，也需要形成一個能被理解、被查詢、被用于定位和規(guī)劃的 3D 世界表示。3D Gaussian 在這里扮演了連接器的角色，它把幾何、外觀和語言語義放到同一個場景表示中，再通過 task-aware sampling 和 Gaussian Projector 進入 LLM。

在這個框架下，LLM 不只是負責回答問題，也會提取 world knowledge feature，并把理解結果繼續(xù)交給生成模塊使用。NuInteract 和 nuScenes 上的結果表明，這種統(tǒng)一表示同時改善了場景理解和多模態(tài)生成。對于自動駕駛世界模型來說，這可能比單純追求更清晰的視頻更重要：模型最終要服務的是一個會移動、會交互、需要解釋當前世界并預測未來世界的系統(tǒng)。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.