免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GaussianDWM:用3D高斯表示統(tǒng)一自動駕駛場景理解與多模態(tài)生成

0
分享至



自動駕駛世界模型的研究目標已經從單純預測未來視覺幀,擴展到構建可用于場景理解、空間定位和后續(xù)決策的世界表示。如果模型只能生成外觀上合理的未來圖像,卻無法回答場景中有哪些目標、目標位于何處,以及不同視角下的空間結構如何變化,那么它仍然缺少對三維駕駛環(huán)境的顯式建模能力。

GaussianDWM 關注的正是這一問題:在統(tǒng)一的 3D 場景表示中同時支持理解任務和生成任務。



  • 作者:Tianchen Deng, Xuefeng Chen, Yi Chen, Qu Chen, Yuyao Xu, Lijin Yang, Le Xu, Yu Zhang, Bo Zhang, Wuxiong Huang, Hesheng Wang 機構:上海交通大學、清華大學、曠視科技、Mach Drive
  • 論文名稱:GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
  • 開源地址:https://github.com/dtc111111/GaussianDWM

GaussianDWM 試圖把這兩件事放到同一個框架里:一邊做駕駛場景理解,一邊完成空間生成、時間生成和 RGB-D 生成。它的核心選擇是把 3D Gaussian scene representation 放在世界模型中間,用同一種 3D 表示同時承載幾何、外觀和語言語義。



面向場景理解的自動駕駛世界模型

過去幾年,Driving World Model 的討論大多圍繞生成能力展開。一個典型目標是:給定當前或歷史觀測,模型預測未來的駕駛場景,或者在車輛發(fā)生位姿變化時合成新的視角。這類能力對仿真、數(shù)據(jù)生成和閉環(huán)評測都很有價值,但它并沒有覆蓋自動駕駛系統(tǒng)真正需要面對的全部問題。

在真實駕駛場景里,模型還要能回答更加結構化的問題。例如,場景中是否存在某個被語言描述的目標?目標在圖像或 3D 空間里的位置在哪里?當前駕駛環(huán)境能否支持后續(xù)規(guī)劃?這些問題要求模型不僅能夠從圖像中提取視覺特征并生成結果,還需要把外觀、幾何結構和語義信息組織為一種可被語言模型讀取和利用的場景表示。

這也是 GaussianDWM 的出發(fā)點?,F(xiàn)有一些統(tǒng)一框架依賴 BEV 或 depth 特征做 feature-level alignment,但這種對齊更多發(fā)生在中間特征層,模型未必真正擁有一個統(tǒng)一的 3D 場景表征。GaussianDWM 選擇以 3D Gaussians 作為場景的底座,希望讓同一組表示既能進入 LLM 做理解,也能作為條件進入生成模塊。

把 3D Gaussian 變成 LLM 能讀懂的世界表示

GaussianDWM 的整體框架可以拆成三個部分:World Tokenizer、Scene Understanding 和 Multi-modal Generation。三個模塊之間不是簡單串聯(lián),而是圍繞同一個 3D Gaussian 表示展開:先把多視角圖像組織成帶語言語義的高斯場,再把這些高斯壓縮、采樣并投影到 LLM 的 embedding space,最后用 LLM 提取出的 world knowledge 繼續(xù)指導 RGB-D 生成。



第一步是 Language-enhanced 3D Gaussian Tokenizer。傳統(tǒng) 3D Gaussian primitive 通常關注位置、不透明度、尺度、旋轉等幾何和外觀屬性。GaussianDWM 在此基礎上加入語言特征,使每個 Gaussian primitive 不再只是一個可渲染的小單元,也成為一個攜帶語義信息的 3D token。

這些語言特征來自 CLIP,并繼承 SAM 提供的層次語義。為了控制存儲和計算開銷,方法中還使用 scene-wise language autoencoder,將原本 512 維的 CLIP feature 壓縮到 3 維。這樣做的目的不是把語言信息變成一個孤立的附加項,而是讓語義真正落在 3D 場景中的空間位置上。

不過,構建出高斯場只是第一步。LLM 并不能直接處理一個密集的 3D Gaussian 場,因此 GaussianDWM 引入 Gaussian Projector 和 task-aware sampling。Projector 負責把位置、opacity、scale、rotation 以及 language feature 映射到 LLM embedding space;sampling 則根據(jù)任務選擇更合適的 Gaussian tokens。

在全局理解任務中,模型使用 uniform sampling 和 top-k sampling 保留場景整體信息;在 2D/3D visual grounding 中,采樣會參考 text query 與 Gaussian feature 的 similarity,從稠密高斯中挑出更相關的部分。主實驗中,模型從場景里采樣 4096 個 Gaussian tokens 輸入 LLM。這個數(shù)量本身也說明了一個現(xiàn)實取舍:3D 表示足夠豐富,但必須先變得緊湊,語言模型才有可能穩(wěn)定地使用它。

理解結果反過來參與生成

GaussianDWM 的另一個關鍵設計,是沒有把理解和生成完全切開。生成模塊采用 dual-condition generation,同時接收 low-level condition 和 high-level world knowledge。前者主要來自 sparse RGB/depth condition,負責約束紋理和幾何;后者來自 LLM 提取出的 world knowledge,提供更高層的語義與空間先驗。

這種設計與駕駛場景中的多層次約束相匹配。low-level condition 主要由 sparse RGB/depth 提供,用于約束局部紋理和幾何結構,但對目標關系、空間布局和語義一致性的表達能力有限。high-level world knowledge 來自 LLM 的場景理解結果,能夠為生成過程補充語義和空間先驗。GaussianDWM 將二者結合,用 low-level condition 保持視覺細節(jié)和幾何約束,用 high-level world knowledge 強化場景關系與語義一致性,從而服務空間生成、時間生成和 RGB-D 生成。

在 NuInteract 上,

3D Gaussian 帶來更強的場景理解

為了驗證場景理解能力,GaussianDWM 在 NuInteract 上進行了評估。相比只依賴傳統(tǒng)視覺或語言特征的做法,3D Gaussian 給模型提供了更加明確的空間結構,也讓視覺定位任務獲得了明顯收益。

從主表結果看,GaussianDWM 的平均指標達到 59.23,高于 DriveMonkey 的 52.12。在 2D visual grounding 上,mAP 從 19.47 提升到 34.95;在 3D visual grounding 上,mAP 從 34.53 提升到 52.78。這組結果比較直接地說明,高斯表示并不是只對渲染或生成有用,它也能幫助 LLM 更好地理解 3D 駕駛環(huán)境。



在 nuScenes 上,

統(tǒng)一表示也服務 RGB-D 空間生成

多模態(tài)生成部分則主要在 nuScenes 上驗證。GaussianDWM 關注的不只是 RGB 圖像,還包括 RGB-D generation,這使得結果需要同時面對外觀質量和空間幾何的一致性。

在空間生成任務中,當視角位移為 ±1m 時,GaussianDWM 的 FID/FVD 為 8.36/44.50;當視角位移為 ±2m 時,F(xiàn)ID/FVD 為 11.27/68.17。與 PVG、StreetGaussian、DiST-S 等方法相比,GaussianDWM 在小到中等位移下取得了更低的 FID/FVD。對于自動駕駛場景來說,這類結果的意義在于:模型不是單純做一張新圖,而是在盡量維持場景 3D 關系的前提下完成視角變化。







消融實驗:Gaussian、采樣和

World Knowledge 都是支撐模型能力的關鍵部分

論文中的消融實驗進一步解釋了每個設計的作用。去掉 Gaussian 后,模型平均指標為 53.32;加入 Gaussian 并使用 similarity sampling 后,平均指標提升到 59.23。這個差距說明,3D Gaussian 在理解任務中提供的不是可有可無的額外信息,而是能夠改變模型輸入質量的核心表示。

在生成任務上,dual-condition 的作用也比較清楚。只使用 low-level condition 時,±1m 下的 FID 為 10.12;加入 high-level world knowledge 后,F(xiàn)ID 降到 8.36。更大的視角變化下,world knowledge 的貢獻更加明顯:在 ±4m 條件下,F(xiàn)ID 從 21.79 降到 18.91。換句話說,當?shù)蛯右曈X條件不足以覆蓋更大空間變化時,高層語義和空間先驗開始發(fā)揮更重要的作用。



視頻展示:把生成能力放到動態(tài)場景中看



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Overall visual walkthrough



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Spatial generation



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Temporal generation



視頻鏈接:https://mp.weixin.qq.com/s/osoYZr1dCwceHv-0s7ZIsg?click_id=125

Future prediction grid



Long-sequence prediction

結語:統(tǒng)一駕駛世界模型

需要可生成,也需要可查詢

GaussianDWM 的核心觀點可以概括為一句話:自動駕駛世界模型不應只追求生成未來畫面,也需要形成一個能被理解、被查詢、被用于定位和規(guī)劃的 3D 世界表示。3D Gaussian 在這里扮演了連接器的角色,它把幾何、外觀和語言語義放到同一個場景表示中,再通過 task-aware sampling 和 Gaussian Projector 進入 LLM。

在這個框架下,LLM 不只是負責回答問題,也會提取 world knowledge feature,并把理解結果繼續(xù)交給生成模塊使用。NuInteract 和 nuScenes 上的結果表明,這種統(tǒng)一表示同時改善了場景理解和多模態(tài)生成。對于自動駕駛世界模型來說,這可能比單純追求更清晰的視頻更重要:模型最終要服務的是一個會移動、會交互、需要解釋當前世界并預測未來世界的系統(tǒng)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

北緯的咖啡豆
2026-06-18 21:59:34
爭議!央視社媒刪梅西內容 網(wǎng)友爆料:23點緊急通知 直播別給特寫

爭議!央視社媒刪梅西內容 網(wǎng)友爆料:23點緊急通知 直播別給特寫

念洲
2026-06-19 09:28:22
亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比起6比0,更慘的是斷腿重傷

亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比起6比0,更慘的是斷腿重傷

觀察鑒娛
2026-06-19 14:51:34
徹底亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比6比0 更慘的是斷腿重傷

徹底亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比6比0 更慘的是斷腿重傷

許三歲
2026-06-19 15:05:51
“順德漁村”驅趕躲雨母子刷屏:路人,連停留的資格都不配?

“順德漁村”驅趕躲雨母子刷屏:路人,連停留的資格都不配?

李晚書
2026-06-19 10:45:00
徹底沒了!特斯拉 FSD 買斷將在 7 月 1 日全面下架

徹底沒了!特斯拉 FSD 買斷將在 7 月 1 日全面下架

XCiOS俱樂部
2026-06-19 18:13:33
烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

項鵬飛
2026-06-18 17:36:42
奉陪到底!中方強勢取消3500億美芯訂單,馬斯克:這只是個開始

奉陪到底!中方強勢取消3500億美芯訂單,馬斯克:這只是個開始

荒野科技
2026-06-18 20:14:11
墨西哥主帥:與韓國的比賽很艱苦;我不喜歡李剛仁的發(fā)色

墨西哥主帥:與韓國的比賽很艱苦;我不喜歡李剛仁的發(fā)色

懂球帝
2026-06-19 15:53:25
活塞總裁:這是我見過最不可思議的一屆總決賽 我的預測0勝5負

活塞總裁:這是我見過最不可思議的一屆總決賽 我的預測0勝5負

北青網(wǎng)-北京青年報
2026-06-19 19:39:11
中國造紙學會就“紙尿褲事件”聲明:市面在售產品安全可控

中國造紙學會就“紙尿褲事件”聲明:市面在售產品安全可控

新京報
2026-06-19 18:43:19
女子上午上吊身亡,下午就被埋葬,警察讓挖掘機將她的棺材挖出來

女子上午上吊身亡,下午就被埋葬,警察讓挖掘機將她的棺材挖出來

千秋文化
2026-06-18 19:46:12
協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

鐵錘侃侃而談
2026-06-19 00:45:58
卡塔爾遭6球血洗,洛佩特吉怒噴加拿大:對手僅剩9人還不收手

卡塔爾遭6球血洗,洛佩特吉怒噴加拿大:對手僅剩9人還不收手

星耀國際足壇
2026-06-19 14:52:49
暴雨驅避雨母子后續(xù)!涉事寶媽顏值很高,老字號餐飲口碑徹底崩塌

暴雨驅避雨母子后續(xù)!涉事寶媽顏值很高,老字號餐飲口碑徹底崩塌

火山詩話
2026-06-19 06:11:26
又是血洗!卡塔爾就不該進入世界杯,日本球迷:名額給中國國足

又是血洗!卡塔爾就不該進入世界杯,日本球迷:名額給中國國足

酷侃體壇
2026-06-19 15:57:12
巨大失誤!韓國門將接球脫手,羅莫進球,墨西哥1比0韓國

巨大失誤!韓國門將接球脫手,羅莫進球,墨西哥1比0韓國

澎湃新聞
2026-06-19 10:58:27
干得漂亮!高考落幕,孩子索要6萬余元獎勵,父親回應刷屏網(wǎng)絡

干得漂亮!高考落幕,孩子索要6萬余元獎勵,父親回應刷屏網(wǎng)絡

火山詩話
2026-06-19 15:27:12
最新結果!13票贊成0票反對,菲律賓政壇“變天”?菲或向俄求助

最新結果!13票贊成0票反對,菲律賓政壇“變天”?菲或向俄求助

策前論
2026-06-18 19:18:19
制裁落地第七天:菲防長家族生意開始崩了,12萬噸香蕉爛在港口。

制裁落地第七天:菲防長家族生意開始崩了,12萬噸香蕉爛在港口。

阿振觀點
2026-06-19 06:50:54
2026-06-19 20:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

親子
家居
本地
房產
公開課

親子要聞

嬰兒RSV預防迎來新選擇,創(chuàng)新單抗為寶寶呼吸健康護航

家居要聞

綠意盎然 自然之境

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

房產要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調規(guī)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版