免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

一文速通「機(jī)器人3D場景表示」發(fā)展史

0
分享至



隨著機(jī)器人領(lǐng)域的飛速發(fā)展,我們有一個(gè)問題不斷需要思考,究竟如何讓機(jī)器人像人類一樣理解世界,學(xué)習(xí)周圍環(huán)境的表示。對于機(jī)器人來說,究竟是需要精確的坐標(biāo),還是語義的物體概念,還是隱式的空間認(rèn)識(shí)推理模型?

在本文中,上海交通大學(xué)、波恩大學(xué)等院校的研究團(tuán)隊(duì)全面總結(jié)了當(dāng)前機(jī)器人技術(shù)中常用的場景表示方法。這些方法包括傳統(tǒng)的點(diǎn)云、體素柵格、符號(hào)距離函數(shù)以及場景圖等傳統(tǒng)幾何表示方式,同時(shí)也涵蓋了最新的神經(jīng)網(wǎng)絡(luò)表示技術(shù),如神經(jīng)輻射場、3D 高斯散布模型以及新興的 3D 基礎(chǔ)模型。

雖然目前的 SLAM 與定位系統(tǒng)主要依賴點(diǎn)云、體素這類稀疏表示方式,但密集型場景表示方法在導(dǎo)航、避障等后續(xù)任務(wù)中無疑會(huì)發(fā)揮關(guān)鍵作用。此外,神經(jīng)輻射場、3D 高斯散布模型以及基礎(chǔ)模型這類神經(jīng)網(wǎng)絡(luò)表示技術(shù),非常適合整合高層次的語義信息與基于語言的先驗(yàn)知識(shí),從而實(shí)現(xiàn)更全面的 3D 場景理解與智能體行為控制。本文的目標(biāo)是為新手和資深研究人員提供一份有價(jià)值的參考資料,幫助他們探索 3D 場景表示技術(shù)的未來發(fā)展方向及其在機(jī)器人技術(shù)中的應(yīng)用。



  • 標(biāo)題:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
  • 作者:Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
  • 機(jī)構(gòu):Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
  • 原文鏈接:https://arxiv.org/abs/2512.03422
  • 代碼鏈接:https://github.com/dtc111111/awesomerepresentation-for-robotics

一、機(jī)器人 3D 場景發(fā)展史



機(jī)器人 3D 場景表示發(fā)展史和代表性工作

幾何場景表示:

  • Point Cloud 點(diǎn)云場景表示:通過離散的三維點(diǎn)來表示場景,通過雷達(dá)或者相機(jī)傳感器獲得。
  • Voxel 體素場景表示:通過將三維空間離散化,轉(zhuǎn)變成規(guī)則的立方體柵格,通過在柵格內(nèi)存儲(chǔ)不同的信息,比如密度,占用率等實(shí)現(xiàn)場景建模
  • Mesh 網(wǎng)格場景表示:通過三角化面片構(gòu)建連續(xù)的場景幾何場景表示,精細(xì)度更高。
  • SDF 符號(hào)距離場:通過表示空間點(diǎn)到物體表面的距離,實(shí)現(xiàn)連續(xù)的場景幾何表示。

近年來,深度學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)與機(jī)器人技術(shù)的融合推動(dòng)了顯著進(jìn)展。在眾多推動(dòng)這一進(jìn)展的技術(shù)中,神經(jīng)輻射場(NeRF)、三維高斯濺射和基礎(chǔ)模型(Foundation Model,F(xiàn)M)作為極具前景的創(chuàng)新脫穎而出,從而實(shí)現(xiàn)真正的通用具身智能。



機(jī)器人 3D 三維表征研究熱度變化

3D 神經(jīng)場景表示

  • NeRF 神經(jīng)輻射場:通過連續(xù)的場景表示讓機(jī)器人理解世界,基于神經(jīng)網(wǎng)絡(luò) MLP 構(gòu)建,可以進(jìn)行地圖預(yù)測,但是速度較慢。
  • 3DGS 高斯?jié)姙R:將場景表示為 3D 高斯橢球,從而實(shí)現(xiàn)高速的渲染,適合實(shí)時(shí)建圖。
  • Foundation Model 基礎(chǔ)模型: 通過現(xiàn)有的 transformer 等編碼器,將三維世界壓縮成類似于語言的 token,將三維世界的理解變成可推理的人類語言。從而實(shí)現(xiàn)空間感知推理,成為「3D 版本的 GPT」。



三維場景表征在機(jī)器人不同模塊的應(yīng)用:感知,建圖,定位,操作,導(dǎo)航

在建圖和定位模塊(第 V 節(jié))中,現(xiàn)有方法在 SLAM 和定位領(lǐng)域取得了令人矚目的成果。神經(jīng)場景表示能夠?qū)崿F(xiàn)對環(huán)境的更精確、更密集的建模,這對避障特別有益。這一能力對于機(jī)器人的導(dǎo)航和操作至關(guān)重要。

該模塊分為三部分:(i)場景重建:場景表示的地圖重建能力包括幾何精度和渲染質(zhì)量,以及在靜態(tài)場景、大規(guī)模戶外場景和動(dòng)態(tài)場景中的重建能力。(iii)SLAM:SLAM 部分主要包括不同場景表示方法在 SLAM 過程中的地圖精度、位姿精度和實(shí)時(shí)性能。(iv)全局定位:全局定位主要涉及使用現(xiàn)有地圖進(jìn)行定位時(shí)的精度和實(shí)時(shí)性能。

在操作模塊(第 VI-A 節(jié))中,本文主要比較了基于不同場景表示方法的抓取框架。傳統(tǒng)方法在抓取方面具有更高的實(shí)時(shí)性能和計(jì)算效率,但在泛化能力和處理復(fù)雜目標(biāo)操作任務(wù)方面存在局限。相比之下,基于神經(jīng)網(wǎng)絡(luò)的場景表示在生成新視角和跨多個(gè)場景泛化方面具有一定能力,使其更能適應(yīng)復(fù)雜任務(wù)?;诨A(chǔ)模型的方法能夠?qū)崿F(xiàn)零樣本抓取任務(wù),具備強(qiáng)大的泛化能力。此外,語言信息的集成使這些模型能夠支持交互式抓取,并增強(qiáng)了它們理解和規(guī)劃高級認(rèn)知任務(wù)的能力。

在導(dǎo)航模塊(第 VI 節(jié))中,與傳統(tǒng)的場景表示方法相比,神經(jīng)場景表示能夠提供高度準(zhǔn)確的環(huán)境重建。此外,它們還有助于更好地融合語義和語言信息,從而能夠執(zhí)行更復(fù)雜的導(dǎo)航任務(wù)。我們將導(dǎo)航模塊分為兩個(gè)部分:(i)規(guī)劃:從當(dāng)前位置到目標(biāo)目的地生成最優(yōu)或可行路徑,同時(shí)避開障礙物。(ii)探索:主動(dòng)導(dǎo)航并繪制先前未知區(qū)域的地圖。



不同 3D 場景表示的特點(diǎn)對比,包含連續(xù)性,存儲(chǔ)效率,真實(shí)性,靈活性,幾何表示精度。

二、現(xiàn)有方法的問題與未來發(fā)展方向

1、端到端通用網(wǎng)絡(luò)還是模塊化?

目前,大多數(shù)機(jī)器人系統(tǒng)都建立在模塊化智能(Modular Intelligence)的基礎(chǔ)上。為了完成復(fù)雜任務(wù),系統(tǒng)會(huì)將導(dǎo)航或操作等功能分解為獨(dú)立的模塊,例如感知、建圖、定位、操作和導(dǎo)航。這種設(shè)計(jì)雖然有助于實(shí)現(xiàn)各種機(jī)器人功能,但其模塊化特性在本質(zhì)上可能會(huì)限制機(jī)器人智能的進(jìn)一步發(fā)展。

盡管模塊化解決方案引入了有用的歸納偏置(Inductive Biases)并支持有效的特定任務(wù)性能,但它們通常面臨泛化能力有限和遷移性差的問題。在實(shí)際應(yīng)用中,這些系統(tǒng)往往需要在不同場景下進(jìn)行重復(fù)的傳感器校準(zhǔn)、特定環(huán)境建模以及參數(shù)重新調(diào)優(yōu)。此外,在高度復(fù)雜的環(huán)境中,構(gòu)建精確的模型仍然極具挑戰(zhàn)性?;A(chǔ)模型的最新進(jìn)展提供了一條替代路徑,即實(shí)現(xiàn)端到端智能。

2、數(shù)據(jù)瓶頸

盡管神經(jīng)場景表示(Neural Scene Representations)在準(zhǔn)確性和泛化性方面具有顯著優(yōu)勢,但一個(gè)主要的挑戰(zhàn)在于,與訓(xùn)練大語言模型(LLM)和視覺語言模型(VLM)所使用的互聯(lián)網(wǎng)規(guī)模的文本與圖像語料庫相比,機(jī)器人特有的數(shù)據(jù)非常匱乏。這種局限性顯著阻礙了機(jī)器人領(lǐng)域神經(jīng)場景表示和基礎(chǔ)模型的發(fā)展。

為了解決這一問題,研究重點(diǎn)已轉(zhuǎn)向增強(qiáng)神經(jīng)場景表示在有限數(shù)據(jù)情況下的泛化能力。另一個(gè)方向則是利用世界模型(World Models)來預(yù)測以動(dòng)作為條件的(Conditioned on actions)狀態(tài)轉(zhuǎn)移,從而生成額外的訓(xùn)練數(shù)據(jù)集。

3、實(shí)時(shí)性瓶頸

與傳統(tǒng)的場景表示相比,在機(jī)器人領(lǐng)域部署神經(jīng)場景表示的另一個(gè)關(guān)鍵瓶頸在于其推理時(shí)間(Inference Time),這仍是制約可靠實(shí)時(shí)應(yīng)用的一個(gè)限制因素。目前神經(jīng)網(wǎng)絡(luò)的部署策略通常分為兩大類:

第一類是基于云端的部署。通常托管在遠(yuǎn)程數(shù)據(jù)中心,并通過 API 進(jìn)行訪問。在這種模式下,響應(yīng)延遲和服務(wù)時(shí)間很大程度上取決于底層的網(wǎng)絡(luò)路由、帶寬以及數(shù)據(jù)中心的計(jì)算能力。因此,在將此類模型集成到自主機(jī)器人技術(shù)棧之前,必須仔細(xì)權(quán)衡網(wǎng)絡(luò)的可靠性和延遲問題。

第二類是邊緣計(jì)算平臺(tái)上的車載 / 機(jī)載部署(Onboard Deployment)。此類方案通常采用模型蒸餾(Model Distillation)和量化(Quantization)等技術(shù)來減小模型體積,從而實(shí)現(xiàn)實(shí)時(shí)推理。然而,這往往以犧牲泛化能力為代價(jià)。一個(gè)極具前景的未來方向在于硬件 - 算法協(xié)同設(shè)計(jì)(Hardware–Algorithm Co-design),旨在同時(shí)提高推理效率并保持模型的泛化性能,以滿足機(jī)器人實(shí)時(shí)部署的需求。

本文探討了機(jī)器人不同模塊最適合的三維場景表示方法,研究了相關(guān)方法、并討論了挑戰(zhàn)和未來方向。本文的主要貢獻(xiàn)如下:

  • 全面、最新的綜述與基準(zhǔn)測試:本文對機(jī)器人領(lǐng)域的不同場景表示方法進(jìn)行了廣泛且最新的綜述,涵蓋了經(jīng)典方法和前沿方法。對于每個(gè)模塊,團(tuán)隊(duì)都提供了詳細(xì)介紹,并突出了該模塊中不同場景表示的優(yōu)勢。
  • 三維場景表示的未來方向:在機(jī)器人領(lǐng)域的每個(gè)模塊中,團(tuán)隊(duì)指出了當(dāng)前研究的技術(shù)局限性,并提出了幾個(gè)有前景的未來研究方向,旨在激勵(lì)這一快速發(fā)展領(lǐng)域的進(jìn)一步進(jìn)步。
  • 開源項(xiàng)目:團(tuán)隊(duì)在 GitHub 上發(fā)布了一個(gè)開源項(xiàng)目,整理了機(jī)器人領(lǐng)域不同場景表示的相關(guān)文章,并將繼續(xù)向該項(xiàng)目添加新的研究成果和技術(shù),網(wǎng)址為https://github.com/dtc111111/awesome-representation-for-robotics。團(tuán)隊(duì)希望更多研究人員能夠利用它獲取最新的研究信息。

對更多實(shí)驗(yàn)結(jié)果和文章細(xì)節(jié)感興趣的讀者,可以閱讀一下論文原文~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王治郅魔鬼訓(xùn)練,2米26張子宇減脂成功,女籃新核心將現(xiàn)

王治郅魔鬼訓(xùn)練,2米26張子宇減脂成功,女籃新核心將現(xiàn)

墨史軒
2026-06-17 17:47:35
霍爾木茲海峽,突傳大消息!美伊談判,變數(shù)突現(xiàn)!特朗普,最新發(fā)聲!黃金、白銀,全線下跌!

霍爾木茲海峽,突傳大消息!美伊談判,變數(shù)突現(xiàn)!特朗普,最新發(fā)聲!黃金、白銀,全線下跌!

證券時(shí)報(bào)
2026-06-19 08:22:28
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

譚談社會(huì)
2026-06-19 02:26:14
女子入住主題酒店第5天,發(fā)現(xiàn)房間假花里藏有攝像頭,鏡頭正對床鋪,酒店回應(yīng)

女子入住主題酒店第5天,發(fā)現(xiàn)房間假花里藏有攝像頭,鏡頭正對床鋪,酒店回應(yīng)

上觀新聞
2026-06-19 15:42:38
烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

項(xiàng)鵬飛
2026-06-18 17:36:42
賈玲坦言自己又活過來了,大方承認(rèn)體重反彈了,直言已活得通透了

賈玲坦言自己又活過來了,大方承認(rèn)體重反彈了,直言已活得通透了

吃瓜蒙主
2026-06-19 01:30:04
給亞洲足球丟臉了:卡塔爾球員嚴(yán)重犯規(guī),致加拿大球員提前報(bào)銷

給亞洲足球丟臉了:卡塔爾球員嚴(yán)重犯規(guī),致加拿大球員提前報(bào)銷

俯身沖頂
2026-06-19 09:00:26
拒絕劉鑾雄名分!呂麗君養(yǎng)大的私生子,今憑全科滿分成豪門黑馬

拒絕劉鑾雄名分!呂麗君養(yǎng)大的私生子,今憑全科滿分成豪門黑馬

不似少年游
2026-06-18 16:45:02
人為啥是大屁股、雙乳房,肛門還被裹?背后全是演化中的生存取舍

人為啥是大屁股、雙乳房,肛門還被裹?背后全是演化中的生存取舍

奇怪的鯊魚們
2026-06-15 10:29:35
吳倩自曝小時(shí)候被狗咬傷后,被爸爸打掉牙齒,不敢吐硬吞進(jìn)肚子

吳倩自曝小時(shí)候被狗咬傷后,被爸爸打掉牙齒,不敢吐硬吞進(jìn)肚子

韓小娛
2026-06-18 16:09:38
河北學(xué)霸抗癌7年花200萬,親戚勸她別拖累母親,她:我憑啥就該死

河北學(xué)霸抗癌7年花200萬,親戚勸她別拖累母親,她:我憑啥就該死

從零到一研究所
2026-06-17 13:49:18
董方卓公開質(zhì)疑梅西戴帽!直言進(jìn)了淘汰賽誰會(huì)慣著你,引發(fā)熱議

董方卓公開質(zhì)疑梅西戴帽!直言進(jìn)了淘汰賽誰會(huì)慣著你,引發(fā)熱議

振剛說足球
2026-06-19 10:30:27
江蘇啟動(dòng)沿江、江淮及淮北部分地區(qū)防汛Ⅳ級應(yīng)急響應(yīng)

江蘇啟動(dòng)沿江、江淮及淮北部分地區(qū)防汛Ⅳ級應(yīng)急響應(yīng)

現(xiàn)代快報(bào)
2026-06-18 19:43:28
9年前,那個(gè)3歲識(shí)千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

9年前,那個(gè)3歲識(shí)千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

東方不敗然多多
2026-06-18 16:17:45
理想智駕負(fù)責(zé)人實(shí)測FSD后:國內(nèi)無第一梯隊(duì),別再自我麻痹

理想智駕負(fù)責(zé)人實(shí)測FSD后:國內(nèi)無第一梯隊(duì),別再自我麻痹

我是一個(gè)粉刷匠2
2026-06-18 02:58:29
連夜驅(qū)逐!世界杯爆沖突,多國人員慘被牽連,國際足聯(lián)討好也白搭

連夜驅(qū)逐!世界杯爆沖突,多國人員慘被牽連,國際足聯(lián)討好也白搭

悅心知足
2026-06-19 05:16:33
B費(fèi)和C羅誰攤手抱怨更多?黃健翔:那肯定是B費(fèi)啊,C羅都是心里罵

B費(fèi)和C羅誰攤手抱怨更多?黃健翔:那肯定是B費(fèi)啊,C羅都是心里罵

風(fēng)過鄉(xiāng)
2026-06-19 06:55:55
“肯定出事了!”男子一天沒來吃面,老板急得報(bào)警!發(fā)現(xiàn)時(shí)男子癱倒在床、意識(shí)微弱,之前就出過問題……

“肯定出事了!”男子一天沒來吃面,老板急得報(bào)警!發(fā)現(xiàn)時(shí)男子癱倒在床、意識(shí)微弱,之前就出過問題……

環(huán)球網(wǎng)資訊
2026-06-19 14:46:07
今晚起,央八江西浙江衛(wèi)視黃金時(shí)段呈現(xiàn)三部大作!演員陣容強(qiáng)大

今晚起,央八江西浙江衛(wèi)視黃金時(shí)段呈現(xiàn)三部大作!演員陣容強(qiáng)大

東方不敗然多多
2026-06-19 11:09:17
世界杯:最快進(jìn)球誕生!法甲悍將送點(diǎn)莫科納準(zhǔn)絕平 南非1-1捷克

世界杯:最快進(jìn)球誕生!法甲悍將送點(diǎn)莫科納準(zhǔn)絕平 南非1-1捷克

釘釘陌上花開
2026-06-19 02:27:50
2026-06-19 16:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

男子醉駕撞死16歲少女 最初被認(rèn)定全責(zé)復(fù)議后變主責(zé)

頭條要聞

男子醉駕撞死16歲少女 最初被認(rèn)定全責(zé)復(fù)議后變主責(zé)

體育要聞

加拿大球員小腿變形重傷 亞洲冠軍輸球輸人

娛樂要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

本地
親子
游戲
旅游
公開課

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

親子要聞

“全班停課10天”!深圳不少娃中招!廣東5月新增27849例,近期高發(fā)千萬留意

多半好評!《潛水員戴夫》新DLC Steam評價(jià)出爐

旅游要聞

民俗體驗(yàn)、非遺手作、實(shí)景演藝、紅色旅游 多元業(yè)態(tài)激活假日文旅消費(fèi)市場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版