免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

引入幾何約束后,VLM跨越了「空間推理」的認知鴻溝

0
分享至



現(xiàn)有的視覺大模型普遍存在「語義-幾何鴻溝」(Semantic-to-Geometric Gap),不僅分不清東南西北,更難以處理精確的空間量化任務(wù)。例如問「你坐在沙發(fā)上時,餐桌在你的哪一側(cè)?」,VLM 常常答錯。

這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細節(jié),導(dǎo)致其在空間推理時是在「憑空瞎猜」,這使得模型讀懂了畫面的語義,卻停留在「語言的世界」中,不具備現(xiàn)實世界賴以運行的幾何直覺,導(dǎo)致空間判斷漏洞百出。



  • 論文標(biāo)題:Geometrically-Constrained Agent for Spatial Reasoning
  • 論文鏈接:https://arxiv.org/pdf/2511.22659
  • 作者團隊:Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
  • 通訊單位:北京航空航天大學(xué),上海人工智能實驗室
  • 項目主頁:https://gca-spatial-reasoning.github.io
  • 項目代碼:https://github.com/gca-spatial-reasoning/gca

針對這一痛點,北京航空航天大學(xué)上海人工智能實驗室的研究團隊創(chuàng)新提出了幾何約束智能體(Geometrically-Constrained Agent, GCA),開創(chuàng)了「先形式化約束,后確定性計算」的空間推理新范式。GCA 不依賴海量數(shù)據(jù)微調(diào),而是通過構(gòu)建形式化任務(wù)約束,強制 VLM 從「模糊直覺」轉(zhuǎn)向「精確求解」,通過視覺工具調(diào)用和編寫計算代碼進行參數(shù)化計算,為空間推理搭建了一座可驗證、確定性的幾何橋梁。

GCA 直接帶領(lǐng) Qwen、Gemini 等基座模型實現(xiàn)「能力躍遷」。在公認高難度的 MMSI-Bench 測試中,GCA 將模型性能提升近 50%,擊敗現(xiàn)有 Training-based 及 Tool-integrated 方法,并在多個主流空間推理測試中確立了空間推理領(lǐng)域的新 SOTA。



核心挑戰(zhàn):跨越「語義 - 幾何」的認知鴻溝

視覺語言模型(VLM)在圖像描述與通用語義理解上表現(xiàn)卓越,然而,當(dāng)任務(wù)轉(zhuǎn)向需要高精度幾何計算的空間推理時 —— 例如判斷物體的精確朝向、測量距離或進行視角變換 —— 其表現(xiàn)卻顯著下滑。

研究團隊指出,這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現(xiàn)為:

  • 視覺 & 幾何信息的有損壓縮:VLM 將豐富的像素信息壓縮為抽象的語義特征,這一過程如同將一幅詳細地圖簡化為幾個地標(biāo)名稱,導(dǎo)致物體精確位置、朝向、尺度等高保真幾何細節(jié)大量丟失。
  • 幾何想象的缺失:以「坐在沙發(fā)上」這一場景為例,VLM 僅能調(diào)用模糊的空間常識(知道人與沙發(fā)通常同向),卻無法在腦海中精確構(gòu)建出「從沙發(fā)視角看去」的三維場景。這種幾何想象力的匱乏,使其在面對復(fù)雜空間推理時力不從心。

? 核心方法:基于形式化約束的兩階段推理





1. 任務(wù)形式化 —— 從「模糊指令」到「精確規(guī)則」

VLM 首先扮演「語義分析師」的角色,利用其強大的語義理解能力,將模糊的自然語言指令轉(zhuǎn)化為明確的數(shù)學(xué)約束。這一步驟不涉及具體計算,而是確立規(guī)則:



  • 基于物體的參考系 (Object-based Frame):利用物體自身的坐標(biāo)系。例如指令「當(dāng)你在洗手時...」隱含了觀察者必須「面對洗手池」,因此參考系由洗手池的朝向決定。
  • 基于相機的參考系 (Camera-based Frame):即標(biāo)準(zhǔn)的視圖坐標(biāo)系。例如「從圖 1 的視角來看...」,此時參考系直接綁定為相機的基于方向的參考系 (Direction-based Frame):由兩個物體的位置關(guān)系定義。例如「烤箱在水槽的北面」,此時「北」的方向由從水槽指向烤箱的向量嚴格定義。





2. 幾何計算 —— 在規(guī)則內(nèi)進行「確定性求解」



  • 智能工具調(diào)度與綁定:VLM 像指揮官一樣,調(diào)度 3D 重建等感知工具獲取數(shù)據(jù),并能智能地將「最左邊的椅子」等模糊描述,精準(zhǔn)綁定到具體的幾何對象上,消除語義歧義。
  • 感知與計算的無縫銜接:感知工具負責(zé)將視覺世界參數(shù)化為高保真 3D 表示,計算工具則負責(zé)執(zhí)行代碼、完成坐標(biāo)轉(zhuǎn)換,二者在統(tǒng)一框架下協(xié)同,實現(xiàn)從「看到」到「算準(zhǔn)」的閉環(huán)。
  • 檢索增強的可靠計算:采用類似 RAG 的策略,VLM 從一個已驗證的幾何公式庫中檢索正確模型來生成代碼,從根本上杜絕「幻覺」,確保每項計算都基于可靠的物理原理。

實驗結(jié)果:全新的空間推理 SOTA

在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個主流空間推理基準(zhǔn)上,GCA 證明了其有效性,構(gòu)建了一個全新的空間智能 SOTA。

綜合性能提升

GCA 取得了 65.1% 的平均準(zhǔn)確率,顯著超越了現(xiàn)有基于訓(xùn)練的方法與工具集成的方法。特別是在極具挑戰(zhàn)性的多圖空間推理基準(zhǔn) MMSI-Bench 中,面對復(fù)雜的視角變換與相對方位推斷,現(xiàn)有主流模型往往只能徘徊在 25%~30% 左右的「隨機猜測」水平線。

而基于 Qwen3-VL-Thinking 構(gòu)建的 GCA,準(zhǔn)確率從 32.6% 躍升至 47.6%。這一數(shù)據(jù)證明,GCA 成功讓 VLM 擺脫了「蒙答案」的困境,向具備可靠的空間推理能力邁出了關(guān)鍵一步。

強大的通用性

GCA 并非特定模型的「專屬補丁」,而是一種無需訓(xùn)練(Training-free)的通用推理范式,可直接賦能各類基座模型。

實驗顯示,在搭載 GCA 架構(gòu)后,受測模型在 MMSI-Bench 上的性能平均實現(xiàn)了約 37% 的相對提升。其中,基于 Gemini-2.5-Pro 構(gòu)建的 GCA 表現(xiàn)尤為驚艷,其準(zhǔn)確率從 36.9% 飛躍至 55.0%,有效地激發(fā)了頂級模型的空間推理潛力。





通過系統(tǒng)的消融實驗與歸因分析,研究進一步證實了 GCA 架構(gòu)的前瞻性:



  • 可解釋的錯誤歸因:得益于 GCA 架構(gòu)的模塊化設(shè)計,研究團隊能夠?qū)ν评礞溌愤M行精確的錯誤歸因。分析顯示,VLM 在「任務(wù)形式化」階段的準(zhǔn)確率已高達~70%,當(dāng)前主要錯誤來源于下游感知工具(如 3D 重建失敗或遮擋)。這表明,GCA 的推理邏輯是穩(wěn)健的,其性能將隨著感知模型的進步而持續(xù)提升。



總結(jié)與意義

GCA 提出了一種「語言定義約束,幾何執(zhí)行計算」的新范式。通過將模糊的空間查詢轉(zhuǎn)化為帶約束的數(shù)學(xué)問題,GCA 有效避免了 VLM 在有損語義空間中進行不可靠的空間想象。這不僅大幅提升了推理的準(zhǔn)確性,也讓機器向擁有「幾何直覺」邁出了關(guān)鍵一步,回應(yīng)了攀登「空間智能」高峰的核心挑戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
表情包刷屏全網(wǎng) “魔人布歐”哈蘭德成世界杯最火球員

表情包刷屏全網(wǎng) “魔人布歐”哈蘭德成世界杯最火球員

3DM游戲
2026-06-19 14:35:01
《給阿嬤的情書》里最扎心的一段話:結(jié)婚后遇見心動的人,別沖動放棄婚姻,真正成熟的愛,不是擁有,而是做到這兩點

《給阿嬤的情書》里最扎心的一段話:結(jié)婚后遇見心動的人,別沖動放棄婚姻,真正成熟的愛,不是擁有,而是做到這兩點

心理觀察局
2026-06-17 06:38:05
周星馳御用婆婆被曝晚年凄慘,被騙積蓄房產(chǎn)住養(yǎng)老院,一生未婚育

周星馳御用婆婆被曝晚年凄慘,被騙積蓄房產(chǎn)住養(yǎng)老院,一生未婚育

知法而形
2026-06-18 14:29:20
克宮抱怨稱,特朗普在G7峰會上被灌輸了“有害思想”

克宮抱怨稱,特朗普在G7峰會上被灌輸了“有害思想”

山河路口
2026-06-18 20:18:46
中國女排豪取五連勝,兩人發(fā)揮亮眼,趙勇稱贊隊員,何懼巴西女排

中國女排豪取五連勝,兩人發(fā)揮亮眼,趙勇稱贊隊員,何懼巴西女排

南海浪花
2026-06-19 22:34:33
南非老帥開懟:拒答特朗普、叫板梅西、讓批評者閉嘴

南非老帥開懟:拒答特朗普、叫板梅西、讓批評者閉嘴

體壇觀察猿
2026-06-20 00:10:14
國務(wù)院任免國家工作人員(2026年6月18日)

國務(wù)院任免國家工作人員(2026年6月18日)

環(huán)球網(wǎng)資訊
2026-06-18 18:53:23
39歲梅西用中文告別:不發(fā)西語不發(fā)英語,為何偏偏選擇中國?

39歲梅西用中文告別:不發(fā)西語不發(fā)英語,為何偏偏選擇中國?

超喜歡我
2026-06-19 09:56:29
國際油價直線跳水,外媒稱以色列與黎巴嫩真主黨已同意?;?>
    </a>
        <h3>
      <a href=21世紀經(jīng)濟報道
2026-06-19 22:10:50
梅西父親幽默回應(yīng)各路傳言:我這是惹出多大亂子啊

梅西父親幽默回應(yīng)各路傳言:我這是惹出多大亂子啊

體壇周報
2026-06-19 13:11:03
哈蘭德90分鐘狂奔丸子頭紋絲不動 同款頭繩爆火 單根42元銷量翻倍

哈蘭德90分鐘狂奔丸子頭紋絲不動 同款頭繩爆火 單根42元銷量翻倍

快科技
2026-06-19 13:44:13
梅西還是C羅?穆勒:十年前我會選C羅,但現(xiàn)在是梅西

梅西還是C羅?穆勒:十年前我會選C羅,但現(xiàn)在是梅西

懂球帝
2026-06-19 13:33:14
不丹王后穿喪服赴曼谷,目睹蘇提達向泰王屈膝,詩妮娜送客時下跪

不丹王后穿喪服赴曼谷,目睹蘇提達向泰王屈膝,詩妮娜送客時下跪

譯言
2026-06-19 09:27:04
要不是德國媒體報道,我都不知道,原來比亞迪已強大到如此地步了

要不是德國媒體報道,我都不知道,原來比亞迪已強大到如此地步了

華庭講美食
2026-06-18 12:48:48
絕了!小羅通宵泡夜店!差點毀了梅西!網(wǎng)友:瓜帥救了巴薩!

絕了!小羅通宵泡夜店!差點毀了梅西!網(wǎng)友:瓜帥救了巴薩!

綠茵八卦君
2026-06-19 18:20:03
公積金重大調(diào)整,這次動真格了

公積金重大調(diào)整,這次動真格了

大川東山再起
2026-06-19 23:57:48
協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜猛炸,中東格局真要變了!

協(xié)議剛簽完就萬彈齊發(fā)!伊朗盟友連夜猛炸,中東格局真要變了!

老琴才是我的外號
2026-06-18 21:29:42
不是年輕人不喝白酒了,是中老年人也不喝了

不是年輕人不喝白酒了,是中老年人也不喝了

大何日拱一卒
2026-06-18 22:12:02
價格暴跌60%,普通人玩不轉(zhuǎn)!曾獲百億融資的產(chǎn)品正陷入吃灰怪圈

價格暴跌60%,普通人玩不轉(zhuǎn)!曾獲百億融資的產(chǎn)品正陷入吃灰怪圈

財經(jīng)八卦
2026-06-19 22:02:53
抵達上海,陳芋汐正式上任,亮相新崗位,薪酬曝光,全紅嬋祝福

抵達上海,陳芋汐正式上任,亮相新崗位,薪酬曝光,全紅嬋祝福

懂球社
2026-06-17 18:33:52
2026-06-20 00:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
教育
健康
藝術(shù)
軍事航空

家居要聞

綠意盎然 自然之境

教育要聞

高考送考就是全社會對孩子最大的溺愛!

吃粽子的3條保胃法則,消化科醫(yī)生推薦

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機”畫家,把絲綢畫出了呼吸感

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關(guān)懷版