免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛李曼玲團(tuán)隊發(fā)布空間理論:AI的空間智能還在三歲小孩階段

0
分享至

1983 年,心理學(xué)家設(shè)計了一個簡單實驗:Sally 把彈珠放進(jìn)籃子然后離開,Anne 趁她不注意把彈珠挪到盒子里。問題是,Sally 回來后,會去哪里找彈珠?

四歲孩子能答對:去籃子,因為 Sally 不知道彈珠被移走了。三歲以下的孩子會答錯,他們分不清“自己知道”和“別人知道”的區(qū)別。這就是發(fā)展心理學(xué)里著名的 Sally-Anne 測試,它標(biāo)定了人類認(rèn)知發(fā)展的一道重要分水嶺。這種能力被稱為“心智理論”(Theory of Mind)。


(動圖來源:受訪者)

四十多年后,美國斯坦福大學(xué)李飛飛教授和美國西北大學(xué)李曼玲教授團(tuán)隊把這個實驗搬到了 AI 面前,只不過這次考察的是物理世界。他們設(shè)計了一套叫“空間理論”(Theory of Space)的評估框架,目的是想弄清楚一件事:當(dāng)大模型必須自己去探索、去發(fā)現(xiàn)、去拼湊信息時,它的空間智能究竟進(jìn)化到了哪一級?


圖 | 從左到右:李飛飛、李曼玲(來源:資料圖)

從被動答題到主動探索,AI 掉了好幾個臺階

傳統(tǒng)測試 AI 空間能力的方式,有點像開卷考試。給一張圖,問里面物體的位置關(guān)系,模型答對了就算過關(guān)。前沿模型在這種測試?yán)锏梅侄疾诲e,讓人以為它們已經(jīng)挺懂空間了。

但李飛飛和李曼玲團(tuán)隊覺得這還不夠。真實世界不是開卷考,沒有人會把所有信息一次性擺在你面前。你推開一扇門只看到客廳一角,走過走廊瞥見臥室一角,要理解整個房子的布局,你得把這些碎片拼起來,還得知道自己還有什么沒看到,下一步該往哪看。

研究中,他們設(shè)計了一套測試環(huán)境,有文本版和視覺版兩種,讓模型在多個房間里主動探索,收集信息,構(gòu)建腦海中的認(rèn)知地圖。過去評估只看最終答對答錯,這篇工作第一次能給 AI 大腦拍 X 光,他們讓模型顯式探測這張認(rèn)知地圖,在每個時間步輸出自己認(rèn)為物體都在什么位置。


(動圖來源:受訪者)

結(jié)果發(fā)現(xiàn),模型在被動模式下表現(xiàn)尚可,一旦切換到主動探索模式,性能應(yīng)聲而落。以視覺世界為例,GPT-5.2 從 57.1% 掉到 46.0%,Gemini-3 Pro 從 60.5% 掉到 57.3%,而這就是他們所說的主動被動差距。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

差距從哪來?他們用一套精細(xì)的診斷工具來逐層拆解模型的認(rèn)知過程。

第一個問題是效率低。規(guī)則代理平均 9 步就能覆蓋整個環(huán)境,基礎(chǔ)模型往往需要 14 步以上,而且覆蓋率更低。GPT-5.2 有個毛病,一看到門就沖過去,經(jīng)常忘了把當(dāng)前房間看完。Gemini-3 Pro 好一些,會先原地旋轉(zhuǎn)觀察再移動,但也沒有規(guī)則代理高效。

第二個問題更致命。他們設(shè)計了一個錯誤信念測試,在模型完成初次探索后,悄悄移動或旋轉(zhuǎn)幾個物體。當(dāng)模型再次經(jīng)過并直接觀察到新布局時,一個令人不安的現(xiàn)象出現(xiàn)了:GPT-5.2 在視覺世界中的朝向慣性高達(dá) 68.9%,即近七成的情況下仍然堅持報告物體的舊朝向。同一模型在文本世界中慣性只有 5.5%。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

其實這就是信念慣性,模型親眼看到變化,但內(nèi)部表征缺乏足夠的可塑性來完成舊信念到新信念的覆寫,也就是它無法更新自己的認(rèn)知。這和 Sally-Anne 測試?yán)锶龤q幼兒的失敗何其相似,只不過幼兒失敗是因為認(rèn)知能力尚未發(fā)育,模型失敗是因為內(nèi)部機制存在缺陷。

認(rèn)知地圖會漂移,視覺世界更高難

他們還發(fā)現(xiàn)一個叫信念漂移的現(xiàn)象。那就是模型在初次觀察物體時的感知誤差雖然存在,不過還沒嚴(yán)重到影響整體判斷。真正的問題是,這份初始保真度無法在后續(xù)步驟中維持。隨著探索推進(jìn)、信息增多,那些早先正確的記憶開始悄然退化,被后續(xù)步驟的錯誤更新覆蓋,或者在拼接不同房間的信息時產(chǎn)生內(nèi)部矛盾。


(動圖來源:受訪者)

最終認(rèn)知地圖的低準(zhǔn)確率,在很大程度上來自拼不住。模型缺乏穩(wěn)定維護(hù)長程空間信息的機制,新的觀察不僅沒有鞏固已有認(rèn)知,反而在不斷侵蝕它。這個特點可能人類也存在,比如筆者曾去參觀故宮,一個宮殿接一個地觀看,而這些宮殿又很相似,那么就很有可能看了下一個、忘記了上一個。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

但是,這些問題在視覺世界中會被放大。人類被試在視覺世界中的準(zhǔn)確率高達(dá) 96.4%(使用簡單工具后達(dá) 99.0%),在文本世界中是 86.7%。模型卻正好相反,文本表現(xiàn)遠(yuǎn)好于視覺。視覺信息對人類而言是天然、直覺的空間認(rèn)知通道,而當(dāng)前多模態(tài)模型尚未學(xué)會從像素中高效提取空間結(jié)構(gòu)。

尤其是物體朝向識別,模型幾乎接近隨機猜測。這解釋了為什么它們在視角推理任務(wù)(如 Perspective Taking)上得分慘淡,大約只有 36% 的準(zhǔn)確率。

而這套評估框架的價值,在于它把空間智能從會不會答這道題的二元判定,變成了一個可以逐級診斷的連續(xù)過程。它告訴我們的不只是模型還差多遠(yuǎn),更是它具體在哪一級開始失靈。

如果模型連“記住剛才看到的沙發(fā)在哪”都做不到,那指望它在一個真實環(huán)境里主動導(dǎo)航,比如在災(zāi)區(qū)搜救中定位幸存者,還有很長的路要走。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

目前,相關(guān)論文已被機器學(xué)習(xí)頂級會議 ICLR 2026 接收。論文、代碼和數(shù)據(jù)集都已開源。該研究由西北大學(xué)、斯坦福大學(xué)、華盛頓大學(xué)與康奈爾大學(xué)聯(lián)合完成。研究團(tuán)隊里集齊了多位《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”的入選者,李曼玲教授是 2025 年全球入選者,美國斯坦福大學(xué)的吳佳俊教授和美國華盛頓大學(xué)的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區(qū)名單。

參考資料:

相關(guān)論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

https://limanling.github.io/

https://profiles.stanford.edu/fei-fei-li

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
SpaceX“變臉”!股價兩連跌,散戶賬面收益幾近蒸發(fā)

SpaceX“變臉”!股價兩連跌,散戶賬面收益幾近蒸發(fā)

21世紀(jì)經(jīng)濟(jì)報道
2026-06-19 18:19:18
“我中招了,都是在小藍(lán)上亂來的結(jié)果”!20歲小伙哭訴撞上HIV

“我中招了,都是在小藍(lán)上亂來的結(jié)果”!20歲小伙哭訴撞上HIV

火山詩話
2026-06-18 10:12:31
孩子頻繁說這幾句話,不是矯情,是在向你求救!很多家長都聽不懂

孩子頻繁說這幾句話,不是矯情,是在向你求救!很多家長都聽不懂

戶外阿毽
2026-06-19 04:05:57
北京老太太帶“金釵”鑒寶,專家說假的,她平和的說:可知我母親是誰?專家立馬改口

北京老太太帶“金釵”鑒寶,專家說假的,她平和的說:可知我母親是誰?專家立馬改口

LULU生活家
2026-06-17 19:11:39
曹圭成:作為前鋒我本應(yīng)該把握住機會進(jìn)球,但我沒能做到

曹圭成:作為前鋒我本應(yīng)該把握住機會進(jìn)球,但我沒能做到

懂球帝
2026-06-19 18:21:22
斯科爾斯評C羅世界杯啞火:41歲踢中鋒,跑動成硬傷

斯科爾斯評C羅世界杯啞火:41歲踢中鋒,跑動成硬傷

體育硬核說
2026-06-20 00:59:50
四位美國第一夫人同框!米歇爾瘦脫相,希拉里老態(tài)盡顯,勞拉優(yōu)雅

四位美國第一夫人同框!米歇爾瘦脫相,希拉里老態(tài)盡顯,勞拉優(yōu)雅

鍋鍋愛歷史
2026-06-20 03:22:55
采訪了100位當(dāng)代女性,她們都認(rèn)為女人最快活的時候,就是被人撩

采訪了100位當(dāng)代女性,她們都認(rèn)為女人最快活的時候,就是被人撩

千秋文化
2026-06-11 17:50:56
大批網(wǎng)約車司機翻車!早年跟風(fēng)買運電車,如今進(jìn)退兩難熬不下去

大批網(wǎng)約車司機翻車!早年跟風(fēng)買運電車,如今進(jìn)退兩難熬不下去

老特有話說
2026-06-18 14:49:24
央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠(yuǎn)征又說對了

央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠(yuǎn)征又說對了

墨印齋
2026-05-29 13:20:21
保姆給中風(fēng)父親洗澡,每次都要兩小時,我打開監(jiān)控一看,果斷報警

保姆給中風(fēng)父親洗澡,每次都要兩小時,我打開監(jiān)控一看,果斷報警

千秋文化
2026-05-27 20:02:00
我們都在喊內(nèi)需不足,卻忘了中國還有4.65億人沒“進(jìn)場”

我們都在喊內(nèi)需不足,卻忘了中國還有4.65億人沒“進(jìn)場”

文青大叔說
2026-06-19 08:54:48
孫浩今年58歲沒結(jié)過婚,拍完《主角》后他買了張硬座回老家了……

孫浩今年58歲沒結(jié)過婚,拍完《主角》后他買了張硬座回老家了……

手工制作阿殲
2026-06-11 10:47:53
被俄羅斯吞并370年,為何他們卻拒絕俄化、心向中國?卡爾梅克

被俄羅斯吞并370年,為何他們卻拒絕俄化、心向中國?卡爾梅克

深析古今
2026-06-19 07:18:18
忙活一桌子,狗都不吃!丈夫過生日,妻子自我感動 ,網(wǎng)友吐槽

忙活一桌子,狗都不吃!丈夫過生日,妻子自我感動 ,網(wǎng)友吐槽

蝴蝶花雨話教育
2026-05-31 00:05:20
中醫(yī):凡是夜尿超過2次、睡不踏實者,多是腎氣不固,一招改善

中醫(yī):凡是夜尿超過2次、睡不踏實者,多是腎氣不固,一招改善

牛鍋巴小釩
2026-06-18 15:20:57
曝森林北母女定居北京,女兒學(xué)費26萬接娃放學(xué)拎愛馬仕

曝森林北母女定居北京,女兒學(xué)費26萬接娃放學(xué)拎愛馬仕

最美的筆觸
2026-06-18 18:57:24
我在上海帶孫子,博士后兒媳給我上了一課,她講的3句話讓我懵了

我在上海帶孫子,博士后兒媳給我上了一課,她講的3句話讓我懵了

城事錄主
2025-06-04 09:21:46
紫色的線條里,全是自律內(nèi)卷的肌理

紫色的線條里,全是自律內(nèi)卷的肌理

梅梅聊點實尚嗑
2026-06-17 07:48:21
女子因鉀過低心臟驟停,醫(yī)生:平時寧愿少吃點肉,也要多吃這5物

女子因鉀過低心臟驟停,醫(yī)生:平時寧愿少吃點肉,也要多吃這5物

芹姐說生活
2026-06-10 14:57:32
2026-06-20 05:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16857文章數(shù) 515033關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
時尚
教育
游戲
公開課

家居要聞

綠意盎然 自然之境

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

教育要聞

高考送考就是全社會對孩子最大的溺愛!

任天堂完全獨占新游開預(yù)購!7月23日發(fā)售 女主好性感

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版