免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind:Transformer存在拓撲缺陷,思維鏈治標不治本

0
分享至

編輯|Panda


如今,思維鏈(CoT)已然成為前沿模型的標配。其機制并不復雜:用戶提一個問題,模型會先輸出一大段內(nèi)部推導過程(有時候長達幾千個詞),然后才給出正式答案。

然而,隨著模型能力的提升,思維鏈也越來越長,成本也就水漲船高,越來越貴。社交網(wǎng)絡上,我們經(jīng)常能看到 AI 重度用戶望賬單而興嘆,悲錢包之空癟。

Claude Fable 5 發(fā)布后,前沿模型的使用成本更是驚人,以至于讓一些用戶發(fā)出了感嘆:「只有開賭場和搞詐騙的才用得起」。

但是,或許,這條不斷提升思維能力的路可能本就走錯了方向。

近日,一篇來自谷歌 DeepMind 的論文《Transformer 的拓撲麻煩》以一個看似簡單的問題,撼動了整個行業(yè)的底層邏輯:Transformer 架構(gòu)本身,就不擅長追蹤狀態(tài);而「思維鏈」不過是在給這個結(jié)構(gòu)性缺陷打補丁。



  • 論文標題:The Topological Trouble With Transformers
  • 論文地址:https://arxiv.org/abs/2604.17121

值得注意的是,這篇論文的第一作者Michael C. Mozer是 DeepMind 的研究科學家,也是循環(huán)神經(jīng)網(wǎng)絡領(lǐng)域的資深研究者。他在 1991 年就提出了處理多尺度時序結(jié)構(gòu)的循環(huán)網(wǎng)絡模型,并在整個 1990 年代深入研究過 RNN 的梯度消失問題。正是這些工作,在當年埋下了 LSTM(長短期記憶網(wǎng)絡)誕生的伏筆。



幾十年后,他重新審視這個問題。這一次,他的對手換成了主宰整個 AI 時代的 Transformer。

Transformer 為何如此強大,又有何隱患?

要理解這篇論文,先得明白 Transformer 是如何工作的。



原初 Transformer 架構(gòu)

我們可以想象一座圖書館。每次有人提問,圖書館員不會「記住」之前說過什么,而是把所有對話記錄擺在桌上,重新翻閱一遍,然后作答。

這就是 Transformer 的核心策略:把整個對話歷史都裝進「上下文窗口」,通過「注意力機制」檢索過去的信息。這個策略非常有效:它繞開了早期循環(huán)神經(jīng)網(wǎng)絡(RNN)難以記住遠距離信息的老問題,并由此催生了 GPT、Claude、Gemini、DeepSeek 等一系列大模型。

但這個策略有一個根本性的缺陷,論文稱之為「狀態(tài)追蹤(State Tracking)」問題。

所謂狀態(tài)追蹤,是指在對話或推理過程中,模型需要維護一個不斷更新的「內(nèi)部狀態(tài)」,比如對話進行到哪一步、當前場景里哪個人在哪里、一道邏輯題現(xiàn)在推理到哪個環(huán)節(jié)。

人類在思考時,這種追蹤是自動完成的,往往無需刻意思考。但對于 Transformer 來說,每整合一條新信息,這個「內(nèi)部狀態(tài)」就必須被推送到網(wǎng)絡更深的層次,而網(wǎng)絡的深度是有限的,一旦耗盡,模型便無法繼續(xù)可靠地追蹤狀態(tài)。



論文用一個直觀的比喻解釋了這一點:把 Transformer 想象成一棟樓,信息從底層流向頂層。每處理一個新輸入,模型的「狀態(tài)表示」就得搬到更高一層。樓層不是無限的,搬到頂了,就搬不動了。

「思維鏈」是個變通,但非解決方案

論文中,谷歌 DeepMind 的作者們用了幾個令人印象深刻的例子,展示了 Transformer 的狀態(tài)追蹤失效有多么日常。

第一個例子,是讓模型扮演「猜數(shù)字」游戲:由模型心里默想一個 1 到 100 之間的數(shù)字,用戶來猜,模型只回答「更大」或「更小」。這個游戲的關(guān)鍵在于,模型必須始終記住自己想的那個數(shù),并對每次猜測給出一致的反饋。然而,論文展示了 Gemini 3(Fast)的失?。?/p>

用戶猜 60,模型說「更小」;用戶猜 41,模型說「更小」;用戶猜 70,模型卻說「更大」——前后矛盾,破綻立現(xiàn)。



更耐人尋味的是,即便是加入了「思考」模塊的 Gemini 3 Thinking,也出了岔子。模型在思考階段明確寫下「我選定了數(shù)字 42,60 比 42 大,所以應該回答更小」——但當用戶猜 42 時,模型依然回答「更小」,等于忘了自己剛剛說的話。



第二個例子,則是經(jīng)典的「河岸還是銀行?」歧義測試。同一個英文單詞「bank」,可以是河岸,也可以是銀行。模型在第一輪正確判斷弗雷德去的是河邊,但第二輪被問到「他那里有沒有 ATM 機」時,卻改口說「有,大多數(shù)銀行旁邊都有 ATM」。前后矛盾,毫無察覺。



這不是偶發(fā)的「幻覺」,而是架構(gòu)性缺陷的必然結(jié)果。論文通過神經(jīng)網(wǎng)絡可解釋性工具 Patchscopes 觀察到:模型對「bank」的語義消歧,發(fā)生在網(wǎng)絡第六層(較深位置);但當模型處理后續(xù)輸入時,淺層(第 1 至 5 層)根本「看不到」這個消歧結(jié)果,只能基于粗淺的詞頻關(guān)聯(lián)(「銀行」→「ATM」)給出反應。

狀態(tài)確實被更新了,但更新的結(jié)果埋得太深,后續(xù)處理無法訪問。

目前主流的解決方案「思維鏈」的原理,是讓模型把那個埋得很深的狀態(tài)「打印出來」,變成可見的文字輸出,再重新讀入。這樣,深層信息就被「搬運」到了新一輪處理的表層。

這確實有效,但代價也大:大量計算被用于輸出這些「中間思考」,上下文窗口被大量占用,推理成本隨之飆升。

對此,論文中表示:「對于人們自動完成、毫無意識的推斷,比如判斷一個詞的含義,根本不需要訴諸繁復的外顯思考?!?/p>

如何解決:重新?lián)肀А秆h(huán)」

論文的核心主張是將研究重心從「外顯思維鏈」轉(zhuǎn)向「隱式激活動態(tài)」。換言之,用循環(huán)(Recurrent)架構(gòu)來替代或補充當前的純前饋(Feedforward)結(jié)構(gòu)。

論文為此建立了一套分類體系,將各類「循環(huán) Transformer」按兩個維度劃分:循環(huán)發(fā)生在哪個軸(深度方向還是序列方向)、每個循環(huán)步驟處理幾個輸入詞。

在「深度方向循環(huán)」上,研究者們已探索出「循環(huán) Transformer」(Looped Transformer)、「通用 Transformer」(Universal Transformer)等架構(gòu),允許同一組網(wǎng)絡層被反復使用。但論文指出,深度循環(huán)依然沒有解決根本問題:狀態(tài)表示仍然會隨著序列增長而被推向更深層,只是慢了一點。



真正能做到「無限期狀態(tài)追蹤」的,是沿序列方向的循環(huán),即每處理一個新輸入,都將前一步的狀態(tài)向量顯式傳遞進來。

這與傳統(tǒng) RNN 的做法一脈相承,但結(jié)合了現(xiàn)代注意力機制的優(yōu)勢。論文列舉了 MAMBA、RWKV-7、DeltaNet 等狀態(tài)空間模型(SSM)和線性注意力架構(gòu),認為它們代表了這條路線的最新進展。

特別值得關(guān)注的是 DeltaNet 的改進版本:通過將特征值范圍擴展至負數(shù),它在保留并行訓練優(yōu)勢的同時,實現(xiàn)了超越標準 Transformer 的狀態(tài)追蹤能力,并在大規(guī)模語言建模測試中展現(xiàn)出競爭力。



論文還提出了幾個前景看好的研究方向:在更粗粒度上引入循環(huán)(例如以句子為單位而非詞元);利用殘差連接帶來的表示對齊來降低循環(huán)訓練成本;以及分階段訓練策略——先用標準前饋架構(gòu)預訓練,再引入循環(huán)機制進行微調(diào)。

下一代大模型,需要會流動的記憶

「思考」這個能力,如今已成為頂級 AI 產(chǎn)品的標配賣點。但論文給出了一個清醒的提醒:現(xiàn)在的「思考」,更像是用語言在黑板上演算,而不是真正的內(nèi)心動態(tài)。

一個人讀一本小說,不需要每翻一頁就把前面發(fā)生的事「朗讀出來」,才能記住故事線索。這種背景性的、流動的狀態(tài)維護,對人類來說幾乎是零成本的。

而大模型現(xiàn)在做不到這件事。

論文的結(jié)論認為,下一代基礎模型必須超越「反復檢索歷史文本」的策略,轉(zhuǎn)而構(gòu)建「流動的、持續(xù)演化的現(xiàn)實表示」,橫跨多個時間尺度。這不只是效率問題,而是通向真正穩(wěn)定、連貫的長時認知的必由之路。

從 Transformer 的「記憶檢索」到真正的「狀態(tài)維護」,這條路還很長。但現(xiàn)在,有人已經(jīng)看清了地圖上那道彎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
135億!Manus收購案重大轉(zhuǎn)機,傳騰訊出手

135億!Manus收購案重大轉(zhuǎn)機,傳騰訊出手

智東西
2026-06-18 23:13:55
香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設

香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設

悠悠說世界
2026-06-19 02:29:30
官方表態(tài)很清楚了:科技科技,還是科技

官方表態(tài)很清楚了:科技科技,還是科技

販財局
2026-06-17 15:56:30
寧波各區(qū)縣2026年1-4月財政收入:北侖突破200億,奉化大跌成墊底

寧波各區(qū)縣2026年1-4月財政收入:北侖突破200億,奉化大跌成墊底

水又木二
2026-06-18 12:48:39
國家衛(wèi)健委15號令發(fā)布!醫(yī)師多點執(zhí)業(yè)、外出會診、考試違紀規(guī)則全面改寫

國家衛(wèi)健委15號令發(fā)布!醫(yī)師多點執(zhí)業(yè)、外出會診、考試違紀規(guī)則全面改寫

醫(yī)客
2026-06-18 12:15:50
否認欺負楊思琦!香港老戲骨公開霸凌者身份:是商天娥和姓陳的

否認欺負楊思琦!香港老戲骨公開霸凌者身份:是商天娥和姓陳的

奇怪的鯊魚們
2026-06-17 13:13:35
烏克蘭“鯊魚”無人機接入星鏈:操作員在基輔,前線目標實時直播

烏克蘭“鯊魚”無人機接入星鏈:操作員在基輔,前線目標實時直播

桂系007
2026-06-15 23:29:54
“冤不冤?”內(nèi)蒙古,一女子還在哺乳期,就開始做上門按摩服務

“冤不冤?”內(nèi)蒙古,一女子還在哺乳期,就開始做上門按摩服務

阿振觀點
2026-06-01 20:09:42
撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

覃仕勇說史
2026-06-15 11:20:32
法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

聞識
2026-06-18 01:10:46
大碼模特現(xiàn)實里到底多大?

大碼模特現(xiàn)實里到底多大?

飛娛日記
2026-05-12 08:27:55
突然宣布:廣東一龍舟大賽,延期

突然宣布:廣東一龍舟大賽,延期

南方都市報
2026-06-18 21:59:21
26歲女子陰道分泌物異常,性交劇痛,病因竟是曾經(jīng)的一個手術(shù)……

26歲女子陰道分泌物異常,性交劇痛,病因竟是曾經(jīng)的一個手術(shù)……

醫(yī)學界婦產(chǎn)科頻道
2026-06-18 11:12:30
隊報:土耳其一解說員多次搞混伊朗新西蘭,停播至世界杯結(jié)束

隊報:土耳其一解說員多次搞混伊朗新西蘭,停播至世界杯結(jié)束

懂球帝
2026-06-18 22:20:25
世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

多雨的天
2026-06-19 04:23:53
李嘉誠預言要成真了?我國41.5%的城鎮(zhèn)家庭,或?qū)⒚鎸@三個難題

李嘉誠預言要成真了?我國41.5%的城鎮(zhèn)家庭,或?qū)⒚鎸@三個難題

阿尢說歷史
2026-06-14 13:30:57
男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

品讀時刻
2026-06-11 09:04:59
女人發(fā)展了“婚外關(guān)系”,大多會急于做三件事,不難發(fā)現(xiàn)

女人發(fā)展了“婚外關(guān)系”,大多會急于做三件事,不難發(fā)現(xiàn)

葉飛飛情感屋
2026-06-18 17:27:06
拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

羅說NBA
2026-06-18 09:58:32
獻血科普翻車,負責人被多人逼問:你捐了沒有?評論區(qū)早已清醒

獻血科普翻車,負責人被多人逼問:你捐了沒有?評論區(qū)早已清醒

原廣工業(yè)
2026-06-18 16:56:07
2026-06-19 05:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

房產(chǎn)
教育
藝術(shù)
公開課
軍事航空

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

藝術(shù)要聞

臺北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進入關(guān)懷版