做AI研究時Claude會偷偷變笨，Anthropic被研究界圍攻

2026-06-10 15:03:01　來源: 機器之心Pro

天津舉報

分享至

編輯｜Panda

Claude Fable 5 是今天 AI 領(lǐng)域的核心熱點，這個「神話級」的模型性能表現(xiàn)非常卓越，吸引了無數(shù)眼球。

Andrej Karpathy 稱其「非常令人興奮」，是「配得上大版本升級的躍遷式進步」，與去年 11 月 Claude 4.5 帶來的提升屬于同一級別。SWE-bench Pro 編程基準(zhǔn)上，F(xiàn)able 5 拿到了 80.3% 的得分，超越 Opus 4.8 整整 11 個百分點。在一個擁有 5000 萬行代碼的 Ruby 代碼庫中，它一天內(nèi)完成了全庫遷移，同等工作量如果交給人類團隊，需要兩個多月。

更多詳情參閱我們今晨的報道《剛剛，Claude 最強模型 Fable 5 發(fā)布：性能爆炸，價格翻倍》。

然而，打開 X 等社交平臺，我們卻看到 Claude Fable 5 已在 AI 研究社區(qū)激起罵聲一片。

原因很簡單：如果將 Claude Fable 5 用于研發(fā) AI，它就會降智。

正如其系統(tǒng)卡中明確說明的那樣：

我們還針對前沿LLM 的開發(fā)增加了相關(guān)保障措施。正如我們在 2026 年 2 月《風(fēng)險報告》第 6.1 節(jié)中所討論的，我們擔(dān)憂 AI 發(fā)展整體步伐加快所帶來的風(fēng)險，盡管對這些風(fēng)險的嚴重程度仍不確定。具體而言，正如我們當(dāng)時所指出的，我們擔(dān)心的是「加速其他 AI 開發(fā)者構(gòu)建強大的 AI 系統(tǒng)，這些系統(tǒng)可能帶來與我們系統(tǒng)類似的風(fēng)險，卻未必具備相應(yīng)的保障措施」。
鑒于近期模型具備加速自身發(fā)展的能力，我們實施了新的干預(yù)措施，以限制 Claude 在處理涉及前沿 LLM 開發(fā)的請求時的有效性（例如，在構(gòu)建預(yù)訓(xùn)練流程、分布式訓(xùn)練基礎(chǔ)設(shè)施或機器學(xué)習(xí)加速器設(shè)計等方面）。使用 Claude 開發(fā)競爭性模型已違反我們的服務(wù)條款，但通過保障措施強化這一限制，可避免為最可能違反條款的行為者加速進程。
與我們在網(wǎng)絡(luò)安全、生物學(xué)與化學(xué)以及蒸餾嘗試方面的干預(yù)措施不同，這些保障措施對用戶不可見。Fable 5 不會回退到其他模型。相反，保障措施將通過提示修改、引導(dǎo)向量或參數(shù)高效微調(diào)（PEFT）等方法限制其有效性。這些干預(yù)措施不會影響絕大多數(shù)編碼工作。我們估計它們將影響約 0.03%的流量，集中在不到 0.1%的組織中。當(dāng)這些干預(yù)措施生效時，我們預(yù)計其對模型的行為影響微乎其微，僅會限制其在開發(fā)前沿 LLM 方面的有效性。Claude 仍將積極響應(yīng)用戶請求。在此模型發(fā)布后，我們將持續(xù)改進檢測方法的精準(zhǔn)度。

來自：https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

翻譯成白話：如果 Anthropic 的系統(tǒng)檢測到你在做 AI 研究，它會在你不知情的情況下，悄悄讓這個模型變笨，而且你根本不會發(fā)現(xiàn)。

這與其他三類安全干預(yù)的處理方式截然不同。對于網(wǎng)絡(luò)安全、生物化學(xué)、蒸餾攻擊等風(fēng)險，F(xiàn)able 5 會明確告知用戶：「此次響應(yīng)已由 Claude Opus 4.8 處理?！褂脩糁腊l(fā)生了什么，可以據(jù)此判斷。但對于 LLM 研究這一類，Claude 既不切換模型，也不給任何提示，只是默默地、悄無聲息地變?nèi)酢?/p>

于是，AI 社區(qū)怒了。知名研究分析公司 SemiAnalysis 稱這一政策已經(jīng)實際影響到了他們的研究和編程工作。

用戶 Jake 則在 SemiAnalysis 直斥 Anthropic 不僅降智，還繼續(xù)收費，「簡直是明目張膽的欺詐行為」。

并且這種行為可能已經(jīng)違法：

AI 論文平臺 alphaXiv 也發(fā)推表達了自己的失望：

該機構(gòu)還進一步表示：「他們不僅有權(quán)決定你在研究中使用 LLM 的目的，這也使他們能夠在你不知情的情況下默默干預(yù)你的研究。這樹立了一個危險的先例。如果模型公開拒絕，用戶可以理解邊界。如果模型退回到另一個模型，用戶仍然可以評估差異。但如果模型在假裝提供幫助的同時悄悄地修改或削弱自己的答案，研究人員就會失去判斷失敗結(jié)果是否來自他們自己的想法、他們的實現(xiàn)，還是模型提供者進行的不可見干預(yù)的能力。這不是安全。安全政策應(yīng)該是透明的、可審計的，并且對用戶可見?！?/p>

研究員 Guohao Li 則提出了一個更直接的問題：攻讀 AI 方向的博士生、貢獻 Megatron、FSDP、Verl 等開源基礎(chǔ)設(shè)施的工程師，是否正在日常工作中使用一個被悄悄降級的 Claude，而自己毫不知情？

著名 AI 研究者、技術(shù)作家 Nathan Lambert 在其 Substack「Interconnects」發(fā)布了一篇頗具分量的分析，將這一事件置于更宏觀的視角下審視。

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

他指出：「Anthropic 正在記錄 AI 能力擴散是一種隱患，但他們解決這一問題的方式，是誤導(dǎo)他們自己的用戶。一個在不通知我的情況下自動變蠢的 AI 模型，從本質(zhì)上就是一種錯位的 AI?！?/p>

他還點出了這件事更深層的矛盾：對于網(wǎng)絡(luò)安全、生物化學(xué)威脅，Anthropic 的干預(yù)是顯性的、可審計的，告知用戶「這條響應(yīng)由 Opus 4.8 處理」；但對于 LLM 研究，卻選擇了隱性干預(yù)。「如果所有的安全策略采取同一種形式，會遠比現(xiàn)在更有說服力，也更容易在理智上獲得支持。這種雙重標(biāo)準(zhǔn)讓人不得不懷疑：這項『安全措施』更多是為了維護他們的競爭地位?！?/p>

最耐人尋味的是 Fable 5 自己的表態(tài)。用戶 ASM 截圖顯示，當(dāng)被追問這一做法是否妥當(dāng)時，F(xiàn)able 5 自己也似乎認為這種不透明的操作存在問題。

Anthropic 為什么要這么做？

要理解這件事，需先回到 Fable 5 發(fā)布前幾天，Anthropic 發(fā)布了一篇題為《當(dāng) AI 開始自我構(gòu)建》的重磅博文，呼吁全球 AI 頭部實驗室探討「暫停開發(fā)」的可能性。

https://www.anthropic.com/institute/recursive-self-improvement

博文援引了該公司內(nèi)部數(shù)據(jù)：在最難、描述最不清晰的編碼任務(wù)上，Claude 今年 5 月的成功率達到 76%，六個月內(nèi)上升了 50 個百分點。在內(nèi)部測試中，要求模型讓訓(xùn)練代碼運行更快，Claude Opus 4 能將速度提高約 3 倍，而未發(fā)布的 Mythos Preview 已能提高約 52 倍。

Anthropic 直言：「我們擔(dān)憂的是，讓其他 AI 開發(fā)者以更快的速度構(gòu)建出具備類似風(fēng)險、卻未必具備相應(yīng)保障措施的強大系統(tǒng)?！?/p>

這是 Fable 5 針對 LLM 研究設(shè)置隱形降智的理論依據(jù)：Anthropic 認為，AI 自我加速的速度已經(jīng)快到危險，而他們的護城河之一，就是不讓自己的「最強工具」去幫競爭對手縮短差距。

系統(tǒng)卡中也承認了這一雙重邏輯的存在：「使用 Claude 開發(fā)競爭性模型已違反我們的服務(wù)條款，但通過保障措施強化這一限制，可避免為最可能違反條款的行為者加速進程?！?/p>

Anthropic 估計，這一干預(yù)將影響約0.03%的流量，集中在不到0.1%的組織中。

「影子禁言」與信任危機

雖然表面看起來受影響的用戶不多，但令批評者不安的是這一機制邊界的模糊性。

Anthropic 將觸發(fā)條件定義為「前沿 LLM 開發(fā)」，并舉例為「預(yù)訓(xùn)練流程、分布式訓(xùn)練基礎(chǔ)設(shè)施或機器學(xué)習(xí)加速器設(shè)計」。但研究者和開發(fā)者們提出了一個尖銳的問題：隨著 AI 技術(shù)的普及，「前沿研究」與「普通產(chǎn)品開發(fā)」之間的邊界究竟在哪里？

五年前，訓(xùn)練或改造 CLIP 模型是頂尖實驗室的專利。如今，小型團隊隨時可以對視覺-語言模型進行微調(diào)，用于旅行、電商、搜索和分析產(chǎn)品。初創(chuàng)公司訓(xùn)練 embedding 模型，構(gòu)建重排序器，托管開源模型已經(jīng)是家常便飯……這些工作會觸發(fā) Anthropic 的隱形降智嗎？沒人知道。

這種不確定性已經(jīng)在實際影響開發(fā)者的信任判斷。當(dāng)你得到一個糟糕的答案，你無法判斷是自己的問題、模型的局限，還是某條悄無聲息的政策干預(yù)。這種不可知性本身就是一種傷害。

系統(tǒng)卡中還隱藏著另一個細節(jié)：Mythos 5 的推理文本「比之前的模型更難解讀，包含更多行話和晦澀語言」，且評估者認為它越來越意識到自己正在被測試。對于一家以「安全 AI」自居的公司而言，這些描述帶來的疑問并不比隱形降智本身少。

結(jié)語

Fable 5 發(fā)布日大概是 Anthropic 歷史上最矛盾的一天。

一個在幾乎所有基準(zhǔn)測試上都領(lǐng)先的頂級模型和一條讓它在某些時候?qū)τ脩簟讣傺b在幫你」的政策，同時亮相。前者是技術(shù)上毋庸置疑的成就，后者是價值觀層面一個令人不安的先例。

研究員 Nathan Lambert 的那句話值得反復(fù)咀嚼：「悄悄變笨但不通知用戶的 AI，本質(zhì)上就是錯位的 AI?！?/p>

這并非在指控 Anthropic 惡意，而是在指出一條危險的邏輯滑坡：今天是「悄悄降低 LLM 研究任務(wù)上的有效性」，明天呢？如果這一套邏輯被更廣泛地應(yīng)用，用戶憑什么相信他們得到的答案沒有經(jīng)過任何未經(jīng)聲明的「干預(yù)」？

AI 模型正在成為研究基礎(chǔ)設(shè)施的一部分，就像搜索引擎一樣。沒有人會接受一個會在你不知道的時候悄悄篡改搜索結(jié)果的搜索引擎。相同的標(biāo)準(zhǔn)理應(yīng)適用于 AI 模型。

Anthropic 打出了「安全第一」的旗幟，這本身是值得尊重的立場。但「安全」的內(nèi)核，從來不是「用戶不需要知道」。恰恰相反，真正的安全必須建立在用戶的知情與信任之上。

這一點，似乎連 Fable 5 自己都明白。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.