免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

做AI研究時Claude會偷偷變笨,Anthropic被研究界圍攻

0
分享至

編輯|Panda

Claude Fable 5 是今天 AI 領(lǐng)域的核心熱點,這個「神話級」的模型性能表現(xiàn)非常卓越,吸引了無數(shù)眼球。



Andrej Karpathy 稱其「非常令人興奮」,是「配得上大版本升級的躍遷式進步」,與去年 11 月 Claude 4.5 帶來的提升屬于同一級別。SWE-bench Pro 編程基準(zhǔn)上,F(xiàn)able 5 拿到了 80.3% 的得分,超越 Opus 4.8 整整 11 個百分點。在一個擁有 5000 萬行代碼的 Ruby 代碼庫中,它一天內(nèi)完成了全庫遷移,同等工作量如果交給人類團隊,需要兩個多月。



更多詳情參閱我們今晨的報道《剛剛,Claude 最強模型 Fable 5 發(fā)布:性能爆炸,價格翻倍》。

然而,打開 X 等社交平臺,我們卻看到 Claude Fable 5 已在 AI 研究社區(qū)激起罵聲一片。

原因很簡單:如果將 Claude Fable 5 用于研發(fā) AI,它就會降智。

正如其系統(tǒng)卡中明確說明的那樣:

我們還針對前沿LLM 的開發(fā)增加了相關(guān)保障措施。正如我們在 2026 年 2 月《風(fēng)險報告》第 6.1 節(jié)中所討論的,我們擔(dān)憂 AI 發(fā)展整體步伐加快所帶來的風(fēng)險,盡管對這些風(fēng)險的嚴重程度仍不確定。具體而言,正如我們當(dāng)時所指出的,我們擔(dān)心的是「加速其他 AI 開發(fā)者構(gòu)建強大的 AI 系統(tǒng),這些系統(tǒng)可能帶來與我們系統(tǒng)類似的風(fēng)險,卻未必具備相應(yīng)的保障措施」。
鑒于近期模型具備加速自身發(fā)展的能力,我們實施了新的干預(yù)措施,以限制 Claude 在處理涉及前沿 LLM 開發(fā)的請求時的有效性(例如,在構(gòu)建預(yù)訓(xùn)練流程、分布式訓(xùn)練基礎(chǔ)設(shè)施或機器學(xué)習(xí)加速器設(shè)計等方面)。使用 Claude 開發(fā)競爭性模型已違反我們的服務(wù)條款,但通過保障措施強化這一限制,可避免為最可能違反條款的行為者加速進程。
與我們在網(wǎng)絡(luò)安全、生物學(xué)與化學(xué)以及蒸餾嘗試方面的干預(yù)措施不同,這些保障措施對用戶不可見。Fable 5 不會回退到其他模型。相反,保障措施將通過提示修改、引導(dǎo)向量或參數(shù)高效微調(diào)(PEFT)等方法限制其有效性。這些干預(yù)措施不會影響絕大多數(shù)編碼工作。我們估計它們將影響約 0.03%的流量,集中在不到 0.1%的組織中。當(dāng)這些干預(yù)措施生效時,我們預(yù)計其對模型的行為影響微乎其微,僅會限制其在開發(fā)前沿 LLM 方面的有效性。Claude 仍將積極響應(yīng)用戶請求。在此模型發(fā)布后,我們將持續(xù)改進檢測方法的精準(zhǔn)度。



來自:https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

翻譯成白話:如果 Anthropic 的系統(tǒng)檢測到你在做 AI 研究,它會在你不知情的情況下,悄悄讓這個模型變笨,而且你根本不會發(fā)現(xiàn)。

這與其他三類安全干預(yù)的處理方式截然不同。對于網(wǎng)絡(luò)安全、生物化學(xué)、蒸餾攻擊等風(fēng)險,F(xiàn)able 5 會明確告知用戶:「此次響應(yīng)已由 Claude Opus 4.8 處理?!褂脩糁腊l(fā)生了什么,可以據(jù)此判斷。但對于 LLM 研究這一類,Claude 既不切換模型,也不給任何提示,只是默默地、悄無聲息地變?nèi)酢?/p>

于是,AI 社區(qū)怒了。知名研究分析公司 SemiAnalysis 稱這一政策已經(jīng)實際影響到了他們的研究和編程工作。



用戶 Jake 則在 SemiAnalysis 直斥 Anthropic 不僅降智,還繼續(xù)收費,「簡直是明目張膽的欺詐行為」。



并且這種行為可能已經(jīng)違法:



AI 論文平臺 alphaXiv 也發(fā)推表達了自己的失望:



該機構(gòu)還進一步表示:「他們不僅有權(quán)決定你在研究中使用 LLM 的目的,這也使他們能夠在你不知情的情況下默默干預(yù)你的研究。這樹立了一個危險的先例。如果模型公開拒絕,用戶可以理解邊界。如果模型退回到另一個模型,用戶仍然可以評估差異。但如果模型在假裝提供幫助的同時悄悄地修改或削弱自己的答案,研究人員就會失去判斷失敗結(jié)果是否來自他們自己的想法、他們的實現(xiàn),還是模型提供者進行的不可見干預(yù)的能力。這不是安全。安全政策應(yīng)該是透明的、可審計的,并且對用戶可見?!?/p>

研究員 Guohao Li 則提出了一個更直接的問題:攻讀 AI 方向的博士生、貢獻 Megatron、FSDP、Verl 等開源基礎(chǔ)設(shè)施的工程師,是否正在日常工作中使用一個被悄悄降級的 Claude,而自己毫不知情?



著名 AI 研究者、技術(shù)作家 Nathan Lambert 在其 Substack「Interconnects」發(fā)布了一篇頗具分量的分析,將這一事件置于更宏觀的視角下審視。



https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

他指出:「Anthropic 正在記錄 AI 能力擴散是一種隱患,但他們解決這一問題的方式,是誤導(dǎo)他們自己的用戶。一個在不通知我的情況下自動變蠢的 AI 模型,從本質(zhì)上就是一種錯位的 AI?!?/p>

他還點出了這件事更深層的矛盾:對于網(wǎng)絡(luò)安全、生物化學(xué)威脅,Anthropic 的干預(yù)是顯性的、可審計的,告知用戶「這條響應(yīng)由 Opus 4.8 處理」;但對于 LLM 研究,卻選擇了隱性干預(yù)。「如果所有的安全策略采取同一種形式,會遠比現(xiàn)在更有說服力,也更容易在理智上獲得支持。這種雙重標(biāo)準(zhǔn)讓人不得不懷疑:這項『安全措施』更多是為了維護他們的競爭地位?!?/p>

最耐人尋味的是 Fable 5 自己的表態(tài)。用戶 ASM 截圖顯示,當(dāng)被追問這一做法是否妥當(dāng)時,F(xiàn)able 5 自己也似乎認為這種不透明的操作存在問題。



Anthropic 為什么要這么做?

要理解這件事,需先回到 Fable 5 發(fā)布前幾天,Anthropic 發(fā)布了一篇題為《當(dāng) AI 開始自我構(gòu)建》的重磅博文,呼吁全球 AI 頭部實驗室探討「暫停開發(fā)」的可能性。



https://www.anthropic.com/institute/recursive-self-improvement

博文援引了該公司內(nèi)部數(shù)據(jù):在最難、描述最不清晰的編碼任務(wù)上,Claude 今年 5 月的成功率達到 76%,六個月內(nèi)上升了 50 個百分點。在內(nèi)部測試中,要求模型讓訓(xùn)練代碼運行更快,Claude Opus 4 能將速度提高約 3 倍,而未發(fā)布的 Mythos Preview 已能提高約 52 倍。



Anthropic 直言:「我們擔(dān)憂的是,讓其他 AI 開發(fā)者以更快的速度構(gòu)建出具備類似風(fēng)險、卻未必具備相應(yīng)保障措施的強大系統(tǒng)?!?/p>

這是 Fable 5 針對 LLM 研究設(shè)置隱形降智的理論依據(jù):Anthropic 認為,AI 自我加速的速度已經(jīng)快到危險,而他們的護城河之一,就是不讓自己的「最強工具」去幫競爭對手縮短差距。

系統(tǒng)卡中也承認了這一雙重邏輯的存在:「使用 Claude 開發(fā)競爭性模型已違反我們的服務(wù)條款,但通過保障措施強化這一限制,可避免為最可能違反條款的行為者加速進程?!?/p>

Anthropic 估計,這一干預(yù)將影響約0.03%的流量,集中在不到0.1%的組織中。

「影子禁言」與信任危機

雖然表面看起來受影響的用戶不多,但令批評者不安的是這一機制邊界的模糊性。

Anthropic 將觸發(fā)條件定義為「前沿 LLM 開發(fā)」,并舉例為「預(yù)訓(xùn)練流程、分布式訓(xùn)練基礎(chǔ)設(shè)施或機器學(xué)習(xí)加速器設(shè)計」。但研究者和開發(fā)者們提出了一個尖銳的問題:隨著 AI 技術(shù)的普及,「前沿研究」與「普通產(chǎn)品開發(fā)」之間的邊界究竟在哪里?



五年前,訓(xùn)練或改造 CLIP 模型是頂尖實驗室的專利。如今,小型團隊隨時可以對視覺-語言模型進行微調(diào),用于旅行、電商、搜索和分析產(chǎn)品。初創(chuàng)公司訓(xùn)練 embedding 模型,構(gòu)建重排序器,托管開源模型已經(jīng)是家常便飯……這些工作會觸發(fā) Anthropic 的隱形降智嗎?沒人知道。

這種不確定性已經(jīng)在實際影響開發(fā)者的信任判斷。當(dāng)你得到一個糟糕的答案,你無法判斷是自己的問題、模型的局限,還是某條悄無聲息的政策干預(yù)。這種不可知性本身就是一種傷害。

系統(tǒng)卡中還隱藏著另一個細節(jié):Mythos 5 的推理文本「比之前的模型更難解讀,包含更多行話和晦澀語言」,且評估者認為它越來越意識到自己正在被測試。對于一家以「安全 AI」自居的公司而言,這些描述帶來的疑問并不比隱形降智本身少。

結(jié)語

Fable 5 發(fā)布日大概是 Anthropic 歷史上最矛盾的一天。

一個在幾乎所有基準(zhǔn)測試上都領(lǐng)先的頂級模型和一條讓它在某些時候?qū)τ脩簟讣傺b在幫你」的政策,同時亮相。前者是技術(shù)上毋庸置疑的成就,后者是價值觀層面一個令人不安的先例。

研究員 Nathan Lambert 的那句話值得反復(fù)咀嚼:「悄悄變笨但不通知用戶的 AI,本質(zhì)上就是錯位的 AI?!?/p>

這并非在指控 Anthropic 惡意,而是在指出一條危險的邏輯滑坡:今天是「悄悄降低 LLM 研究任務(wù)上的有效性」,明天呢?如果這一套邏輯被更廣泛地應(yīng)用,用戶憑什么相信他們得到的答案沒有經(jīng)過任何未經(jīng)聲明的「干預(yù)」?

AI 模型正在成為研究基礎(chǔ)設(shè)施的一部分,就像搜索引擎一樣。沒有人會接受一個會在你不知道的時候悄悄篡改搜索結(jié)果的搜索引擎。相同的標(biāo)準(zhǔn)理應(yīng)適用于 AI 模型。

Anthropic 打出了「安全第一」的旗幟,這本身是值得尊重的立場。但「安全」的內(nèi)核,從來不是「用戶不需要知道」。恰恰相反,真正的安全必須建立在用戶的知情與信任之上。

這一點,似乎連 Fable 5 自己都明白。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

"越擦越癢,越癢越擦"!有人崩潰:果斷停用!

深圳晚報
2026-06-17 12:10:46
韓國限制級神作《赤月青日》,全程無擦邊,看完頭皮發(fā)麻

韓國限制級神作《赤月青日》,全程無擦邊,看完頭皮發(fā)麻

情感大頭說說
2026-06-18 14:10:21
美國與伊朗公布諒解備忘錄文本全文

美國與伊朗公布諒解備忘錄文本全文

新華社
2026-06-18 12:29:02
中央5臺直播世界杯時間表:6月19日CCTV5直播,韓國墨西哥爭頭名

中央5臺直播世界杯時間表:6月19日CCTV5直播,韓國墨西哥爭頭名

薇說體育
2026-06-18 15:56:49
黃仁勛和雷軍吃路邊攤的觀感為什么不一樣

黃仁勛和雷軍吃路邊攤的觀感為什么不一樣

尋空的營銷啟示錄
2026-06-17 12:06:47
年輕人辦公室“午睡搭子”有多炸裂?果然,為了午睡,大家拼了

年輕人辦公室“午睡搭子”有多炸裂?果然,為了午睡,大家拼了

室內(nèi)設(shè)計師有料兒
2026-06-16 10:05:44
佟麗婭怎么胖若兩人了?那個瘦到脫相讓人心疼的丫丫,徹底不見了

佟麗婭怎么胖若兩人了?那個瘦到脫相讓人心疼的丫丫,徹底不見了

TVB的四小花
2026-06-18 08:09:03
四川一地政府主要領(lǐng)導(dǎo)調(diào)整

四川一地政府主要領(lǐng)導(dǎo)調(diào)整

上觀新聞
2026-06-18 12:15:40
官方表態(tài)很清楚了:科技科技,還是科技

官方表態(tài)很清楚了:科技科技,還是科技

販財局
2026-06-17 15:56:30
世界杯有假球?C羅這么菜了,為啥葡萄牙不換他?高人講出原因

世界杯有假球?C羅這么菜了,為啥葡萄牙不換他?高人講出原因

三十年萊斯特城球迷
2026-06-18 20:35:15
最高3年1.82億美元!湖人絕不會為老詹開頂薪?報價仍將碾壓勇士

最高3年1.82億美元!湖人絕不會為老詹開頂薪?報價仍將碾壓勇士

羅說NBA
2026-06-18 20:52:34
徹查!信號強烈!中央升級反腐“天網(wǎng)”!

徹查!信號強烈!中央升級反腐“天網(wǎng)”!

細說職場
2026-06-18 10:24:22
上海這些區(qū)域,房子陷入流動性危機

上海這些區(qū)域,房子陷入流動性危機

環(huán)線房產(chǎn)咨詢
2026-06-18 10:54:10
晚飯七分飽被推翻了?醫(yī)生:過了65歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫(yī)生:過了65歲,吃飯盡量要做到這5點

健康科普365
2026-06-14 18:10:08
再見1號!布克改穿球衣號碼!正式開啟生涯新篇章

再見1號!布克改穿球衣號碼!正式開啟生涯新篇章

籃球?qū)崙?zhàn)寶典
2026-06-18 15:57:46
普京不想再打!俄軍打下來的領(lǐng)土,足夠給1億俄羅斯人1個交待了

普京不想再打!俄軍打下來的領(lǐng)土,足夠給1億俄羅斯人1個交待了

何轐說
2026-06-19 01:55:45
有退休金的人發(fā)現(xiàn)一個奇怪的現(xiàn)象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

有退休金的人發(fā)現(xiàn)一個奇怪的現(xiàn)象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

心理觀察局
2026-06-07 06:37:04
央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

墨印齋
2026-05-29 13:20:21
斯諾克比賽結(jié)果:中國5勝3負,世界冠軍1-5敗北

斯諾克比賽結(jié)果:中國5勝3負,世界冠軍1-5敗北

阿衃體育
2026-06-19 03:36:41
萊因克爾噴馬奎爾忘本人在場社死

萊因克爾噴馬奎爾忘本人在場社死

體壇周報
2026-06-18 18:22:12
2026-06-19 05:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

瑞士4-1波黑獲小組賽首勝 曼贊比替補登場進兩球

頭條要聞

瑞士4-1波黑獲小組賽首勝 曼贊比替補登場進兩球

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時尚
教育
手機
家居
軍事航空

看不懂球,還看不懂帥哥嗎?

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

手機要聞

iOS 27「查找」App升級:支持隱藏共享位置與自定義時長

家居要聞

綠意盎然 自然之境

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進入關(guān)懷版