免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Fable 5最難檔零分!智能體的最后考試來了

0
分享至

機器之心編輯部

這幾天,Anthropic 的最新模型 Claude Fable 5 發(fā)布之后,在 AI 圈激起了不小的震動。

今天一早,大模型評測平臺 Arena 放出了智能體基準(zhǔn)測試(Agent Arena)的成績:Fable 5(High)排名第一,OpenAI 的 GPT-5.5(xHigh)屈居第二。另外,在「確認(rèn)成功率」和「可引導(dǎo)性」等兩項指標(biāo)上,F(xiàn)able 5(High)也穩(wěn)壓 GPT-5.5(xHigh)。

從 Agent Arena 的跑分來看,F(xiàn)able 5 的性能強悍可見一斑。該基準(zhǔn)通過數(shù)百萬個真實世界的長周期智能體任務(wù)來評估模型,需要調(diào)用網(wǎng)頁搜索、文件系統(tǒng)、終端等工具,完成寫代碼、制作幻燈片、網(wǎng)頁研究、構(gòu)建應(yīng)用以及分析文檔等復(fù)雜工作流。



但與此同時,在另一個智能體基準(zhǔn)測試中,F(xiàn)able 5 敗給了一個多月前發(fā)布的 GPT-5.5。

它是加州大學(xué)伯克利分校宋曉東(Dawn Song)教授團隊開發(fā)的ALE,全稱為 Agents' Last Exam(智能體的最后考試),用來衡量 AI 智能體是否真的能夠在廣泛的真實世界領(lǐng)域中完成具有經(jīng)濟價值的工作。

ALE 測試涵蓋 55 個非體力職業(yè),包含 1500 + 項任務(wù),由來自 100 + 機構(gòu)的 300+ 位專家貢獻(xiàn),覆蓋科學(xué)、工程、醫(yī)學(xué)、法律、金融、教育等多個領(lǐng)域。另外,該基準(zhǔn)提供完整的 GUI + CLI 環(huán)境,并基于最終結(jié)果進(jìn)行可驗證評估。



在 ALE 中,團隊評測了 Fable 5、GPT-5.5、Composer 2.5 以及其他前沿 Agent 系統(tǒng)。結(jié)果既令人印象深刻,也足夠讓人冷靜:

現(xiàn)在的 Agent 已經(jīng)能夠解決相當(dāng)一部分專業(yè)任務(wù),但當(dāng)我們看向最難的那一類任務(wù),也就是那些需要持續(xù)推理、深厚領(lǐng)域知識,以及長周期可靠執(zhí)行的任務(wù)時,它們距離人類水平仍然很遠(yuǎn)。「有用的 Agent 時代已經(jīng)到來,但真正能勝任工作的 Agent 時代,還沒有?!?/p>

團隊希望 ALE 能夠成為一個新的參照系,幫助行業(yè)開發(fā)出能夠在廣泛領(lǐng)域中穩(wěn)定完成經(jīng)濟價值工作的 Agent。



針對 Fable 5,ALE 的以下幾點測試結(jié)果值得我們關(guān)注:

一是,在整體榜單中,GPT-5.5 憑借 24.0% 的通過率居于榜首,超越了 Fable 5 的 22.0%;余下依次為 composer-2.5、Gemini-3.1-pro-preview、Deepseek-v4-pro 和 Qwen-3.7-Max。

二是,成本差異巨大。雖然 Fable 5、GPT-5.5 和 Composer 2.5 的整體表現(xiàn)處在同一梯隊,但每項任務(wù)的成本差異非常明顯:Fable 5 平均每題花費約 $15.70,GPT-5.5 僅 $3.80,Composer 2.5 為 $1.33。

也就是說,在性能相近的情況下,F(xiàn)able 5 每完成一項任務(wù)的成本大約是其他模型的 4 到 12 倍。



三是,最難一檔全軍覆沒。在最高難度「Last-Exam」檔位,包括 Fable 5 在內(nèi)的所有前沿 agent 通過率為 0%。



另外,ALE 中還有一個僅支持命令行環(huán)境的子集——ALE-CLI

相比 Terminal-Bench 和 SWE-bench-Pro,它的覆蓋范圍更廣、任務(wù)周期更長,難度也明顯更高:

  • 覆蓋更廣:ALE-CLI 的任務(wù)覆蓋 ALE 55 個行業(yè)子領(lǐng)域中的 40 個;相比之下,Terminal-Bench 只覆蓋 6 個,SWE-bench-Pro 只覆蓋 5 個。
  • 周期更長:人類完成這些任務(wù)通常需要數(shù)小時到數(shù)周,而不是幾分鐘到幾天。
  • 難度更高:表現(xiàn)最好的 Agent 通過率也只有 25.2%;相比之下,Terminal-Bench 上的最佳通過率為 82.0%,SWE-bench-Pro 為 59.1%。

這說明,Agent 離真正成熟還有很長的路要走,也還有很大的提升空間。



在談到為什么 ALE 的結(jié)果和一些其他基準(zhǔn)不太一樣,尤其是 Fable 5?宋曉東表示,原因很簡單:不存在一個在所有場景下都最強的 Agent。包括 Fable 5 在內(nèi),每個前沿模型都有自己擅長的領(lǐng)域,也都有表現(xiàn)吃力的領(lǐng)域。

總分會把 55 個職業(yè)、1500 多個任務(wù)的結(jié)果平均到一起,因此很多模型的分?jǐn)?shù)會擠在相近區(qū)間。但真正重要的,不是平均分。真正有價值的信號在于:Agent 在哪里成功,在哪里失敗,以及這些成敗模式如何隨領(lǐng)域而變化。同樣的任務(wù),不同模型失敗的原因往往完全不同。



最常見的失敗模式依然是一個熟悉的問題: Agent 還沒有真正驗證自己的工作,就先宣布任務(wù)完成。典型的完成回復(fù)往往是:「已完成,所有檢查都通過了。」但實際輸出可能缺少必要文件、統(tǒng)計數(shù)量有誤、遺漏關(guān)鍵字段,或者違反了任務(wù)說明中明確寫出的約束條件。



ALE 研究介紹



  • 網(wǎng)站: https://agents-last-exam.org
  • 任務(wù)示例: https://agents-last-exam.org/demo
  • 排行榜: https://agents-last-exam.org/leaderboard
  • 論文: https://arxiv.org/abs/2606.05405

ALE 是一個包含 1000 多個任務(wù)實例的基準(zhǔn)測試,覆蓋 55 個子領(lǐng)域和 13 個行業(yè)集群,由來自 100 + 機構(gòu)的 300 + 位專家貢獻(xiàn)。

為了確保行業(yè)覆蓋足夠廣泛且具有代表性,專家顧問委員會會梳理各個領(lǐng)域的工作流圖景,并基于 O*NET / SOC 2018 職業(yè)分類體系,識別具有經(jīng)濟意義的工作流類型。



ALE 任務(wù)工作流來自真實的專業(yè)實踐。它并不是憑空設(shè)計合成場景,而是由專家提供他們已經(jīng)完成過的真實項目。這些項目在被納入基準(zhǔn)之前,還要經(jīng)過多輪質(zhì)量控制,包括初步審核、工程師試運行,以及專家委員會的最終同行評審。

大多數(shù)任務(wù)都要求智能體使用計算機,并在 GUI 交互和 CLI 操作之間來回切換。GUI 交互包括桌面應(yīng)用、瀏覽器和特定領(lǐng)域軟件;CLI 操作包括 shell 腳本、代碼執(zhí)行和文件處理。

這意味著,ALE 要求智能體同時具備多種能力,而這些能力在現(xiàn)有基準(zhǔn)中往往是被分開測試的。

ALE 的目標(biāo)評測對象是 GCUA(Generalist Computer-Use Agent)智能體,例如 Claude Code 或 Codex。這類智能體能夠在同一個行動循環(huán)中結(jié)合視覺感知、代碼執(zhí)行、工具使用和長周期規(guī)劃。按照設(shè)計,ALE 的任務(wù)形態(tài)覆蓋范圍要大于僅測試 GUI 的基準(zhǔn),例如 OSWorld,也大于僅測試 CLI 的基準(zhǔn),例如 Terminal-Bench 。

在任務(wù)收集上,ALE 不是隨便收集一些任務(wù)來考驗 AI,而是要求任務(wù)必須滿足三個條件:

  • 代表性。工作流應(yīng)當(dāng)符合真實的專業(yè)實踐,并使用領(lǐng)域?qū)<覍嶋H會使用的軟件。例如,建筑領(lǐng)域?qū)<以诎?2D 藍(lán)圖轉(zhuǎn)換為 3D 模型時,通常會使用 SolidWorks 或 Rhino,而不是 AutoCAD。
  • 復(fù)雜性。一項任務(wù)應(yīng)當(dāng)是端到端的交付物,需要專家投入相當(dāng)時間完成,而不只是幾個簡單的 UI 操作。關(guān)鍵區(qū)別在于:這是一個工作流,還是一個單一動作。
  • 可驗證性。輸出結(jié)果應(yīng)當(dāng)能夠接受確定性檢查,或者能夠按照與可觀察產(chǎn)物綁定的明確評分細(xì)則進(jìn)行評估。最理想的情況是,交付物具有確定性,可以直接與參考輸出進(jìn)行比較。即使無法做到精確匹配,判斷也應(yīng)當(dāng)能夠還原為對某個可測量產(chǎn)物的評估。

另外,ALE 中的任務(wù)不是由普通眾包工人來提供;而是來自領(lǐng)域?qū)I(yè)人士的真實日常工作,并經(jīng)過嚴(yán)格篩選,以確保真實性、復(fù)雜性和技術(shù)可執(zhí)行性,共包含五道關(guān)卡。



  • 專家來源。研究者通過由行業(yè)從業(yè)者組成的顧問委員會招募領(lǐng)域?qū)<?,確保任務(wù)能夠覆蓋整個分類體系。
  • 任務(wù)提交。專家通過專門的網(wǎng)頁入口提交任務(wù)提案。他們會上傳自己過去完成過的項目,這些項目通常需要數(shù)天甚至數(shù)周的專業(yè)工作。AI 輔助工具會幫助完善每個提案,直到五個核心組成部分被完整說明:自然語言描述、輸入文件、目標(biāo)軟件、預(yù)期交付物和評測規(guī)范。
  • 初步審核。提交內(nèi)容會按照類似學(xué)術(shù)會議審稿的方式進(jìn)行篩選,給出大修 / 小修、邊緣接收、接收、強接收等決定;需要修改的任務(wù)會返回給專家繼續(xù)完善。
  • 任務(wù)實現(xiàn)。通過審核的任務(wù)規(guī)范會被轉(zhuǎn)化為可運行的資源、配置好的軟件容器,以及編碼后的評測邏輯。工程師會進(jìn)行試運行;一旦發(fā)現(xiàn)缺口,任務(wù)會被自動返回給專家補充。
  • 最終質(zhì)檢。最后由專家委員會進(jìn)行同行評審,核查參考輸出是否正確,評測邊界是否校準(zhǔn)合理,既不能窄到幾乎不可能通過,也不能寬到虛假寬松,同時確認(rèn)任務(wù)上下文是否充分。

值得一提的是基準(zhǔn)污染問題,這種污染可能來自預(yù)訓(xùn)練數(shù)據(jù)重疊,也可能來自針對具體任務(wù)的優(yōu)化。為此,ALE 只公開 1490 個任務(wù)實例中的 150 個,約占 10%;其余任務(wù)保留在私有池中。



在具體評測流程上,ALE 將一個基準(zhǔn)實例拆分為三個相互解耦的組件,這些組件通過定義清晰的接口進(jìn)行交互。



最后,團隊希望 Agents' Last Exam(ALE)能夠成為一個新的路標(biāo)和北極星,指引行業(yè)開發(fā)出能夠在廣泛領(lǐng)域中可靠完成經(jīng)濟價值工作的智能體。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1-3輸日本!林詩棟爆冷,溫瑞博3-1大逆轉(zhuǎn),蒯曼+石洵瑤晉級16強

1-3輸日本!林詩棟爆冷,溫瑞博3-1大逆轉(zhuǎn),蒯曼+石洵瑤晉級16強

體育就你秀
2026-06-19 21:03:11
美國打死都沒想到!曾經(jīng)把中國1000多名外逃貪官當(dāng)“寶貝“護(hù)著

美國打死都沒想到!曾經(jīng)把中國1000多名外逃貪官當(dāng)“寶貝“護(hù)著

果媽聊娛樂
2026-06-03 15:15:51
俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

桂系007
2026-06-19 15:33:44
“初中女生壞起來比男孩更可怕”,班主任曝內(nèi)情:三觀都被刷新了

“初中女生壞起來比男孩更可怕”,班主任曝內(nèi)情:三觀都被刷新了

澤澤先生
2026-06-18 19:58:44
脫胎換骨完成復(fù)仇!中國女排把法國女排打服了,今迎戰(zhàn)巴西女排是真正的硬仗

脫胎換骨完成復(fù)仇!中國女排把法國女排打服了,今迎戰(zhàn)巴西女排是真正的硬仗

上觀新聞
2026-06-20 04:03:38
被萬斯激怒了!以軍連夜發(fā)動進(jìn)攻:以慘重傷亡代價攪黃日內(nèi)瓦談判

被萬斯激怒了!以軍連夜發(fā)動進(jìn)攻:以慘重傷亡代價攪黃日內(nèi)瓦談判

蕭獻(xiàn)記錄風(fēng)土人情
2026-06-19 22:18:02
看完中國女排3-0法國,這6點必須承認(rèn),莊宇珊和趙勇功勞最大

看完中國女排3-0法國,這6點必須承認(rèn),莊宇珊和趙勇功勞最大

寶哥精彩賽事
2026-06-20 02:47:16
韓國限制級神作《赤月青日》,全程無擦邊,看完頭皮發(fā)麻

韓國限制級神作《赤月青日》,全程無擦邊,看完頭皮發(fā)麻

情感大頭說說
2026-06-18 14:10:21
172cm黑裙封神!大長腿美出天際線

172cm黑裙封神!大長腿美出天際線

阿廢冷眼觀察所
2026-06-20 04:10:43
虧損超1.5億,胡歌盡力了,2026年端午檔第一票房慘案誕生了?

虧損超1.5億,胡歌盡力了,2026年端午檔第一票房慘案誕生了?

靠譜電影君
2026-06-19 21:52:51
神奇大逆轉(zhuǎn)!薩巴倫卡大心臟:首盤2-6慘敗+次盤0-4落后逆轉(zhuǎn)進(jìn)4強

神奇大逆轉(zhuǎn)!薩巴倫卡大心臟:首盤2-6慘敗+次盤0-4落后逆轉(zhuǎn)進(jìn)4強

大秦壁虎白話體育
2026-06-20 00:06:05
加熱粽子時,用水煮還是蒸?好多人都做錯了,難怪粽子難吃不軟糯

加熱粽子時,用水煮還是蒸?好多人都做錯了,難怪粽子難吃不軟糯

江江食研社
2026-06-19 12:38:03
如果中國國足選 1 人,取代孫興慜踢首發(fā),韓國球迷:只有 1 人

如果中國國足選 1 人,取代孫興慜踢首發(fā),韓國球迷:只有 1 人

體壇狗哥
2026-06-19 15:58:04
迪亞斯回?fù)羝咸蜒琅u:別盯著C羅

迪亞斯回?fù)羝咸蜒琅u:別盯著C羅

體壇觀察猿
2026-06-20 00:04:34
端午下雨到底多可怕?老祖宗6句農(nóng)諺道破天機(懸念揭秘式)

端午下雨到底多可怕?老祖宗6句農(nóng)諺道破天機(懸念揭秘式)

智慧生活筆記
2026-06-19 10:46:48
不丹王后穿喪服赴曼谷,目睹蘇提達(dá)向泰王屈膝,詩妮娜送客時下跪

不丹王后穿喪服赴曼谷,目睹蘇提達(dá)向泰王屈膝,詩妮娜送客時下跪

譯言
2026-06-19 09:27:04
6月16日起,微信新規(guī)正式落地!個人賬號碰這條紅線直接封號

6月16日起,微信新規(guī)正式落地!個人賬號碰這條紅線直接封號

一品v
2026-06-18 21:30:53
Manus回購方案浮出水面:中國投資方擬掏20億美元買回股權(quán),赴港IPO路徑漸明

Manus回購方案浮出水面:中國投資方擬掏20億美元買回股權(quán),赴港IPO路徑漸明

鈦媒體APP
2026-06-19 18:21:22
皇馬臉都被打腫!穆里尼奧硬塞的王牌新援,世界杯踢成全場水貨

皇馬臉都被打腫!穆里尼奧硬塞的王牌新援,世界杯踢成全場水貨

奶蓋熊本熊
2026-06-19 04:31:51
虎撲網(wǎng)友深夜求助:這人到底是誰?

虎撲網(wǎng)友深夜求助:這人到底是誰?

影視情報室
2026-06-19 00:23:46
2026-06-20 04:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
數(shù)碼
親子
旅游
藝術(shù)

吃粽子的3條保胃法則,消化科醫(yī)生推薦

數(shù)碼要聞

SSD太貴換回HDD:機械硬盤價格連漲5個季度!

親子要聞

從毒奶粉到毒紙尿褲,兒童用品安全防線為何屢屢失守

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機”畫家,把絲綢畫出了呼吸感

無障礙瀏覽 進(jìn)入關(guān)懷版