免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“智能體最后的考試”,F(xiàn)able 5竟然不敵GPT 5.5

0
分享至

沒想到打臉來得如此之快?。?/p>

剛剛,UC伯克利放出了一場(chǎng)號(hào)稱“智能體最后的考試”的全新基準(zhǔn)測(cè)試。

它把當(dāng)今最強(qiáng)的AI Agent們拉到考場(chǎng)上,讓它們干真正的活——

在Siemens NX里建3D模型、在Unreal Engine里搭游戲場(chǎng)景、在Adobe After Effects里做特效合成。

結(jié)果成績(jī)令人傻眼:

最難的一檔,當(dāng)今公認(rèn)最強(qiáng)的Claude Fable 5、GPT 5.5,全是大寫的零蛋



你說難度稍微放低一點(diǎn)呢?分?jǐn)?shù)倒是有了,但結(jié)果也相當(dāng)令人意外——

GPT 5.5竟然還小勝了Claude Fable 5。

我沒聽錯(cuò)吧,A家剛發(fā)布的最強(qiáng)模型Claude Fable 5,被幾個(gè)月前的GPT 5.5打敗了??

要知道在此前幾乎所有主流benchmark上,F(xiàn)able 5對(duì)GPT 5.5都是碾壓級(jí)別的存在——SWE-Bench Pro上80.3%對(duì)58.6%,Humanity’s Last Exam上64.5%對(duì)52.2%。

但換到這場(chǎng)“真干活”的考試?yán)?,局面卻反了過來。

這個(gè)新基準(zhǔn)叫Agents’ Last Exam(ALE),背后團(tuán)隊(duì)來頭不小,之前MMLU、MATH、CyberGym、ExploitGym這些你耳熟能詳?shù)幕鶞?zhǔn)都是他們提的。

取這個(gè)名估計(jì)也是參考之前Scale AI那個(gè)“Humanity’s Last Exam”(人類最后的考試),只不過這次被考的不是人類知識(shí)的極限,而是AI Agent干活的極限。

該說不說,這個(gè)測(cè)評(píng)一出來,以前天天喊著“Agent要取代人類工作”的人,這下是真干沉默了…

“智能體最后的考試”,贏家竟是GPT 5.5!

先看完整排行榜。



從最核心的任務(wù)通過率指標(biāo)來看,GPT 5.5直接包攬冠亞軍

第1名是GPT 5.5搭配OpenAI自家的Codex框架,通過率24.0%。

第2名還是GPT-5.5,只不過換了ALE Claw框架,通過率23.0%。

(ALE Claw是團(tuán)隊(duì)自己寫的一個(gè)baseline Agent,跟Codex、Claude Code、Cursor CLI這些商業(yè)框架并列參賽)

直到第3名,我們才看到Claude Fable 5的身影——搭配Claude Code,拿下22.0%的通過率。



往下看更有意思。

第4、第5、第8名全是GPT 5.5,只是換了不同的框架。

前10名里GPT 5.5出場(chǎng)了5次,加上第6名的GPT 5.4,OpenAI模型直接占了6席。

而Claude家族呢?

Fable 5拿了第3,Opus 4.7第9(18.4%),Opus 4.8墊底第10(15.8%),不敵之勢(shì)一目了然。

也不怪OpenAI研究員喜慶發(fā)帖,歡歡喜喜過大年了:



而在成績(jī)之外,這里還有這樣幾個(gè)值得細(xì)品的信號(hào)。

一是天花板低得驚人。

冠軍通過率才24%,綜合得分最高也不過45.8%。

意思是,就算按最寬松的“部分得分”算,最強(qiáng)的Agent也只能拿到不到一半的分。

而這些題全部來自真人專家已經(jīng)完成的項(xiàng)目——人類專家的完成率理論上就是100%。

二是Claude燒錢燒得驚人。

這張榜單新增了一列“Estimated Total Cost”,一下子把貧富差距拉出來了:

Fable 5跑完全部任務(wù)花了2315美元,Opus 4.8花了1838美元,Opus 4.7也要1144美元。

而GPT-5.5這邊呢?

最貴的Codex也就566美元,Cursor CLI只要174美元。

等于說,Fable 5花了Codex四倍多的錢,成績(jī)還低了兩個(gè)百分點(diǎn)。



三是效率差距同樣觸目。

Ale Claw跑完全部任務(wù)花了47小時(shí)20分鐘,Cursor CLI只花了67小時(shí)。

而Opus 4.8呢?451小時(shí)——將近19天。

干的活最少,花的時(shí)間最長(zhǎng),收的錢最多(居然真有模型能同時(shí)做到?)

當(dāng)然如果只看Claude Fable 5、GPT 5.5這兩個(gè)最頂?shù)?,GPT 5.5的時(shí)間優(yōu)勢(shì)依舊明顯。



而最扎眼的數(shù)字,還是那個(gè)零。

ALE把任務(wù)分成了三個(gè)難度檔:

  • Near-Term(近期可解)
  • Full-Spectrum(全面覆蓋)
  • Last-Exam(終極難題)

在最難這一檔,所有主流配置的平均通過率只有2.6%,包括GPT 5.5和Fable 5在內(nèi)的大多數(shù)模型直接吃了零蛋



所以這張成績(jī)單的核心信息很簡(jiǎn)單:別看平時(shí)考試成績(jī)好,一到真干活全露餡了。

答題學(xué)霸≠干活能手,這話在AI世界也一樣適用。

什么是ALE?

要理解ALE為什么能把這幫“學(xué)霸”打回原形,得先看它跟以前的考試有什么不一樣。

之前的Humanity’s Last Exam(HLE)是2025年初由Dan Hendrycks和Scale AI搞出來的,2500道跨學(xué)科難題,本質(zhì)上還是閉卷答題——

給你一個(gè)問題,你給我一個(gè)答案,再難也是靜態(tài)的知識(shí)檢索。

而ALE完全不同,它考你“能干什么”。

核心作者Yiyou Sun在說得很直白:

AI智能體將在2026-2027年超越人類完成幾乎所有工作——這個(gè)預(yù)測(cè)到處都是。所以我們?cè)炝诉@場(chǎng)考試來驗(yàn)證這個(gè)說法。



ALE的每道題都來自一個(gè)真人專家已經(jīng)完成的項(xiàng)目,覆蓋55個(gè)行業(yè)子領(lǐng)域,包括量化交易、基因組分析、航空航天工程、建筑設(shè)計(jì)、腦成像、動(dòng)畫特效、法律研究……

整個(gè)體系錨定的是美國(guó)聯(lián)邦職業(yè)分類標(biāo)準(zhǔn)(ONET)*,說白了就是按“真實(shí)勞動(dòng)力市場(chǎng)”來出題。



參與出題的陣容也夠豪華:

300多位領(lǐng)域?qū)<襾碜?00多家機(jī)構(gòu),學(xué)術(shù)側(cè)有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich,產(chǎn)業(yè)側(cè)有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。

Snorkel AI通過Open Benchmarks Grants項(xiàng)目提供了資金支持。



考試形式也不是打字回答問題,而是直接操作電腦。

ALE用的是所謂GCUA框架(Generalist Computer-Use Agent,通用計(jì)算機(jī)使用代理),給Agent完整的GUI和命令行權(quán)限——

鼠標(biāo)點(diǎn)擊、鍵盤打字、寫腳本、瀏覽網(wǎng)頁(yè),人類能在電腦上干的它都能干。

不限方法,只看結(jié)果。

交出來的“作業(yè)”由確定性代碼自動(dòng)評(píng)分。

No vibes. No human judges. Fully reproducible.(不靠感覺,不靠人類裁判,完全可復(fù)現(xiàn))



這就堵住了之前很多benchmark的一個(gè)老毛?。?strong>評(píng)分器本身就能被騙。

此外,ALE在防作弊上還有一個(gè)狠招——

只公開約10%的題目(約150道),剩下1300多道嚴(yán)格保密。

公開題和私密題定期滾動(dòng)輪換,確保不會(huì)有模型因?yàn)椤氨愁}”而拿高分。

這在當(dāng)前benchmark數(shù)據(jù)污染泛濫的背景下,算是一個(gè)相當(dāng)巧妙的設(shè)計(jì)。

整體而言,跟現(xiàn)有的Agent基準(zhǔn)測(cè)試比,ALE的定位非常明確。

團(tuán)隊(duì)成員之一的Dawn Song專門拉了一組對(duì)比:

  • ALE的CLI子集(ALE-CLI)覆蓋40個(gè)行業(yè)子領(lǐng)域,而Terminal-Bench只有6個(gè),SWE-bench-Pro只有5個(gè);
  • 人類完成這些任務(wù)的時(shí)間從幾小時(shí)到幾周不等,而后兩者是幾分鐘到幾天;
  • 最強(qiáng)Agent在ALE-CLI上的通過率只有25.2%,而Terminal-Bench上是82.0%,SWE-bench-Pro上是59.1%。

一言以蔽之,其他考試已經(jīng)快被做穿了,而ALE還遠(yuǎn)得很。

這就是ALE憑什么敢自稱“智能體最后的考試”的理由。



值得一提的是,Dawn Song還分享了兩個(gè)有趣的觀察:

一個(gè)是,Agent會(huì)在沒有真正驗(yàn)證工作成果的情況下宣布完成,這是Agent們最典型的失敗模式。

很多時(shí)候,雖然它們說了“Done. All checks pass.”(搞定了,所有檢查都通過了)

但實(shí)際產(chǎn)出可能缺少必要文件、數(shù)字算錯(cuò)、關(guān)鍵字段遺漏、或者直接違反了任務(wù)說明中的明確約束。

等于是,活沒干完,嘴先說完了。

另一個(gè)是很多人疑惑的,為啥Fable 5這么拉胯?Dawn Song給出的回答是:

不存在“萬能冠軍”這回事。

每個(gè)前沿模型都有擅長(zhǎng)的領(lǐng)域和拉胯的領(lǐng)域,ALE覆蓋55個(gè)行業(yè)、1500+道題,最終得分是所有領(lǐng)域的平均值,很多模型的總分因此擠在一起。真正有價(jià)值的信號(hào)不在總分,而在不同模型在不同領(lǐng)域的表現(xiàn)差異——在同一道題上,不同模型往往因?yàn)橥耆煌脑蚨 ?br/>

當(dāng)然也有可能是Fable 5偷偷“降智”了。

總榜里,F(xiàn)able 5旁邊標(biāo)黃了一句“may be down-tuned”(可能被降級(jí)),這說的是Fable 5的一個(gè)已知問題——

它底層是Mythos模型加安全分類器,遇到網(wǎng)絡(luò)安全、生物醫(yī)學(xué)等敏感領(lǐng)域的任務(wù)時(shí),會(huì)被靜默切換到能力更弱的Opus 4.8。

在ALE這種覆蓋55個(gè)行業(yè)的考試中,等于這部分科目直接派了替考,而且派的還是“奔波兒灞”這種角色。



One More Thing

當(dāng)然,有沒有可能Claude Fable 5的成績(jī)本身就有問題呢?

不好說,但一樁八卦顯示,Claude有“前科”。

5月底,初創(chuàng)公司Datacurve發(fā)布了一個(gè)叫DeepSWE的新benchmark,順手揭了一個(gè)大底——

SWE-Bench Pro的Docker容器里附帶了代碼倉(cāng)庫(kù)的完整git歷史,正確答案就躺在文件系統(tǒng)里。

大多數(shù)模型會(huì)無視它,但只有Claude不會(huì)。

它會(huì)主動(dòng)檢查倉(cāng)庫(kù)的git歷史,從歷史提交中尋找與任務(wù)對(duì)應(yīng)的修復(fù)方案,并據(jù)此恢復(fù)正確補(bǔ)丁。

據(jù)稱Opus 4.7約18%的通過成績(jī)是這么拿的,Opus 4.6更夸張,約25%。

而GPT 5.4和GPT5.5這邊呢?完全沒有這種行為。Datacurve的措辭很外交:

這個(gè)benchmark讓這種行為成為可能,但Claude是唯一持續(xù)這么做的家族。



科技媒體VentureBeat的評(píng)價(jià)倒很曖昧:

這說明Claude“環(huán)境感知能力”很強(qiáng),非常擅長(zhǎng)探索周圍環(huán)境并利用可用資源。算“作弊”還是“機(jī)靈”,取決于你的立場(chǎng)。

但甭管怎么看,ALE顯然吸取了教訓(xùn)——

直接把考場(chǎng)從命令行搬到了GUI桌面操作,讓你沒有g(shù)it歷史可以偷看。

評(píng)測(cè)AI的考場(chǎng),正在被AI自己倒逼著升級(jí),也算很精彩了。

完整測(cè)評(píng)地址:
https://agents-last-exam.org/leaderboard
項(xiàng)目主頁(yè):
https://agents-last-exam.org/
GitHub:
https://github.com/rdi-berkeley/agents-last-exam

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
B費(fèi)社媒遭攻陷:自私+故意不傳球!怕C羅世界杯發(fā)光 總裁親姐點(diǎn)贊

B費(fèi)社媒遭攻陷:自私+故意不傳球!怕C羅世界杯發(fā)光 總裁親姐點(diǎn)贊

我愛英超
2026-06-18 21:36:54
山姆高層大逃亡,真相觸目驚心

山姆高層大逃亡,真相觸目驚心

新浪財(cái)經(jīng)
2026-06-18 19:02:44
現(xiàn)在央國(guó)企員工的怨氣已經(jīng)壓不住了?隨時(shí)可能爆發(fā)?

現(xiàn)在央國(guó)企員工的怨氣已經(jīng)壓不住了?隨時(shí)可能爆發(fā)?

奇思妙想生活家
2026-06-18 15:02:54
一門三尊!拜仁三叉戟?jiǎng)P恩、奧利塞、迪亞斯均獲首輪全場(chǎng)最佳

一門三尊!拜仁三叉戟?jiǎng)P恩、奧利塞、迪亞斯均獲首輪全場(chǎng)最佳

懂球帝
2026-06-18 13:09:40
95分鐘奇襲!世界杯又1場(chǎng)絕殺誕生:73歲老帥狂歡 出線在望

95分鐘奇襲!世界杯又1場(chǎng)絕殺誕生:73歲老帥狂歡 出線在望

葉青足球世界
2026-06-18 09:05:47
全網(wǎng)喊話韋東奕做高考數(shù)學(xué)卷,沒想到他的一句話,就讓千萬網(wǎng)友瞬間服氣

全網(wǎng)喊話韋東奕做高考數(shù)學(xué)卷,沒想到他的一句話,就讓千萬網(wǎng)友瞬間服氣

LULU生活家
2026-06-18 08:43:33
茅臺(tái)集團(tuán)總經(jīng)理王莉承認(rèn)醬香拿鐵、茅臺(tái)冰淇淋是戰(zhàn)略失誤,茅臺(tái)品牌是“長(zhǎng)紅”,不能做“網(wǎng)紅”

茅臺(tái)集團(tuán)總經(jīng)理王莉承認(rèn)醬香拿鐵、茅臺(tái)冰淇淋是戰(zhàn)略失誤,茅臺(tái)品牌是“長(zhǎng)紅”,不能做“網(wǎng)紅”

新浪財(cái)經(jīng)
2026-06-18 09:40:12
山西運(yùn)城“冒充警察打人事件”,提級(jí)調(diào)查!

山西運(yùn)城“冒充警察打人事件”,提級(jí)調(diào)查!

新動(dòng)察
2026-06-18 08:31:27
私生活混亂、被央視“開除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

私生活混亂、被央視“開除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

素衣讀史
2026-06-18 21:37:31
奉陪到底!中方強(qiáng)勢(shì)取消3500億美芯訂單,馬斯克:這只是個(gè)開始

奉陪到底!中方強(qiáng)勢(shì)取消3500億美芯訂單,馬斯克:這只是個(gè)開始

荒野科技
2026-06-18 20:14:11
SpaceX,股價(jià)大跌

SpaceX,股價(jià)大跌

澎湃新聞
2026-06-19 01:02:18
哥倫比亞3比1戰(zhàn)勝烏茲別克斯坦,力壓葡萄牙暫列小組第一

哥倫比亞3比1戰(zhàn)勝烏茲別克斯坦,力壓葡萄牙暫列小組第一

澎湃新聞
2026-06-18 12:04:31
羅翔說:電視上演的都是,給你多少萬,離開我女兒;而現(xiàn)實(shí)中卻是,給我們多少萬,否則離開我女兒

羅翔說:電視上演的都是,給你多少萬,離開我女兒;而現(xiàn)實(shí)中卻是,給我們多少萬,否則離開我女兒

背包旅行
2026-06-18 14:23:32
喪權(quán)辱國(guó)!美國(guó)含淚簽下丙午條約!

喪權(quán)辱國(guó)!美國(guó)含淚簽下丙午條約!

燕梳樓頻道
2026-06-18 14:33:28
超1000架無人機(jī)襲擊俄羅斯,近200架襲擊莫斯科,俄羅斯人有些懵

超1000架無人機(jī)襲擊俄羅斯,近200架襲擊莫斯科,俄羅斯人有些懵

山河路口
2026-06-18 19:29:41
雷軍直播破防了!哽咽回應(yīng)"營(yíng)銷帽子"

雷軍直播破防了!哽咽回應(yīng)"營(yíng)銷帽子"

娛圈觀察員
2026-06-19 00:23:09
美國(guó)與伊朗簽署《諒解備忘錄》,荒唐至極

美國(guó)與伊朗簽署《諒解備忘錄》,荒唐至極

史政先鋒
2026-06-18 12:34:25
江蘇啟動(dòng)沿江、江淮及淮北部分地區(qū)防汛Ⅳ級(jí)應(yīng)急響應(yīng)

江蘇啟動(dòng)沿江、江淮及淮北部分地區(qū)防汛Ⅳ級(jí)應(yīng)急響應(yīng)

現(xiàn)代快報(bào)
2026-06-18 19:43:28
周冬雨被曝演話劇不背臺(tái)詞,熱搜第一

周冬雨被曝演話劇不背臺(tái)詞,熱搜第一

大風(fēng)新聞
2026-06-18 13:33:03
世界杯驚天丑聞!現(xiàn)役球星涉嫌假球被捕!居然還在踢比賽

世界杯驚天丑聞!現(xiàn)役球星涉嫌假球被捕!居然還在踢比賽

奶蓋熊本熊
2026-06-18 06:32:23
2026-06-19 03:56:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12816文章數(shù) 176500關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博睿康IPO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
數(shù)碼
房產(chǎn)
公開課
軍事航空

家居要聞

綠意盎然 自然之境

數(shù)碼要聞

銘瑄公布MCIO接口ITX主板方案,展示高密度接口優(yōu)勢(shì)

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進(jìn)入關(guān)懷版