免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

花了1000倍的token,效果卻沒有更好:AI Agent隱性賬單長什么樣

0
分享至



如今的 AI Agent 正在大規(guī)模落地,其中應(yīng)用最廣且最受關(guān)注的當(dāng)數(shù) Claude Code,Codex,Cursor 這類 coding agent。過去的一年里,這類 coding agent 產(chǎn)品迭代迅速,在一年內(nèi)將在 swe-bench- verified 的準(zhǔn)確率提高到了 78%+。

然而,相比簡單的代碼推理或者和代碼相關(guān)的聊天,coding agent 的 token 消耗也極為顯著。在使用這種 coding agent 的過程中,最常聽到的抱怨也是:“為什么它解決問題這么啰嗦”,“為什么要這么長篇大論”,以及 “為什么我的 credits 這么快又用完了?”

這些抱怨的背后暴露出當(dāng)前 coding agent 的幾大問題:

1. 不透明: coding agent 消耗 token 的習(xí)慣不清晰,行為模式以及不同模型之間的差異不透明;

2. 不保底:在任務(wù)執(zhí)行前難以知道任務(wù)成功與否,但不論是否成功,都要支付相應(yīng)開銷;

3. 不可預(yù)測:人類估計的問題難度真的和實際的 token 消耗匹配嗎?agent 能否自己判斷問題會消耗多少 token 呢?

針對這些問題,來自密歇根大學(xué)、斯坦福大學(xué)等單位的研究者,使用開源的 OpenHands agent 框架,分析了 8 個 frontier 模型在 swe-bench-verified 上的軌跡,第一次給出了一份系統(tǒng)性的解答。



  • 論文標(biāo)題:HowDoAIAgentsSpendYourMoney? AnalyzingandPre dicting Token Consumption in Agentic Coding Tasks
  • arXiv 論文:https://arxiv.org/pdf/2604.22750
  • 項目網(wǎng)站:https://longjubai.github.io/agent_token_consumption/

Agentic Coding 有多貴?

論文首先比較了和 coding 相關(guān)的 3 種任務(wù):代碼推理(和代碼相關(guān)的單論對話推理任務(wù)),代碼問答對話(關(guān)于代碼問題的多輪對話聊天),以及 swe-bench 上的 agentic 代碼任務(wù)。結(jié)果發(fā)現(xiàn),agentic coding 任務(wù)在平均輸出輸入 token 比,平均總 token 消耗,以及平均金錢消耗,均指數(shù)級高于其他兩種任務(wù)。

這源自于 agentic coding 任務(wù)的多輪交互和巨大而復(fù)雜的上下文管理:巨量的代碼查詢,文件輸出都會被加入到對話歷史中,導(dǎo)致消耗持續(xù)增加,并且 agent 會不斷把歷史上下文、工具輸出反復(fù)喂給模型,導(dǎo)致輸入輸出比高達 154:1。這意味著 agentic coding 任務(wù)的成本結(jié)構(gòu)與我們所熟悉的對話和推理任務(wù)有顯著的不同。



Agentic Coding 的開銷隨機性高,

且花的越多不一定做得越好

論文統(tǒng)計了 swe-bench-verified 中 500 個問題的平均 token 消耗,并將消耗從小到大排序。從圖中可以發(fā)現(xiàn),最貴的任務(wù)可能比最便宜的任務(wù)多消耗約 700 萬 token,并且越貴的任務(wù) token 消耗的標(biāo)準(zhǔn)差也越大。

對同一任務(wù)的重復(fù)運行來說,通過計算最貴的一次運行和最便宜的一次運行的差異,結(jié)果發(fā)現(xiàn)即使是同一任務(wù),最貴的運行仍可能比最便宜的運行貴 2 兩倍左右。

進一步分析 token 消耗多少與準(zhǔn)確率的關(guān)系,論文發(fā)現(xiàn)更多的消耗并不能保證更高的準(zhǔn)確率。

對于不同任務(wù)來說,論文根據(jù)平均 token 消耗的數(shù)量進行分組,并統(tǒng)計每組任務(wù)的準(zhǔn)確率,結(jié)果發(fā)現(xiàn) token 消耗更多的任務(wù)往往準(zhǔn)確率較低。

對于同一個任務(wù)的不同運行來說,將 4 次運行按照 token 消耗排序,分成四個開銷等級,然后統(tǒng)計每一個開銷等級的準(zhǔn)確率。結(jié)果發(fā)現(xiàn):平均所有模型來看,最高的準(zhǔn)確率并不出現(xiàn)在開銷最高的時候,而是出現(xiàn)在較低開銷時。當(dāng)開銷最低時,任務(wù)運行的準(zhǔn)確率最低,當(dāng)提高開銷稍微提高時,準(zhǔn)確率達到最高,繼續(xù)增加開銷,當(dāng)開銷第二高和最高時,準(zhǔn)確率不增反減 ——更多的資源消耗并沒有帶來更高的任務(wù)成功率。





為了探索高開銷失敗背后的原因,論文檢查并分析了 agent 解決問題軌跡中的兩類行為:閱讀文件以及修改文件。結(jié)果發(fā)現(xiàn):開銷更大的運行軌跡中,重復(fù)修改和重復(fù)查看同一文件的次數(shù)也明顯更多,這表明更多的 token 消耗其實伴隨了很多來來回回的 “折騰”,而不是高效的推理,嘗試,和檢查。簡單來說,一味簡單地堆 token 并不能顯著帶來更好的效果。





哪些模型貴,哪些模型?。?/p>

不同模型之間的 token 效率差異極大

以上的分析是基于所測試的 8 個模型的整體表現(xiàn)特點,在此基礎(chǔ)上,論文對每個模型進行了具體的分析,并比較了他們使用 token 的效率。

文章測試的八個模型包括 OpenAI 的 GPT-5 和 GPT-5.2,Anthropic 的 Claude Sonnet-3.7、Claude Sonnet-4 和 Claude Sonnet-4.5,Google 的 Gemini-3-Pro Preview,Moonshot AI 的 Kimi-K2,以及阿里巴巴的 Qwen3-Coder-480B。這八個模型覆蓋了五家不同的公司,同時包含閉源 API 模型(GPT、Claude、Gemini 系列)和開源模型(Kimi-K2、Qwen3-Coder-480B)。其中 Claude Sonnet 有三個版本、GPT 有兩個版本,這樣既包含了跨公司的橫向?qū)Ρ龋灿型患易鍍?nèi)不同代際的縱向?qū)Ρ取?/p>

通過觀察不同模型的 token 消耗與任務(wù)準(zhǔn)確率的關(guān)系,發(fā)現(xiàn)不同模型間的差異是系統(tǒng)性的,不是因為任務(wù)難度不同, 而是模型自身的行為習(xí)慣。例如 GPT-5 以及 GPT-5.2 可以以較低的 token 成本達到不錯的準(zhǔn)確率,但 Kimi-K2 在成本較高的同時準(zhǔn)確率卻并沒有很高。在同樣的 500 個任務(wù)下,Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗約 150 萬 token。





論文進一步選出了兩個任務(wù)子集:所有模型都成功的任務(wù)和左右模型都失敗的任務(wù),并再次統(tǒng)計不同模型的 token 消耗。結(jié)果發(fā)現(xiàn)模型的 token 消耗排序基本不變,并且所有模型在失敗任務(wù)子集上的 token 消耗都多于成功子集,不同模型從失敗子集到成功子集的 token 消耗增量也各不相同。

是否有辦法對任務(wù)的 token 消耗

進行提前預(yù)測?

人類專家對任務(wù)難度的判斷與 agent 實際 token 消耗并不完全吻合

當(dāng)了解了 agentic coding 的開銷后,下一個問題便是:在執(zhí)行任務(wù)之前,是否有辦法根據(jù)要執(zhí)行的任務(wù)來預(yù)測開銷?

文章首先分析人類專家所理解的任務(wù)難度是否可以作為預(yù)測 agent token 開銷的標(biāo)準(zhǔn)。在 swe-bench-verified 中,每一個任務(wù)都有人類專家所標(biāo)記的任務(wù)難度,按照人類專家預(yù)期的完成時間分為三檔:“< 15 min”,“15 min - 1 hr”,“> 1 hr”。如果說人類消耗的時間就相當(dāng)于 agent 消耗的 token,那么人類所估計的任務(wù)難度是否和 agent 的 token 開銷是吻合的呢?



論文將不同任務(wù)根據(jù) token 開銷進行排序,并計算它與人類標(biāo)注難度的相關(guān)性。結(jié)果發(fā)現(xiàn) Kendall tau = 0.32,表明人類專家對任務(wù)難度的判斷和 Agent 實際消耗的 token 之間只有很弱的相關(guān)性。

其中 6.7% 的 "簡單" 任務(wù)比平均 "困難" 任務(wù)還貴,11.1% 的 "困難" 任務(wù)比平均 "簡單" 任務(wù)還便宜 —— 更說明了人類程序員和 AI Agent 對任務(wù)的 "復(fù)雜度認知" 是不同的維度。

Agent 自己是否可以對任務(wù)的 token 消耗做出預(yù)測?

既然人類預(yù)測的任務(wù)難度和 agent 的實際任務(wù)消耗有所差異,那么是否可以讓 agent 自己來預(yù)測自己的消耗?

論文緊接著對 agent 的自預(yù)測進行了嘗試:在這部分實驗中 agent 所有的工具和 harness 的架構(gòu)都得到了保留,只有在系統(tǒng)提示詞中將任務(wù)從之前的 “解決問題” 變成了 “預(yù)估開銷”,這樣一來,就可以最大程度的表流 agent 本身的特征和功能,并讓它得以使用同樣的工具對代碼庫進行多輪探索,測試和推理。



論文中用預(yù)測的開銷和實際開銷的相關(guān)性作為衡量預(yù)測準(zhǔn)確率的指標(biāo),并同時統(tǒng)計了做預(yù)測所消耗的 token。結(jié)果顯示,模型作出的預(yù)測與實際的相關(guān)性最高只有 0.39(Claude Sonnet-4.5 的 output token),大多數(shù)模型都在 0.2-0.3 之間,且對 output token 的預(yù)測比 input token 更加準(zhǔn)確。在成本方面,大部分模型作出預(yù)測所需要的成本都小于實際任務(wù)執(zhí)行成本的一半,除了早期的 Claude Sonnet-3.7 和 4,一度超過真正 task 執(zhí)行成本的兩倍。

文章進一步分析發(fā)現(xiàn)所有的模型都低估了任務(wù)的實際消耗,尤其對 input token 的低估特別嚴(yán)重。





因此,不管是人類專家還是 agent 自己,對 token 消耗預(yù)測目前只能作為粗粒度的信號,離精確的事前定價還有很大距離。

總結(jié)

文章通過對 coding agent 軌跡的分析,發(fā)現(xiàn) Agent 的 token 消耗以 input token 為主導(dǎo),且在不同問題之間以及同一問題的不同運行之間都存在很高的隨機性。不同模型的 token 效率差異顯著,且更多的 token 消耗并不能保證更高的正確率。在執(zhí)行前成本預(yù)測方面,人類理解的任務(wù)難度與 Agent 的實際 token 消耗并不吻合,Agent 自身的預(yù)估也存在準(zhǔn)確率較低和普遍低估的問題。未來潛在的研究方向包括更高效的 Agent 設(shè)計,以及更好的開銷預(yù)測與管理方法。

作者介紹:

本文第一作者 Longju Bai 是密歇根大學(xué)一年級博士生,通訊作者 Jiaxin Pei 現(xiàn)為斯坦福大學(xué)博士后研究員,即將入職得克薩斯大學(xué)奧斯汀分校擔(dān)任助理教授。合作者包括來自斯坦福大學(xué)的 Zhemin Huang 和 Erik Brynjolfsson,來自 All Hands AI 的 Xingyao Wang,來自 Google DeepMind 的 Jiao Sun,來自密歇根大學(xué)的 Rada Mihalcea,以及來自斯坦福大學(xué)和麻省理工學(xué)院的 Alex Pentland。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
135億!Manus收購案重大轉(zhuǎn)機,傳騰訊出手

135億!Manus收購案重大轉(zhuǎn)機,傳騰訊出手

智東西
2026-06-18 23:13:55
香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設(shè)

香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設(shè)

悠悠說世界
2026-06-19 02:29:30
官方表態(tài)很清楚了:科技科技,還是科技

官方表態(tài)很清楚了:科技科技,還是科技

販財局
2026-06-17 15:56:30
寧波各區(qū)縣2026年1-4月財政收入:北侖突破200億,奉化大跌成墊底

寧波各區(qū)縣2026年1-4月財政收入:北侖突破200億,奉化大跌成墊底

水又木二
2026-06-18 12:48:39
國家衛(wèi)健委15號令發(fā)布!醫(yī)師多點執(zhí)業(yè)、外出會診、考試違紀(jì)規(guī)則全面改寫

國家衛(wèi)健委15號令發(fā)布!醫(yī)師多點執(zhí)業(yè)、外出會診、考試違紀(jì)規(guī)則全面改寫

醫(yī)客
2026-06-18 12:15:50
否認欺負楊思琦!香港老戲骨公開霸凌者身份:是商天娥和姓陳的

否認欺負楊思琦!香港老戲骨公開霸凌者身份:是商天娥和姓陳的

奇怪的鯊魚們
2026-06-17 13:13:35
烏克蘭“鯊魚”無人機接入星鏈:操作員在基輔,前線目標(biāo)實時直播

烏克蘭“鯊魚”無人機接入星鏈:操作員在基輔,前線目標(biāo)實時直播

桂系007
2026-06-15 23:29:54
“冤不冤?”內(nèi)蒙古,一女子還在哺乳期,就開始做上門按摩服務(wù)

“冤不冤?”內(nèi)蒙古,一女子還在哺乳期,就開始做上門按摩服務(wù)

阿振觀點
2026-06-01 20:09:42
撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

覃仕勇說史
2026-06-15 11:20:32
法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

聞識
2026-06-18 01:10:46
大碼模特現(xiàn)實里到底多大?

大碼模特現(xiàn)實里到底多大?

飛娛日記
2026-05-12 08:27:55
突然宣布:廣東一龍舟大賽,延期

突然宣布:廣東一龍舟大賽,延期

南方都市報
2026-06-18 21:59:21
26歲女子陰道分泌物異常,性交劇痛,病因竟是曾經(jīng)的一個手術(shù)……

26歲女子陰道分泌物異常,性交劇痛,病因竟是曾經(jīng)的一個手術(shù)……

醫(yī)學(xué)界婦產(chǎn)科頻道
2026-06-18 11:12:30
隊報:土耳其一解說員多次搞混伊朗新西蘭,停播至世界杯結(jié)束

隊報:土耳其一解說員多次搞混伊朗新西蘭,停播至世界杯結(jié)束

懂球帝
2026-06-18 22:20:25
世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

多雨的天
2026-06-19 04:23:53
李嘉誠預(yù)言要成真了?我國41.5%的城鎮(zhèn)家庭,或?qū)⒚鎸@三個難題

李嘉誠預(yù)言要成真了?我國41.5%的城鎮(zhèn)家庭,或?qū)⒚鎸@三個難題

阿尢說歷史
2026-06-14 13:30:57
男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

男子打工忘了老家還養(yǎng)了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

品讀時刻
2026-06-11 09:04:59
女人發(fā)展了“婚外關(guān)系”,大多會急于做三件事,不難發(fā)現(xiàn)

女人發(fā)展了“婚外關(guān)系”,大多會急于做三件事,不難發(fā)現(xiàn)

葉飛飛情感屋
2026-06-18 17:27:06
拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

羅說NBA
2026-06-18 09:58:32
獻血科普翻車,負責(zé)人被多人逼問:你捐了沒有?評論區(qū)早已清醒

獻血科普翻車,負責(zé)人被多人逼問:你捐了沒有?評論區(qū)早已清醒

原廣工業(yè)
2026-06-18 16:56:07
2026-06-19 05:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時尚
教育
本地
健康
公開課

看不懂球,還看不懂帥哥嗎?

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

吃粽子的3條保胃法則,消化科醫(yī)生推薦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版