免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

警惕!大模型成本倒掛:你正在為模型的多余「思考」買(mǎi)單

0
分享至



在選擇使用大模型 (LLM) 時(shí),除了模型性能強(qiáng)弱,價(jià)格也是一個(gè)重要指標(biāo)。人們通常會(huì)用大模型的 API 定價(jià)更貴或更便宜,來(lái)比較模型的價(jià)格高低。但事實(shí)上,定價(jià)低的模型真的比定價(jià)高的模型使用起來(lái)更便宜嗎?

如今,一項(xiàng)來(lái)自斯坦福、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)和微軟研究院的研究,揭示了 AI 模型中的價(jià)格倒掛現(xiàn)象:低定價(jià)的 AI 模型,反而有可能產(chǎn)生更高的實(shí)際開(kāi)銷!



  • 論文標(biāo)題:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
  • 論文地址:https://arxiv.org/abs/2603.23971

圖 1 給出了主流模型的定價(jià)和它們?cè)趯?shí)際任務(wù)上的開(kāi)銷。



圖 1: 左圖展示了模型定價(jià)和實(shí)際花銷的關(guān)系,右圖給主流模型定價(jià)和實(shí)際價(jià)格各自排序。揭示了價(jià)格倒掛現(xiàn)象:低定價(jià)的模型反而產(chǎn)生了更高的實(shí)際開(kāi)銷。

GPT-5.2 的 API 定價(jià)是 Gemini 3 Flash 的 4.5 倍,但其實(shí)際成本僅為 Gemini 3 Flash 的 81%。類似地,Claude Opus 4.6 的 API 定價(jià)是 Google Gemini 3.1 Pro 的兩倍,但其實(shí)際成本卻低了 35%。

這到底是怎么回事?今天,我們就一起探討這項(xiàng)研究。

AI 模型開(kāi)銷的審計(jì)框架

為了精準(zhǔn)刻畫(huà) AI 模型的實(shí)際開(kāi)銷,研究聚焦于 8 個(gè)廣泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務(wù)則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個(gè)主流數(shù)據(jù)集。

前沿模型通常采用按量付費(fèi)的定價(jià)機(jī)制,即用戶為發(fā)送的每個(gè)查詢分別付費(fèi)。

這種定價(jià)機(jī)制對(duì)于給定模型通常涉及兩個(gè)組成部分:每單位輸入 token 的價(jià)格,以及每單位輸出 token 的價(jià)格。對(duì)于給定查詢,成本是兩個(gè)價(jià)格按提示 token 數(shù)和輸出 token 數(shù)加權(quán)的總和。(為了便于理解, 下文中的討論都使用平均加權(quán)。 對(duì)更多不同加權(quán)情況感興趣的話,可以在互動(dòng)網(wǎng)站上嘗試:https://price-reversal.streamlit.app/)

AI 模型的成本倒掛現(xiàn)象



圖 2: 實(shí)際成本排名在不同任務(wù)之間存在顯著差異。

測(cè)試發(fā)現(xiàn):定價(jià)排名與實(shí)際成本排名的巨大反差,且這樣的價(jià)格逆轉(zhuǎn)是普遍存在的。根據(jù)固定標(biāo)價(jià) API 定價(jià)進(jìn)行的標(biāo)準(zhǔn)評(píng)估是具有誤導(dǎo)性的。

例如,Gemini 3 Flash 的標(biāo)價(jià)($3.5)僅為 GPT-5.2 價(jià)格($15.75)的 22%,但其在 MMLUPro 上的實(shí)際成本實(shí)際上是后者的六倍(見(jiàn)圖2)!

根據(jù) API 標(biāo)價(jià),Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂貴的。其實(shí)際成本幾乎是 Gemini 3.1 Pro 的兩倍。

為量化價(jià)格逆轉(zhuǎn)的普遍程度,研究人員檢查了所有 8 個(gè)模型組成的 28 個(gè)模型對(duì),在 9 項(xiàng)任務(wù)上的表現(xiàn),共產(chǎn)生 252 次成對(duì)成本比較,其中21.8%(55 次)比較表現(xiàn)出價(jià)格逆轉(zhuǎn)。

這意味著,僅基于標(biāo)價(jià)的成本判斷中,大約每五次就有一次是錯(cuò)誤的。同時(shí)模型的相對(duì)成本排序高度依賴于任務(wù)。一個(gè)在某個(gè)數(shù)據(jù)集上便宜的的模型可能在另一個(gè)數(shù)據(jù)集上成為最昂貴的之一。

為什么會(huì)出現(xiàn)倒掛現(xiàn)象?

我們先來(lái)介紹一個(gè)有趣的現(xiàn)象:一個(gè)富人和窮人同時(shí)購(gòu)買(mǎi)靴子。富人花費(fèi)了 100 元購(gòu)買(mǎi)了一雙好靴子,而窮人為了省錢(qián),只能支付 15 元購(gòu)買(mǎi)了壞靴子。好靴子可以使用 10 年,而壞靴子只能使用 1 年。結(jié)果,窮人不得不每年購(gòu)買(mǎi)一雙壞靴子。一個(gè)悖論就此出現(xiàn)了:窮人為了省錢(qián)購(gòu)買(mǎi)了便宜的靴子,但卻花費(fèi)了更多的錢(qián)。這就是社會(huì)經(jīng)濟(jì)學(xué)中著名的靴子理論(Boots Theory):看上去價(jià)格便宜的商品,有可能帶來(lái)更高的總成本。

研究發(fā)現(xiàn)有些 AI 模型也出現(xiàn)了類似的 “靴子現(xiàn)象”, 問(wèn)題的關(guān)鍵是推理 token。



圖 3:圖中展示了模型真實(shí)價(jià)格的具體拆分:輸入、推理、輸出。不同模型在相同任務(wù)上消耗的推理token 數(shù)量差異巨大。

首先,推理 token 是模型開(kāi)銷的主要來(lái)源。如圖 3 所示,在模型的開(kāi)銷里,輸入的 prompt 和輸出的最終結(jié)果通常只消耗總成本的 10% 不到,而大部分的開(kāi)銷都來(lái)自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導(dǎo)的成本組成部分。其次,不同模型的推理 token 的數(shù)量差距極大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的將近 10 倍。



圖 4: 在同一道 AIME 題目上,GPT-5.2 使用 562 個(gè)思考 token,而 Gemini 3 Flash 使用超過(guò) 11,000 個(gè),導(dǎo)致實(shí)際成本高出 2.5 倍。

圖 4 給出了一個(gè)具體的例子。給定同一道 AIME 2025 題目,GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣,最終的思路也大致相同。然而,得到這一思路和答案的過(guò)程卻大相徑庭:GPT-5.2 僅僅使用約五百個(gè) token 就完成了思考,而 Gemini Flash 卻需要超過(guò)一萬(wàn)個(gè) token。這揭示了開(kāi)銷逆轉(zhuǎn)的本質(zhì)來(lái)源于思考 token 數(shù)量的巨大差距。



圖 5: 從實(shí)際成本計(jì)算中去除思考 token 成本。(a) 標(biāo)價(jià)排名與實(shí)際成本排名之間的相關(guān)性在所有任務(wù)中均顯著提高。(b) 成對(duì)排名逆轉(zhuǎn)數(shù)平均減少 70%。

事實(shí)上,去掉思考 token 可以使得實(shí)際開(kāi)銷和模型定價(jià)保持高度一致。如圖 5 所示,去除思考 token 成本顯著恢復(fù)了所有 9 項(xiàng)任務(wù)的排名一致性,并且使得排名逆轉(zhuǎn)的數(shù)量減少了 70%。這進(jìn)一步驗(yàn)證了思考 token 才是成本倒掛的隱藏殺手。

我們可以直接預(yù)測(cè)任務(wù)成本嗎?



圖 6: 實(shí)際開(kāi)銷的不可預(yù)測(cè)性。對(duì)每一個(gè) AIME 數(shù)據(jù)集上的任務(wù)跑 5 次所產(chǎn)生的推理 token 數(shù)量。對(duì)于固定的任務(wù)和固定的模型,多次實(shí)驗(yàn)所產(chǎn)生的 token 數(shù),也有著巨大的差異。這意味著推理 token 數(shù)量本身就是不可預(yù)測(cè)的。

既然定價(jià)不能準(zhǔn)確反映實(shí)際開(kāi)銷,我們是否可以直接預(yù)測(cè)實(shí)際開(kāi)銷呢?

實(shí)踐表明:實(shí)際開(kāi)銷其實(shí)是一個(gè)高度不可預(yù)測(cè)的量!

如圖 5 所示,研究人員在數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上多次運(yùn)行同一個(gè)模型,發(fā)現(xiàn)它們的推理 token 的數(shù)量差距巨大。例如,對(duì)第 6 個(gè)任務(wù),GPT-5.2 的推理 token 數(shù)最大可達(dá)五萬(wàn),最低只需 2 萬(wàn),達(dá)到了 2.5 倍的差距。這就意味著,推理 token 數(shù)本身帶有巨大的隨機(jī)性,因此,推理 token 數(shù)具有高度的不確定性和不可預(yù)測(cè)性,從而讓實(shí)際開(kāi)銷的預(yù)測(cè)變得極為困難。

結(jié)論

這一研究發(fā)現(xiàn)了AI 模型領(lǐng)域的靴子現(xiàn)象:定價(jià)更低的模型反而可能帶來(lái)更高的實(shí)際開(kāi)銷。同時(shí),它又指出了實(shí)際開(kāi)銷的不確定性和不可預(yù)測(cè)性。這表明,要選取物美價(jià)廉的 AI 模型,并不是看看價(jià)目表就夠了。

作者們還開(kāi)源了使用的數(shù)據(jù),提供了一個(gè)可互動(dòng)的網(wǎng)站,為后續(xù)研究提供了基礎(chǔ)。

  • 數(shù)據(jù):https://github.com/lchen001/pricing-reversal
  • 網(wǎng)站:https://price-reversal.streamlit.app/

作者介紹

本文由來(lái)自斯坦福大學(xué)、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大學(xué)博士,微軟研究院資深研究員。
  • Chi Zhang,卡耐基梅隆大學(xué)博士。
  • Yeye He,微軟研究院首席研究員。
  • Ion Stoica,加州伯克利大學(xué)教授,美國(guó)工程院院士,Databricks 創(chuàng)始人兼主席。
  • Matei Zaharia,加州伯克利大學(xué)教授,Databricks 創(chuàng)始人兼首席技術(shù)官。
  • James Zou,斯坦福大學(xué)教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
G7紀(jì)念照現(xiàn)場(chǎng):高市早苗早早站C位,最后被擠到了臺(tái)階上

G7紀(jì)念照現(xiàn)場(chǎng):高市早苗早早站C位,最后被擠到了臺(tái)階上

武器鑒賞
2026-06-19 08:15:42
麥克風(fēng)沒(méi)關(guān)!加拿大總理與特朗普私聊中國(guó)電動(dòng)車,意外對(duì)全球公開(kāi)

麥克風(fēng)沒(méi)關(guān)!加拿大總理與特朗普私聊中國(guó)電動(dòng)車,意外對(duì)全球公開(kāi)

煙雨洛神生
2026-06-19 03:33:05
私生活混亂、被央視“開(kāi)除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

私生活混亂、被央視“開(kāi)除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

素衣讀史
2026-06-18 21:37:31
日本球迷賽后討論,中國(guó)只有2位球員,具備踢世界杯的資格

日本球迷賽后討論,中國(guó)只有2位球員,具備踢世界杯的資格

體壇狗哥
2026-06-19 15:58:18
滬男子自稱“閉關(guān)修行”,鄰居:拉屎拉尿在塑料袋里

滬男子自稱“閉關(guān)修行”,鄰居:拉屎拉尿在塑料袋里

看看新聞Knews
2026-06-19 20:14:41
整治冒充、偽裝、夾帶、黑灰產(chǎn)!中央網(wǎng)信辦專項(xiàng)治理賬號(hào)亂象

整治冒充、偽裝、夾帶、黑灰產(chǎn)!中央網(wǎng)信辦專項(xiàng)治理賬號(hào)亂象

南方都市報(bào)
2026-06-19 10:41:10
莫斯科被炸成世界末日,大帝應(yīng)會(huì)在美中期選舉前結(jié)束戰(zhàn)爭(zhēng)

莫斯科被炸成世界末日,大帝應(yīng)會(huì)在美中期選舉前結(jié)束戰(zhàn)爭(zhēng)

邵旭峰域
2026-06-19 17:50:13
又是血洗!卡塔爾就不該進(jìn)入世界杯,日本球迷:名額給中國(guó)國(guó)足

又是血洗!卡塔爾就不該進(jìn)入世界杯,日本球迷:名額給中國(guó)國(guó)足

酷侃體壇
2026-06-19 15:57:12
女排2年輕主攻終于打出東西了!董禹含與李晨瑄輪番解壓莊宇珊!

女排2年輕主攻終于打出東西了!董禹含與李晨瑄輪番解壓莊宇珊!

籃球資訊達(dá)人
2026-06-20 01:17:26
四川:明確重點(diǎn)打擊惡意退保等違法業(yè)態(tài)

四川:明確重點(diǎn)打擊惡意退保等違法業(yè)態(tài)

北京商報(bào)
2026-06-18 18:14:03
三代王者同池競(jìng)技!張展碩奪200自冠軍,孫楊第6名力壓潘展樂(lè)

三代王者同池競(jìng)技!張展碩奪200自冠軍,孫楊第6名力壓潘展樂(lè)

全景體育V
2026-06-19 19:32:54
為何網(wǎng)絡(luò)上突然爆發(fā)如此集中且充滿戾氣對(duì)雷軍的攻擊?

為何網(wǎng)絡(luò)上突然爆發(fā)如此集中且充滿戾氣對(duì)雷軍的攻擊?

想去北極洲
2026-06-19 12:09:06
保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會(huì)再去店里吃,寶爸發(fā)聲回應(yīng)

保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會(huì)再去店里吃,寶爸發(fā)聲回應(yīng)

社會(huì)日日鮮
2026-06-19 09:39:10
穆里尼奧臉都綠了!皇馬硬砸 2.2 億世界杯天王,根本不聽(tīng)他的!

穆里尼奧臉都綠了!皇馬硬砸 2.2 億世界杯天王,根本不聽(tīng)他的!

奶蓋熊本熊
2026-06-20 02:55:35
外媒:阿爾及利亞足協(xié)已就梅西踩踏以及麥卡肘擊提出申訴

外媒:阿爾及利亞足協(xié)已就梅西踩踏以及麥卡肘擊提出申訴

懂球帝
2026-06-19 20:08:12
浙江杭州一攝影師拍下游客偷拿靈隱寺“祈福錢(qián)”,景區(qū)回應(yīng):這種情況發(fā)現(xiàn)后會(huì)報(bào)警處理,看到可聯(lián)系工作人員

浙江杭州一攝影師拍下游客偷拿靈隱寺“祈福錢(qián)”,景區(qū)回應(yīng):這種情況發(fā)現(xiàn)后會(huì)報(bào)警處理,看到可聯(lián)系工作人員

大風(fēng)新聞
2026-06-19 19:09:03
梅西亮鞋釘踩人逃過(guò)紅牌?國(guó)際足聯(lián)官宣,一錘定音,裁判圈白吵了

梅西亮鞋釘踩人逃過(guò)紅牌?國(guó)際足聯(lián)官宣,一錘定音,裁判圈白吵了

萌蘭聊個(gè)球
2026-06-19 17:35:32
德天空:拜仁世界杯后與凱恩談續(xù)約,希望他至少留到2029年

德天空:拜仁世界杯后與凱恩談續(xù)約,希望他至少留到2029年

懂球帝
2026-06-19 15:32:12
最可怕的內(nèi)鬼浮出水面!柬埔寨電詐園區(qū)的幕后大佬,竟是商會(huì)會(huì)長(zhǎng)

最可怕的內(nèi)鬼浮出水面!柬埔寨電詐園區(qū)的幕后大佬,竟是商會(huì)會(huì)長(zhǎng)

火山詩(shī)話
2026-06-19 07:42:12
男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認(rèn)定肇事者全責(zé),申請(qǐng)復(fù)議后變主責(zé),警方回應(yīng):按正規(guī)程序進(jìn)行

男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認(rèn)定肇事者全責(zé),申請(qǐng)復(fù)議后變主責(zé),警方回應(yīng):按正規(guī)程序進(jìn)行

大風(fēng)新聞
2026-06-19 15:30:09
2026-06-20 03:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒(méi)上場(chǎng)先漲粉600萬(wàn)

娛樂(lè)要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長(zhǎng)

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
健康
旅游
教育
數(shù)碼

任天堂完全獨(dú)占新游開(kāi)預(yù)購(gòu)!7月23日發(fā)售 女主好性感

吃粽子的3條保胃法則,消化科醫(yī)生推薦

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

教育要聞

高考送考就是全社會(huì)對(duì)孩子最大的溺愛(ài)!

數(shù)碼要聞

SSD太貴換回HDD:機(jī)械硬盤(pán)價(jià)格連漲5個(gè)季度!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版