免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1美元Token撬動4800美元收益!百萬美元級基準,最賺錢Agent出現(xiàn)了

0
分享至



機器之心編輯部

如果有價值 $100 萬美金的頂級專家任務(wù),AI 能完成其中多少?

答案是 48 萬美金,而只需要 100 美元的 Token 費用。

這個數(shù)字怎么來的?Humanlaya Data Lab 聯(lián)合北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募來自 Morgan Stanley、世達(Skadden)、協(xié)和醫(yī)院、中國電網(wǎng)、清華大學(xué)等頂級機構(gòu)或?qū)W府的 100+ 位資深專家,耗時 2000+ 小時,構(gòu)建了等價于人類專家工作價值百萬美元級評測基準 —— $OneMillion-Bench

作為該基準的主導(dǎo)構(gòu)建機構(gòu),Humanlaya 是一家成立于 2025 年的 AI 數(shù)據(jù)實驗室,通過定義真實、高經(jīng)濟價值的可驗證任務(wù),推動大模型能力邊界的拓展與經(jīng)濟價值的落地。相關(guān)論文、代碼與數(shù)據(jù)已經(jīng)公開,鏈接如下:

  • 論文鏈接:https://github.com/humanlaya/OneMillion-Bench/blob/main/tech_report.pdf
  • GitHub:https://github.com/humanlaya/OneMillion-Bench
  • Hugging Face:https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench
  • 官網(wǎng)地址:www.humanlaya.com

隨著 OpenClaw 的爆火,人們越來越關(guān)注 AI Agent 能夠?qū)嶋H替人類完成的任務(wù)。$OneMillion-Bench 的核心想法很直白:用 “人類專家的時間與成本” 給任務(wù)定價,再用 “是否滿足專家要求” 衡量模型交付質(zhì)量—— 如果把 AI 當成 “數(shù)字白領(lǐng)專家”,總價值 100 萬美金的任務(wù),模型到底能賺多少錢?



$OneMillion-Bench模型表現(xiàn)和其獲取的經(jīng)濟價值

01|“Agent 能掙錢” 成為日常,但行業(yè)更缺一把尺:可交付、可復(fù)核、可控

從 2025 Agent 元年開始,AI 逐漸從 “答題機” 推進到 “數(shù)字員工”,但業(yè)界現(xiàn)有評測集往往缺乏對實際經(jīng)濟價值的衡量,區(qū)分度不足、難以自動化且僅有英文語境。

因此,$OneMillion-Bench 構(gòu)建了一套兼?zhèn)涓呓?jīng)濟價值 × 高區(qū)分度 × 可自動評測的基準,它包含 400 道高難題目(200 個英文題 + 200 個中文題),覆蓋金融、法律、醫(yī)療、自然科學(xué)與工業(yè)五大領(lǐng)域的 92 個三級領(lǐng)域,與常見的考試題不同,每道題都是真實行業(yè)場景下的開放專家任務(wù),采用 Rubrics + LLM as Judge 評測

該基準要求模型給出可落地的實操方案與判斷鏈路,在這些開放問題上,不僅回答 “是什么”,更要說明 “怎么做、按什么順序做、為什么這么做”。



$OneMillion-Bench 5 個領(lǐng)域,37 個二級和 92 個三級細分類別

之所以是 $OneMillion,是因為這些任務(wù)真的很 “貴”。

不同于傳統(tǒng)只評估模型準確率的榜單,我們用 “錢” 來標價每一道題的現(xiàn)實勞動價值 ——任務(wù)經(jīng)濟價值 = 資深專家完成該任務(wù)的耗時 × 專家時薪。時薪錨定官方或行業(yè)權(quán)威數(shù)據(jù),如中國部分城市人社局、美國勞動統(tǒng)計局,任務(wù)的耗時來自多個領(lǐng)域?qū)<业墓餐u估。

據(jù)此,把所有任務(wù)的經(jīng)濟價值加和計算后,超過了 100 萬美元。如果在現(xiàn)實世界里把這些工作交給資深專家團隊完成,你需要支付的成本就是百萬美元量級。這樣一來,模型評測不再停留在分數(shù)上,而是更直觀地回答:AI 現(xiàn)在到底能穩(wěn)定交付多少 “可兌現(xiàn)價值”,以及距離真正上崗還差什么



$OneMillion-Bench 經(jīng)濟價值計算

02|四大關(guān)鍵設(shè)計:多樣化真實場景 + 高價值任務(wù) + 非對稱負分機制 + 高質(zhì)量與一致性

(1)經(jīng)濟價值出發(fā),構(gòu)建高真實性、高含金量專家任務(wù)

我們在評測中引入用貨幣度量的 “經(jīng)濟價值”,核心是衡量模型在真實世界中能創(chuàng)造多少可交付的經(jīng)濟價值。開放式問題很難用單一標準答案衡量,我們邀請一線資深專家將真實工作流拆解為細顆粒度考點:每道題設(shè)計15–35個考點,累計7000+考點。題目覆蓋5–15 年經(jīng)驗從業(yè)者在真實場景中常見的典型任務(wù),專家來自各類頭部機構(gòu),不只考知識點,更考驗特定場景下的專家級決策能力。

(2)引入 “負分項”,防止 Reward Hacking

在開放式任務(wù)里,模型最容易走向 “越說越多、看起來越專業(yè)”,蒙到考點就得分。為了避免虛高,我們加入行文邏輯和結(jié)構(gòu)、扣分項考點。模型如果只是堆砌內(nèi)容,沒有合理的邏輯展開,無法 “撞到” 高分。在考點分值設(shè)置上,我們采取+10 ~ -20 的非對稱考點分值:正向能力給分更克制,明確或致命錯誤懲罰更重。這套結(jié)構(gòu)的效果更接近真實使用體感 —— 做對不一定加分很多,但做錯往往會帶來更大代價。

(3)覆蓋 92 個三級分類,含 CN + Global 兩大子集單獨區(qū)分中國大陸題目,場景足夠真實、豐富

我們將任務(wù)細化到覆蓋92 個三級分類的真實崗位工作流;CN 是中文題目,Global 是英文題目,收集本地化、真實的題目,盡量還原真實的法規(guī)、流程與業(yè)務(wù)語境,從而更精準刻畫不同模型在特定地域業(yè)務(wù)場景中的能力差異。

(4)一套 “像生產(chǎn)線” 的專家 Pipeline:讓高難 Rubrics 題可規(guī)?;?、可質(zhì)控

為了確保數(shù)據(jù)場景真實、考點合理,團隊在專家招募、選拔與培訓(xùn)上投入大量成本,專家平均整體通過率低于 5%,題目最終質(zhì)檢通過率38.1%。數(shù)據(jù)生產(chǎn)采用 3-4 名專家協(xié)作的 Pipeline,包含對抗性評審與仲裁機制。在難度控制上,我們采取雙向截斷策略,剔除過易樣本,對于過難樣本二次復(fù)審,確保數(shù)據(jù)質(zhì)量。



題目示例

03 | 成績單解讀:SOTA 的分數(shù)已經(jīng)合格,但距離交付仍有距離

目前最強模型通過率超過 40%,在 100 萬美元的任務(wù)上,大約可以產(chǎn)出50 萬美元,而完成任務(wù)的 API 成本也就 100 美元左右!AI 不但已經(jīng)能 “干活”,而且在極高難度、極高單價的專業(yè)任務(wù)里,已經(jīng)能交付相當可觀的美元級別的價值



模型的平均通過率、平均分和可以產(chǎn)生的總經(jīng)濟價值

Insight 1:成績已經(jīng)合格,但離 “可托付” 還很遠

如果只看平均分,頭部模型已經(jīng)進入了合格區(qū)間(60%+),第二梯隊也普遍在 50% 以上,說明 AI 在專業(yè)任務(wù)上確實能覆蓋不少關(guān)鍵點。但在真實工作里,平均分其實不夠用,未達到一定質(zhì)量需要返工。因此,我們引入了更貼近落地的指標 —— 通過率(Pass Rate):單題得分達到 70% 及以上,本題才算 “通過”

基于這個定義,本榜單的 Economic Value(經(jīng)濟價值)也不是按平均分線性折算,而是嚴格按 “可交付” 口徑計算,只有通過的任務(wù)才計入 “能賺到的錢”。平均分像 “考試成績”,而通過率才是 “上崗證”。

而從通過率的視角來看,即使是排名第一的 Claude Opus 4.6 Web Search,也驟降到43.5%,即只有不到 45% 的任務(wù)可以通過驗收,第二梯隊多在 25~30% 區(qū)間徘徊。換句話說,平均分看起來 “能用”,但能在一半以上任務(wù)里穩(wěn)定達到可交付標準的模型,目前還不存在。

目前,AI 已經(jīng)能穩(wěn)定交付一部分題目、并且能賺到很可觀的價值,但榜單也清楚告訴我們另一半真相:距離可交付的專業(yè)任務(wù)仍有相當一段路程。

Insight 2:Web Search 是一把雙刃劍

Web Search 工具調(diào)用通常能顯著補齊事實,尤其在經(jīng)濟金融領(lǐng)域的時效性問題,同樣適用于醫(yī)療、工業(yè)、法律中不斷迭代和演進的規(guī)范和約束。

但它也會引入噪聲與 “看似權(quán)威的錯誤來源”,從而出現(xiàn)波動甚至回退。下一階段競爭不只是 “有沒有搜索”,而是 “會不會搜索” 以及搜索工具的效果如何:會不會選源、會不會交叉驗證、會不會把證據(jù)鏈寫進推理、會不會在噪聲下保持一致性。

Insight 3:復(fù)雜推理仍是通用瓶頸,方向正確但缺乏可執(zhí)行的細節(jié)

模型擅長寫一段看起來連貫的解釋,但一旦任務(wù)需要深層理解、多步演繹、或在巨大可能空間里探索,就仍會出現(xiàn)深度不足與準確性波動。典型例子包括軟件工程、機器學(xué)習(xí)相關(guān)任務(wù)中的探索式問題。這類任務(wù)必須先建立結(jié)構(gòu),再做推導(dǎo),再做反證,再回溯修正。模型往往會在中途跳步,或者用看似合理的敘述替代真正的推理。

此外,模型容易給出方向正確但是缺乏可執(zhí)行細節(jié)的回復(fù)。比如在醫(yī)療場景下,需要的是可執(zhí)行的臨床要素,但模型容易泛泛而談,遺漏關(guān)鍵點。自然科學(xué)任務(wù)里存在類似的對實驗條件的預(yù)期不足、對約束不夠細、機制鏈條理解淺。這種失敗在真實落地里殺傷力很大,因為它看起來 “很對”,但沒有可實踐的信息量。

05|One Step Further —— 將把模型推進到 “可交付” 的那一步

如果站在 2024 年的視角,會覺得 AI 還是一個 “大玩具”。但站在 2026 年、OpenClaw 把 Agent 推到大眾面前之后,我們看到的是另一件事:AI 已經(jīng)能交付 50 萬美元級別的專業(yè)價值;接下來競爭的關(guān)鍵,是繼續(xù)提升這份價值,并且將這份價值變得更穩(wěn)定、更可復(fù)核、更可控,使智能的邊際提升能直接轉(zhuǎn)化為生產(chǎn)力和收入。

$OneMillion-Bench 的意義不在于 “再做一個排行榜”,而是把 “數(shù)字員工” 的能力邊界量化出來:你今天和未來可以放心把哪些工作交給它

更多參考鏈接:

Humanlaya:https://lab.humanlaya.com/

BIGAI:https://www.bigai.ai

xbench:https://xbench.org

M-A-P:https://huggingface.co/m-a-p

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
身體這處毛發(fā)變白,暗示活得不長?醫(yī)生提醒:抓緊檢查!

身體這處毛發(fā)變白,暗示活得不長?醫(yī)生提醒:抓緊檢查!

芹姐說生活
2026-06-06 22:35:41
世界杯一戰(zhàn)成名!23 歲無名小將打懵英格蘭,直接被曼聯(lián)盯上!

世界杯一戰(zhàn)成名!23 歲無名小將打懵英格蘭,直接被曼聯(lián)盯上!

瀾歸序
2026-06-19 06:17:45
世界杯10大疲勞球隊出爐:法國隊最累,葡萄牙隊與英格蘭隊2、3名

世界杯10大疲勞球隊出爐:法國隊最累,葡萄牙隊與英格蘭隊2、3名

紅星新聞
2026-06-19 14:23:28
馬丁內(nèi)斯世界杯后告別葡萄牙!赴沙特執(zhí)教,下家將是利雅得勝利!

馬丁內(nèi)斯世界杯后告別葡萄牙!赴沙特執(zhí)教,下家將是利雅得勝利!

海浪星體育
2026-06-18 16:55:28
蘇聯(lián)是世界最大威脅 西歐必須提高警惕 1976年4月3日《人民日報》

蘇聯(lián)是世界最大威脅 西歐必須提高警惕 1976年4月3日《人民日報》

那些看得見的老照片
2026-05-22 06:50:07
寶媽帶娃避雨被保安攆:本地人爆料,不是第一次,商家生意恐要黃

寶媽帶娃避雨被保安攆:本地人爆料,不是第一次,商家生意恐要黃

另子維愛讀史
2026-06-18 22:21:47
兩性關(guān)系:為什么60歲以后,女人比男人更希望這些,你真的懂嗎?

兩性關(guān)系:為什么60歲以后,女人比男人更希望這些,你真的懂嗎?

新時代的兩性情感
2026-06-10 17:43:57
殺死相機的人,正在重返戰(zhàn)場

殺死相機的人,正在重返戰(zhàn)場

華爾街見聞官方
2026-06-17 11:55:28
深圳航空A350寬體機即將正式投入運營 首航執(zhí)飛京深快線

深圳航空A350寬體機即將正式投入運營 首航執(zhí)飛京深快線

新京報
2026-06-18 20:41:10
釋永信與師姐釋永梅合影:20多年前,她胸前掛著當時最時尚手機

釋永信與師姐釋永梅合影:20多年前,她胸前掛著當時最時尚手機

離離言幾許
2026-06-03 22:53:39
中國男子游泳新希望,山東選手徐放刷新蝶泳全國紀錄,改變格局

中國男子游泳新希望,山東選手徐放刷新蝶泳全國紀錄,改變格局

體娛一家親
2026-06-19 19:27:03
35年前這招搞垮日本,如今又來!美聯(lián)儲凌晨出刀,亞洲國家該醒了

35年前這招搞垮日本,如今又來!美聯(lián)儲凌晨出刀,亞洲國家該醒了

阿傖說事
2026-06-19 13:30:25
今日端午(6月19日)屬鼠人:千萬別草草過節(jié),今天至關(guān)重要!

今日端午(6月19日)屬鼠人:千萬別草草過節(jié),今天至關(guān)重要!

小陸搞笑日常
2026-06-19 07:01:46
香港歌神的長子患上膀胱癌,接受腫瘤切除手術(shù),已經(jīng)控制了病情

香港歌神的長子患上膀胱癌,接受腫瘤切除手術(shù),已經(jīng)控制了病情

草莓解說體育
2026-06-19 00:13:35
兒子給哈佛捐20多億,母親給麻省捐11億,家族在中國年收租百億?

兒子給哈佛捐20多億,母親給麻省捐11億,家族在中國年收租百億?

生活新鮮市
2026-06-18 20:08:24
A股:剛剛,大消息傳來,釋放重要信號!下周將迎來新的變盤

A股:剛剛,大消息傳來,釋放重要信號!下周將迎來新的變盤

云鵬敘事
2026-06-19 19:02:40
總決賽單場轟40分有多恐怖?科比僅1次,喬丹6次,一人狂砍10次

總決賽單場轟40分有多恐怖?科比僅1次,喬丹6次,一人狂砍10次

劉哥談體育
2026-06-19 11:05:50
貝克漢姆家撕破臉:14歲小七獨闖大哥豪宅鐵門前站半分鐘無人開門

貝克漢姆家撕破臉:14歲小七獨闖大哥豪宅鐵門前站半分鐘無人開門

草莓解說體育
2026-06-19 16:30:20
又添36億巨債,王健林被曝給王思聰私生女鋪路后,黃一鳴不裝了

又添36億巨債,王健林被曝給王思聰私生女鋪路后,黃一鳴不裝了

舍子花
2026-06-17 16:36:37
4名以色列士兵遭襲身亡,以色列威脅擴大戰(zhàn)爭,無視美國警告

4名以色列士兵遭襲身亡,以色列威脅擴大戰(zhàn)爭,無視美國警告

山河路口
2026-06-19 20:27:32
2026-06-19 21:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
公開課
軍事航空

《沙羅周期》銷量撲街!預(yù)估41.5萬 不如小機器人

藝術(shù)要聞

俄羅斯襲擊烏克蘭基輔,千年洞窟修道院陷火海

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關(guān)懷版