免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

低成本復(fù)刻Fable 5的路找到了:OrcaRouter多模型組隊,性能反超

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

這年頭,AI圈最不缺的就是“得不到的白月光”。

就在大家一邊對著Claude Fable 5望洋興嘆,一邊盤算著高昂的調(diào)用成本時,有人已經(jīng)悄悄把這桌“滿漢全席”給掀了。

怎么掀的?一手精妙的“拼圖游戲”。

AI網(wǎng)關(guān)OrcaRouter最近上線了一套可編程路由策略Routing DSL,多個模型同時答題,自動仲裁出最優(yōu)解。

幾個你現(xiàn)在就能調(diào)用的“常規(guī)模型”,給它來個組合編排,跑出來的綜合勝率,直接掀翻了Fable 5的單體基準(zhǔn)線。

Opus 4.8打不過Fable 5,GPT-5.5也單挑不過,但這兩個拼一組,結(jié)果就反超了。

哪怕是不混編,同一個Opus 4.8自己跟自己組隊,綜合得分也能從58.5%拉到約65.5%,追平Fable 5。

換成幾個更便宜的模型組隊(Gemini+Kimi+DeepSeek),也只差Fable 5一個點,成本卻低上一大截

我們直接看數(shù)據(jù)。

反直覺的結(jié)果:組合>任何單兵

一組測試(注:以下為示意性數(shù)據(jù),用于說明趨勢,非官方跑分),100道任務(wù)里評分了93道

組合面板(多模型并行+仲裁)的得分,普遍高于它的每一個成員模型:





這里劃下重點:

  • 任意一個“組合面板”,都打過了它自己的每一個成員。Opus 4.8 + GPT-5.5(約67.5%)同時高于Opus單跑(約58.5%)和GPT-5.5單跑(約60%),拉開7~9個點;
  • 多個組合追平、甚至超過了Fable 5單跑(約65.5%);
  • 連“自我組合”(Opus×2,約65.5%)都能追平Fable 5;一組便宜模型(Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro,約64.5%)也幾乎貼臉——成本卻低一大截

再把DSL按難度智能分流跑成完整端點,差距更為直觀(同為示意數(shù)據(jù)):



很明顯,贏的不是“更強的模型”,而是“更聰明的編排方式”

為什么“人多力量大”對模型也適用

道理和讓三個工程師同時做題、再挑出最好的答案一樣。

不同模型的知識盲區(qū)和犯錯方式并不相同:

各自獨立作答,錯誤是分散、不重疊的;

再用“裁判”或“投票”把對的挑出來,整體正確率自然會被抬上去。

模型間的分歧其實是信號

OrcaRouter做的,就是從這些分歧里挑出最優(yōu)解,拼成滿血輸出。

怎么做到的:用最簡單的配置,解最復(fù)雜的調(diào)度

OrcaRouter把這套編排邏輯交給你自己寫。

規(guī)則用YAML,條件用Google的CEL表達(dá)式(安全沙箱、只讀、微秒級求值),自上而下匹配,第一條命中即生效。

整條請求的處理路徑是這樣的:



按難度路由,長這樣:

rules:id: hardwhen: difficulty >0.8# 難題 → 上頂配use: { model:"anthropic/claude-opus-4-8", reasoning_effort:"high"}id: easywhen: difficulty <0.3# 簡單請求 → 走便宜模型use: { model:"google/gemini-3-flash"}default:delegate: balanced

“滿血復(fù)活”的關(guān)鍵一招,是parallel(并行扇出)+ arbiter(仲裁):

use:parallel: #2~5個模型并行作答- { model:"anthropic/claude-opus-4-8"}- { model:"openai/gpt-5.5"}- { model:"google/gemini-3.1-pro"}arbiter:strategy: best_of_n # 讓一個"裁判模型"挑最優(yōu)model:"anthropic/claude-sonnet-4-6"

四種仲裁策略,對應(yīng)四種“怎么定勝負(fù)”



擔(dān)心組合也翻車?

再加一層置信度級聯(lián)兜底:當(dāng)響應(yīng)觸發(fā)patch_invalid(補丁打不上)、self_doubt(模型自我懷疑)等信號,自動改投更強的模型重試。

更省、更穩(wěn):用拓?fù)鋼Q智能

并行扇出意味著“每條腿都計費”,但賬要這么算:

你只在難的那一小撮請求上才扇出,簡單請求照樣走便宜模型;

而一組便宜模型拼出的面板就能逼近Fable 5——用拓?fù)浣Y(jié)構(gòu)買智能,而不是用更高的單價買智能。



上手極簡

入口在控制臺:routing → create router → routing strategy → DSL。

配套自帶lint校驗、dry-run試跑、影子模式(只評估不生效,先看 A/B 差異和成本變化)、灰度放量(0~100%滑桿)和回滾審計——

改路由這種高危操作,被包了一層安全網(wǎng),可以先零風(fēng)險跑起來再放量。

需要說明的一點是:

按難度/任務(wù)的智能路由現(xiàn)已上線;

“多模型并行扇出+仲裁”的運行時目前處于灰度/預(yù)覽階段(計費鏈路逐步驗證中),可先寫好規(guī)則、用影子模式觀察,開放后一鍵生效。

現(xiàn)在就去試:

文檔:docs.orcarouter.ai/routing/routing-dsl
網(wǎng)站:www.orcarouter.ai (控制臺routing→create router→routing strategy→DSL)

結(jié)語

當(dāng)整個圈子都在為了下一個未知數(shù)傾注賭注時,一種更具確定性的工程范式正在悄然成型。

協(xié)作大于單兵,網(wǎng)絡(luò)優(yōu)于孤島。

幾個現(xiàn)成模型組合起來就能贏最強單體,勝負(fù)手已經(jīng)不只是“你調(diào)用了誰”,“你怎么編排”的權(quán)重正在變大。

模型還會繼續(xù)卷下去,下一個更強的遲早會來。

但當(dāng)編排本身就能拉出幾個點的性能增量,“怎么用”這件事,也許該和“用哪個”放在同一個優(yōu)先級了。

(注:本文圖表均為示意性數(shù)據(jù),僅用于說明趨勢,非官方跑分;多模型融合運行時目前處于灰度/預(yù)覽階段。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么洪秀全長達(dá)十一年,沒有離開“天王府”?

為什么洪秀全長達(dá)十一年,沒有離開“天王府”?

南書房
2026-06-19 13:00:12
紐約記者“封殺”貝基·哈蒙:禁止入城365天

紐約記者“封殺”貝基·哈蒙:禁止入城365天

元氣滿分吖
2026-06-20 00:19:07
當(dāng)年明月悟得那么通透,為什么依然過不好一生?

當(dāng)年明月悟得那么通透,為什么依然過不好一生?

新浪財經(jīng)
2026-06-14 00:52:12
iPhone 18售價或暴漲270美元,共享單車漲價

iPhone 18售價或暴漲270美元,共享單車漲價

自愈小日子
2026-06-20 00:09:01
誤報梅西父親去世!阿根廷女主播直播“翻車”,道歉后辭職

誤報梅西父親去世!阿根廷女主播直播“翻車”,道歉后辭職

紅星新聞
2026-06-19 09:06:34
又反轉(zhuǎn)了!以色列同意?;?,美股期貨拉升,國際油價直線跳水!黃金白銀短線反彈

又反轉(zhuǎn)了!以色列同意?;?,美股期貨拉升,國際油價直線跳水!黃金白銀短線反彈

新浪財經(jīng)
2026-06-19 21:37:45
暗黑心理學(xué):一個男人可以花錢去嫖一個長期賣淫的女人,卻始終不肯原諒出軌悔罪回家的老婆。這是怎么回事呢?

暗黑心理學(xué):一個男人可以花錢去嫖一個長期賣淫的女人,卻始終不肯原諒出軌悔罪回家的老婆。這是怎么回事呢?

心理觀察局
2026-06-17 06:38:26
中國男籃12人名單基本定了!楊瀚森隊內(nèi)放話帶傷沖,9人將被淘汰

中國男籃12人名單基本定了!楊瀚森隊內(nèi)放話帶傷沖,9人將被淘汰

愛體育的小悠悠
2026-06-19 14:18:56
連夜驅(qū)逐!世界杯沖突升級,多國人員被波及,國際足聯(lián)討好沒用

連夜驅(qū)逐!世界杯沖突升級,多國人員被波及,國際足聯(lián)討好沒用

就像當(dāng)初啊
2026-06-18 21:28:46
世界杯炸鍋!英格蘭王牌被質(zhì)疑,名宿開噴:只會虐菜,硬仗純隱身

世界杯炸鍋!英格蘭王牌被質(zhì)疑,名宿開噴:只會虐菜,硬仗純隱身

奶蓋熊本熊
2026-06-19 04:21:24
廣西29歲美女“奇跡木木”去世!前1天熬夜做陪玩,收費20遭跑單

廣西29歲美女“奇跡木木”去世!前1天熬夜做陪玩,收費20遭跑單

她時尚丫
2026-06-19 20:36:41
C羅梅西世界杯首秀跑動曝光!誰更拼?

C羅梅西世界杯首秀跑動曝光!誰更拼?

時光慢旅人
2026-06-19 00:19:20
悲劇!24歲加拿大中場腿骨斷裂:休戰(zhàn)5個月 俱樂部最高獲賠750萬歐

悲劇!24歲加拿大中場腿骨斷裂:休戰(zhàn)5個月 俱樂部最高獲賠750萬歐

風(fēng)過鄉(xiāng)
2026-06-19 10:56:34
門將下飯送大禮,韓國輸球“早有預(yù)謀”!小組第二去洛杉磯半主場

門將下飯送大禮,韓國輸球“早有預(yù)謀”!小組第二去洛杉磯半主場

中國足球的那些事兒
2026-06-19 11:48:00
30年一遇!武漢遭遇極端強降雨,武昌火車站及周邊淪為重災(zāi)區(qū)

30年一遇!武漢遭遇極端強降雨,武昌火車站及周邊淪為重災(zāi)區(qū)

火山詩話
2026-06-19 10:47:47
你是真不怕單身漢!農(nóng)村女老師背心單穿,被提醒后高呼穿衣自由!

你是真不怕單身漢!農(nóng)村女老師背心單穿,被提醒后高呼穿衣自由!

世界圈
2026-06-17 09:50:03
央視直播:莊宇珊洗刷3分恥辱,塞止連敗,日本六連勝?

央視直播:莊宇珊洗刷3分恥辱,塞止連敗,日本六連勝?

陳錈愛體育
2026-06-19 10:57:38
一場毒紙尿褲引發(fā)的鬧劇,誰在說謊?誰來給千萬寶媽一個交代?

一場毒紙尿褲引發(fā)的鬧劇,誰在說謊?誰來給千萬寶媽一個交代?

迷世書童
2026-06-20 00:05:15
狀元不是迪班薩?奇才認(rèn)真考慮選擇彼得森 布澤爾威爾遜退出競爭

狀元不是迪班薩?奇才認(rèn)真考慮選擇彼得森 布澤爾威爾遜退出競爭

羅說NBA
2026-06-19 13:29:22
成本3億,預(yù)計虧損2.5億,端午檔最慘電影誕生了

成本3億,預(yù)計虧損2.5億,端午檔最慘電影誕生了

影視高原說
2026-06-19 11:20:36
2026-06-20 00:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12819文章數(shù) 176501關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
手機
家居
旅游
公開課

任天堂完全獨占新游開預(yù)購!7月23日發(fā)售 女主好性感

手機要聞

賣爆了!小米 17T 系列四天熱銷 7 萬臺,首周預(yù)估破 10 萬臺,爭霸中端

家居要聞

綠意盎然 自然之境

旅游要聞

簽證費漲5倍、離境稅上調(diào)至3000日元,日本旅游性價比顯著削弱

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版