免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI智能體不是越多越強(qiáng):信息冗余構(gòu)成了LLM Agent Scaling的瓶頸

0
分享至



近年來(lái),基于大語(yǔ)言模型的多智能體系統(tǒng)(LLM-based Multi-Agent Systems, MAS)被廣泛用于復(fù)雜推理任務(wù)。典型做法是讓多個(gè) agent 獨(dú)立生成并通過(guò)投票或辯論等機(jī)制聚合決策,從而在算術(shù)推理、常識(shí)推斷與專(zhuān)業(yè)問(wèn)答中提升準(zhǔn)確率。

隨著 test-time compute(推理時(shí)計(jì)算)成為常見(jiàn)的能力提升手段,一個(gè)自然的問(wèn)題隨之出現(xiàn):MAS 是否能通過(guò)不斷增加 agent 數(shù)量而持續(xù)變強(qiáng)?直覺(jué)上,這個(gè)設(shè)想似乎成立:類(lèi)似 ensemble 或 self-consistency 的「多次采樣 + 聚合」往往能提高覆蓋正確答案的概率。

來(lái)自上海交通大學(xué)、UC Berkeley、加州理工學(xué)院以及約翰?霍普金斯大學(xué)的聯(lián)合研究論文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能體系統(tǒng)「擴(kuò)不動(dòng)」的真正原因,并不是 Agent 不夠多,而是信息冗余。 系統(tǒng)實(shí)驗(yàn)發(fā)現(xiàn),單純堆規(guī)模收益迅速枯竭,而引入多樣性可以顯著延緩飽和、以更少的 Agent 獲得更強(qiáng)的性能。



  • 論文標(biāo)題:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
  • 論文地址:https://arxiv.org/pdf/2602.03794
  • GitHub 代碼:https://github.com/SafeRL-Lab/Agent-Scaling

同質(zhì)擴(kuò)展的失效:

規(guī)模帶來(lái)的收益迅速飽和

論文首先直接檢驗(yàn)「增加 agent 數(shù)是否有效」。在同質(zhì)設(shè)置下,所有 agent 共享相同底座模型與系統(tǒng)提示(無(wú) persona 差異,配置一致),采用兩類(lèi)常見(jiàn)協(xié)作機(jī)制:

  • Vote:?jiǎn)屋啰?dú)立生成后多數(shù)投票;
  • Debate:多輪交互后再給出最終答案(交互 4 輪)。

僅改變 agent 數(shù) N,在 7 個(gè)基準(zhǔn)任務(wù)(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上評(píng)估。



結(jié)果在不同任務(wù)與模型上高度一致:當(dāng) N 從 1 增至 2 或 4 時(shí),性能通常明顯提升;但繼續(xù)增加 N 后,準(zhǔn)確率迅速進(jìn)入平臺(tái)期,邊際收益接近 0,部分設(shè)置甚至出現(xiàn)回落。這說(shuō)明:在同質(zhì)配置下,單純堆疊更多 agent calls 并不能持續(xù)注入新的有效信息。

多樣性帶來(lái)的對(duì)照現(xiàn)象:

少量異質(zhì) agent 勝過(guò)大規(guī)模同質(zhì)系統(tǒng)

與同質(zhì)擴(kuò)展的快速飽和形成鮮明對(duì)比的是,多樣性配置下的實(shí)驗(yàn)結(jié)果。論文進(jìn)一步比較了兩類(lèi)系統(tǒng):一類(lèi)由同一模型多次獨(dú)立運(yùn)行構(gòu)成,另一類(lèi)則由不同 backbone 模型或不同 persona prompt 組成。在匹配計(jì)算預(yù)算(固定總 agent calls)的前提下,異質(zhì)系統(tǒng)在同預(yù)算下整體更高,并且在更大的 N 上仍能保持增益。





為了更系統(tǒng)地理解這一現(xiàn)象,作者在實(shí)驗(yàn)中將多樣性拆解為不同來(lái)源,包括 persona 多樣性、模型多樣性,以及二者結(jié)合的完全多樣性,并在統(tǒng)一設(shè)置下進(jìn)行對(duì)比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七個(gè)基準(zhǔn)任務(wù)上,作者系統(tǒng)比較了:

  • Agent 完全一致(L1)
  • Agent Persona 多樣性(L2)
  • Base Model 多樣性(L3)
  • Persona多樣性兼Base Model多樣性(L4)

結(jié)果顯示,每引入一層新的多樣性,系統(tǒng)整體性能都會(huì)顯著上移;其中,模型多樣性和 persona 多樣性各自都具有獨(dú)立貢獻(xiàn),而二者結(jié)合時(shí)效果最為顯著。



這一趨勢(shì)在效率層面體現(xiàn)得尤為明顯:在多個(gè)任務(wù)上,僅使用2 個(gè)完全異質(zhì)的 agent,就可以達(dá)到甚至超過(guò)16 個(gè)同質(zhì) agent的平均性能。



限制多智能體擴(kuò)展的不是規(guī)模

而是信息冗余

將這些實(shí)驗(yàn)結(jié)果串聯(lián)起來(lái),論文在經(jīng)驗(yàn)層面得出了一個(gè)清晰結(jié)論:多智能體系統(tǒng)的擴(kuò)展瓶頸并不來(lái)自 agent 數(shù)量不足,而來(lái)自 agent 輸出之間的高度相關(guān)性。在同質(zhì)配置下,多個(gè) agent 往往沿著相似的推理路徑生成答案,新增調(diào)用所帶來(lái)的大多是重復(fù)信息;而多樣性的作用,在于引入互補(bǔ)視角,降低輸出冗余,使系統(tǒng)能夠在相同甚至更小的計(jì)算預(yù)算下獲得更多有效證據(jù)。





基于這一系列實(shí)驗(yàn)現(xiàn)象,作者進(jìn)一步提出信息論分析框架,引入「有效信息通道」等概念,對(duì)「規(guī)模失效」與「多樣性?xún)?yōu)勢(shì)」給出統(tǒng)一解釋。與其說(shuō)這項(xiàng)工作提出了新的 agent 架構(gòu),不如說(shuō)它明確指出:多智能體系統(tǒng)里真正稀缺的資源不是調(diào)用次數(shù),而是非冗余的信息來(lái)源

信息論視角:

性能由「有效信息」而非「調(diào)用次數(shù)」主導(dǎo)

作者考慮一個(gè)包含 N 個(gè)大模型智能體的多智能體系統(tǒng),每個(gè)智能體具有自身配置,包括基座模型(backbone model)、系統(tǒng)提示詞(system prompt)、角色設(shè)定(persona)與工具能力(tool access)。系統(tǒng)接收問(wèn)題輸入 X,按預(yù)設(shè)工作流執(zhí)行若干次推理(記為 n 次),最終輸出答案。



從信息論角度,得到正確答案 Y 的成功率并不簡(jiǎn)單由 N 與 n 決定,而取決于系統(tǒng)能夠提供多少關(guān)于 Y 的信息。作者用條件熵 H (Y|X) 刻畫(huà)任務(wù)的內(nèi)在難度:在給定問(wèn)題 X 的情況下,正確答案 Y 仍然存在的剩余不確定性。

  • 同質(zhì)配置下,即便新增智能體,往往也只是在相似推理路徑下重復(fù)采樣,因而對(duì)降低不確定性幫助有限;
  • 異質(zhì)配置下,新增智能體更可能引入新的推理路徑,與既有路徑互補(bǔ),從而更有效地減少不確定性。

為刻畫(huà)這一差異,作者定義:



在該設(shè)定下,作者基于若干建模假設(shè)推導(dǎo)出一個(gè)近似形式,用于刻畫(huà)趨勢(shì)而非精確預(yù)測(cè)。作者認(rèn)為,系統(tǒng)可獲得的有效信息量(并據(jù)此關(guān)聯(lián)成功率)主要受如下量支配:



該結(jié)果強(qiáng)調(diào):影響系統(tǒng)性能的關(guān)鍵不在于 “智能體數(shù)量或推理次數(shù)”,而在于系統(tǒng)中有效信息通道的數(shù)量—— 也就是多樣化所帶來(lái)的非冗余信息規(guī)模。它也解釋了為何實(shí)踐中常見(jiàn)「邊際效益遞減」:當(dāng)有效信息通道增長(zhǎng)受限時(shí),新增調(diào)用帶來(lái)的有效信息增量會(huì)快速衰減。

作者還給出了在實(shí)踐中估計(jì)有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等數(shù)據(jù)集上驗(yàn)證:經(jīng)驗(yàn)成功率與理論預(yù)測(cè)總體吻合。



進(jìn)一步地,作者將系統(tǒng)輸出拆分為「正確推理路徑」與「錯(cuò)誤推理路徑」,分別估算其對(duì)應(yīng)的有效信息通道數(shù)量。實(shí)驗(yàn)一致表明:當(dāng)正確推理路徑對(duì)應(yīng)的有效信息通道更多時(shí),多智能體系統(tǒng)表現(xiàn)更好。這意味著系統(tǒng)設(shè)計(jì)不應(yīng)盲目追求多樣性本身,而應(yīng)追求與任務(wù)相關(guān)的推理多樣性 —— 即提升與正確推理相關(guān)的有效信息通道數(shù)。



總結(jié)

論文的核心經(jīng)驗(yàn)結(jié)論是:多智能體擴(kuò)展的關(guān)鍵不在于把 N 做大,而在于讓新增調(diào)用帶來(lái)新的有效證據(jù)。只要輸出高度相關(guān),同質(zhì)擴(kuò)展就會(huì)很快進(jìn)入平臺(tái)期;而多樣性能夠提升效率,是因?yàn)樗赡墚a(chǎn)生互補(bǔ)推理路徑。換句話說(shuō),多智能體系統(tǒng)里稀缺的不是調(diào)用次數(shù),而是非冗余信息。

實(shí)踐上可以用一個(gè)簡(jiǎn)單標(biāo)準(zhǔn)指導(dǎo)擴(kuò)展:當(dāng)增加 agent 主要帶來(lái)「同一思路的重復(fù)」 時(shí),應(yīng)停止堆同質(zhì)數(shù)量,轉(zhuǎn)而引入可控的異質(zhì)性(方法互補(bǔ)的 persona、不同模型家族、工具能力互補(bǔ));只有當(dāng)這些改動(dòng)確實(shí)帶來(lái)額外增益時(shí),再繼續(xù)擴(kuò)大規(guī)模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曝籃網(wǎng)愿交易兩老將 火箭可補(bǔ)強(qiáng)

曝籃網(wǎng)愿交易兩老將 火箭可補(bǔ)強(qiáng)

體壇周報(bào)
2026-06-19 22:25:17
數(shù)億煤礦1200萬(wàn)賤賣(mài),法官套現(xiàn)千萬(wàn):河南這出“吃干抹凈”的局

數(shù)億煤礦1200萬(wàn)賤賣(mài),法官套現(xiàn)千萬(wàn):河南這出“吃干抹凈”的局

有戲
2026-06-12 10:48:18
領(lǐng)導(dǎo)想養(yǎng)貓,網(wǎng)友給他看了幾張自己養(yǎng)的貍花貓……領(lǐng)導(dǎo)看完沉默了:不養(yǎng)貓也挺好的 !

領(lǐng)導(dǎo)想養(yǎng)貓,網(wǎng)友給他看了幾張自己養(yǎng)的貍花貓……領(lǐng)導(dǎo)看完沉默了:不養(yǎng)貓也挺好的 !

愛(ài)寵物
2026-06-14 21:52:19
司長(zhǎng),出任211大學(xué)黨委書(shū)記!

司長(zhǎng),出任211大學(xué)黨委書(shū)記!

新浪財(cái)經(jīng)
2026-06-19 22:47:11
門(mén)將下飯送大禮,韓國(guó)輸球“早有預(yù)謀”!小組第二去洛杉磯半主場(chǎng)

門(mén)將下飯送大禮,韓國(guó)輸球“早有預(yù)謀”!小組第二去洛杉磯半主場(chǎng)

中國(guó)足球的那些事兒
2026-06-19 11:48:00
央視三胎宣傳片惹爭(zhēng)議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

央視三胎宣傳片惹爭(zhēng)議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

番外行
2026-05-24 09:14:38
什么東西讓你體會(huì)到貴有貴的道理?網(wǎng)友:買(mǎi)前牙咬碎 買(mǎi)后它真值

什么東西讓你體會(huì)到貴有貴的道理?網(wǎng)友:買(mǎi)前牙咬碎 買(mǎi)后它真值

夜深?lèi)?ài)雜談
2026-06-17 21:35:31
美國(guó)發(fā)話也不行,中方正式通告全球:打日本,中國(guó)具備“正當(dāng)性”

美國(guó)發(fā)話也不行,中方正式通告全球:打日本,中國(guó)具備“正當(dāng)性”

鳳語(yǔ)談
2026-05-28 12:13:58
美國(guó)工程師:摸不透中國(guó)人,大力發(fā)展水力發(fā)電,卻不知里面的危害

美國(guó)工程師:摸不透中國(guó)人,大力發(fā)展水力發(fā)電,卻不知里面的危害

抽象派大師
2026-06-19 17:41:20
世聯(lián)賽:中國(guó)3-0橫掃法國(guó),趙勇帶隊(duì)5連勝創(chuàng)里程碑

世聯(lián)賽:中國(guó)3-0橫掃法國(guó),趙勇帶隊(duì)5連勝創(chuàng)里程碑

蕭壛記錄風(fēng)土人情
2026-06-19 22:47:20
定了!下半年起,寬帶費(fèi)、有線電視費(fèi)全面大洗牌!家家都能省錢(qián)

定了!下半年起,寬帶費(fèi)、有線電視費(fèi)全面大洗牌!家家都能省錢(qián)

林子說(shuō)事
2026-06-18 19:58:33
英皇負(fù)債166億,謝霆鋒用4場(chǎng)演唱會(huì),一個(gè)人扛起一家快倒了的公司

英皇負(fù)債166億,謝霆鋒用4場(chǎng)演唱會(huì),一個(gè)人扛起一家快倒了的公司

樂(lè)悠悠娛樂(lè)
2026-06-05 13:31:12
日本無(wú)人機(jī)開(kāi)發(fā)商宣布將兩家烏克蘭公司收歸麾下

日本無(wú)人機(jī)開(kāi)發(fā)商宣布將兩家烏克蘭公司收歸麾下

俄羅斯衛(wèi)星通訊社
2026-06-17 15:19:21
意媒:尤文1000萬(wàn)歐報(bào)價(jià)科莫托,已遭米蘭拒絕

意媒:尤文1000萬(wàn)歐報(bào)價(jià)科莫托,已遭米蘭拒絕

懂球帝
2026-06-19 20:08:12
品牌紙尿褲含有毒物質(zhì)!企業(yè)拿“符合國(guó)標(biāo)”說(shuō)事,我們?cè)摲此剂?>
    </a>
        <h3>
      <a href=胡侃社會(huì)百態(tài)
2026-06-19 10:47:07
四大皆空后皇馬狂簽4人!穆帥重建:有人真香,有人暗藏大坑

四大皆空后皇馬狂簽4人!穆帥重建:有人真香,有人暗藏大坑

曦言說(shuō)
2026-06-19 23:47:52
提問(wèn)離譜!薩巴倫卡柏林賽后遭費(fèi)德勒難題刁難,球迷紛紛怒斥

提問(wèn)離譜!薩巴倫卡柏林賽后遭費(fèi)德勒難題刁難,球迷紛紛怒斥

網(wǎng)球之家
2026-06-18 22:58:09
亨利炮轟C羅遭回?fù)?!埃弗拉怒噴:歷史射手王還需要你來(lái)教進(jìn)球?

亨利炮轟C羅遭回?fù)簦“8ダ瓏姡簹v史射手王還需要你來(lái)教進(jìn)球?

體育閑話說(shuō)
2026-06-18 22:24:36
敏昂萊在華5天,中方開(kāi)出唯一條件,答應(yīng)了就能讓緬甸起死回生?

敏昂萊在華5天,中方開(kāi)出唯一條件,答應(yīng)了就能讓緬甸起死回生?

小冠說(shuō)娛
2026-06-19 20:18:15
請(qǐng)保住晚節(jié)!葡萄牙媒體:感謝C羅,但他是時(shí)候離開(kāi)了!

請(qǐng)保住晚節(jié)!葡萄牙媒體:感謝C羅,但他是時(shí)候離開(kāi)了!

慢歌輕步謠
2026-06-19 11:00:53
2026-06-20 01:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒(méi)上場(chǎng)先漲粉600萬(wàn)

娛樂(lè)要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長(zhǎng)

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
游戲
公開(kāi)課

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機(jī)”畫(huà)家,把絲綢畫(huà)出了呼吸感

數(shù)碼要聞

SSD太貴換回HDD:機(jī)械硬盤(pán)價(jià)格連漲5個(gè)季度!

任天堂完全獨(dú)占新游開(kāi)預(yù)購(gòu)!7月23日發(fā)售 女主好性感

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版