免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

30B參數(shù)超越GPT-5!REDSearcher讓深度搜索Agent做到低成本可擴(kuò)展

0
分享至



「2018 到 2023 年間在 EMNLP 會(huì)議上發(fā)表的那篇論文中,第一作者本科就讀于達(dá)特茅斯學(xué)院、第四作者本科就讀于賓夕法尼亞大學(xué)的那篇科學(xué)論文,題目是什么?」

這并不是一道靠記憶就能解答的題。Agent 必須在多輪環(huán)境交互中,不斷假設(shè)、驗(yàn)證并修正路徑,始終保持推理一致性,才能將零散證據(jù)整合成自洽鏈條。

2025 年被視為 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在長(zhǎng)程任務(wù)中像人類專家一樣維持目標(biāo)、驗(yàn)證信息并動(dòng)態(tài)調(diào)整策略。然而,訓(xùn)練這樣的 Agent 面臨三大瓶頸:

  • 數(shù)據(jù)稀缺:高難度長(zhǎng)程問答任務(wù)極度依賴人工標(biāo)注,成本高昂。因此,我們需要一條能夠自動(dòng)化合成高難度問題的鏈路。
  • 能力鴻溝:預(yù)訓(xùn)練模型雖知識(shí)儲(chǔ)備豐富,卻缺乏與真實(shí)環(huán)境進(jìn)行長(zhǎng)程交互的能力。這需要通過低成本的中訓(xùn)練階段來(lái)彌補(bǔ)鴻溝。
  • 環(huán)境缺失:在真實(shí)環(huán)境中訓(xùn)練成本高且不可控。一個(gè)功能等價(jià)的模擬環(huán)境,可以在本地復(fù)現(xiàn)搜索過程,從而支持算法的快速迭代。

為突破瓶頸,REDSearcher 團(tuán)隊(duì)設(shè)計(jì)了一套低成本、可擴(kuò)展的訓(xùn)練框架,最終使用 30B 規(guī)格模型在深度搜索任務(wù)上取得開源模型 SoTA,并且超越了 GPT-5 等一眾閉源模型。



  • 論文標(biāo)題:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
  • 項(xiàng)目主頁(yè):https://github.com/RedSearchAgent/REDSearcher
  • 論文鏈接:https://arxiv.org/abs/2602.14234
  • Collections:https://huggingface.co/collections/Zchu/redsearcher



一、什么是「足夠難」的深度搜索題目?

什么是困難的搜索題目?推理跳數(shù)往往只是表象,應(yīng)該追求的是問題的結(jié)構(gòu)性困難。

1. 拓?fù)鋸?fù)雜度:用樹寬衡量「結(jié)構(gòu)性困難」

復(fù)雜任務(wù)中,信息分叉交織形成回環(huán)。Agent 需同時(shí)記憶多路推論,時(shí)刻驗(yàn)證一致性,并隨時(shí)準(zhǔn)備整體回溯,這便是深度搜索的核心挑戰(zhàn)。為此,團(tuán)隊(duì)引入圖論中的TreeWidth(樹寬)概念來(lái)刻畫這種「結(jié)構(gòu)性困難」。以下通過三種結(jié)構(gòu)問題進(jìn)行對(duì)比:



  • 線性/樹狀(樹寬=1):典型鏈?zhǔn)酵评恚恍璋床烤桶鄼z索便可解答。
  • 菱形/回環(huán)(樹寬=2):出現(xiàn)分叉與重匯合,要求 Agent 維持多路假設(shè)的一致性,并在矛盾時(shí)進(jìn)行回溯。
  • 強(qiáng)耦合子圖(樹寬≥3):形成網(wǎng)狀約束,需要將零散證據(jù)拼合成一致的整體,迫使模型進(jìn)行全局驗(yàn)證和回溯。

2. 信息分散度:杜絕搜索「捷徑」

即使問題的拓?fù)浣Y(jié)構(gòu)很復(fù)雜,如果存在一個(gè)網(wǎng)頁(yè)恰好包含所有關(guān)鍵事實(shí),模型一次檢索就能抄走答案。為此,團(tuán)隊(duì)引入「信息分散度」,即覆蓋全部關(guān)鍵證據(jù)所需的最小來(lái)源數(shù)。信息分散度越大,表明問題相關(guān)的證據(jù)片段(注:原文為“爭(zhēng)取片段”,疑為筆誤,此處已作修正)在互聯(lián)網(wǎng)上的分布就更加零散,這迫使 Agent 與外部環(huán)境進(jìn)行更多輪次的交互從而獲取更加充分的信息。

二、大規(guī)?!缸詣?dòng)化」合成

「高難度」的深度搜索問題

基于雙約束復(fù)雜度標(biāo)準(zhǔn),我們采用 graph-to-text 流程合成數(shù)據(jù):先生成符合樹寬與分散度的推理圖,再將其翻譯為自然語(yǔ)言問題,并經(jīng)過多層校驗(yàn)確?!父唠y度、可解且答案唯一」。同時(shí),我們?cè)O(shè)計(jì)了基于「結(jié)構(gòu)化信息」與「網(wǎng)絡(luò)瀏覽」兩套圖構(gòu)造流程,以覆蓋不同搜索環(huán)境。在合成問題中,我們采?。?/p>

  • 拓?fù)浣Y(jié)構(gòu)增強(qiáng):直接生成高樹寬圖的成功率較低。為此,我們引入大模型智能體對(duì)初始依賴圖進(jìn)行「拓?fù)浼用堋?,通過添加環(huán)狀與交錯(cuò)約束,顯著提升結(jié)構(gòu)復(fù)雜度,迭代地提高問題難度。
  • 工具增強(qiáng)的問題合成:在問題構(gòu)造階段,我們主動(dòng)植入工具調(diào)用需求。通過將關(guān)鍵實(shí)體替換為隱含工具依賴的表達(dá)(如地名→地圖服務(wù)、文章→谷歌學(xué)術(shù)),使工具調(diào)用成為解題前置條件。



三、多模態(tài)擴(kuò)展:從「文本圖」到「多模態(tài)圖」

在文本合成基礎(chǔ)上,REDSearcher 通過模態(tài)注入將純文本推理圖轉(zhuǎn)化為跨模態(tài)推理,使部分約束錨定在圖像中。

  • 視覺屬性錨定:用圖像描述替換節(jié)點(diǎn)的文本屬性,迫使模型先識(shí)別圖像再關(guān)聯(lián)知識(shí)。
  • 跨模態(tài)依賴:設(shè)置視覺不可替代約束,使圖像搜索成為推理必經(jīng)之路,而非冗余信息。
  • 視覺語(yǔ)義抽象:使用抽象指代替代直接命名,迫使模型識(shí)別圖像內(nèi)容后再進(jìn)行搜索。
  • 模態(tài)靈活插入:視覺證據(jù)可插入推理鏈任意位置,既可早期設(shè)置瓶頸增加難度,也可后期引入驗(yàn)證,實(shí)現(xiàn)難度精細(xì)控制。

通過這套輕量級(jí)擴(kuò)展,REDSearcher 可高效遷移至多模態(tài)搜索領(lǐng)域,合成高質(zhì)量的圖文深度搜索問題。

四、「成本可控」Mid-Training 強(qiáng)化智能體能力

預(yù)訓(xùn)練模型缺乏多輪交互訓(xùn)練,在長(zhǎng)程搜索中易出現(xiàn)目標(biāo)漂移、重復(fù)搜索等問題。為此,REDSearcher 采用可擴(kuò)展的兩階段 Mid-Training 框架,依次強(qiáng)化模型的「原子能力」與「組合能力」,實(shí)現(xiàn)從語(yǔ)言建模到智能體的過渡。



原子能力建設(shè)

針對(duì)深度搜索重要的兩個(gè)基礎(chǔ)能力優(yōu)化:

  • 意圖錨定:從含噪的觀測(cè)中精準(zhǔn)抓取關(guān)鍵證據(jù),過濾噪聲,減少幻覺與推理漂移。
  • 層次化規(guī)劃:將復(fù)雜目標(biāo)拆解為可立即求解的具體目標(biāo)與需逐步消解的不確定目標(biāo),確保規(guī)劃可落地。

組合能力建設(shè)

通過環(huán)境交互強(qiáng)化長(zhǎng)程任務(wù)中的狀態(tài)維持與目標(biāo)一致性,全程以成本為約束:

  • 工具調(diào)用能力:通過合成工具協(xié)議與本地模擬環(huán)境交互,使模型在 ReACT 范式下掌握基礎(chǔ)與外界環(huán)境交互能力。
  • 長(zhǎng)程交互能力:在「功能一致」模擬環(huán)境中,讓 Agent 進(jìn)行長(zhǎng)程的環(huán)境交互,強(qiáng)化規(guī)劃能力與目標(biāo)一致性。

五、后訓(xùn)練持續(xù)進(jìn)化:

不只是「搜得多」,更要「搜得準(zhǔn)」

后訓(xùn)練采取 SFT + Agentic RL 雙階段增強(qiáng):

  • 在真實(shí)環(huán)境中交互,通過多重過濾獲取長(zhǎng)程高質(zhì)量軌跡,教會(huì)模型深度搜索行為。
  • 在真實(shí)搜索環(huán)境中進(jìn)一步優(yōu)化策略,關(guān)鍵設(shè)計(jì)包括:
  • 低成本驗(yàn)證:構(gòu)建「功能等價(jià)」的本地模擬環(huán)境,保持 API 一致、證據(jù)完備且含噪聲,加速實(shí)驗(yàn)迭代。
  • 數(shù)據(jù)質(zhì)量保障:針對(duì)合成問題中存在的答案錯(cuò)誤、一題多解現(xiàn)象,采用 Agent-as-Verifier 對(duì)強(qiáng)化學(xué)習(xí)問題集進(jìn)行校驗(yàn),避免數(shù)據(jù)污染影響訓(xùn)練穩(wěn)定性。

團(tuán)隊(duì)觀察到了效率與性能同步提升的現(xiàn)象:隨著訓(xùn)練進(jìn)行,模型的平均交互輪次不斷下降,但準(zhǔn)確率持續(xù)提升。這表明 REDSearcher 并非簡(jiǎn)單的「暴力搜索」,而是學(xué)會(huì)了更精準(zhǔn)的信息獲取策略,主動(dòng)減少無(wú)效調(diào)用,形成「越訓(xùn)越聰明」的良性循環(huán)。

六、實(shí)驗(yàn)結(jié)果

在多項(xiàng)深度搜索權(quán)威基準(zhǔn)上,REDSearcher 在開源模型中取得了優(yōu)異的表現(xiàn):

  • REDSearcher 在同規(guī)模開源模型中取得了 SoTA 水平,并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進(jìn)模型(*為帶有上下文管理的性能)。
  • REDSearcher-MM 在多模態(tài)搜索基準(zhǔn)中相比同規(guī)格模型取得了 SoTA 水平,并且性能超過 Gemini-2.5-pro,在部分基準(zhǔn)上取得了接近 Gemini-3-pro 的性能。





結(jié)語(yǔ)

REDSearcher 的核心在于系統(tǒng)性設(shè)計(jì):從圖論角度定義深度搜索任務(wù)復(fù)雜度,以雙約束優(yōu)化可擴(kuò)展合成數(shù)據(jù),以兩階段中間訓(xùn)練降低能力遷移成本,以高質(zhì)量軌跡合成結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)持續(xù)迭代。它提供了一條可復(fù)現(xiàn)、低成本的深度搜索智能體訓(xùn)練路徑,使 AI 系統(tǒng)從靜態(tài)知識(shí)查詢走向開放環(huán)境下的自主探索、驗(yàn)證與信息整合。

作者簡(jiǎn)介

初征,哈工大社會(huì)計(jì)算與信息檢索中心在讀博士生,由劉銘教授和秦兵教授共同指導(dǎo),研究方向是智能體、大語(yǔ)言模型、復(fù)雜推理、深度搜索。

王梟,就職于小紅書 Hi Lab,負(fù)責(zé)Search Agent,主要關(guān)注長(zhǎng)程推理、智能體、數(shù)據(jù)合成、強(qiáng)化學(xué)習(xí)。

Jack Hong,小紅書 Hi Lab 團(tuán)隊(duì)算法實(shí)習(xí)生,主要研究方向是多模態(tài)大模型、Agent、計(jì)算機(jī)視覺等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
溫瑞博蒯曼止步8強(qiáng),1-3輸韓國(guó)!覃予萱0-3爆冷,國(guó)乒單打4人晉級(jí)

溫瑞博蒯曼止步8強(qiáng),1-3輸韓國(guó)!覃予萱0-3爆冷,國(guó)乒單打4人晉級(jí)

歷史膠囊
2026-06-19 16:01:37
大批網(wǎng)約車司機(jī)翻車!早年跟風(fēng)買運(yùn)電車,如今進(jìn)退兩難熬不下去

大批網(wǎng)約車司機(jī)翻車!早年跟風(fēng)買運(yùn)電車,如今進(jìn)退兩難熬不下去

老特有話說
2026-06-18 14:49:24
672套滯銷!2.5%返點(diǎn)!1億元傭金!上海這家國(guó)企正式“開傭”

672套滯銷!2.5%返點(diǎn)!1億元傭金!上海這家國(guó)企正式“開傭”

新浪財(cái)經(jīng)
2026-06-18 20:17:36
深圳仙湖樹上現(xiàn)綁縛男性遺骸,警方揭秘一樁塵封已久的悲劇

深圳仙湖樹上現(xiàn)綁縛男性遺骸,警方揭秘一樁塵封已久的悲劇

深夜探案館
2026-06-19 00:46:13
菲律賓與廣東同是1億多人口,菲律賓創(chuàng)造3.3萬(wàn)億,廣東是多少呢?

菲律賓與廣東同是1億多人口,菲律賓創(chuàng)造3.3萬(wàn)億,廣東是多少呢?

混沌錄
2026-06-03 23:37:06
中國(guó)電影《給阿嬤的情書》征服新加坡!首映禮1400人座無(wú)虛席

中國(guó)電影《給阿嬤的情書》征服新加坡!首映禮1400人座無(wú)虛席

新加坡萬(wàn)事通
2026-06-18 19:39:32
斷交13年的同事突然寄給我一箱臘肉,我把它送給對(duì)門鄰居,當(dāng)天晚上12點(diǎn),他把臘肉還回來(lái):箱子底下有東西

斷交13年的同事突然寄給我一箱臘肉,我把它送給對(duì)門鄰居,當(dāng)天晚上12點(diǎn),他把臘肉還回來(lái):箱子底下有東西

背包旅行
2026-05-15 15:12:57
極罕見一幕發(fā)生:日本通告全球,直接推翻美國(guó)對(duì)中國(guó)核武器的判斷

極罕見一幕發(fā)生:日本通告全球,直接推翻美國(guó)對(duì)中國(guó)核武器的判斷

安安說
2026-03-28 11:55:37
斯科拉里:巴西1-7慘敗德國(guó),不是球員不行,是內(nèi)部出了問題

斯科拉里:巴西1-7慘敗德國(guó),不是球員不行,是內(nèi)部出了問題

小哆說體育
2026-05-23 18:57:16
她被傳懷孕了?

她被傳懷孕了?

奮斗在韓國(guó)
2026-06-18 17:59:06
故事:山東一老人意外救下黃鼠狼后,身上怪事頻發(fā),至今無(wú)法解釋

故事:山東一老人意外救下黃鼠狼后,身上怪事頻發(fā),至今無(wú)法解釋

青青會(huì)講故事
2025-01-31 03:05:02
帕查拉公主去世第七天!泰王與詩(shī)琳通聊天,蘇提達(dá)臉上露出了笑容

帕查拉公主去世第七天!泰王與詩(shī)琳通聊天,蘇提達(dá)臉上露出了笑容

八八尚語(yǔ)
2026-06-19 11:58:18
跌懵了!66%的股票都在跌,A股正在上演一場(chǎng)“病態(tài)”牛市

跌懵了!66%的股票都在跌,A股正在上演一場(chǎng)“病態(tài)”牛市

風(fēng)風(fēng)順
2026-06-19 03:05:04
中國(guó)讓步了?立陶宛聲稱:已允許中國(guó)在本國(guó)設(shè)立臨時(shí)代辦處!

中國(guó)讓步了?立陶宛聲稱:已允許中國(guó)在本國(guó)設(shè)立臨時(shí)代辦處!

阿龍聊軍事
2026-06-19 16:24:06
27歲南方醫(yī)科大學(xué)研究生李阿鑫確診肺癌,獲獎(jiǎng)無(wú)數(shù),因關(guān)節(jié)痛確診

27歲南方醫(yī)科大學(xué)研究生李阿鑫確診肺癌,獲獎(jiǎng)無(wú)數(shù),因關(guān)節(jié)痛確診

不寫散文詩(shī)
2026-06-17 19:13:59
抹黑董路的原因,是因?yàn)楹芏嘤?xùn)練營(yíng)教練,收不到家長(zhǎng)的禮了?

抹黑董路的原因,是因?yàn)楹芏嘤?xùn)練營(yíng)教練,收不到家長(zhǎng)的禮了?

酷侃體壇
2026-06-18 22:58:33
骨科主任:走路是最好的運(yùn)動(dòng)?錯(cuò)!過了60歲這3種運(yùn)動(dòng)才真的養(yǎng)壽

骨科主任:走路是最好的運(yùn)動(dòng)?錯(cuò)!過了60歲這3種運(yùn)動(dòng)才真的養(yǎng)壽

白宸侃片
2026-06-16 03:51:14
銷量跌破萬(wàn)臺(tái) 小米YU7腰斬 55萬(wàn)輛目標(biāo)難達(dá)成

銷量跌破萬(wàn)臺(tái) 小米YU7腰斬 55萬(wàn)輛目標(biāo)難達(dá)成

中車網(wǎng)評(píng)
2026-06-17 17:45:25
買房最后悔的兩波人:一波是2019年高價(jià)接盤,一波是2026抄底被套

買房最后悔的兩波人:一波是2019年高價(jià)接盤,一波是2026抄底被套

今朝牛馬
2026-06-03 21:30:38
考驗(yàn)全華班時(shí)候來(lái)了!足協(xié)杯北京國(guó)安只能上3外援

考驗(yàn)全華班時(shí)候來(lái)了!足協(xié)杯北京國(guó)安只能上3外援

80后體育大蜀黍
2026-06-18 23:30:33
2026-06-19 17:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

男子醉駕撞死少女血檢238mg/100mL 全責(zé)復(fù)議后變主責(zé)

頭條要聞

男子醉駕撞死少女血檢238mg/100mL 全責(zé)復(fù)議后變主責(zé)

體育要聞

加拿大球員小腿變形重傷 亞洲冠軍輸球輸人

娛樂要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
家居
數(shù)碼
公開課

夏天上衣穿短不穿長(zhǎng),看看下面這幾款短上衣,顯高舒適顯比例

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

家居要聞

綠意盎然 自然之境

數(shù)碼要聞

SSD太貴換回HDD:機(jī)械硬盤價(jià)格連漲5個(gè)季度!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版