免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不用向量數(shù)據(jù)庫,Agent也能會搜索:給它一個grep就夠了?

0
分享至



本文主要作者包括:TAMU 的 Zhuofeng Li、Yu Zhang,UCSD 的 Haoxiang Zhang,University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin, Stanford 的 Pan Lu、Yejin Choi、James Zou, UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等機構(gòu)的合作者。

當大模型從「回答問題」走向「自己搜索、驗證、綜合證據(jù)」,檢索接口正在變成 Agentic Search 的關鍵瓶頸。過去,一個搜索系統(tǒng)通常先把文檔切塊、建索引,再根據(jù) query 返回 top-k 結(jié)果;智能體只能在這批候選片段上繼續(xù)推理。這個流程高效、成熟;問題是,復雜搜索任務并不總是依靠語義最相近的片段就能解決;答案可能藏在多個弱線索的交叉處。一旦這些證據(jù)在 top-k 階段被過濾掉,后面的推理模型再強也很難把它們憑空找回來。

來自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等機構(gòu)的研究團隊提出了一種新的搜索范式:Direct Corpus Interaction(DCI),直接語料交互。它不依賴 embedding 模型,不構(gòu)建向量索引,也不調(diào)用傳統(tǒng) retriever,而是讓智能體直接使用 grep、文件讀取、shell 命令、輕量腳本等工具,在原始語料中多輪搜索、定位、驗證和修正假設。

實驗顯示,在深度研究、多跳問答、信息檢索等任務上,DCI-Agent 不僅擺脫了傳統(tǒng)語義檢索器,還在多個指標上超過了很多檢索智能體 baseline。尤其在深度研究的 BrowseComp-Plus 基準數(shù)據(jù)集上,在使用 Claude Sonnet 4.6 時,如果用 DCI 替代 Qwen3-Embedding-8B 檢索工具,準確率從 69.0% 提升到 80.0%,成本從 1440 美元降到 1016 美元。



圖 1:BrowseComp-Plus 上的性能 - 成本圖。論文比較了 Qwen3-Embedding-8B 與 DCI-Agent 兩種 agentic search 接口。后者在準確率和成本之間取得了更優(yōu)平衡。



  • arXiv:https://arxiv.org/abs/2605.05242
  • 代碼:https://github.com/DCI-Agent/DCI-Agent-Lite
  • Demo:https://huggingface.co/spaces/DCI-Agent/demo

Agentic Search 的檢索接口,為什么需要重新思考?

Agentic Search 和傳統(tǒng)搜索最大的差別在于:它不是「一次 query 對應一次 top-k 查找」。一個檢索智能體會不斷拆解問題、提出中間假設、尋找實體線索、打開文檔、檢查局部上下文,再根據(jù)觀察到的證據(jù)改寫下一輪搜索。

因此,真正的瓶頸往往不在模型會不會總結(jié),而在模型能不能看到足夠關鍵、足夠細粒度的證據(jù)。檢索漏了關鍵證據(jù),后續(xù)推理很容易變成在不完整材料上的自洽推斷。

傳統(tǒng)檢索器大致可以分成幾類。

稀疏檢索以倒排索引、BM25 為代表,快、穩(wěn)、可解釋,擅長專有名詞、編號日期和精確字符串,但很難理解同義表達。

稠密檢索把 query 和文檔塊編碼成向量索引,再用相似度召回,能處理模糊問題,卻會把復雜文檔壓成固定維度向量。

重排方法會在粗排之后再用 cross-encoder 或大模型精排,質(zhì)量更高,但范式仍然沒有變:語料先被索引系統(tǒng)壓縮,智能體只能看到選出來的一部分信息。到了 Agentic Search 時代,top-k 的問題被進一步放大。智能體雖然具備規(guī)劃、查詢改寫、閱讀文檔和迭代推理的能力,但如果它每次只能透過檢索接口返回的小窗口觀察語料,就很難像研究者一樣反復檢索、交叉過濾和定位證據(jù)。

論文把這類困難拆成三種典型場景:精確詞法約束,例如答案依賴某個日期、編號、縮寫;稀疏線索組合,例如地點、年份、組織、事件必須同時成立;局部上下文驗證,例如找到相關文檔還不夠,還要定位到文檔內(nèi)部的某句話、某個表格或某個腳注。BrowseComp-Plus 這類基準數(shù)據(jù)集正是在考察這種能力:智能體需要發(fā)現(xiàn)中間實體、組合弱線索、執(zhí)行精確約束,并在觀察局部證據(jù)后修正搜索計劃。

DCI-Agent:讓智能體直接和語料交互

既然當下的智能體已經(jīng)能規(guī)劃和使用工具,為什么一定要先用 embedding 把語料壓縮成向量,再讓模型只看 top-k?DCI 的思路很直接:

智能體不調(diào)用傳統(tǒng)的檢索接口,也不依賴向量索引,而是直接通過命令行工具訪問原始語料。它可以用 grep 或 rg(ripgrep)做精確匹配和正則搜索,用 find 或 glob 發(fā)現(xiàn)文件,用文件讀取工具查看局部上下文,也可以寫輕量腳本統(tǒng)計、過濾和組合線索。

DCI 的觀察結(jié)果不再是固定格式的文檔排序列表,而是工具輸出:匹配片段、文件路徑、計數(shù)、上下文、元數(shù)據(jù)等。



圖 2:兩種 agentic search 接口對比。左側(cè)是傳統(tǒng)方法:語料先被索引,智能體利用 BM25、ColBERT 等檢索工具,再基于返回的 top-k 結(jié)果推理。右側(cè)是 DCI:不經(jīng)過索引、embedding,智能體直接用 grep、glob、bash、輕量腳本等工具訪問原始語料,從而獲得更細粒度的模式匹配和證據(jù)定位能力。

這其實更接近人類研究者查資料的方式。我們不會永遠只輸入一個 query,然后僅僅閱讀搜索引擎顯示的前幾條結(jié)果片段;我們會打開文件,Ctrl+F 找關鍵詞,沿著實體名繼續(xù)搜,用多個線索交叉過濾,看到局部上下文后再改寫問題。

DCI 把這種行為交給了智能體。例如,智能體可以執(zhí)行類似這樣的多輪搜索:先用 find 找到可能相關的文檔目錄;再用 grep "Nobel" 找出所有包含特定實體的文件;接著用 grep "Nobel" file | grep "physics" 強制兩個弱線索同時出現(xiàn);然后讀取命中位置前后幾十行,檢查上下文是否真的支持假設;最后根據(jù)新發(fā)現(xiàn)的人名、年份、機構(gòu)繼續(xù)下一輪搜索。這種模式不是一次性 “召回 top-k”,而是在語料中不斷探索、定位、驗證、收斂。

DCI-Agent 的具體實現(xiàn)

論文實現(xiàn)了兩個 DCI-Agent 版本,用來驗證直接語料交互本身是否有效。

第一個是DCI-Agent-Lite。它是一個基于 Pi 的輕量級命令行 (CLI) 智能體,只使用 bash 和 read 等基礎工具,并配合簡單的上下文管理。它不構(gòu)建離線索引,不使用任何稀疏、稠密、重排檢索工具。這個版本主要用于證明:即便沒有復雜工程,僅靠直接語料交互接口,也能帶來性能提升。

第二個是DCI-Agent-CC。它基于 Claude Code,具備更好的提示、工具編排和上下文處理能力,但仍然不使用任何傳統(tǒng)意義上的檢索工具。論文將它視為 DCI 的強實現(xiàn),用來測試這一范式在更強命令行智能體上的性能上限。



圖 3:長程 DCI 的運行時上下文管理。由于反復 grep、讀取文件和展開上下文會產(chǎn)生大量文本,DCI-Agent-Lite 引入了裁剪(truncation)、壓縮(compaction)、總結(jié)(summarization)三種機制,在保留搜索軌跡結(jié)構(gòu)的同時緩解上下文壓力。

上下文管理是 DCI 能跑長程搜索的關鍵。論文沒有把所有文件直接塞進上下文,而是讓智能體邊搜邊讀,并用三種機制控制信息量:

  • 裁剪:針對單次工具調(diào)用,超過閾值的工具回顯會被截斷,并附上系統(tǒng)提示,避免一次搜索結(jié)果淹沒后續(xù)推理。
  • 壓縮:針對多輪歷史,保留早期輪次的思考過程和所用的命令行,但把對應的命令行返回結(jié)果替換成占位符,只留下搜索軌跡的骨架。
  • 總結(jié):當上下文接近預算上限時,觸發(fā)獨立的總結(jié)智能體,把歷史重寫成結(jié)構(gòu)化的研究筆記,保留關鍵線索、工具調(diào)用、已收集證據(jù)和當前任務焦點。

不用 embedding,效果反而更好

在深度研究的 BrowseComp-Plus 基準數(shù)據(jù)集上,在使用 Claude Sonnet 4.6 時,如果用 DCI 替代 Qwen3-Embedding-8B 檢索工具,準確率從 69.0% 提升到 80.0%,同時成本降低 29.4%。

在多跳問答的 NQ、TriviaQA、Bamboogle、HotpotQA、2WikiMultiHopQA、MuSiQue 基準數(shù)據(jù)集上,DCI-Agent-CC 達到 83.0% 平均準確率,相比最強的檢索智能體 baseline ASearcher-Local-14B,提升了 30.7%。

在信息檢索的 BRIGHT、BEIR 基準數(shù)據(jù)集上,DCI-Agent-CC 達到 68.5 的平均 NDCG@10,比最強的傳統(tǒng)檢索 baseline ReasonRank-32B 高出了 21.5%。





圖 4:多跳問答與信息檢索基準數(shù)據(jù)集上的實驗結(jié)果。DCI-Agent 在各個任務中都表現(xiàn)出優(yōu)勢,說明它并不只是某個數(shù)據(jù)集上特有的技巧,而可能代表了一種新的檢索范式。

DCI 的提升來自哪里?

論文的機制分析給出了一個很有意思的答案。對模型在 BrowseComp-Plus 上生成的軌跡進行分析可以發(fā)現(xiàn),DCI-Agent-Lite 的平均相關文檔覆蓋率反而低于使用 Qwen3-Embedding-8B 的檢索智能體,但它的定位準確率顯著更高。也就是說,DCI 并不是靠「更廣泛地找回所有相關文檔」取勝,而是靠「一旦碰到有用文檔,就能更細粒度地在文檔內(nèi)部定位、驗證和擴展線索」。

傳統(tǒng)檢索方法給智能體的是文檔級或片段級的候選,而 DCI 給智能體的是更細的操作粒度:文件名、行號、匹配片段、局部上下文、管道組合、正則約束、計數(shù)統(tǒng)計。智能體不只是拿到一段相似文本,而是可以繼續(xù)在語料中做實驗。論文將此稱為檢索接口分辨率。這也是 DCI 最有啟發(fā)性的地方:檢索質(zhì)量不只是模型問題,也不只是 embedding 問題,而是接口設計問題。當模型能夠像研究者一樣提出假設、測試模式、閱讀上下文和改寫查詢時,過度壓縮的相似度索引可能會成為瓶頸。



圖 5:BrowseComp-Plus 上模型的軌跡分析。DCI-Agent-Lite 的平均相關文檔覆蓋率并不高于傳統(tǒng)檢索智能體,但它的定位準確率顯著更高,說明 DCI 的優(yōu)勢主要來自更細粒度的局部定位和證據(jù)驗證。

語料變大后會怎樣?

論文保留了一個很重要的觀察:DCI 不是萬能解!當語料規(guī)模擴大時,直接語料交互會面臨搜索廣度、工具調(diào)用次數(shù)、延遲和成本的上升。這很好理解:DCI 擅長高分辨率局部搜索,但在超大規(guī)模開放語料里,找到第一個有用錨點本身就可能很貴。語料越大,智能體越需要在更多文件和更多候選線索中探索。

因此,DCI 的邊界也很清楚:它并不一定適合所有超大規(guī)模、開放式、簡單查詢密集的檢索場景;它更適合本地語料、異構(gòu)文件、快速變化的工作區(qū)、代碼倉庫、科研資料、企業(yè)內(nèi)部文檔,以及需要多輪探索和嚴格證據(jù)驗證的 Agentic Search。這也意味著,未來更現(xiàn)實的方向未必是 DCI 取代所有傳統(tǒng)檢索模型。更可能的形態(tài)是:粗粒度召回用傳統(tǒng)檢索模型,高分辨率驗證用 DCI。也就是說,傳統(tǒng)檢索模塊可以先把智能體帶到可能相關的區(qū)域,而 DCI 負責在局部語料中完成精確定位、線索組合和證據(jù)驗證。



圖 6:在 BrowseComp-Plus 上,隨著文檔規(guī)模從 100K 擴展到 200K、400K,DCI-Agent 的搜索成本和延遲上升,準確率下降,說明直接語料交互需要和語料規(guī)模、任務復雜度一起權衡。

這篇論文真正改變了什么?

過去我們優(yōu)化檢索系統(tǒng),常常圍繞這些問題打轉(zhuǎn):換哪個 embedding 模型?chunk 多大?top-k 取多少?reranker 怎么選?query rewrite 怎么做?但 DCI-Agent 提醒我們,還要問一個更底層的問題:智能體到底應該以什么粒度訪問外部世界?如果檢索接口只能返回 top-k 片段,智能體看到的世界就是被壓縮過的世界。它無法知道被過濾掉的證據(jù)里有什么,也很難像人類一樣對原始材料反復搜索、交叉驗證、局部定位。而 DCI 把語料變成一個可操作環(huán)境。智能體不是在等待檢索器喂結(jié)果,而是在主動操作語料。這使得搜索從一個相似度排序問題,轉(zhuǎn)變?yōu)橐粋€多輪交互問題。

這或許是下一代 Agentic Search 和深度科研系統(tǒng)的重要方向:不是讓檢索工具替智能體決定看什么,而是設計更高分辨率的語料接口,讓智能體自己學會如何找、怎么看、如何驗證。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國女排遭遇連敗,世界冠軍5戰(zhàn)皆負

中國女排遭遇連敗,世界冠軍5戰(zhàn)皆負

五姑娘臺球
2026-06-18 22:49:07
烏射程1700公里彈道導彈亮相,日本加大援烏,俄53個地區(qū)燃油限制

烏射程1700公里彈道導彈亮相,日本加大援烏,俄53個地區(qū)燃油限制

史政先鋒
2026-06-18 16:32:19
4-2!贏了克羅地亞不可怕,可怕的是圖赫爾的發(fā)言,學到不少東西

4-2!贏了克羅地亞不可怕,可怕的是圖赫爾的發(fā)言,學到不少東西

生活新鮮市
2026-06-18 12:03:33
全球押注500億賭資世界杯,一場0比0讓所有人看清了一個真相

全球押注500億賭資世界杯,一場0比0讓所有人看清了一個真相

下次再見吧
2026-06-18 09:49:38
“端午四不吃,吃了難安康”,明日端午,4不吃指啥?叮囑家人

“端午四不吃,吃了難安康”,明日端午,4不吃指啥?叮囑家人

愛生活的陶哥
2026-06-18 07:13:55
歐文缺席騎士奪冠10周年活動!JR透露原因:直接消失全程不回消息

歐文缺席騎士奪冠10周年活動!JR透露原因:直接消失全程不回消息

羅說NBA
2026-06-18 08:34:41
湖南省懷化市城市發(fā)展集團有限公司黨委委員、副總經(jīng)理龍超群接受審查調(diào)查

湖南省懷化市城市發(fā)展集團有限公司黨委委員、副總經(jīng)理龍超群接受審查調(diào)查

界面新聞
2026-06-18 11:23:14
歷史罕見信號全部重合!這次不是回調(diào),是全球性大危機要來了

歷史罕見信號全部重合!這次不是回調(diào),是全球性大危機要來了

流蘇晚晴
2026-06-11 14:24:06
兩性關系:如果還想多活幾年,70歲以后必須牢記這幾句

兩性關系:如果還想多活幾年,70歲以后必須牢記這幾句

荔子言
2026-06-05 23:10:00
隨著捷克1-1遭非洲球隊逼平,世界杯最新積分榜出爐

隨著捷克1-1遭非洲球隊逼平,世界杯最新積分榜出爐

側(cè)身凌空斬
2026-06-19 02:04:33
特朗普果然精明:G7峰會后,他送中日各一句話,高市哭的時候到了

特朗普果然精明:G7峰會后,他送中日各一句話,高市哭的時候到了

蘭妮搞笑分享
2026-06-18 10:58:18
中央領導到深圳這里調(diào)研,下周將有大事發(fā)生!

中央領導到深圳這里調(diào)研,下周將有大事發(fā)生!

新浪財經(jīng)
2026-06-19 00:21:43
菲律賓與廣東同是1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少呢?

菲律賓與廣東同是1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少呢?

混沌錄
2026-06-03 23:37:06
違規(guī)向華為出口,博世被美國罰款3618萬美元

違規(guī)向華為出口,博世被美國罰款3618萬美元

芯智訊
2026-06-18 13:25:42
比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
“男版泡泡瑪特”標價 1 萬元,上架即售罄,有商家年入數(shù)千萬

“男版泡泡瑪特”標價 1 萬元,上架即售罄,有商家年入數(shù)千萬

野生運營
2026-06-18 01:32:14
賴清德突然向大陸喊話,提兩大要求,但是被國民黨狠狠打臉

賴清德突然向大陸喊話,提兩大要求,但是被國民黨狠狠打臉

牛鍋巴小釩
2026-06-18 15:46:31
FIFA官宣!馬寧終于圓夢 首次執(zhí)法世界杯 最新收入曝光:保底49萬

FIFA官宣!馬寧終于圓夢 首次執(zhí)法世界杯 最新收入曝光:保底49萬

侃球熊弟
2026-06-18 04:11:06
溫州商人助佛得角門將家人辦理簽證赴美,當事人:在佛得角生活23年,資助過不少足球隊,相信佛得角隊會繼續(xù)創(chuàng)造奇跡

溫州商人助佛得角門將家人辦理簽證赴美,當事人:在佛得角生活23年,資助過不少足球隊,相信佛得角隊會繼續(xù)創(chuàng)造奇跡

大風新聞
2026-06-18 22:41:03
107萬臺燃油車倒計時兩周,賣不完就上不了牌

107萬臺燃油車倒計時兩周,賣不完就上不了牌

網(wǎng)上車市
2026-06-16 17:14:51
2026-06-19 04:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博睿康IPO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
本地
藝術
公開課
軍事航空

吃粽子的3條保胃法則,消化科醫(yī)生推薦

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

藝術要聞

臺北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進入關懷版