免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICML 2026 | Agentic強(qiáng)化學(xué)習(xí)訓(xùn)練的信息自鎖問(wèn)題

0
分享至



本文作者鄒德譽(yù),香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系博士生,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。研究方向?yàn)榇笳Z(yǔ)言模型智能體、強(qiáng)化學(xué)習(xí)與主動(dòng)推理,關(guān)注模型在信息不完備的多輪交互中如何主動(dòng)獲取、更新并利用信念。相關(guān)工作發(fā)表于 ICLR 2026 Oral 與 ICML 2026。

隨著大語(yǔ)言模型逐步從「單輪問(wèn)答」走向「真實(shí)環(huán)境中的持續(xù)交互」,LLM agents 正在被用于越來(lái)越復(fù)雜的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。這些任務(wù)和傳統(tǒng)問(wèn)答最大的不同在于:任務(wù)所需的信息往往不是一開始就完整給出的。Agent 必須在不確定狀態(tài)下主動(dòng)采取行動(dòng),例如提問(wèn)、搜索、調(diào)用工具、檢查反饋,并在多輪交互中不斷更新自己對(duì)任務(wù)狀態(tài)的理解。

這類能力可以概括為active reasoning:在信息不完備的環(huán)境中,agent 不只是 “回答問(wèn)題”,而是需要主動(dòng)獲取新信息,并把新信息真正整合進(jìn)后續(xù)決策和推理中。

根據(jù)過(guò)往在許多推理任務(wù)上的成功,強(qiáng)化學(xué)習(xí)似乎應(yīng)該很適合訓(xùn)練這類能力。只要最后任務(wù)成功就給正獎(jiǎng)勵(lì),失敗就不給獎(jiǎng)勵(lì),模型不就應(yīng)該慢慢學(xué)會(huì)更好的交互策略嗎?

但事情并沒有這么簡(jiǎn)單。與此前 T3 (Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral)對(duì)多輪推理中belief deviationbelief-trapped trajectory的分析相呼應(yīng),香港中文大學(xué)、加州大學(xué)圣地亞哥分校、佐治亞理工學(xué)院、字節(jié)跳動(dòng)的研究者進(jìn)一步發(fā)現(xiàn)發(fā)現(xiàn),在 active reasoning 場(chǎng)景中,outcome-based RL 并不一定會(huì)自然訓(xùn)練出更善于交互的 agent。相反,模型可能進(jìn)入一種低信息量的訓(xùn)練模式:它反復(fù)執(zhí)行無(wú)效操作,過(guò)早依賴初始判斷,忽略用戶或環(huán)境返回的新證據(jù);甚至在最終 reward 有所提升時(shí),背后的行為也未必真正變得更會(huì)主動(dòng)獲取和使用信息。

如果說(shuō) T3 更關(guān)注 agent 在多輪交互中如何逐步偏離正確 belief,那么這篇論文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系統(tǒng)分析了這一現(xiàn)象背后的原因:在 active reasoning 中,agent 的表現(xiàn)同時(shí)依賴于兩個(gè)相互耦合的能力:一方面是選擇什么動(dòng)作來(lái)獲取信息,另一方面是如何把獲取到的信息整合進(jìn)后續(xù)判斷。outcome reward 很難自動(dòng)為這兩個(gè)相互依賴的環(huán)節(jié)提供清晰 credit:當(dāng)前者無(wú)法帶來(lái)有效反饋,后者就缺少可學(xué)習(xí)的證據(jù);而當(dāng)后者無(wú)法正確吸收反饋時(shí),前者的價(jià)值又很難通過(guò)最終 reward 得到正確 credit。

研究者將這種訓(xùn)練失敗機(jī)制稱為:

Information Self-Locking,信息自鎖。

基于這一觀察,作者進(jìn)一步提出了一個(gè)簡(jiǎn)單而有效的方法:AREW(Action-Selection & Belief-Tracking Advantage Reweighting),通過(guò)輕量的方向性反饋重新分配 trajectory 內(nèi)部的 credit,從而緩解 information self-locking。

論文已被 ICML 2026 接收。



  • 論文標(biāo)題:On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents
  • 項(xiàng)目代碼:https://github.com/unimpor/T3
  • 論文鏈接:https://arxiv.org/abs/2603.12109

引言:為什么 RL 訓(xùn)練出來(lái)的 agent 還是不會(huì)主動(dòng)推理?

在很多 LLM agent 任務(wù)中,模型并不能一開始就看到完整答案。它必須通過(guò)多輪交互逐步逼近真實(shí)任務(wù)狀態(tài)。

比如:

  • 在醫(yī)療問(wèn)診中,agent 需要主動(dòng)詢問(wèn)關(guān)鍵癥狀,而不是重復(fù)問(wèn)泛泛的問(wèn)題;
  • 在用戶偏好估計(jì)中,agent 需要設(shè)計(jì)有區(qū)分度的問(wèn)題,逐步識(shí)別用戶真正的偏好;
  • 在客服場(chǎng)景中,agent 需要決定什么時(shí)候發(fā)消息、什么時(shí)候調(diào)用工具、什么時(shí)候引導(dǎo)用戶完成某些操作。

這些任務(wù)有一個(gè)共同結(jié)構(gòu):agent 的表現(xiàn)同時(shí)取決于兩件事。

第一,它要知道下一步該問(wèn)什么、查什么、調(diào)用什么工具。作者稱為Action Selection(AS)

第二,它要能把得到的新反饋吸收進(jìn)自己的內(nèi)部理解,真正更新對(duì)任務(wù)狀態(tài)的判斷。作者稱為Belief Tracking(BT)。



如果 AS 很弱,agent 就拿不到有用信息;如果 BT 很弱,即使拿到了有用信息,模型也不會(huì)用。

更關(guān)鍵的是,這兩者不是獨(dú)立的,而是強(qiáng)耦合的:

好的行動(dòng)只有在反饋被正確使用時(shí),才會(huì)在最終 reward 中體現(xiàn)價(jià)值;好的 belief update 又依賴于前面行動(dòng)帶來(lái)了足夠有信息量的反饋。

這就帶來(lái)了 active reasoning 中一個(gè)非常隱蔽的 credit assignment 問(wèn)題:outcome reward 只在最后出現(xiàn),它很難判斷到底是 “問(wèn)得不好”,還是 “問(wèn)到了但沒吸收好”。

論文第一頁(yè)的圖給出了這一機(jī)制的整體直覺。



圖:原文 Figure 1。Vanilla outcome RL 下,agent 可能進(jìn)入 self-locking:informative action 的價(jià)值被 weak BT 掩蓋,導(dǎo)致 credit assignment 錯(cuò)位;AREW 通過(guò) directional critiques 重新分配 trajectory 內(nèi)部 credit,使 AS 和 BT 重新對(duì)齊。

Information Self-Locking:訓(xùn)練信號(hào)被 “鎖住”

作者首先發(fā)現(xiàn)了一個(gè)反直覺現(xiàn)象。

在 outcome-based RL 中,reward 可能確實(shí)上升了,但這并不意味著模型真正學(xué)會(huì)了主動(dòng)獲取信息。為了解耦觀察這一點(diǎn),論文先在兩個(gè)可控的 active reasoning 任務(wù)中做分析:Preference Estimation 要求 agent 通過(guò)比較問(wèn)題逐步估計(jì)用戶隱藏偏好,MediQ 則要求 agent 通過(guò)問(wèn)診病人問(wèn)題逐步識(shí)別正確診斷。二者都需要 agent 一邊主動(dòng)獲取證據(jù),一邊更新對(duì)隱藏任務(wù)狀態(tài)的判斷,因此很適合用來(lái)觀察 AS 和 BT 的訓(xùn)練動(dòng)態(tài)。

論文在這兩類任務(wù)中跟蹤了三個(gè)量:

  • Final reward:最終任務(wù)表現(xiàn);
  • AS proxy:agent 的行動(dòng)是否帶來(lái)有信息量的反饋;
  • BT proxy:agent 是否把反饋正確吸收進(jìn) belief。

結(jié)果顯示,reward 可以做有限的上升,但 AS 和 BT 并沒有同步提升。也就是說(shuō),模型表面上變強(qiáng)了,但它并沒有真正更會(huì) “獲取信息” 和 “使用信息”。



圖:原文 Figure 2。左半部分展示訓(xùn)練過(guò)程中 reward、AS、BT 的變化:藍(lán)線表示 agent 做出有信息量行動(dòng)的比例,橙線表示 agent 是否有效吸收反饋并更新 belief,綠線表示最終任務(wù)成功率??梢钥吹?,即使成功率隨訓(xùn)練有一些有限的上升,AS 和 BT 也可能停滯甚至退化。右半部分進(jìn)一步固定相同的 action-selection 序列:橫軸表示一條軌跡中有多少次有信息量的行動(dòng),淺藍(lán)色柱子表示這類軌跡出現(xiàn)的頻率;藍(lán)線表示由 agent 自身 BT 處理這些反饋時(shí)的成功率,橙線表示由 stronger BT 處理相同反饋時(shí)的成功率。結(jié)果顯示,只有當(dāng) BT 足夠強(qiáng)時(shí),informative AS 才會(huì)和最終 reward 形成更強(qiáng)正相關(guān)。

這張圖的右半部分揭示了 AREW 的核心 insight:

Weak BT 會(huì)遮蓋 informative AS 的貢獻(xiàn)。

假設(shè) agent 提出了一個(gè)很有價(jià)值的問(wèn)題,環(huán)境也返回了關(guān)鍵證據(jù)。但如果模型沒有把這條證據(jù)吸收進(jìn)后續(xù)推理,最終答案仍然錯(cuò)了。此時(shí),outcome reward 會(huì)告訴 RL:“這條 trajectory 失敗了。”

問(wèn)題在于,RL 并不知道失敗的原因是 belief update 做得差,而不是 action selection 做得差。于是,那個(gè)本來(lái)很有價(jià)值的問(wèn)題也可能得不到正向 credit。

反過(guò)來(lái)也是一樣。

如果 AS 變得保守,模型總是問(wèn)一些低信息量的問(wèn)題,BT 就拿不到有價(jià)值的反饋。沒有足夠信息流,belief tracking 也很難學(xué)好。久而久之,RL 可能反而鼓勵(lì)模型依賴初始判斷或非交互式 shortcut,而不是認(rèn)真利用交互反饋(詳見原文 Section 2.3 observation 3 | Fig. 6a)。

這就是 information self-locking:

AS 弱導(dǎo)致 BT 沒證據(jù)可學(xué);BT 弱導(dǎo)致 AS 的價(jià)值無(wú)法被 reward 識(shí)別。二者互相限制,使模型卡在低信息量訓(xùn)練區(qū)域。

從 Sef-Locking 看 active reasoning 的訓(xùn)練瓶頸

前面提到,論文將 active reasoning 中的 agent 行為分解為兩個(gè)相互交替的過(guò)程:

  1. Action Selection(AS):根據(jù)當(dāng)前 belief 選擇下一步環(huán)境交互動(dòng)作,例如提問(wèn)、搜索、調(diào)用工具;
  2. Belief Tracking(BT):根據(jù)新反饋更新內(nèi)部任務(wù)理解,并決定后續(xù)如何行動(dòng)。

這個(gè)分解指出 active reasoning 的難點(diǎn)不只是 sparse reward,而是sparse outcome reward 下兩個(gè)能力的耦合學(xué)習(xí)失敗。

普通 outcome RL 只看到最終成敗,很難把 reward 正確分配給 trajectory 中不同的 AS 和 BT 決策。結(jié)果是:

  • 如果 BT 差,好的 AS 行動(dòng)也無(wú)法轉(zhuǎn)化為高 reward;
  • 如果 AS 差,BT 沒有足夠信息可以吸收;
  • 如果二者都處于低水平,梯度信號(hào)會(huì)同時(shí)變?nèi)酰?/li>
  • 模型可能長(zhǎng)期停留在低信息量區(qū)域,難以靠 outcome reward 自行逃離。

論文在理論部分把這個(gè)區(qū)域形式化為self-locking regime:AS informativeness 低,同時(shí) BT capability 也低。在這個(gè)區(qū)域中,outcome-gradient 對(duì) AS 和 BT 的提升信號(hào)都會(huì)被當(dāng)前能力水平限制,因此訓(xùn)練動(dòng)態(tài)很難自然逃出。

為了更直觀地解釋這一點(diǎn),論文 appendix 給出了一個(gè)二維相圖:橫軸表示 AS informativeness,縱軸表示 BT capability。



圖:原文 Figure 8。AS-BT phase space 中的 learning dynamics。左圖表示 outcome-only RL:在低 AS、低 BT 的 locking regime 內(nèi),更新方向很弱,agent 難以逃離;右圖表示 AREW:directional critiques 在 locking regime 內(nèi)引入額外更新方向,為模型創(chuàng)造逃離低信息量區(qū)域的路徑。這張圖概括了 AREW 的理論直覺:作者不需要完全重寫 RL,也不需要精確 dense reward;只需要在 AS/BT 的關(guān)鍵局部決策上提供一些方向性信號(hào),就可以改變低信息量區(qū)域內(nèi)的 effective update field。

AREW:用 weak directional critiques 重新分配 trajectory 內(nèi)部 credit

既然 SeL 的核心問(wèn)題在于 outcome reward 難以在 AS 和 BT 之間提供清晰的學(xué)習(xí)信號(hào),一個(gè)直接的方案,是為每個(gè)中間決策都設(shè)計(jì)精確的 dense supervision:例如準(zhǔn)確判斷某個(gè)問(wèn)題到底貢獻(xiàn)了多少信息,或者某次 belief update 到底應(yīng)當(dāng)獲得多少中間獎(jiǎng)勵(lì)。但是,在長(zhǎng)程 agentic tasks 中,這類 calibrated intermediate reward 往往不能輕易獲得。

幸運(yùn)的是,agentic active reasoning 場(chǎng)景通常會(huì)自然暴露一些更粗粒度、但更容易獲取的方向性診斷信號(hào):例如,一個(gè) action 是否讓環(huán)境或用戶返回了新的有用證據(jù);一次 belief update 是否把新觀察朝著更接近真實(shí)任務(wù)狀態(tài)的方向吸收進(jìn)去。

AREW 的出發(fā)點(diǎn)正是利用這些uncalibrated directional signals。它并不試圖為每一步構(gòu)造精確的中間獎(jiǎng)勵(lì),也不需要訓(xùn)練額外的 dense reward model,而是把這些方向性信號(hào)作為 weak directional critiques,注入到 policy-gradient 更新中,對(duì) trajectory 內(nèi)部的 stepwise advantage 進(jìn)行重新分配。

換句話說(shuō),AREW 保留原本的 outcome reward,只是在 actor update 時(shí)把更多 credit 分配給被正向 critique 的 AS/BT 決策,并削弱被負(fù)向 critique 的決策。通過(guò)這種 reward-preserving 的 credit reallocation,AREW 在 SeL regime 中重新提供非退化的局部學(xué)習(xí)信號(hào),使 AS 和 BT 有機(jī)會(huì)共同改善并逃離低信息量訓(xùn)練區(qū)域。

在實(shí)現(xiàn)上,AREW 將一條 trajectory 中被正向 critique 的步驟集合記為 positive steps,被負(fù)向 critique 的步驟集合記為 negative steps。然后構(gòu)造一個(gè)intra-trajectory likelihood margin:增加 positive steps 的 log-probability,相對(duì)降低 negative steps 的 log-probability。

經(jīng)過(guò)推導(dǎo)(詳見原文 Section 4.2),最終落實(shí)到 policy gradient 上,就是一個(gè)非常輕量的 advantage reweighting:

對(duì)原本每一步的 advantage 加上一個(gè)由 critique 決定的局部修正項(xiàng)。

直觀來(lái)說(shuō),AREW 做的是:

  • 不改變最終 outcome reward;
  • 不改變 critic target;
  • 不重寫 PPO / GRPO / GSPO 的核心框架;
  • 只是在 actor update 時(shí),把 trajectory 內(nèi)部的 credit 從負(fù)向步驟重新分配給正向步驟。

這使得 AREW 具有很強(qiáng)的可集成性:它可以作為一個(gè)上層 credit assignment 修正機(jī)制,插入現(xiàn)有 outcome-based RL pipeline。

更重要的是,AREW 不要求 critique 完美。理論分析(原文 proposition 4.1)表明,只要 directional critiques 的weighted accuracy好于隨機(jī),就可以提供有用的一階改進(jìn)信號(hào)。后面的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn):即使 critique 有噪聲,AREW 仍然通常優(yōu)于 vanilla RL。

實(shí)驗(yàn)設(shè)置:4 個(gè)交互領(lǐng)域,9 個(gè) active reasoning 任務(wù) / 設(shè)置

論文在多個(gè) agentic active reasoning 場(chǎng)景中系統(tǒng)評(píng)估 AREW。

整體包括 4 個(gè)交互領(lǐng)域:

1. Preference Estimation

Agent 需要通過(guò)多輪 pairwise comparison 逐步估計(jì)用戶隱藏偏好向量。該領(lǐng)域包含 PE-G 和 PE-F 不同設(shè)置。AREW 在這里采用的 AS 信號(hào)非常直觀:如果兩部被比較的 item 在不同屬性維度上存在 trade-off,而不是一方在所有維度上都明顯占優(yōu),那么這個(gè) comparison 更可能帶來(lái)有信息量的偏好反饋;BT 信號(hào)則看 agent 更新后的偏好估計(jì)是否比上一輪更接近真實(shí)偏好向量。

2. Medical Diagnosis

在 MediQ 中,agent 需要基于 clinical vignette 和候選假設(shè),主動(dòng)詢問(wèn)病人診斷相關(guān)問(wèn)題,并逐步提高正確診斷 的 belief。AREW 的 AS 信號(hào)來(lái)自 patient feedback 是否真的提供了新的診斷信息;BT 信號(hào)則檢查模型是否根據(jù)有效反饋合理更新了不同診斷假設(shè)的置信度,例如是否讓正確假設(shè)相對(duì)其他候選更占優(yōu),或者在無(wú)信息反饋下保持 belief 不被錯(cuò)誤擾動(dòng)。

3. Troubleshooting

在 FloDial 中,agent 需要通過(guò) yes/no diagnostic questions 排查用戶問(wèn)題,并從候選解釋或解決方案中識(shí)別正確項(xiàng)。AREW 在這里把用戶反饋?zhàn)鳛檩p量方向性信號(hào):如果問(wèn)題命中了可診斷信息并得到有效 Yes/No 反饋,就說(shuō)明該 action 更有價(jià)值;如果只得到 Unknown,則說(shuō)明該問(wèn)題沒有匹配到有效診斷線索。BT 側(cè)則進(jìn)一步檢查 agent 是否在獲得有效反饋后提高了正確故障候選的置信度;如果反饋是 Unknown,則更希望 belief 保持穩(wěn)定,而不是憑空漂移。

4. Customer Service / Tool Use

在 tau2-bench-Telecom 中,agent 需要通過(guò)多輪對(duì)話和工具調(diào)用完成真實(shí)感更強(qiáng)的 telecom customer-service 任務(wù)。AREW 的設(shè)置在本文后面會(huì)被單獨(dú)提到。

在前三個(gè)領(lǐng)域中,論文評(píng)估了 7 個(gè) active reasoning tasks;在 tau2-bench 上進(jìn)一步評(píng)估 solo setting 和 standard dual-control setting,總共形成 9 個(gè)任務(wù) / 設(shè)置。所有任務(wù)都只提供終局監(jiān)督。

主要模型包括Qwen2.5-7B-InstructLLaMA-3.1-8B-Instruct。RL 算法包括 PPO,并進(jìn)一步擴(kuò)展到 GRPO 和 GSPO。

主結(jié)果:AREW 在幾乎所有設(shè)置下穩(wěn)定優(yōu)于 vanilla PPO

論文首先在前三個(gè)領(lǐng)域的 7 個(gè)任務(wù)上報(bào)告最終平均 outcome reward。



表:原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三個(gè)領(lǐng)域的 7 個(gè) agentic active reasoning tasks 上,與 direct inference 和 vanilla PPO 進(jìn)行比較。

這里,AREW-AS only表示僅使用 action-selection 側(cè)的 directional critiques 來(lái)重加權(quán)動(dòng)作決策的 advantage,而AREW-AS+BT則同時(shí)使用 action-selection 和 belief-tracking 兩側(cè)的 critiques,對(duì) “獲取信息” 和 “吸收信息” 兩個(gè)環(huán)節(jié)的 credit 進(jìn)行聯(lián)合修正。

主結(jié)果非常清晰:

在 28 個(gè) PPO 評(píng)估設(shè)置中,AREW 在 27 個(gè)設(shè)置中顯著優(yōu)于 vanilla PPO。

這些結(jié)果說(shuō)明,AREW 的收益并不是某個(gè)模型或某個(gè)數(shù)據(jù)集上的偶然現(xiàn)象,而是在不同模型族和不同 active reasoning 任務(wù)中都能穩(wěn)定發(fā)揮作用。

訓(xùn)練動(dòng)態(tài):AREW 不只是提高最終分?jǐn)?shù),也改變了學(xué)習(xí)過(guò)程

除了最終結(jié)果,論文還展示了訓(xùn)練過(guò)程中的 reward dynamics。



圖:原文 Figure 3。Qwen2.5-7B-Instruct 上,vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

這張圖可以看到三類典型現(xiàn)象。

  • 在一些任務(wù)中,vanilla PPO 幾乎無(wú)法持續(xù)提升 reward;而 AREW 可以明顯打破這種停滯,并持續(xù)提高 performance。
  • 在一些 vanilla PPO 本來(lái)也能緩慢提升的任務(wù)中,AREW 仍然表現(xiàn)出更快的收斂速度和更高的最終 reward。
  • 即使某些情況下 reward curve 看起來(lái)差距沒有那么大,AREW 也會(huì)在 AS 和 BT 行為層面帶來(lái)更清晰的改進(jìn)。也就是說(shuō),AREW 不只是 “刷高分”,而是在改變模型獲取和使用信息的方式。

AS/BT 行為分析:AREW 真的讓 agent 更會(huì)獲取和吸收信息

為了驗(yàn)證 AREW 的改進(jìn)是否來(lái)自 active reasoning 能力本身,論文進(jìn)一步分析了 AS 和 BT proxy。



圖:原文 Figure 4。AREW 對(duì) AS 和 BT capability proxies 的影響。

這張圖最值得注意的地方,不只是 AREW-AS+BT 效果最好,還有:AREW-AS only 已經(jīng)可以同時(shí)改善 AS 和 BT。

表面上看,AS-only 只對(duì) action-selection 側(cè)進(jìn)行 advantage reweighting,也就是只鼓勵(lì)模型選擇更有信息量的動(dòng)作,并沒有直接給 belief-tracking 決策額外加 credit。但實(shí)驗(yàn)結(jié)果顯示,僅僅改善信息獲取,BT 也會(huì)隨之變好。

這正好說(shuō)明 AS 和 BT 并不是兩個(gè)互相獨(dú)立的能力。更好的 AS 會(huì)改變 agent 后續(xù)看到的 observation stream:當(dāng)環(huán)境或用戶返回的反饋更有信息量,belief tracking 就更容易從這些反饋中學(xué)習(xí)和更新。換句話說(shuō),即使沒有直接優(yōu)化 BT,只要 AS 提供了更高質(zhì)量的信息流,BT 的學(xué)習(xí)條件也會(huì)被改善。

當(dāng)然,AS-only 并不能完全替代 BT-side correction。Figure 4 中,AREW-AS+BT 在多數(shù)情況下會(huì)進(jìn)一步提升 BT proxy,說(shuō)明當(dāng)模型不僅被鼓勵(lì) “獲取更有用的信息”,也被鼓勵(lì) “把這些信息正確吸收進(jìn) belief” 時(shí),AS 和 BT 更容易形成正向循環(huán)。

因此,AREW 的收益不是簡(jiǎn)單來(lái)自某個(gè)單點(diǎn)模塊的增強(qiáng),而是來(lái)自對(duì)AS-BT coupling 的干預(yù)。只修正 AS 已經(jīng)能夠帶動(dòng) BT,而同時(shí)修正 AS 和 BT 則可以更充分地打破 information self-locking。

不同 RL 算法有效性

一個(gè)自然問(wèn)題是:AREW 是否只是對(duì) PPO 有用?

論文進(jìn)一步在 GRPO 和 GSPO 上做了實(shí)驗(yàn)。結(jié)果顯示,即使使用 group-based RL variants,self-locking 仍然可能存在;僅僅增加 rollout 采樣 并不能從根本上解決 AS/BT 的耦合 credit assignment 問(wèn)題。而 AREW 在 GRPO 和 GSPO 下也能提升 final performance、AS 和 BT proxies。



圖:原文 Figure 6 (b) (c)。

真場(chǎng)景應(yīng)用 customer-service agent:tau2-bench 上的結(jié)果

除了 controlled domains,論文還在更復(fù)雜的 tau2-bench-Telecom 上評(píng)估 AREW。

tau2-bench 的挑戰(zhàn)在于,agent 不只是問(wèn)答,還需要在多輪 customer-service 場(chǎng)景中進(jìn)行工具調(diào)用、與用戶協(xié)作,并完成真實(shí)感更強(qiáng)的服務(wù)任務(wù)。

論文首先考慮no-user solo setting。在這個(gè) setting 中,Qwen2.5-7B agent 直接控制任務(wù)解決過(guò)程。AREW 使用 benchmark 自帶的信號(hào)構(gòu)造 critiques:

  • 負(fù)向 critique 主要來(lái)自運(yùn)行過(guò)程中的明顯失敗,例如工具調(diào)用格式錯(cuò)誤、工具執(zhí)行失敗、重復(fù)執(zhí)行相同動(dòng)作等;
  • 正向 critique 則來(lái)自任務(wù)評(píng)估器提供的進(jìn)展信號(hào),例如當(dāng)前軌跡是否新完成了某個(gè)預(yù)期動(dòng)作,或是否比上一階段更接近任務(wù)完成。



圖:原文 Figure 5。Tau2Bench-Telecom solo setting 中,AREW 提升 reward,同時(shí)顯著減少 tool execution errors;并且這種提升不是靠更長(zhǎng)回復(fù)或更多交互輪數(shù)換來(lái)的。

Figure 5 展示了一個(gè)實(shí)用結(jié)果:AREW 不只是提高 reward,還顯著減少 tool execution errors,同時(shí) response tokens 更少,interaction turns 基本可比。這說(shuō)明 AREW 的收益不是簡(jiǎn)單來(lái)自 “說(shuō)更多” 或 “多試幾輪”,而是來(lái)自更有效的 credit assignment。

論文進(jìn)一步考慮 standard dual-control setting。在這個(gè) setting 中,Qwen2.5-14B agent 需要和 GPT-4o-simulated user 協(xié)作。這里存在一個(gè)更復(fù)雜的 credit assignment 問(wèn)題:任務(wù)進(jìn)展可能來(lái)自 agent 自己正確使用工具,也可能來(lái)自 agent 引導(dǎo)用戶完成 user-side repair actions。



圖:原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中,AREW 相比 vanilla PPO 將 reward 從約 0.20 提升到約 0.50,同時(shí)減少對(duì) user-side operation shortcut 的依賴,并保持更多 assistant-side tool-use 行為。

在 vanilla PPO 中,模型容易走向一種 shortcut:更多依賴用戶側(cè)操作來(lái)完成部分任務(wù),而 assistant 自己的 tool-use 行為反而下降。這雖然能解決一部分樣本,但會(huì)使訓(xùn)練偏向最容易獲得 reward 的 progress channel,而不是 benchmark 真正希望評(píng)估的 assistant-side tool-use 能力。

AREW 則通過(guò) directional critiques 給有用的 assistant-side tool decisions 更多 credit,從而減少對(duì) user-side repair 的過(guò)度依賴,把優(yōu)化壓力合理分配到 agent 自己的有效工具使用行為上。

這個(gè)結(jié)果說(shuō)明,AREW 也可以用于更接近真實(shí) agentic application 的長(zhǎng)程工具使用環(huán)境。

Robustness:AREW 不依賴完美 critiques

AREW 使用的是 weak directional critiques,一個(gè)重要問(wèn)題是:如果 critique 有噪聲怎么辦?

論文通過(guò)隨機(jī)翻轉(zhuǎn) stepwise critiques 來(lái)評(píng)估魯棒性。



表:原文 Table 2。不同 critique perturbation ratio 下,AREW 的最終表現(xiàn)。即使 critique 被較強(qiáng)擾動(dòng),AREW 通常仍然保持與 vanilla baseline 競(jìng)爭(zhēng)甚至更好的表現(xiàn)。

結(jié)果顯示,隨著擾動(dòng)比例增加,AREW 的性能會(huì)逐漸下降,這是合理的。但在較大范圍內(nèi),AREW 仍然優(yōu)于或接近 vanilla baseline,并沒有因?yàn)?critique 不完美而崩潰。

論文 appendix 還進(jìn)一步分析了更結(jié)構(gòu)化的 critique destruction,例如只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常數(shù) label 填補(bǔ)缺失 critique 等。整體結(jié)論一致:AREW 對(duì)多種 critique 噪聲和破壞方式都具有一定魯棒性。

這也回應(yīng)了一個(gè)實(shí)際部署中的關(guān)鍵擔(dān)憂:在復(fù)雜 agentic tasks 中,我們很難得到精確的 dense supervision,但相對(duì)容易獲得一些局部方向性信號(hào)。AREW 正是為這種 supervision regime 設(shè)計(jì)的。

這項(xiàng)工作的意義與啟示

這篇工作給 RL for agentic active reasoning 中一個(gè)常見但容易被忽視的問(wèn)題提供了機(jī)制解釋。過(guò)去我們常說(shuō),agent 在多輪任務(wù)中表現(xiàn)不好,是因?yàn)?reward sparse、exploration hard、tool use complicated。但 AREW 指出,在 active reasoning 中還有一個(gè)更結(jié)構(gòu)性的困難:

獲取信息和使用信息是耦合學(xué)習(xí)的。Outcome reward 很難自然把這兩個(gè)能力分開 credit。

這會(huì)導(dǎo)致一種自鎖:

  • BT 弱時(shí),好的 AS 行動(dòng)無(wú)法獲得應(yīng)有 credit;
  • AS 弱時(shí),BT 沒有足夠證據(jù)可以學(xué)習(xí);
  • 兩者一起弱時(shí),outcome-gradient 對(duì)二者的提升信號(hào)都很弱;
  • 模型因此停留在低信息量 interaction pattern 中。

AREW 的思路也很直接:既然最終 reward 很難自動(dòng)分配 credit,就利用 active reasoning 中天然存在的局部診斷信號(hào),把 trajectory 內(nèi)部的 credit 重新分配給更有信息價(jià)值的決策。

這帶來(lái)幾個(gè) takeaway:

第一,active reasoning 的訓(xùn)練不能只看最終 reward。 Reward 上升不等于模型真的學(xué)會(huì)了更好地交互。我們需要關(guān)注 agent 是否更會(huì)主動(dòng)獲取信息,以及是否更會(huì)整合新證據(jù)。

第二,LLM agent 的訓(xùn)練失敗有時(shí)不是單一能力不足,而是多個(gè)能力之間的耦合失效。 AS 和 BT 單獨(dú)看都重要,但真正的問(wèn)題發(fā)生在二者互相依賴、互相 masking 的訓(xùn)練動(dòng)態(tài)中。

第三,弱監(jiān)督也可以很有用。 AREW 不要求人工標(biāo)注精確中間獎(jiǎng)勵(lì),也不需要訓(xùn)練 dense reward model。只要能判斷某些步驟大致應(yīng)該鼓勵(lì)還是抑制,就可以顯著改善 credit assignment。

第四,這類方法可能對(duì)更復(fù)雜的 agentic systems 有啟發(fā)。在 Deep Research、coding、customer service、computer use 等任務(wù)中,agent 都需要不斷決定 “下一步獲取什么信息” 以及 “如何吸收新信息”。這正是 AS/BT coupling 最容易出現(xiàn)的地方。

歡迎查閱論文與代碼以獲取更多技術(shù)細(xì)節(jié)。

如果您覺得這篇工作有幫助,歡迎關(guān)注與引用。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
敏昂萊在華5天,所求只有三件事,中方提出一個(gè)條件,緬甸沉默了

敏昂萊在華5天,所求只有三件事,中方提出一個(gè)條件,緬甸沉默了

不似少年游
2026-06-19 07:10:22
內(nèi)蒙古牧民撿到小狗當(dāng)牧羊犬9年,專家檢查后臉色大變:這就不是狗

內(nèi)蒙古牧民撿到小狗當(dāng)牧羊犬9年,專家檢查后臉色大變:這就不是狗

紅豆講堂
2025-05-19 17:03:14
網(wǎng)傳比亞迪終身?yè)Q電池!真實(shí)政策曝光,車主無(wú)需再擔(dān)心

網(wǎng)傳比亞迪終身?yè)Q電池!真實(shí)政策曝光,車主無(wú)需再擔(dān)心

周哥一影視
2026-06-18 15:56:54
2年布局全部作廢!首鋼放棄李楠,重金尋外教,功勛主帥為何撐不起爭(zhēng)冠隊(duì)?

2年布局全部作廢!首鋼放棄李楠,重金尋外教,功勛主帥為何撐不起爭(zhēng)冠隊(duì)?

去山野間追風(fēng)
2026-06-19 03:45:49
太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

火山詩(shī)話
2026-06-12 08:54:20
卡里克躺贏!穆里尼奧給老東家送超級(jí)大禮,曼聯(lián)撿漏頂級(jí)中場(chǎng)

卡里克躺贏!穆里尼奧給老東家送超級(jí)大禮,曼聯(lián)撿漏頂級(jí)中場(chǎng)

奶蓋熊本熊
2026-06-19 04:41:14
新規(guī)要求演員必須用原名,消息一出,這幾位頂流演員當(dāng)場(chǎng)陷入尷尬

新規(guī)要求演員必須用原名,消息一出,這幾位頂流演員當(dāng)場(chǎng)陷入尷尬

阿笎評(píng)論哥
2026-06-16 11:26:17
莫斯科街頭豎起“空中哨兵”,首都開始像前線一樣防無(wú)人機(jī)

莫斯科街頭豎起“空中哨兵”,首都開始像前線一樣防無(wú)人機(jī)

桂系007
2026-06-18 04:45:01
俄軍圖22轟炸機(jī)墜毀!莫斯科戰(zhàn)略武器損失不可逆

俄軍圖22轟炸機(jī)墜毀!莫斯科戰(zhàn)略武器損失不可逆

項(xiàng)鵬飛
2026-06-16 21:14:34
許晉亨夫婦真的很窮,擁有420億信托里每月只能領(lǐng)200萬(wàn)港幣

許晉亨夫婦真的很窮,擁有420億信托里每月只能領(lǐng)200萬(wàn)港幣

西樓知趣雜談
2026-06-01 21:30:19
國(guó)乒10勝6負(fù)3小將爆冷贏球!陳俊菘單打一輪游,勒布倫兄弟遭淘汰

國(guó)乒10勝6負(fù)3小將爆冷贏球!陳俊菘單打一輪游,勒布倫兄弟遭淘汰

排球黃金眼
2026-06-19 05:47:39
內(nèi)訌?C羅疑抱怨26歲門將“這都撲不出來(lái)” 對(duì)方怒懟+爆發(fā)激烈爭(zhēng)吵

內(nèi)訌?C羅疑抱怨26歲門將“這都撲不出來(lái)” 對(duì)方怒懟+爆發(fā)激烈爭(zhēng)吵

風(fēng)過(guò)鄉(xiāng)
2026-06-18 12:33:03
摩洛哥,一個(gè)只有46萬(wàn)km2的沙漠小國(guó),怎么“裝了”3840萬(wàn)人?

摩洛哥,一個(gè)只有46萬(wàn)km2的沙漠小國(guó),怎么“裝了”3840萬(wàn)人?

清沐執(zhí)筆
2026-06-18 17:26:43
張聞天離開政治舞臺(tái)后,時(shí)?;貞洀]山發(fā)言:我講得沒有什么錯(cuò)啊

張聞天離開政治舞臺(tái)后,時(shí)?;貞洀]山發(fā)言:我講得沒有什么錯(cuò)啊

歷史甄有趣
2026-06-18 18:40:10
建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

鐵血江湖人
2026-04-23 22:21:26
李鐵的罪,不光在于利益輸送,還在于他封死了中國(guó)男足世界杯之路

李鐵的罪,不光在于利益輸送,還在于他封死了中國(guó)男足世界杯之路

丁懰驚悚影視解說(shuō)
2026-06-08 11:03:59
7.9級(jí)地震撕裂菲律賓!第一個(gè)到賬的援助,為何讓美日都沉默了

7.9級(jí)地震撕裂菲律賓!第一個(gè)到賬的援助,為何讓美日都沉默了

怪味歷史連連看
2026-06-18 19:18:03
時(shí)機(jī)已到,該收拾日本了!中方宣布驅(qū)逐日本船只,必須殺雞儆猴

時(shí)機(jī)已到,該收拾日本了!中方宣布驅(qū)逐日本船只,必須殺雞儆猴

夜寒兮月孤靜
2026-06-19 04:47:25
天降橫財(cái)!男子入獄前,花120萬(wàn)買股票,6年后出獄,變成4.9億!

天降橫財(cái)!男子入獄前,花120萬(wàn)買股票,6年后出獄,變成4.9億!

川渝視覺
2026-05-13 22:09:30
卡福:安帥執(zhí)教后,人們第一次更多地談?wù)摪臀麝?duì)教練而非球員

卡福:安帥執(zhí)教后,人們第一次更多地談?wù)摪臀麝?duì)教練而非球員

懂球帝
2026-06-18 17:22:30
2026-06-19 07:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

美伊都第一時(shí)間"感謝中國(guó)" 媒體:美方直白肯定很難得

頭條要聞

美伊都第一時(shí)間"感謝中國(guó)" 媒體:美方直白肯定很難得

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
時(shí)尚
藝術(shù)

教育要聞

這樣得題目,可能只有學(xué)霸會(huì)做??!

家居要聞

綠意盎然 自然之境

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

看不懂球,還看不懂帥哥嗎?

藝術(shù)要聞

臺(tái)北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版