網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ICML 2026 | Agentic強(qiáng)化學(xué)習(xí)訓(xùn)練的信息自鎖問(wèn)題

2026-06-17 18:18:44　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文作者鄒德譽(yù)，香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系博士生，本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。研究方向?yàn)榇笳Z(yǔ)言模型智能體、強(qiáng)化學(xué)習(xí)與主動(dòng)推理，關(guān)注模型在信息不完備的多輪交互中如何主動(dòng)獲取、更新并利用信念。相關(guān)工作發(fā)表于 ICLR 2026 Oral 與 ICML 2026。

隨著大語(yǔ)言模型逐步從「單輪問(wèn)答」走向「真實(shí)環(huán)境中的持續(xù)交互」，LLM agents 正在被用于越來(lái)越復(fù)雜的 agentic applications：deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。這些任務(wù)和傳統(tǒng)問(wèn)答最大的不同在于：任務(wù)所需的信息往往不是一開始就完整給出的。Agent 必須在不確定狀態(tài)下主動(dòng)采取行動(dòng)，例如提問(wèn)、搜索、調(diào)用工具、檢查反饋，并在多輪交互中不斷更新自己對(duì)任務(wù)狀態(tài)的理解。

這類能力可以概括為active reasoning：在信息不完備的環(huán)境中，agent 不只是 “回答問(wèn)題”，而是需要主動(dòng)獲取新信息，并把新信息真正整合進(jìn)后續(xù)決策和推理中。

根據(jù)過(guò)往在許多推理任務(wù)上的成功，強(qiáng)化學(xué)習(xí)似乎應(yīng)該很適合訓(xùn)練這類能力。只要最后任務(wù)成功就給正獎(jiǎng)勵(lì)，失敗就不給獎(jiǎng)勵(lì)，模型不就應(yīng)該慢慢學(xué)會(huì)更好的交互策略嗎？

但事情并沒有這么簡(jiǎn)單。與此前 T3 （Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral）對(duì)多輪推理中belief deviation和belief-trapped trajectory的分析相呼應(yīng)，香港中文大學(xué)、加州大學(xué)圣地亞哥分校、佐治亞理工學(xué)院、字節(jié)跳動(dòng)的研究者進(jìn)一步發(fā)現(xiàn)發(fā)現(xiàn)，在 active reasoning 場(chǎng)景中，outcome-based RL 并不一定會(huì)自然訓(xùn)練出更善于交互的 agent。相反，模型可能進(jìn)入一種低信息量的訓(xùn)練模式：它反復(fù)執(zhí)行無(wú)效操作，過(guò)早依賴初始判斷，忽略用戶或環(huán)境返回的新證據(jù)；甚至在最終 reward 有所提升時(shí)，背后的行為也未必真正變得更會(huì)主動(dòng)獲取和使用信息。

如果說(shuō) T3 更關(guān)注 agent 在多輪交互中如何逐步偏離正確 belief，那么這篇論文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系統(tǒng)分析了這一現(xiàn)象背后的原因：在 active reasoning 中，agent 的表現(xiàn)同時(shí)依賴于兩個(gè)相互耦合的能力：一方面是選擇什么動(dòng)作來(lái)獲取信息，另一方面是如何把獲取到的信息整合進(jìn)后續(xù)判斷。outcome reward 很難自動(dòng)為這兩個(gè)相互依賴的環(huán)節(jié)提供清晰 credit：當(dāng)前者無(wú)法帶來(lái)有效反饋，后者就缺少可學(xué)習(xí)的證據(jù)；而當(dāng)后者無(wú)法正確吸收反饋時(shí)，前者的價(jià)值又很難通過(guò)最終 reward 得到正確 credit。

研究者將這種訓(xùn)練失敗機(jī)制稱為：

Information Self-Locking，信息自鎖。

基于這一觀察，作者進(jìn)一步提出了一個(gè)簡(jiǎn)單而有效的方法：AREW（Action-Selection & Belief-Tracking Advantage Reweighting），通過(guò)輕量的方向性反饋重新分配 trajectory 內(nèi)部的 credit，從而緩解 information self-locking。

論文已被 ICML 2026 接收。

論文標(biāo)題：On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents
項(xiàng)目代碼：https://github.com/unimpor/T3
論文鏈接：https://arxiv.org/abs/2603.12109

引言：為什么 RL 訓(xùn)練出來(lái)的 agent 還是不會(huì)主動(dòng)推理？

在很多 LLM agent 任務(wù)中，模型并不能一開始就看到完整答案。它必須通過(guò)多輪交互逐步逼近真實(shí)任務(wù)狀態(tài)。

比如：

在醫(yī)療問(wèn)診中，agent 需要主動(dòng)詢問(wèn)關(guān)鍵癥狀，而不是重復(fù)問(wèn)泛泛的問(wèn)題；
在用戶偏好估計(jì)中，agent 需要設(shè)計(jì)有區(qū)分度的問(wèn)題，逐步識(shí)別用戶真正的偏好；
在客服場(chǎng)景中，agent 需要決定什么時(shí)候發(fā)消息、什么時(shí)候調(diào)用工具、什么時(shí)候引導(dǎo)用戶完成某些操作。

這些任務(wù)有一個(gè)共同結(jié)構(gòu)：agent 的表現(xiàn)同時(shí)取決于兩件事。

第一，它要知道下一步該問(wèn)什么、查什么、調(diào)用什么工具。作者稱為Action Selection（AS）。

第二，它要能把得到的新反饋吸收進(jìn)自己的內(nèi)部理解，真正更新對(duì)任務(wù)狀態(tài)的判斷。作者稱為Belief Tracking（BT）。

如果 AS 很弱，agent 就拿不到有用信息；如果 BT 很弱，即使拿到了有用信息，模型也不會(huì)用。

更關(guān)鍵的是，這兩者不是獨(dú)立的，而是強(qiáng)耦合的：

好的行動(dòng)只有在反饋被正確使用時(shí)，才會(huì)在最終 reward 中體現(xiàn)價(jià)值；好的 belief update 又依賴于前面行動(dòng)帶來(lái)了足夠有信息量的反饋。

這就帶來(lái)了 active reasoning 中一個(gè)非常隱蔽的 credit assignment 問(wèn)題：outcome reward 只在最后出現(xiàn)，它很難判斷到底是 “問(wèn)得不好”，還是 “問(wèn)到了但沒吸收好”。

論文第一頁(yè)的圖給出了這一機(jī)制的整體直覺。

圖：原文 Figure 1。Vanilla outcome RL 下，agent 可能進(jìn)入 self-locking：informative action 的價(jià)值被 weak BT 掩蓋，導(dǎo)致 credit assignment 錯(cuò)位；AREW 通過(guò) directional critiques 重新分配 trajectory 內(nèi)部 credit，使 AS 和 BT 重新對(duì)齊。

Information Self-Locking：訓(xùn)練信號(hào)被 “鎖住”

作者首先發(fā)現(xiàn)了一個(gè)反直覺現(xiàn)象。

在 outcome-based RL 中，reward 可能確實(shí)上升了，但這并不意味著模型真正學(xué)會(huì)了主動(dòng)獲取信息。為了解耦觀察這一點(diǎn)，論文先在兩個(gè)可控的 active reasoning 任務(wù)中做分析：Preference Estimation 要求 agent 通過(guò)比較問(wèn)題逐步估計(jì)用戶隱藏偏好，MediQ 則要求 agent 通過(guò)問(wèn)診病人問(wèn)題逐步識(shí)別正確診斷。二者都需要 agent 一邊主動(dòng)獲取證據(jù)，一邊更新對(duì)隱藏任務(wù)狀態(tài)的判斷，因此很適合用來(lái)觀察 AS 和 BT 的訓(xùn)練動(dòng)態(tài)。

論文在這兩類任務(wù)中跟蹤了三個(gè)量：

Final reward：最終任務(wù)表現(xiàn)；
AS proxy：agent 的行動(dòng)是否帶來(lái)有信息量的反饋；
BT proxy：agent 是否把反饋正確吸收進(jìn) belief。

結(jié)果顯示，reward 可以做有限的上升，但 AS 和 BT 并沒有同步提升。也就是說(shuō)，模型表面上變強(qiáng)了，但它并沒有真正更會(huì) “獲取信息” 和 “使用信息”。

圖：原文 Figure 2。左半部分展示訓(xùn)練過(guò)程中 reward、AS、BT 的變化：藍(lán)線表示 agent 做出有信息量行動(dòng)的比例，橙線表示 agent 是否有效吸收反饋并更新 belief，綠線表示最終任務(wù)成功率?？梢钥吹?，即使成功率隨訓(xùn)練有一些有限的上升，AS 和 BT 也可能停滯甚至退化。右半部分進(jìn)一步固定相同的 action-selection 序列：橫軸表示一條軌跡中有多少次有信息量的行動(dòng)，淺藍(lán)色柱子表示這類軌跡出現(xiàn)的頻率；藍(lán)線表示由 agent 自身 BT 處理這些反饋時(shí)的成功率，橙線表示由 stronger BT 處理相同反饋時(shí)的成功率。結(jié)果顯示，只有當(dāng) BT 足夠強(qiáng)時(shí)，informative AS 才會(huì)和最終 reward 形成更強(qiáng)正相關(guān)。

這張圖的右半部分揭示了 AREW 的核心 insight：

Weak BT 會(huì)遮蓋 informative AS 的貢獻(xiàn)。

假設(shè) agent 提出了一個(gè)很有價(jià)值的問(wèn)題，環(huán)境也返回了關(guān)鍵證據(jù)。但如果模型沒有把這條證據(jù)吸收進(jìn)后續(xù)推理，最終答案仍然錯(cuò)了。此時(shí)，outcome reward 會(huì)告訴 RL：“這條 trajectory 失敗了。”

問(wèn)題在于，RL 并不知道失敗的原因是 belief update 做得差，而不是 action selection 做得差。于是，那個(gè)本來(lái)很有價(jià)值的問(wèn)題也可能得不到正向 credit。

反過(guò)來(lái)也是一樣。

如果 AS 變得保守，模型總是問(wèn)一些低信息量的問(wèn)題，BT 就拿不到有價(jià)值的反饋。沒有足夠信息流，belief tracking 也很難學(xué)好。久而久之，RL 可能反而鼓勵(lì)模型依賴初始判斷或非交互式 shortcut，而不是認(rèn)真利用交互反饋（詳見原文 Section 2.3 observation 3 ｜ Fig. 6a）。

這就是 information self-locking：

AS 弱導(dǎo)致 BT 沒證據(jù)可學(xué)；BT 弱導(dǎo)致 AS 的價(jià)值無(wú)法被 reward 識(shí)別。二者互相限制，使模型卡在低信息量訓(xùn)練區(qū)域。

從 Sef-Locking 看 active reasoning 的訓(xùn)練瓶頸

前面提到，論文將 active reasoning 中的 agent 行為分解為兩個(gè)相互交替的過(guò)程：

Action Selection（AS）：根據(jù)當(dāng)前 belief 選擇下一步環(huán)境交互動(dòng)作，例如提問(wèn)、搜索、調(diào)用工具；
Belief Tracking（BT）：根據(jù)新反饋更新內(nèi)部任務(wù)理解，并決定后續(xù)如何行動(dòng)。

這個(gè)分解指出 active reasoning 的難點(diǎn)不只是 sparse reward，而是sparse outcome reward 下兩個(gè)能力的耦合學(xué)習(xí)失敗。

普通 outcome RL 只看到最終成敗，很難把 reward 正確分配給 trajectory 中不同的 AS 和 BT 決策。結(jié)果是：

如果 BT 差，好的 AS 行動(dòng)也無(wú)法轉(zhuǎn)化為高 reward；
如果 AS 差，BT 沒有足夠信息可以吸收；
如果二者都處于低水平，梯度信號(hào)會(huì)同時(shí)變?nèi)酰?/li>
模型可能長(zhǎng)期停留在低信息量區(qū)域，難以靠 outcome reward 自行逃離。

論文在理論部分把這個(gè)區(qū)域形式化為self-locking regime：AS informativeness 低，同時(shí) BT capability 也低。在這個(gè)區(qū)域中，outcome-gradient 對(duì) AS 和 BT 的提升信號(hào)都會(huì)被當(dāng)前能力水平限制，因此訓(xùn)練動(dòng)態(tài)很難自然逃出。

為了更直觀地解釋這一點(diǎn)，論文 appendix 給出了一個(gè)二維相圖：橫軸表示 AS informativeness，縱軸表示 BT capability。

圖：原文 Figure 8。AS-BT phase space 中的 learning dynamics。左圖表示 outcome-only RL：在低 AS、低 BT 的 locking regime 內(nèi)，更新方向很弱，agent 難以逃離；右圖表示 AREW：directional critiques 在 locking regime 內(nèi)引入額外更新方向，為模型創(chuàng)造逃離低信息量區(qū)域的路徑。這張圖概括了 AREW 的理論直覺：作者不需要完全重寫 RL，也不需要精確 dense reward；只需要在 AS/BT 的關(guān)鍵局部決策上提供一些方向性信號(hào)，就可以改變低信息量區(qū)域內(nèi)的 effective update field。

AREW：用 weak directional critiques 重新分配 trajectory 內(nèi)部 credit

既然 SeL 的核心問(wèn)題在于 outcome reward 難以在 AS 和 BT 之間提供清晰的學(xué)習(xí)信號(hào)，一個(gè)直接的方案，是為每個(gè)中間決策都設(shè)計(jì)精確的 dense supervision：例如準(zhǔn)確判斷某個(gè)問(wèn)題到底貢獻(xiàn)了多少信息，或者某次 belief update 到底應(yīng)當(dāng)獲得多少中間獎(jiǎng)勵(lì)。但是，在長(zhǎng)程 agentic tasks 中，這類 calibrated intermediate reward 往往不能輕易獲得。

幸運(yùn)的是，agentic active reasoning 場(chǎng)景通常會(huì)自然暴露一些更粗粒度、但更容易獲取的方向性診斷信號(hào)：例如，一個(gè) action 是否讓環(huán)境或用戶返回了新的有用證據(jù)；一次 belief update 是否把新觀察朝著更接近真實(shí)任務(wù)狀態(tài)的方向吸收進(jìn)去。

AREW 的出發(fā)點(diǎn)正是利用這些uncalibrated directional signals。它并不試圖為每一步構(gòu)造精確的中間獎(jiǎng)勵(lì)，也不需要訓(xùn)練額外的 dense reward model，而是把這些方向性信號(hào)作為 weak directional critiques，注入到 policy-gradient 更新中，對(duì) trajectory 內(nèi)部的 stepwise advantage 進(jìn)行重新分配。

換句話說(shuō)，AREW 保留原本的 outcome reward，只是在 actor update 時(shí)把更多 credit 分配給被正向 critique 的 AS/BT 決策，并削弱被負(fù)向 critique 的決策。通過(guò)這種 reward-preserving 的 credit reallocation，AREW 在 SeL regime 中重新提供非退化的局部學(xué)習(xí)信號(hào)，使 AS 和 BT 有機(jī)會(huì)共同改善并逃離低信息量訓(xùn)練區(qū)域。

在實(shí)現(xiàn)上，AREW 將一條 trajectory 中被正向 critique 的步驟集合記為 positive steps，被負(fù)向 critique 的步驟集合記為 negative steps。然后構(gòu)造一個(gè)intra-trajectory likelihood margin：增加 positive steps 的 log-probability，相對(duì)降低 negative steps 的 log-probability。

經(jīng)過(guò)推導(dǎo)（詳見原文 Section 4.2），最終落實(shí)到 policy gradient 上，就是一個(gè)非常輕量的 advantage reweighting：

對(duì)原本每一步的 advantage 加上一個(gè)由 critique 決定的局部修正項(xiàng)。

直觀來(lái)說(shuō)，AREW 做的是：

不改變最終 outcome reward；
不改變 critic target；
不重寫 PPO / GRPO / GSPO 的核心框架；
只是在 actor update 時(shí)，把 trajectory 內(nèi)部的 credit 從負(fù)向步驟重新分配給正向步驟。

這使得 AREW 具有很強(qiáng)的可集成性：它可以作為一個(gè)上層 credit assignment 修正機(jī)制，插入現(xiàn)有 outcome-based RL pipeline。

更重要的是，AREW 不要求 critique 完美。理論分析（原文 proposition 4.1）表明，只要 directional critiques 的weighted accuracy好于隨機(jī)，就可以提供有用的一階改進(jìn)信號(hào)。后面的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn)：即使 critique 有噪聲，AREW 仍然通常優(yōu)于 vanilla RL。

實(shí)驗(yàn)設(shè)置：4 個(gè)交互領(lǐng)域，9 個(gè) active reasoning 任務(wù) / 設(shè)置

論文在多個(gè) agentic active reasoning 場(chǎng)景中系統(tǒng)評(píng)估 AREW。

整體包括 4 個(gè)交互領(lǐng)域：

1. Preference Estimation

Agent 需要通過(guò)多輪 pairwise comparison 逐步估計(jì)用戶隱藏偏好向量。該領(lǐng)域包含 PE-G 和 PE-F 不同設(shè)置。AREW 在這里采用的 AS 信號(hào)非常直觀：如果兩部被比較的 item 在不同屬性維度上存在 trade-off，而不是一方在所有維度上都明顯占優(yōu)，那么這個(gè) comparison 更可能帶來(lái)有信息量的偏好反饋；BT 信號(hào)則看 agent 更新后的偏好估計(jì)是否比上一輪更接近真實(shí)偏好向量。

2. Medical Diagnosis

在 MediQ 中，agent 需要基于 clinical vignette 和候選假設(shè)，主動(dòng)詢問(wèn)病人診斷相關(guān)問(wèn)題，并逐步提高正確診斷的 belief。AREW 的 AS 信號(hào)來(lái)自 patient feedback 是否真的提供了新的診斷信息；BT 信號(hào)則檢查模型是否根據(jù)有效反饋合理更新了不同診斷假設(shè)的置信度，例如是否讓正確假設(shè)相對(duì)其他候選更占優(yōu)，或者在無(wú)信息反饋下保持 belief 不被錯(cuò)誤擾動(dòng)。

3. Troubleshooting

在 FloDial 中，agent 需要通過(guò) yes/no diagnostic questions 排查用戶問(wèn)題，并從候選解釋或解決方案中識(shí)別正確項(xiàng)。AREW 在這里把用戶反饋?zhàn)鳛檩p量方向性信號(hào)：如果問(wèn)題命中了可診斷信息并得到有效 Yes/No 反饋，就說(shuō)明該 action 更有價(jià)值；如果只得到 Unknown，則說(shuō)明該問(wèn)題沒有匹配到有效診斷線索。BT 側(cè)則進(jìn)一步檢查 agent 是否在獲得有效反饋后提高了正確故障候選的置信度；如果反饋是 Unknown，則更希望 belief 保持穩(wěn)定，而不是憑空漂移。

4. Customer Service / Tool Use

在 tau2-bench-Telecom 中，agent 需要通過(guò)多輪對(duì)話和工具調(diào)用完成真實(shí)感更強(qiáng)的 telecom customer-service 任務(wù)。AREW 的設(shè)置在本文后面會(huì)被單獨(dú)提到。

在前三個(gè)領(lǐng)域中，論文評(píng)估了 7 個(gè) active reasoning tasks；在 tau2-bench 上進(jìn)一步評(píng)估 solo setting 和 standard dual-control setting，總共形成 9 個(gè)任務(wù) / 設(shè)置。所有任務(wù)都只提供終局監(jiān)督。

主要模型包括Qwen2.5-7B-Instruct和LLaMA-3.1-8B-Instruct。RL 算法包括 PPO，并進(jìn)一步擴(kuò)展到 GRPO 和 GSPO。

主結(jié)果：AREW 在幾乎所有設(shè)置下穩(wěn)定優(yōu)于 vanilla PPO

論文首先在前三個(gè)領(lǐng)域的 7 個(gè)任務(wù)上報(bào)告最終平均 outcome reward。

表：原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三個(gè)領(lǐng)域的 7 個(gè) agentic active reasoning tasks 上，與 direct inference 和 vanilla PPO 進(jìn)行比較。

這里，AREW-AS only表示僅使用 action-selection 側(cè)的 directional critiques 來(lái)重加權(quán)動(dòng)作決策的 advantage，而AREW-AS+BT則同時(shí)使用 action-selection 和 belief-tracking 兩側(cè)的 critiques，對(duì) “獲取信息” 和 “吸收信息” 兩個(gè)環(huán)節(jié)的 credit 進(jìn)行聯(lián)合修正。

主結(jié)果非常清晰：

在 28 個(gè) PPO 評(píng)估設(shè)置中，AREW 在 27 個(gè)設(shè)置中顯著優(yōu)于 vanilla PPO。

這些結(jié)果說(shuō)明，AREW 的收益并不是某個(gè)模型或某個(gè)數(shù)據(jù)集上的偶然現(xiàn)象，而是在不同模型族和不同 active reasoning 任務(wù)中都能穩(wěn)定發(fā)揮作用。

訓(xùn)練動(dòng)態(tài)：AREW 不只是提高最終分?jǐn)?shù)，也改變了學(xué)習(xí)過(guò)程

除了最終結(jié)果，論文還展示了訓(xùn)練過(guò)程中的 reward dynamics。

圖：原文 Figure 3。Qwen2.5-7B-Instruct 上，vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

這張圖可以看到三類典型現(xiàn)象。

在一些任務(wù)中，vanilla PPO 幾乎無(wú)法持續(xù)提升 reward；而 AREW 可以明顯打破這種停滯，并持續(xù)提高 performance。
在一些 vanilla PPO 本來(lái)也能緩慢提升的任務(wù)中，AREW 仍然表現(xiàn)出更快的收斂速度和更高的最終 reward。
即使某些情況下 reward curve 看起來(lái)差距沒有那么大，AREW 也會(huì)在 AS 和 BT 行為層面帶來(lái)更清晰的改進(jìn)。也就是說(shuō)，AREW 不只是 “刷高分”，而是在改變模型獲取和使用信息的方式。

AS/BT 行為分析：AREW 真的讓 agent 更會(huì)獲取和吸收信息

為了驗(yàn)證 AREW 的改進(jìn)是否來(lái)自 active reasoning 能力本身，論文進(jìn)一步分析了 AS 和 BT proxy。

圖：原文 Figure 4。AREW 對(duì) AS 和 BT capability proxies 的影響。

這張圖最值得注意的地方，不只是 AREW-AS+BT 效果最好，還有：AREW-AS only 已經(jīng)可以同時(shí)改善 AS 和 BT。

表面上看，AS-only 只對(duì) action-selection 側(cè)進(jìn)行 advantage reweighting，也就是只鼓勵(lì)模型選擇更有信息量的動(dòng)作，并沒有直接給 belief-tracking 決策額外加 credit。但實(shí)驗(yàn)結(jié)果顯示，僅僅改善信息獲取，BT 也會(huì)隨之變好。

這正好說(shuō)明 AS 和 BT 并不是兩個(gè)互相獨(dú)立的能力。更好的 AS 會(huì)改變 agent 后續(xù)看到的 observation stream：當(dāng)環(huán)境或用戶返回的反饋更有信息量，belief tracking 就更容易從這些反饋中學(xué)習(xí)和更新。換句話說(shuō)，即使沒有直接優(yōu)化 BT，只要 AS 提供了更高質(zhì)量的信息流，BT 的學(xué)習(xí)條件也會(huì)被改善。

當(dāng)然，AS-only 并不能完全替代 BT-side correction。Figure 4 中，AREW-AS+BT 在多數(shù)情況下會(huì)進(jìn)一步提升 BT proxy，說(shuō)明當(dāng)模型不僅被鼓勵(lì) “獲取更有用的信息”，也被鼓勵(lì) “把這些信息正確吸收進(jìn) belief” 時(shí)，AS 和 BT 更容易形成正向循環(huán)。

因此，AREW 的收益不是簡(jiǎn)單來(lái)自某個(gè)單點(diǎn)模塊的增強(qiáng)，而是來(lái)自對(duì)AS-BT coupling 的干預(yù)。只修正 AS 已經(jīng)能夠帶動(dòng) BT，而同時(shí)修正 AS 和 BT 則可以更充分地打破 information self-locking。

不同 RL 算法有效性

一個(gè)自然問(wèn)題是：AREW 是否只是對(duì) PPO 有用？

論文進(jìn)一步在 GRPO 和 GSPO 上做了實(shí)驗(yàn)。結(jié)果顯示，即使使用 group-based RL variants，self-locking 仍然可能存在；僅僅增加 rollout 采樣并不能從根本上解決 AS/BT 的耦合 credit assignment 問(wèn)題。而 AREW 在 GRPO 和 GSPO 下也能提升 final performance、AS 和 BT proxies。

圖：原文 Figure 6 (b) (c)。

真場(chǎng)景應(yīng)用 customer-service agent：tau2-bench 上的結(jié)果

除了 controlled domains，論文還在更復(fù)雜的 tau2-bench-Telecom 上評(píng)估 AREW。

tau2-bench 的挑戰(zhàn)在于，agent 不只是問(wèn)答，還需要在多輪 customer-service 場(chǎng)景中進(jìn)行工具調(diào)用、與用戶協(xié)作，并完成真實(shí)感更強(qiáng)的服務(wù)任務(wù)。

論文首先考慮no-user solo setting。在這個(gè) setting 中，Qwen2.5-7B agent 直接控制任務(wù)解決過(guò)程。AREW 使用 benchmark 自帶的信號(hào)構(gòu)造 critiques：

負(fù)向 critique 主要來(lái)自運(yùn)行過(guò)程中的明顯失敗，例如工具調(diào)用格式錯(cuò)誤、工具執(zhí)行失敗、重復(fù)執(zhí)行相同動(dòng)作等；
正向 critique 則來(lái)自任務(wù)評(píng)估器提供的進(jìn)展信號(hào)，例如當(dāng)前軌跡是否新完成了某個(gè)預(yù)期動(dòng)作，或是否比上一階段更接近任務(wù)完成。

圖：原文 Figure 5。Tau2Bench-Telecom solo setting 中，AREW 提升 reward，同時(shí)顯著減少 tool execution errors；并且這種提升不是靠更長(zhǎng)回復(fù)或更多交互輪數(shù)換來(lái)的。

Figure 5 展示了一個(gè)實(shí)用結(jié)果：AREW 不只是提高 reward，還顯著減少 tool execution errors，同時(shí) response tokens 更少，interaction turns 基本可比。這說(shuō)明 AREW 的收益不是簡(jiǎn)單來(lái)自 “說(shuō)更多” 或 “多試幾輪”，而是來(lái)自更有效的 credit assignment。

論文進(jìn)一步考慮 standard dual-control setting。在這個(gè) setting 中，Qwen2.5-14B agent 需要和 GPT-4o-simulated user 協(xié)作。這里存在一個(gè)更復(fù)雜的 credit assignment 問(wèn)題：任務(wù)進(jìn)展可能來(lái)自 agent 自己正確使用工具，也可能來(lái)自 agent 引導(dǎo)用戶完成 user-side repair actions。

圖：原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中，AREW 相比 vanilla PPO 將 reward 從約 0.20 提升到約 0.50，同時(shí)減少對(duì) user-side operation shortcut 的依賴，并保持更多 assistant-side tool-use 行為。

在 vanilla PPO 中，模型容易走向一種 shortcut：更多依賴用戶側(cè)操作來(lái)完成部分任務(wù)，而 assistant 自己的 tool-use 行為反而下降。這雖然能解決一部分樣本，但會(huì)使訓(xùn)練偏向最容易獲得 reward 的 progress channel，而不是 benchmark 真正希望評(píng)估的 assistant-side tool-use 能力。

AREW 則通過(guò) directional critiques 給有用的 assistant-side tool decisions 更多 credit，從而減少對(duì) user-side repair 的過(guò)度依賴，把優(yōu)化壓力合理分配到 agent 自己的有效工具使用行為上。

這個(gè)結(jié)果說(shuō)明，AREW 也可以用于更接近真實(shí) agentic application 的長(zhǎng)程工具使用環(huán)境。

Robustness：AREW 不依賴完美 critiques

AREW 使用的是 weak directional critiques，一個(gè)重要問(wèn)題是：如果 critique 有噪聲怎么辦？

論文通過(guò)隨機(jī)翻轉(zhuǎn) stepwise critiques 來(lái)評(píng)估魯棒性。

表：原文 Table 2。不同 critique perturbation ratio 下，AREW 的最終表現(xiàn)。即使 critique 被較強(qiáng)擾動(dòng)，AREW 通常仍然保持與 vanilla baseline 競(jìng)爭(zhēng)甚至更好的表現(xiàn)。

結(jié)果顯示，隨著擾動(dòng)比例增加，AREW 的性能會(huì)逐漸下降，這是合理的。但在較大范圍內(nèi)，AREW 仍然優(yōu)于或接近 vanilla baseline，并沒有因?yàn)?critique 不完美而崩潰。

論文 appendix 還進(jìn)一步分析了更結(jié)構(gòu)化的 critique destruction，例如只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常數(shù) label 填補(bǔ)缺失 critique 等。整體結(jié)論一致：AREW 對(duì)多種 critique 噪聲和破壞方式都具有一定魯棒性。

這也回應(yīng)了一個(gè)實(shí)際部署中的關(guān)鍵擔(dān)憂：在復(fù)雜 agentic tasks 中，我們很難得到精確的 dense supervision，但相對(duì)容易獲得一些局部方向性信號(hào)。AREW 正是為這種 supervision regime 設(shè)計(jì)的。

這項(xiàng)工作的意義與啟示

這篇工作給 RL for agentic active reasoning 中一個(gè)常見但容易被忽視的問(wèn)題提供了機(jī)制解釋。過(guò)去我們常說(shuō)，agent 在多輪任務(wù)中表現(xiàn)不好，是因?yàn)?reward sparse、exploration hard、tool use complicated。但 AREW 指出，在 active reasoning 中還有一個(gè)更結(jié)構(gòu)性的困難：

獲取信息和使用信息是耦合學(xué)習(xí)的。Outcome reward 很難自然把這兩個(gè)能力分開 credit。

這會(huì)導(dǎo)致一種自鎖：

BT 弱時(shí)，好的 AS 行動(dòng)無(wú)法獲得應(yīng)有 credit；
AS 弱時(shí)，BT 沒有足夠證據(jù)可以學(xué)習(xí)；
兩者一起弱時(shí)，outcome-gradient 對(duì)二者的提升信號(hào)都很弱；
模型因此停留在低信息量 interaction pattern 中。

AREW 的思路也很直接：既然最終 reward 很難自動(dòng)分配 credit，就利用 active reasoning 中天然存在的局部診斷信號(hào)，把 trajectory 內(nèi)部的 credit 重新分配給更有信息價(jià)值的決策。

這帶來(lái)幾個(gè) takeaway：

第一，active reasoning 的訓(xùn)練不能只看最終 reward。 Reward 上升不等于模型真的學(xué)會(huì)了更好地交互。我們需要關(guān)注 agent 是否更會(huì)主動(dòng)獲取信息，以及是否更會(huì)整合新證據(jù)。

第二，LLM agent 的訓(xùn)練失敗有時(shí)不是單一能力不足，而是多個(gè)能力之間的耦合失效。 AS 和 BT 單獨(dú)看都重要，但真正的問(wèn)題發(fā)生在二者互相依賴、互相 masking 的訓(xùn)練動(dòng)態(tài)中。

第三，弱監(jiān)督也可以很有用。 AREW 不要求人工標(biāo)注精確中間獎(jiǎng)勵(lì)，也不需要訓(xùn)練 dense reward model。只要能判斷某些步驟大致應(yīng)該鼓勵(lì)還是抑制，就可以顯著改善 credit assignment。

第四，這類方法可能對(duì)更復(fù)雜的 agentic systems 有啟發(fā)。在 Deep Research、coding、customer service、computer use 等任務(wù)中，agent 都需要不斷決定 “下一步獲取什么信息” 以及 “如何吸收新信息”。這正是 AS/BT coupling 最容易出現(xiàn)的地方。

歡迎查閱論文與代碼以獲取更多技術(shù)細(xì)節(jié)。

如果您覺得這篇工作有幫助，歡迎關(guān)注與引用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.