【阅读笔记】Agent-RLVR:用 Guidance 破解 Agent RL 的稀疏奖励难题

RL Paper Reading入库于 2026/6/3|

【阅读笔记】Agent-RLVR:用 Guidance 破解 Agent RL 的稀疏奖励难题

论文链接:https://arxiv.org/abs/2506.11425 作者:Scale AI,2025年6月


1. 一句话总结

在多步骤 Agent 任务中,用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境,让 RL 训练从稀疏奖励中有效学习,Pass@1 从9.4%提升至22.4%。


2. 背景知识

什么是稀疏奖励(Sparse Reward)? 想象你在学走迷宫,但只有走出迷宫才能得到一颗糖——过程中无论如何都没有提示。这就是稀疏奖励:大多数时候奖励为0,只有最终成功才有正奖励。

对简单任务(数学题:答案对就是对),稀疏奖励 OK。但对多步骤 Agent 任务(SWE 修 Bug:需要搜索文件→理解代码→生成修复→验证),一步走错,最终全部失败,奖励始终是0,模型无法学到任何东西。

RLVR(Reinforcement Learning with Verifiable Rewards)是什么? 用可客观验证的奖励信号来做 RL。数学题的对错很容易验证,所以 RLVR 在数学上大获成功(DeepSeek-R1等)。但 Agent 任务验证代价高、失败率高,RLVR 就不好使了。

DPO(Direct Preference Optimization)是什么? 一种比 PPO 更简单的 RL 算法:给模型看"好答案 vs 坏答案"的对比对,直接让模型学会偏好好答案。不需要实时计算奖励,训练更稳定。


3. 为什么会出现这篇论文(技术演进路线)

RLVR 数学成功(DeepSeek-R1等,2024底)
      ↓
尝试迁移到 Agent 任务
      ↓
发现问题:多步骤任务失败率极高(>90%的rollout全部失败)
           → 奖励始终为0 → 梯度为0 → 模型无法更新
      ↓
旧方案:课程学习(从简单任务开始)、奖励塑形(中间步骤也给奖励)
      ↓
问题:课程学习需要大量标注难度,奖励塑形难以设计
      ↓
Agent-RLVR(2025.6):外部LLM当"导师",失败时给guidance帮助模型成功

4. 试图解决的问题

核心问题:Agent RL 训练中的稀疏奖励陷阱

具体表现:

  • 多步骤任务(如修复 GitHub bug)需要10-30个决策步骤
  • 任意一步出错(如搜索文件失败)→ 后续全部失败 → 最终奖励=0
  • 初始模型能力弱,大多数 rollout 全部失败
  • 没有成功案例 → RL 梯度为0 → 模型无法改进 → 恶性循环

这个问题在 LLM 数学 RL 中不存在(单步生成,失败率相对低),是 Agent RL 特有的挑战。


5. 核心创新

直觉理解:给实习生配一个"随叫随到的导师"

正常训练(无guidance):实习生独立完成任务,失败了也没人告诉他哪里错了,只知道"这次没做好"。

Agent-RLVR:实习生先独立尝试(无guidance rollout)→ 失败了 → 导师(外部LLM)介入提供具体建议 → 实习生重试(有guidance rollout)→ 成功了 → 用成功轨迹更新实习生的能力。

关键:导师(claude-3-7-sonnet)只在训练时出现,测试时实习生要独立工作。

三类 Guidance 详解:

Guidance类型何时使用内容示例
Plan(计划)任务开始时,提供结构化执行计划"先搜索calculate_discount函数,再查看调用它的地方,最后修改边界条件处理"
Environment Feedback(环境反馈)模型对环境状态产生误判时"你搜索的文件路径不对,正确文件在src/utils/目录下"
Environment Interaction(交互指引)模型不知道如何与工具交互时"调用read_file工具需要传入完整路径,格式为./src/file.py"

与旧方案对比:

维度课程学习奖励塑形Agent-RLVR
需要额外标注?是(任务难度)是(中间步骤奖励)否(guidance自动生成)
测试时是否依赖?否(训练专用)
能处理新任务类型?好(guidance适应性强)
实现复杂度

6. 算法流程

Step 1:无 Guidance 尝试(探索阶段) 用基础模型(Qwen-2.5-72B-Instruct)在任务上独立生成 rollout,不提供任何外部帮助。

Step 2:失败检测 检查该 rollout 是否失败(最终奖励=0)。成功的 rollout 直接进入Step 4。

Step 3:Guidance 生成与重试(仅失败时)

  • 将失败轨迹发送给外部 LLM(claude-3-7-sonnet)
  • 外部 LLM 分析失败原因,生成对应类型的 guidance
  • 基础模型接收 guidance,重新执行任务(带guidance rollout)

Step 4:构建训练对

  • 正例:有guidance且成功的轨迹
  • 负例:无guidance且失败的轨迹
  • 构成 preference pairs(偏好对)

Step 5:DPO 更新 用上述偏好对做 DPO 训练,直接优化模型偏好成功行为模式。

Step 6:迭代 更新后的模型作为新的基础模型,重复 Step 1-5,多轮迭代。


7. 关键公式

DPO 损失函数(核心): LDPO=E[logσ(βlogπθ(y+x)πref(y+x)βlogπθ(yx)πref(yx))]\mathcal{L}_{DPO} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y^+|x)}{\pi_{ref}(y^+|x)} - \beta\log\frac{\pi_\theta(y^-|x)}{\pi_{ref}(y^-|x)}\right)\right]

其中 y+y^+ 是有guidance的成功轨迹,yy^- 是无guidance的失败轨迹,β\beta 控制偏离参考模型的程度。

Pass@1 提升: Δ=22.4%9.4%=+13.0 pp\Delta = 22.4\% - 9.4\% = +13.0 \text{ pp}

结合奖励模型(Reward Model)时:27.8%27.8\%(额外+5.4pp)


8. 实验说明了什么

主要结果:

  • 基础线:Qwen-2.5-72B Pass@1 = 9.4%
  • Agent-RLVR:Pass@1 = 22.4%(提升 138%)
  • Agent-RLVR + RM:Pass@1 = 27.8%

消融实验揭示的关键结论:

  1. 三类guidance缺一不可:仅用Plan guidance提升有限,三类综合使用效果最好。
  2. guidance质量影响显著:用较弱的LLM生成guidance效果下降,说明"导师质量"很重要。
  3. 不依赖guidance的泛化:测试时不使用任何guidance,说明模型确实学到了能力,而非依赖提示。
  4. 迭代收益递减:多轮迭代后提升趋于平稳,模型能力存在上限。

9. 现实应用情况

  • Scale AI 在内部 Agent 评估数据集上验证,覆盖 SWE-Agent 风格任务
  • 方法通用性好:guidance机制可以迁移到任何多步骤任务(网页操作、数据分析等)
  • 工程成本:需要一个强力外部 LLM 参与训练,增加了训练成本,但测试时无额外成本
  • 业界影响:Scale AI 的工作与 OpenAI、Anthropic 的内部 Agent 训练思路高度相关

10. 对 Agent 的意义

这篇论文从根本上改变了"如何训练 Agent"的思路:

  1. 破解冷启动问题:Agent RL 训练的最大障碍是初期没有成功样本,Agent-RLVR 用外部 LLM 提供的 guidance"制造"初期成功轨迹,打破恶性循环。

  2. 训练时用强模型,测试时用小模型:用 claude-3-7-sonnet 在训练时当"导师",让 Qwen-72B 在测试时独立工作——这是一种高效的能力蒸馏思路。

  3. 多步骤推理的关键:Agent 失败往往在某个"关键节点"(如工具调用方式错误),guidance 在这些节点上的干预比全程指导更有效。

  4. 可扩展的训练范式:随着更强 LLM 的出现,guidance 质量自然提升,形成正向飞轮。


11. 与 LLM 后训练的关系

Agent-RLVR 代表了 LLM 后训练在 Agent 任务上的关键突破,核心贡献是解决了 RLVR 无法直接应用于长序列、多步骤任务的问题:

后训练方式适用场景数据来源Agent任务适用性
SFT行为模仿人工标注轨迹一般(天花板低)
RLHF偏好对齐人类反馈差(成本高)
RLVR(数学)单步推理可验证答案差(稀疏奖励)
Agent-RLVR多步骤Agent外部LLM guidance好(本文贡献)

更深层的意义在于:Agent-RLVR 揭示了后训练不应只是"让模型做更多正确的事",还要解决"当模型不会时如何帮助它学会"的问题。Guidance 机制本质上是在训练数据分布之外注入更多信号,是对 RLVR 框架的重要补充。


12. 对初学者最值得学什么(Top 3)

  1. 稀疏奖励问题的本质:理解为什么数学RL成功而Agent RL难,关键是认识到"失败率"对梯度更新的影响。这是理解所有Agent RL工作的基础。

  2. Guidance的设计逻辑:三类guidance(Plan/Feedback/Interaction)对应Agent失败的三种根本原因(不知怎么规划/误解环境状态/不会用工具),这种分类框架可以迁移到其他Agent任务。

  3. 训练时强模型 + 测试时弱模型的范式:用GPT-4/Claude在训练时指导Qwen/Llama,让弱模型学会强模型的能力,是一种非常实用的产品化思路,成本可控。


13. 局限性

  1. 依赖强力外部 LLM:guidance质量决定训练效果,若没有 claude-3-7-sonnet 级别的模型,效果会打折扣。
  2. 训练成本高:每次失败的rollout都需要调用外部LLM生成guidance,增加了训练API成本。
  3. guidance覆盖率有限:外部LLM也无法保证guidance总能帮助模型成功,对极难任务效果有限。
  4. 数据分布偏移:有guidance的训练轨迹与无guidance的测试场景存在分布差距,模型是否真正学到内化了能力还需要更多验证。
  5. 评估任务范围有限:主要在 SWE-Agent 风格任务验证,其他类型 Agent 任务(如网页操作、数据分析)的效果待验证。

14. 技术演进图谱

RLVR 数学成功(DeepSeek-R1, 2024.12)
         ↓
尝试 Agent RLVR → 失败(稀疏奖励)
         ↓
Agent-RLVR(Scale AI, 2025.6)
    ├── 解决方案:外部LLM提供guidance
    ├── 训练范式:失败→guidance→重试→DPO更新
    └── 证明了:多步骤Agent任务可以有效RL训练
         ↓
未来方向:
    ├── 自动生成guidance(无需人工选择guidance类型)
    ├── 模型自我反思生成guidance(去除外部LLM依赖)
    └── 与Self-play结合(Agent教Agent)

15. 阅读难度评级

★★★☆☆(中等)

核心思路非常直观(用导师帮助失败的学生),但需要理解DPO、RLVR等后训练基础概念。实验设计部分较扎实,值得仔细阅读。


预计阅读时间:12分钟