【阅读笔记】Agent-RLVR：用 Guidance 破解 Agent RL 的稀疏奖励难题

论文链接：https://arxiv.org/abs/2506.11425 作者：Scale AI，2025年6月

1. 一句话总结

在多步骤 Agent 任务中，用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境，让 RL 训练从稀疏奖励中有效学习，Pass@1 从9.4%提升至22.4%。

2. 背景知识

什么是稀疏奖励（Sparse Reward）？ 想象你在学走迷宫，但只有走出迷宫才能得到一颗糖——过程中无论如何都没有提示。这就是稀疏奖励：大多数时候奖励为0，只有最终成功才有正奖励。

对简单任务（数学题：答案对就是对），稀疏奖励 OK。但对多步骤 Agent 任务（SWE 修 Bug：需要搜索文件→理解代码→生成修复→验证），一步走错，最终全部失败，奖励始终是0，模型无法学到任何东西。

RLVR（Reinforcement Learning with Verifiable Rewards）是什么？ 用可客观验证的奖励信号来做 RL。数学题的对错很容易验证，所以 RLVR 在数学上大获成功（DeepSeek-R1等）。但 Agent 任务验证代价高、失败率高，RLVR 就不好使了。

DPO（Direct Preference Optimization）是什么？ 一种比 PPO 更简单的 RL 算法：给模型看"好答案 vs 坏答案"的对比对，直接让模型学会偏好好答案。不需要实时计算奖励，训练更稳定。

3. 为什么会出现这篇论文（技术演进路线）

RLVR 数学成功（DeepSeek-R1等，2024底）
      ↓
尝试迁移到 Agent 任务
      ↓
发现问题：多步骤任务失败率极高（>90%的rollout全部失败）
           → 奖励始终为0 → 梯度为0 → 模型无法更新
      ↓
旧方案：课程学习（从简单任务开始）、奖励塑形（中间步骤也给奖励）
      ↓
问题：课程学习需要大量标注难度，奖励塑形难以设计
      ↓
Agent-RLVR（2025.6）：外部LLM当"导师"，失败时给guidance帮助模型成功

4. 试图解决的问题

核心问题：Agent RL 训练中的稀疏奖励陷阱

具体表现：

多步骤任务（如修复 GitHub bug）需要10-30个决策步骤
任意一步出错（如搜索文件失败）→ 后续全部失败 → 最终奖励=0
初始模型能力弱，大多数 rollout 全部失败
没有成功案例 → RL 梯度为0 → 模型无法改进 → 恶性循环

这个问题在 LLM 数学 RL 中不存在（单步生成，失败率相对低），是 Agent RL 特有的挑战。

5. 核心创新

直觉理解：给实习生配一个"随叫随到的导师"

正常训练（无guidance）：实习生独立完成任务，失败了也没人告诉他哪里错了，只知道"这次没做好"。

Agent-RLVR：实习生先独立尝试（无guidance rollout）→ 失败了 → 导师（外部LLM）介入提供具体建议 → 实习生重试（有guidance rollout）→ 成功了 → 用成功轨迹更新实习生的能力。

关键：导师（claude-3-7-sonnet）只在训练时出现，测试时实习生要独立工作。

三类 Guidance 详解：

Guidance类型	何时使用	内容示例
Plan（计划）	任务开始时，提供结构化执行计划	"先搜索`calculate_discount`函数，再查看调用它的地方，最后修改边界条件处理"
Environment Feedback（环境反馈）	模型对环境状态产生误判时	"你搜索的文件路径不对，正确文件在`src/utils/`目录下"
Environment Interaction（交互指引）	模型不知道如何与工具交互时	"调用`read_file`工具需要传入完整路径，格式为`./src/file.py`"

与旧方案对比：

维度	课程学习	奖励塑形	Agent-RLVR
需要额外标注？	是（任务难度）	是（中间步骤奖励）	否（guidance自动生成）
测试时是否依赖？	否	否	否（训练专用）
能处理新任务类型？	差	差	好（guidance适应性强）
实现复杂度	中	高	中

6. 算法流程

Step 1：无 Guidance 尝试（探索阶段） 用基础模型（Qwen-2.5-72B-Instruct）在任务上独立生成 rollout，不提供任何外部帮助。

Step 2：失败检测 检查该 rollout 是否失败（最终奖励=0）。成功的 rollout 直接进入Step 4。

Step 3：Guidance 生成与重试（仅失败时）

将失败轨迹发送给外部 LLM（claude-3-7-sonnet）
外部 LLM 分析失败原因，生成对应类型的 guidance
基础模型接收 guidance，重新执行任务（带guidance rollout）

Step 4：构建训练对

正例：有guidance且成功的轨迹
负例：无guidance且失败的轨迹
构成 preference pairs（偏好对）

Step 5：DPO 更新 用上述偏好对做 DPO 训练，直接优化模型偏好成功行为模式。

Step 6：迭代 更新后的模型作为新的基础模型，重复 Step 1-5，多轮迭代。

7. 关键公式

DPO 损失函数（核心）： $\mathcal{L}_{DPO} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y^+|x)}{\pi_{ref}(y^+|x)} - \beta\log\frac{\pi_\theta(y^-|x)}{\pi_{ref}(y^-|x)}\right)\right]$

其中 $y^+$ 是有guidance的成功轨迹， $y^-$ 是无guidance的失败轨迹， $\beta$ 控制偏离参考模型的程度。

Pass@1 提升： $\Delta = 22.4\% - 9.4\% = +13.0 \text{ pp}$

结合奖励模型（Reward Model）时： $27.8\%$ （额外+5.4pp）

8. 实验说明了什么

主要结果：

基础线：Qwen-2.5-72B Pass@1 = 9.4%
Agent-RLVR：Pass@1 = 22.4%（提升 138%）
Agent-RLVR + RM：Pass@1 = 27.8%

消融实验揭示的关键结论：

三类guidance缺一不可：仅用Plan guidance提升有限，三类综合使用效果最好。
guidance质量影响显著：用较弱的LLM生成guidance效果下降，说明"导师质量"很重要。
不依赖guidance的泛化：测试时不使用任何guidance，说明模型确实学到了能力，而非依赖提示。
迭代收益递减：多轮迭代后提升趋于平稳，模型能力存在上限。

9. 现实应用情况

Scale AI 在内部 Agent 评估数据集上验证，覆盖 SWE-Agent 风格任务
方法通用性好：guidance机制可以迁移到任何多步骤任务（网页操作、数据分析等）
工程成本：需要一个强力外部 LLM 参与训练，增加了训练成本，但测试时无额外成本
业界影响：Scale AI 的工作与 OpenAI、Anthropic 的内部 Agent 训练思路高度相关

10. 对 Agent 的意义

这篇论文从根本上改变了"如何训练 Agent"的思路：

破解冷启动问题：Agent RL 训练的最大障碍是初期没有成功样本，Agent-RLVR 用外部 LLM 提供的 guidance"制造"初期成功轨迹，打破恶性循环。
训练时用强模型，测试时用小模型：用 claude-3-7-sonnet 在训练时当"导师"，让 Qwen-72B 在测试时独立工作——这是一种高效的能力蒸馏思路。
多步骤推理的关键：Agent 失败往往在某个"关键节点"（如工具调用方式错误），guidance 在这些节点上的干预比全程指导更有效。
可扩展的训练范式：随着更强 LLM 的出现，guidance 质量自然提升，形成正向飞轮。

11. 与 LLM 后训练的关系

Agent-RLVR 代表了 LLM 后训练在 Agent 任务上的关键突破，核心贡献是解决了 RLVR 无法直接应用于长序列、多步骤任务的问题：

后训练方式	适用场景	数据来源	Agent任务适用性
SFT	行为模仿	人工标注轨迹	一般（天花板低）
RLHF	偏好对齐	人类反馈	差（成本高）
RLVR（数学）	单步推理	可验证答案	差（稀疏奖励）
Agent-RLVR	多步骤Agent	外部LLM guidance	好（本文贡献）

更深层的意义在于：Agent-RLVR 揭示了后训练不应只是"让模型做更多正确的事"，还要解决"当模型不会时如何帮助它学会"的问题。Guidance 机制本质上是在训练数据分布之外注入更多信号，是对 RLVR 框架的重要补充。

12. 对初学者最值得学什么（Top 3）

稀疏奖励问题的本质：理解为什么数学RL成功而Agent RL难，关键是认识到"失败率"对梯度更新的影响。这是理解所有Agent RL工作的基础。
Guidance的设计逻辑：三类guidance（Plan/Feedback/Interaction）对应Agent失败的三种根本原因（不知怎么规划/误解环境状态/不会用工具），这种分类框架可以迁移到其他Agent任务。
训练时强模型 + 测试时弱模型的范式：用GPT-4/Claude在训练时指导Qwen/Llama，让弱模型学会强模型的能力，是一种非常实用的产品化思路，成本可控。

13. 局限性

依赖强力外部 LLM：guidance质量决定训练效果，若没有 claude-3-7-sonnet 级别的模型，效果会打折扣。
训练成本高：每次失败的rollout都需要调用外部LLM生成guidance，增加了训练API成本。
guidance覆盖率有限：外部LLM也无法保证guidance总能帮助模型成功，对极难任务效果有限。
数据分布偏移：有guidance的训练轨迹与无guidance的测试场景存在分布差距，模型是否真正学到内化了能力还需要更多验证。
评估任务范围有限：主要在 SWE-Agent 风格任务验证，其他类型 Agent 任务（如网页操作、数据分析）的效果待验证。

14. 技术演进图谱

RLVR 数学成功（DeepSeek-R1, 2024.12）
         ↓
尝试 Agent RLVR → 失败（稀疏奖励）
         ↓
Agent-RLVR（Scale AI, 2025.6）
    ├── 解决方案：外部LLM提供guidance
    ├── 训练范式：失败→guidance→重试→DPO更新
    └── 证明了：多步骤Agent任务可以有效RL训练
         ↓
未来方向：
    ├── 自动生成guidance（无需人工选择guidance类型）
    ├── 模型自我反思生成guidance（去除外部LLM依赖）
    └── 与Self-play结合（Agent教Agent）

15. 阅读难度评级

★★★☆☆（中等）

核心思路非常直观（用导师帮助失败的学生），但需要理解DPO、RLVR等后训练基础概念。实验设计部分较扎实，值得仔细阅读。

预计阅读时间：12分钟