【阅读笔记】Agent-RLVR:用 Guidance 破解 Agent RL 的稀疏奖励难题
论文链接:https://arxiv.org/abs/2506.11425 作者:Scale AI,2025年6月
1. 一句话总结
在多步骤 Agent 任务中,用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境,让 RL 训练从稀疏奖励中有效学习,Pass@1 从9.4%提升至22.4%。
2. 背景知识
什么是稀疏奖励(Sparse Reward)? 想象你在学走迷宫,但只有走出迷宫才能得到一颗糖——过程中无论如何都没有提示。这就是稀疏奖励:大多数时候奖励为0,只有最终成功才有正奖励。
对简单任务(数学题:答案对就是对),稀疏奖励 OK。但对多步骤 Agent 任务(SWE 修 Bug:需要搜索文件→理解代码→生成修复→验证),一步走错,最终全部失败,奖励始终是0,模型无法学到任何东西。
RLVR(Reinforcement Learning with Verifiable Rewards)是什么? 用可客观验证的奖励信号来做 RL。数学题的对错很容易验证,所以 RLVR 在数学上大获成功(DeepSeek-R1等)。但 Agent 任务验证代价高、失败率高,RLVR 就不好使了。
DPO(Direct Preference Optimization)是什么? 一种比 PPO 更简单的 RL 算法:给模型看"好答案 vs 坏答案"的对比对,直接让模型学会偏好好答案。不需要实时计算奖励,训练更稳定。
3. 为什么会出现这篇论文(技术演进路线)
RLVR 数学成功(DeepSeek-R1等,2024底)
↓
尝试迁移到 Agent 任务
↓
发现问题:多步骤任务失败率极高(>90%的rollout全部失败)
→ 奖励始终为0 → 梯度为0 → 模型无法更新
↓
旧方案:课程学习(从简单任务开始)、奖励塑形(中间步骤也给奖励)
↓
问题:课程学习需要大量标注难度,奖励塑形难以设计
↓
Agent-RLVR(2025.6):外部LLM当"导师",失败时给guidance帮助模型成功
4. 试图解决的问题
核心问题:Agent RL 训练中的稀疏奖励陷阱
具体表现:
- 多步骤任务(如修复 GitHub bug)需要10-30个决策步骤
- 任意一步出错(如搜索文件失败)→ 后续全部失败 → 最终奖励=0
- 初始模型能力弱,大多数 rollout 全部失败
- 没有成功案例 → RL 梯度为0 → 模型无法改进 → 恶性循环
这个问题在 LLM 数学 RL 中不存在(单步生成,失败率相对低),是 Agent RL 特有的挑战。
5. 核心创新
直觉理解:给实习生配一个"随叫随到的导师"
正常训练(无guidance):实习生独立完成任务,失败了也没人告诉他哪里错了,只知道"这次没做好"。
Agent-RLVR:实习生先独立尝试(无guidance rollout)→ 失败了 → 导师(外部LLM)介入提供具体建议 → 实习生重试(有guidance rollout)→ 成功了 → 用成功轨迹更新实习生的能力。
关键:导师(claude-3-7-sonnet)只在训练时出现,测试时实习生要独立工作。
三类 Guidance 详解:
| Guidance类型 | 何时使用 | 内容示例 |
|---|---|---|
| Plan(计划) | 任务开始时,提供结构化执行计划 | "先搜索calculate_discount函数,再查看调用它的地方,最后修改边界条件处理" |
| Environment Feedback(环境反馈) | 模型对环境状态产生误判时 | "你搜索的文件路径不对,正确文件在src/utils/目录下" |
| Environment Interaction(交互指引) | 模型不知道如何与工具交互时 | "调用read_file工具需要传入完整路径,格式为./src/file.py" |
与旧方案对比:
| 维度 | 课程学习 | 奖励塑形 | Agent-RLVR |
|---|---|---|---|
| 需要额外标注? | 是(任务难度) | 是(中间步骤奖励) | 否(guidance自动生成) |
| 测试时是否依赖? | 否 | 否 | 否(训练专用) |
| 能处理新任务类型? | 差 | 差 | 好(guidance适应性强) |
| 实现复杂度 | 中 | 高 | 中 |
6. 算法流程
Step 1:无 Guidance 尝试(探索阶段) 用基础模型(Qwen-2.5-72B-Instruct)在任务上独立生成 rollout,不提供任何外部帮助。
Step 2:失败检测 检查该 rollout 是否失败(最终奖励=0)。成功的 rollout 直接进入Step 4。
Step 3:Guidance 生成与重试(仅失败时)
- 将失败轨迹发送给外部 LLM(claude-3-7-sonnet)
- 外部 LLM 分析失败原因,生成对应类型的 guidance
- 基础模型接收 guidance,重新执行任务(带guidance rollout)
Step 4:构建训练对
- 正例:有guidance且成功的轨迹
- 负例:无guidance且失败的轨迹
- 构成 preference pairs(偏好对)
Step 5:DPO 更新 用上述偏好对做 DPO 训练,直接优化模型偏好成功行为模式。
Step 6:迭代 更新后的模型作为新的基础模型,重复 Step 1-5,多轮迭代。
7. 关键公式
DPO 损失函数(核心):
其中 是有guidance的成功轨迹, 是无guidance的失败轨迹, 控制偏离参考模型的程度。
Pass@1 提升:
结合奖励模型(Reward Model)时:(额外+5.4pp)
8. 实验说明了什么
主要结果:
- 基础线:Qwen-2.5-72B Pass@1 = 9.4%
- Agent-RLVR:Pass@1 = 22.4%(提升 138%)
- Agent-RLVR + RM:Pass@1 = 27.8%
消融实验揭示的关键结论:
- 三类guidance缺一不可:仅用Plan guidance提升有限,三类综合使用效果最好。
- guidance质量影响显著:用较弱的LLM生成guidance效果下降,说明"导师质量"很重要。
- 不依赖guidance的泛化:测试时不使用任何guidance,说明模型确实学到了能力,而非依赖提示。
- 迭代收益递减:多轮迭代后提升趋于平稳,模型能力存在上限。
9. 现实应用情况
- Scale AI 在内部 Agent 评估数据集上验证,覆盖 SWE-Agent 风格任务
- 方法通用性好:guidance机制可以迁移到任何多步骤任务(网页操作、数据分析等)
- 工程成本:需要一个强力外部 LLM 参与训练,增加了训练成本,但测试时无额外成本
- 业界影响:Scale AI 的工作与 OpenAI、Anthropic 的内部 Agent 训练思路高度相关
10. 对 Agent 的意义
这篇论文从根本上改变了"如何训练 Agent"的思路:
-
破解冷启动问题:Agent RL 训练的最大障碍是初期没有成功样本,Agent-RLVR 用外部 LLM 提供的 guidance"制造"初期成功轨迹,打破恶性循环。
-
训练时用强模型,测试时用小模型:用 claude-3-7-sonnet 在训练时当"导师",让 Qwen-72B 在测试时独立工作——这是一种高效的能力蒸馏思路。
-
多步骤推理的关键:Agent 失败往往在某个"关键节点"(如工具调用方式错误),guidance 在这些节点上的干预比全程指导更有效。
-
可扩展的训练范式:随着更强 LLM 的出现,guidance 质量自然提升,形成正向飞轮。
11. 与 LLM 后训练的关系
Agent-RLVR 代表了 LLM 后训练在 Agent 任务上的关键突破,核心贡献是解决了 RLVR 无法直接应用于长序列、多步骤任务的问题:
| 后训练方式 | 适用场景 | 数据来源 | Agent任务适用性 |
|---|---|---|---|
| SFT | 行为模仿 | 人工标注轨迹 | 一般(天花板低) |
| RLHF | 偏好对齐 | 人类反馈 | 差(成本高) |
| RLVR(数学) | 单步推理 | 可验证答案 | 差(稀疏奖励) |
| Agent-RLVR | 多步骤Agent | 外部LLM guidance | 好(本文贡献) |
更深层的意义在于:Agent-RLVR 揭示了后训练不应只是"让模型做更多正确的事",还要解决"当模型不会时如何帮助它学会"的问题。Guidance 机制本质上是在训练数据分布之外注入更多信号,是对 RLVR 框架的重要补充。
12. 对初学者最值得学什么(Top 3)
-
稀疏奖励问题的本质:理解为什么数学RL成功而Agent RL难,关键是认识到"失败率"对梯度更新的影响。这是理解所有Agent RL工作的基础。
-
Guidance的设计逻辑:三类guidance(Plan/Feedback/Interaction)对应Agent失败的三种根本原因(不知怎么规划/误解环境状态/不会用工具),这种分类框架可以迁移到其他Agent任务。
-
训练时强模型 + 测试时弱模型的范式:用GPT-4/Claude在训练时指导Qwen/Llama,让弱模型学会强模型的能力,是一种非常实用的产品化思路,成本可控。
13. 局限性
- 依赖强力外部 LLM:guidance质量决定训练效果,若没有 claude-3-7-sonnet 级别的模型,效果会打折扣。
- 训练成本高:每次失败的rollout都需要调用外部LLM生成guidance,增加了训练API成本。
- guidance覆盖率有限:外部LLM也无法保证guidance总能帮助模型成功,对极难任务效果有限。
- 数据分布偏移:有guidance的训练轨迹与无guidance的测试场景存在分布差距,模型是否真正学到内化了能力还需要更多验证。
- 评估任务范围有限:主要在 SWE-Agent 风格任务验证,其他类型 Agent 任务(如网页操作、数据分析)的效果待验证。
14. 技术演进图谱
RLVR 数学成功(DeepSeek-R1, 2024.12)
↓
尝试 Agent RLVR → 失败(稀疏奖励)
↓
Agent-RLVR(Scale AI, 2025.6)
├── 解决方案:外部LLM提供guidance
├── 训练范式:失败→guidance→重试→DPO更新
└── 证明了:多步骤Agent任务可以有效RL训练
↓
未来方向:
├── 自动生成guidance(无需人工选择guidance类型)
├── 模型自我反思生成guidance(去除外部LLM依赖)
└── 与Self-play结合(Agent教Agent)
15. 阅读难度评级
★★★☆☆(中等)
核心思路非常直观(用导师帮助失败的学生),但需要理解DPO、RLVR等后训练基础概念。实验设计部分较扎实,值得仔细阅读。
预计阅读时间:12分钟