【阅读笔记】DeepResearcher：在真实 Web 环境中端到端 RL 训练深度研究 Agent

原文链接：https://arxiv.org/abs/2504.03160 提交时间：2025年4月4日

1. 一句话总结

这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习，学会鲁棒的深度研究能力的问题。

2. 背景知识

"深度研究" Agent 是什么？

给定一个开放性问题（如"分析2024年全球电动车市场格局"），Agent 需要：

自主在互联网上搜索多个来源
阅读、解析不同格式的网页（新闻、学术文章、数据表格等）
发现信息之间的矛盾时能自我纠正
最终综合所有信息，输出有据可查的深度报告

目前主流的做法（研究前）：

想象你在训练一个"模拟驾驶员"。有两种方式：

RAG 方案：在固定地图（预先检索好的文档库）上训练，成本低但地图不更新，现实开车时会迷路
受控模拟器 RL：在模拟城市里训练，能处理动态情况，但模拟场景和真实街道有差距

DeepResearcher 的做法是：直接在真实互联网上训练——就像直接在真实街道上让驾驶员边开边学，奖励是"到达目的地"。

强化学习基础回顾： RL 的核心逻辑：Agent 执行动作 → 环境给出反馈（奖励）→ 调整策略 → 循环。对于 Deep Research，"环境"就是真实互联网，"动作"就是搜索/点击/阅读，"奖励"就是最终答案的准确性。

3. 为什么会出现这篇论文（技术演进路线）

静态知识库问答（2021）     → 单轮 RAG（2022）
↓
ReAct + 搜索工具（2022）    → Prompt 工程 Agent（脆弱，不稳定）
↓
受控环境 RL Agent（2023）   → 在模拟或受控 RAG 中训练
│  代表：WebGPT, WebAgent
│  问题：训练环境与真实互联网差距大 → 泛化能力弱
↓
真实环境端到端 RL（2025）   ← DeepResearcher 的位置
│  突破：真实互联网作为训练环境
│         多 Agent 架构处理复杂网页
↓
（预测）持续在线学习 Agent

为什么之前没有在真实 Web 上训练？

真实互联网不稳定、不可重复（同一 URL 内容随时变化）
网页格式极度多样（JS 渲染页面、PDF、表格、动态内容），解析困难
训练信号稀疏：完成一次研究任务需要数十步，奖励只在最后出现
计算成本高：每次采样需要真实网络请求

DeepResearcher 是第一个系统性解决上述问题、真正在真实 Web 上完成端到端 RL 训练的工作。

4. 试图解决的问题

问题一：RAG 方案的"封闭世界"局限

现象：RAG 只能检索预先索引好的文档，无法发现训练时未见过的新信息
为什么难：真实研究任务往往需要探索未知信息空间，这与 RAG 的设计假设根本矛盾
影响：在信息需要实时更新的任务上（如市场动态、最新研究进展）表现很差

问题二：Prompt 工程基线的脆弱性

现象：精心设计的 Agent Prompt 在某类任务上效果好，迁移到其他任务或换了一种提问方式就失效
为什么难：Prompt 本质上是人工规则，真实研究任务的多样性远超任何规则集合
影响：产品化困难，需要持续人工维护

问题三：受控环境 RL 的泛化缺口（Sim-to-Real Gap）

现象：在受控 RAG 环境中通过 RL 训练的 Agent，在真实互联网上表现大幅下降
为什么难：真实网页包含噪声、广告、JS 渲染内容，与清洗好的训练环境有根本差异
影响：模型在训练时"学会走捷径"，这些捷径在真实环境中不可用

问题四：多样化网页内容的处理

现象：不同网页结构差异巨大（新闻文章、学术论文、电商页面、论坛帖子）
为什么难：单一解析策略无法有效处理所有格式
影响：信息提取质量参差不齐，影响研究报告的可靠性

5. 核心创新（最重要！）

创新一：真实 Web 环境端到端 RL 训练

作者做了什么： 将真实互联网作为 RL 训练环境——模型在训练时真实地访问网页、处理动态内容、应对网络延迟和格式多样性，奖励信号来自最终答案的准确性评估。

直觉理解： 这就像学游泳的两种方式：

旧方法：在泳池模型（受控 RAG）里学，水温固定、泳道清晰、没有波浪
新方法：直接跳进真实的湖里（真实互联网）学，有水草、有波浪、能见度低

"湖里游泳"学出来的技能在真实湖里用才可靠。

和旧方案对比：

维度	RAG-based RL	Prompt 工程	DeepResearcher（真实 Web RL）
训练环境	受控静态文档库	无训练（规则设计）	真实互联网
信息时效性	受限于索引时间	受限于 LLM 知识截止	实时访问最新信息
泛化能力	弱（依赖语料库）	弱（依赖任务类型）	强（在真实多样环境中训练）
对噪声的鲁棒性	弱（训练数据是干净的）	弱（Prompt 对噪声敏感）	强（训练时直面真实噪声）
涌现行为	基本没有	基本没有	自发出现多源交叉验证、诚实承认不知道

如果没有这个创新： 模型只会在模拟环境中表现好，真实部署时表现大幅下降，失去实用价值。

创新二：多 Agent 架构（主 Agent + 专门浏览 Agent）

作者做了什么： 将研究任务分给两类 Agent：

主 Agent（Research Agent）：负责高层规划——分解问题、决定搜索策略、综合信息、生成报告
浏览 Agent（Browser Agent）：专门处理网页内容——根据不同网页类型（新闻、学术、论坛等）采用不同解析策略

直觉理解： 就像一个研究团队：项目经理（主 Agent）负责整体方向和信息整合，数据分析师（浏览 Agent）负责具体的内容提取和解析。分工使每个角色都能专精，提升整体效率和质量。

旧方案 vs 新方案：

维度	单一 Agent	多 Agent（DeepResearcher）
角色分工	一个模型包揽所有	主 Agent + 专门浏览 Agent
处理多样网页	策略单一，质量不稳定	针对不同网页结构专门优化
可扩展性	扩展困难	可以增加新的专门 Agent
错误传播	单点故障	分层处理，降低错误传播

创新三：涌现的高级研究行为

最重要的发现（不是设计出来的，是自然涌现的）：

通过真实 Web 环境的 RL 训练，模型自发学会了以下研究技能——这些没有被显式编程进去：

制定研究计划：在开始搜索前主动拆解问题，规划信息获取路径
多源交叉验证：主动用多个来源核实同一信息，而不是信第一个找到的
自我反思与方向调整：发现当前方向无效时，主动回溯并切换策略
诚实面对信息缺口：找不到信息时承认"我没有找到"，而不是编造答案

这些行为的涌现，是论文最核心的发现——证明了在真实环境中的 RL 训练能让模型自主发展出复杂认知策略。

6. 算法/系统流程

Step 1：接收研究问题
   │  （如："分析2024年全球人工智能监管政策进展"）
   ↓
Step 2：主 Agent 规划研究路径
   │  → 问题分解（拆成多个子问题）
   │  → 确定搜索优先级
   ↓
Step 3：迭代信息收集循环
   │  主 Agent 发出搜索指令
   │      ↓
   │  浏览 Agent 执行：
   │  → 识别网页类型（新闻/学术/论坛/政府文档…）
   │  → 针对性解析内容
   │  → 提取关键信息返回给主 Agent
   │      ↓
   │  主 Agent 判断：
   │  ├── 信息充足？→ 进入 Step 4
   │  ├── 发现矛盾？→ 多源交叉验证（返回 Step 3）
   │  └── 方向错误？→ 反思+调整策略（返回 Step 2）
   ↓
Step 4：信息综合
   │  主 Agent 汇总所有收集信息
   │  → 解决矛盾，确定权威来源
   │  → 组织逻辑结构
   ↓
Step 5：生成报告
   │  输出带引用的结构化研究报告
   │  若信息不足：明确说明"未能找到相关信息"
   ↓
Step 6（训练阶段）：奖励计算
   └── 对比标准答案，评估准确性 → 反向传播更新参数

训练关键设计：

使用 GRPO（Group Relative Policy Optimization）作为 RL 算法——比 PPO 计算效率更高，适合长轨迹训练
奖励函数设计：基于答案准确性（F1 分数等），不对中间步骤奖励（鼓励模型自主探索策略）

7. 关键公式/设计

GRPO（Group Relative Policy Optimization）奖励计算直觉：

GRPO 不是给单个轨迹打分，而是组内相对比较——对同一个问题，采样多条轨迹（不同搜索策略），然后比较哪条轨迹得到的答案更好，以此计算相对优势。

这样做的好处：

不需要单独训练一个 Critic 网络（节省计算资源）
相对比较比绝对打分更稳定（避免奖励尺度的校准问题）

类比：不是给每篇作文打分，而是让同学的作文互相比较，"你的比他的好，所以给你加分"。

8. 实验/数据说明了什么

主要实验设置：

评估基准：Bamboogle、GAIA、WebWalkerQA（需要真实网页交互的研究基准）
对比基线：Prompt 工程基线、RAG-based RL Agent、受控环境 RL Agent

核心结果：

对比对象	性能提升幅度
vs Prompt 工程基线	最高 +28.9 分
vs RAG-based RL Agent	最高 +7.2 分

实验说明了什么？

真实环境训练 >> 受控环境训练：最大 7.2 分的差距，证明 Sim-to-Real Gap 是真实存在的，在受控环境中学到的策略无法完全迁移到真实互联网
RL >> Prompt 工程：28.9 分的差距，证明自主策略学习远胜于人工规则设计——这个差距大到足以说明方法论上的根本优劣
涌现行为的价值：交叉验证、诚实承认不知道等行为并非凭空出现，而是真实环境压力下的自然选择结果

提升主要来自哪里？

对噪声网页的鲁棒处理（多 Agent 架构贡献）
遇到信息矛盾时的主动交叉验证（涌现行为贡献）
避免幻觉（诚实机制贡献）

9. 现实应用情况

直接采用证据： 截至 2025 年 4 月，DeepResearcher 是学术研究成果，尚未有大厂公开宣布直接采用该框架。但其核心思想与 OpenAI Deep Research、Google Deep Research 的技术路线高度吻合。

间接影响：

国内外多个 Agent 研究团队将"真实 Web RL 训练"作为重要研究方向
该论文的多 Agent 架构思路被后续工作引用和扩展
"涌现的研究行为"成为评估 Deep Research Agent 质量的重要观察维度

潜在应用场景（基于论文能力）：

智能研究助手（学术、商业情报）
自动化市场调研工具
事实核查系统（多源交叉验证天然适合）
企业知识管理（能处理多格式内部文档）

10. 对 Agent 的意义

Deep Research / Browser Agent 方向： DeepResearcher 是这个方向的学术侧奠基工作之一。它系统性证明了：

真实互联网是可训练的 RL 环境
多 Agent 分工（规划 + 浏览）比单 Agent 更有效
涌现的高级研究行为（交叉验证、自我纠正）是可以通过训练诱导出来的

RAG 方向的启示： 这篇论文对 RAG 是个警醒：当 Agent 能直接在真实互联网上动态检索时，静态预建索引库的价值会逐渐下降。未来 RAG 的竞争力可能更多来自"企业内部私有知识"的处理，而不是公开信息检索。

Multi-Agent 方向： 主 Agent + 浏览 Agent 的架构验证了角色分工在复杂任务中的有效性。这为更大规模的 Multi-Agent 系统（规划 Agent + 执行 Agent + 验证 Agent）提供了实证基础。

RLE（RL with Exploration）方向： 真实互联网是一个极端复杂的探索空间——搜索词的选择就是探索策略。DeepResearcher 的成功说明，即使在如此复杂的探索空间中，RL 训练也能收敛到有效策略。

11. 对初学者最值得学什么（Top 3）

第一：训练环境的真实性是迁移能力的根本 "在哪里训练，就擅长在哪里执行"——这是 RL for Agent 最核心的原则。DeepResearcher 的贡献不只是一个新模型，而是验证了"真实环境训练"这个方法论的有效性。

第二：涌现行为是评估 Agent 质量的重要指标 当模型在没有被显式教导的情况下，自发学会"多源交叉验证"和"诚实承认不知道"，这说明 RL 训练确实内化了某种程度的研究能力，而不只是记住了答案模式。学会识别和重视这类涌现行为，是理解 Agent RL 研究价值的关键。

第三：分工 vs 全能的权衡 Multi-Agent 架构（主 Agent + 浏览 Agent）表明，对于复杂任务，专业分工往往优于"一个模型包揽一切"。这个思想在系统设计层面有广泛的参考价值。

12. 局限性

论文自认的局限：

计算成本：真实 Web 交互的训练成本远高于受控环境，限制了训练规模
不可重复性：真实互联网内容随时变化，相同的训练步骤无法精确复现
网络依赖：训练和推理都需要稳定的网络连接，不适合离线或受限网络环境

深层局限：

奖励稀疏：最终答案准确性作为唯一奖励，中间步骤没有细粒度反馈，训练效率有提升空间
任务范围：评估主要集中在问答类研究任务，对需要持续跟踪、动态更新的研究任务支持有限
私有信息盲区：训练和推理都只能访问公开互联网，无法处理企业内网、付费数据库等私有信息源
多语言覆盖：真实 Web 训练数据主要以英文为主，中文或其他语言任务的表现有待验证

13. 技术演进图谱

静态问答 LLM              WebGPT（受控浏览）
（2020-2021）              （OpenAI, 2021）
      ↓                         ↓
  ReAct（2022）           WebAgent（受控 RL）
  工具调用雏形               （2023）
      ↓                         ↓
  RAG Agent              受控环境 RL Agent
  （2022-2023）             （2023-2024）
      ↓                         ↓
      └──────────┬──────────────┘
                 ↓
         DeepResearcher（2025）
         真实 Web 端到端 RL
         多 Agent 架构
                 ↑
            [本文位置]
                 ↓
         （预测）在线持续学习 Agent
         自我改进型研究 Agent
         私有知识源集成

14. 阅读难度评级

★★★★☆（较难）

前置知识需求：

必须：理解 LLM 基本工作原理和 Agent 基础概念
必须：了解 RL 基本框架（策略、奖励、价值函数）
推荐：了解 PPO 或 GRPO 等策略梯度算法
推荐：熟悉 RAG 和 Tool Use 的工程实现
加分：了解 WebAgent / WebGPT 等先前工作

注：这是一篇正式学术论文，实验设置和方法部分有一定技术深度，但整体逻辑清晰，有 LLM/Agent 基础的读者完全可以掌握核心思想。

15. 预估阅读时间

本篇笔记约 3000 字。

预计阅读时间：10 分钟

与 LLM 后训练的关系

DeepResearcher 从多个维度深刻影响了 LLM 后训练的方法论与未来方向：

1. 真实任务 RL 后训练是新范式

过去的 RLHF（Reinforcement Learning from Human Feedback）依赖人类偏好标注数据来训练奖励模型，再用 PPO 优化。DeepResearcher 证明了：对于特定任务（如深度研究），任务结果的客观准确性本身就是优质的奖励信号，不依赖人工标注。这是"从任务结果自监督"的后训练范式，可扩展性远优于人工标注方案。

2. 后训练任务选择的原则——真实性优先

DeepResearcher 的核心贡献之一是证明了"训练环境的真实性"对后训练效果的决定性影响。这对整个后训练领域有重要启示：在设计后训练任务时，应优先选择与实际部署场景一致的真实任务，而不是清洗好的、便于训练但偏离现实的合成任务。

3. 长轨迹 RL 后训练的工程挑战

DeepResearcher 的训练轨迹长达数十步，这比传统 RLHF（单轮或短对话）复杂得多。这对后训练的工程实现提出了新挑战：

如何高效存储和重放长轨迹（Replay Buffer 设计）
如何在长轨迹上有效反向传播梯度（避免梯度消失）
如何处理真实环境的不可重复性（不同 epoch 的轨迹不等价）

这些挑战是当前 LLM 后训练领域的活跃研究方向。

4. GRPO 在 Agent 后训练中的适用性

论文使用 GRPO 作为 RL 算法。GRPO 相比 PPO 的优势在于：不需要单独的 Critic 网络，通过组内相对比较来估算优势值，计算效率更高。这对长轨迹的 Agent 后训练尤为重要——长轨迹使得 Critic 网络的训练更加困难，GRPO 的无 Critic 设计降低了工程复杂度。

5. 涌现行为对后训练目标设计的启示

"诚实承认不知道"等涌现行为表明，RL 后训练不只优化了任务性能，还在某种程度上学到了与准确性相关的"认知风格"。这提醒后训练设计者：奖励函数的设计需要谨慎——过于狭窄的奖励可能错过对整体 Agent 能力有价值的涌现行为；适当留白（不对中间步骤过度约束）反而能让模型涌现出更丰富的能力。