【阅读笔记】DeepResearcher:在真实 Web 环境中端到端 RL 训练深度研究 Agent

RL Paper Reading入库于 2026/6/3|

【阅读笔记】DeepResearcher:在真实 Web 环境中端到端 RL 训练深度研究 Agent

原文链接:https://arxiv.org/abs/2504.03160 提交时间:2025年4月4日


1. 一句话总结

这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习,学会鲁棒的深度研究能力的问题。


2. 背景知识

"深度研究" Agent 是什么?

给定一个开放性问题(如"分析2024年全球电动车市场格局"),Agent 需要:

  1. 自主在互联网上搜索多个来源
  2. 阅读、解析不同格式的网页(新闻、学术文章、数据表格等)
  3. 发现信息之间的矛盾时能自我纠正
  4. 最终综合所有信息,输出有据可查的深度报告

目前主流的做法(研究前):

想象你在训练一个"模拟驾驶员"。有两种方式:

  • RAG 方案:在固定地图(预先检索好的文档库)上训练,成本低但地图不更新,现实开车时会迷路
  • 受控模拟器 RL:在模拟城市里训练,能处理动态情况,但模拟场景和真实街道有差距

DeepResearcher 的做法是:直接在真实互联网上训练——就像直接在真实街道上让驾驶员边开边学,奖励是"到达目的地"。

强化学习基础回顾: RL 的核心逻辑:Agent 执行动作 → 环境给出反馈(奖励)→ 调整策略 → 循环。对于 Deep Research,"环境"就是真实互联网,"动作"就是搜索/点击/阅读,"奖励"就是最终答案的准确性。


3. 为什么会出现这篇论文(技术演进路线)

静态知识库问答(2021)     → 单轮 RAG(2022)
↓
ReAct + 搜索工具(2022)    → Prompt 工程 Agent(脆弱,不稳定)
↓
受控环境 RL Agent(2023)   → 在模拟或受控 RAG 中训练
│  代表:WebGPT, WebAgent
│  问题:训练环境与真实互联网差距大 → 泛化能力弱
↓
真实环境端到端 RL(2025)   ← DeepResearcher 的位置
│  突破:真实互联网作为训练环境
│         多 Agent 架构处理复杂网页
↓
(预测)持续在线学习 Agent

为什么之前没有在真实 Web 上训练?

  • 真实互联网不稳定、不可重复(同一 URL 内容随时变化)
  • 网页格式极度多样(JS 渲染页面、PDF、表格、动态内容),解析困难
  • 训练信号稀疏:完成一次研究任务需要数十步,奖励只在最后出现
  • 计算成本高:每次采样需要真实网络请求

DeepResearcher 是第一个系统性解决上述问题、真正在真实 Web 上完成端到端 RL 训练的工作。


4. 试图解决的问题

问题一:RAG 方案的"封闭世界"局限

  • 现象:RAG 只能检索预先索引好的文档,无法发现训练时未见过的新信息
  • 为什么难:真实研究任务往往需要探索未知信息空间,这与 RAG 的设计假设根本矛盾
  • 影响:在信息需要实时更新的任务上(如市场动态、最新研究进展)表现很差

问题二:Prompt 工程基线的脆弱性

  • 现象:精心设计的 Agent Prompt 在某类任务上效果好,迁移到其他任务或换了一种提问方式就失效
  • 为什么难:Prompt 本质上是人工规则,真实研究任务的多样性远超任何规则集合
  • 影响:产品化困难,需要持续人工维护

问题三:受控环境 RL 的泛化缺口(Sim-to-Real Gap)

  • 现象:在受控 RAG 环境中通过 RL 训练的 Agent,在真实互联网上表现大幅下降
  • 为什么难:真实网页包含噪声、广告、JS 渲染内容,与清洗好的训练环境有根本差异
  • 影响:模型在训练时"学会走捷径",这些捷径在真实环境中不可用

问题四:多样化网页内容的处理

  • 现象:不同网页结构差异巨大(新闻文章、学术论文、电商页面、论坛帖子)
  • 为什么难:单一解析策略无法有效处理所有格式
  • 影响:信息提取质量参差不齐,影响研究报告的可靠性

5. 核心创新(最重要!)

创新一:真实 Web 环境端到端 RL 训练

作者做了什么: 将真实互联网作为 RL 训练环境——模型在训练时真实地访问网页、处理动态内容、应对网络延迟和格式多样性,奖励信号来自最终答案的准确性评估。

直觉理解: 这就像学游泳的两种方式:

  • 旧方法:在泳池模型(受控 RAG)里学,水温固定、泳道清晰、没有波浪
  • 新方法:直接跳进真实的湖里(真实互联网)学,有水草、有波浪、能见度低

"湖里游泳"学出来的技能在真实湖里用才可靠。

和旧方案对比:

维度RAG-based RLPrompt 工程DeepResearcher(真实 Web RL)
训练环境受控静态文档库无训练(规则设计)真实互联网
信息时效性受限于索引时间受限于 LLM 知识截止实时访问最新信息
泛化能力弱(依赖语料库)弱(依赖任务类型)强(在真实多样环境中训练)
对噪声的鲁棒性弱(训练数据是干净的)弱(Prompt 对噪声敏感)强(训练时直面真实噪声)
涌现行为基本没有基本没有自发出现多源交叉验证、诚实承认不知道

如果没有这个创新: 模型只会在模拟环境中表现好,真实部署时表现大幅下降,失去实用价值。

创新二:多 Agent 架构(主 Agent + 专门浏览 Agent)

作者做了什么: 将研究任务分给两类 Agent:

  • 主 Agent(Research Agent):负责高层规划——分解问题、决定搜索策略、综合信息、生成报告
  • 浏览 Agent(Browser Agent):专门处理网页内容——根据不同网页类型(新闻、学术、论坛等)采用不同解析策略

直觉理解: 就像一个研究团队:项目经理(主 Agent)负责整体方向和信息整合,数据分析师(浏览 Agent)负责具体的内容提取和解析。分工使每个角色都能专精,提升整体效率和质量。

旧方案 vs 新方案:

维度单一 Agent多 Agent(DeepResearcher)
角色分工一个模型包揽所有主 Agent + 专门浏览 Agent
处理多样网页策略单一,质量不稳定针对不同网页结构专门优化
可扩展性扩展困难可以增加新的专门 Agent
错误传播单点故障分层处理,降低错误传播

创新三:涌现的高级研究行为

最重要的发现(不是设计出来的,是自然涌现的):

通过真实 Web 环境的 RL 训练,模型自发学会了以下研究技能——这些没有被显式编程进去

  1. 制定研究计划:在开始搜索前主动拆解问题,规划信息获取路径
  2. 多源交叉验证:主动用多个来源核实同一信息,而不是信第一个找到的
  3. 自我反思与方向调整:发现当前方向无效时,主动回溯并切换策略
  4. 诚实面对信息缺口:找不到信息时承认"我没有找到",而不是编造答案

这些行为的涌现,是论文最核心的发现——证明了在真实环境中的 RL 训练能让模型自主发展出复杂认知策略。


6. 算法/系统流程

Step 1:接收研究问题
   │  (如:"分析2024年全球人工智能监管政策进展")
   ↓
Step 2:主 Agent 规划研究路径
   │  → 问题分解(拆成多个子问题)
   │  → 确定搜索优先级
   ↓
Step 3:迭代信息收集循环
   │  主 Agent 发出搜索指令
   │      ↓
   │  浏览 Agent 执行:
   │  → 识别网页类型(新闻/学术/论坛/政府文档…)
   │  → 针对性解析内容
   │  → 提取关键信息返回给主 Agent
   │      ↓
   │  主 Agent 判断:
   │  ├── 信息充足?→ 进入 Step 4
   │  ├── 发现矛盾?→ 多源交叉验证(返回 Step 3)
   │  └── 方向错误?→ 反思+调整策略(返回 Step 2)
   ↓
Step 4:信息综合
   │  主 Agent 汇总所有收集信息
   │  → 解决矛盾,确定权威来源
   │  → 组织逻辑结构
   ↓
Step 5:生成报告
   │  输出带引用的结构化研究报告
   │  若信息不足:明确说明"未能找到相关信息"
   ↓
Step 6(训练阶段):奖励计算
   └── 对比标准答案,评估准确性 → 反向传播更新参数

训练关键设计:

  • 使用 GRPO(Group Relative Policy Optimization)作为 RL 算法——比 PPO 计算效率更高,适合长轨迹训练
  • 奖励函数设计:基于答案准确性(F1 分数等),不对中间步骤奖励(鼓励模型自主探索策略)

7. 关键公式/设计

GRPO(Group Relative Policy Optimization)奖励计算直觉:

GRPO 不是给单个轨迹打分,而是组内相对比较——对同一个问题,采样多条轨迹(不同搜索策略),然后比较哪条轨迹得到的答案更好,以此计算相对优势。

这样做的好处:

  • 不需要单独训练一个 Critic 网络(节省计算资源)
  • 相对比较比绝对打分更稳定(避免奖励尺度的校准问题)

类比:不是给每篇作文打分,而是让同学的作文互相比较,"你的比他的好,所以给你加分"。


8. 实验/数据说明了什么

主要实验设置:

  • 评估基准:Bamboogle、GAIA、WebWalkerQA(需要真实网页交互的研究基准)
  • 对比基线:Prompt 工程基线、RAG-based RL Agent、受控环境 RL Agent

核心结果:

对比对象性能提升幅度
vs Prompt 工程基线最高 +28.9 分
vs RAG-based RL Agent最高 +7.2 分

实验说明了什么?

  1. 真实环境训练 >> 受控环境训练:最大 7.2 分的差距,证明 Sim-to-Real Gap 是真实存在的,在受控环境中学到的策略无法完全迁移到真实互联网
  2. RL >> Prompt 工程:28.9 分的差距,证明自主策略学习远胜于人工规则设计——这个差距大到足以说明方法论上的根本优劣
  3. 涌现行为的价值:交叉验证、诚实承认不知道等行为并非凭空出现,而是真实环境压力下的自然选择结果

提升主要来自哪里?

  • 对噪声网页的鲁棒处理(多 Agent 架构贡献)
  • 遇到信息矛盾时的主动交叉验证(涌现行为贡献)
  • 避免幻觉(诚实机制贡献)

9. 现实应用情况

直接采用证据: 截至 2025 年 4 月,DeepResearcher 是学术研究成果,尚未有大厂公开宣布直接采用该框架。但其核心思想与 OpenAI Deep Research、Google Deep Research 的技术路线高度吻合。

间接影响:

  • 国内外多个 Agent 研究团队将"真实 Web RL 训练"作为重要研究方向
  • 该论文的多 Agent 架构思路被后续工作引用和扩展
  • "涌现的研究行为"成为评估 Deep Research Agent 质量的重要观察维度

潜在应用场景(基于论文能力):

  • 智能研究助手(学术、商业情报)
  • 自动化市场调研工具
  • 事实核查系统(多源交叉验证天然适合)
  • 企业知识管理(能处理多格式内部文档)

10. 对 Agent 的意义

Deep Research / Browser Agent 方向: DeepResearcher 是这个方向的学术侧奠基工作之一。它系统性证明了:

  1. 真实互联网是可训练的 RL 环境
  2. 多 Agent 分工(规划 + 浏览)比单 Agent 更有效
  3. 涌现的高级研究行为(交叉验证、自我纠正)是可以通过训练诱导出来的

RAG 方向的启示: 这篇论文对 RAG 是个警醒:当 Agent 能直接在真实互联网上动态检索时,静态预建索引库的价值会逐渐下降。未来 RAG 的竞争力可能更多来自"企业内部私有知识"的处理,而不是公开信息检索。

Multi-Agent 方向: 主 Agent + 浏览 Agent 的架构验证了角色分工在复杂任务中的有效性。这为更大规模的 Multi-Agent 系统(规划 Agent + 执行 Agent + 验证 Agent)提供了实证基础。

RLE(RL with Exploration)方向: 真实互联网是一个极端复杂的探索空间——搜索词的选择就是探索策略。DeepResearcher 的成功说明,即使在如此复杂的探索空间中,RL 训练也能收敛到有效策略。


11. 对初学者最值得学什么(Top 3)

第一:训练环境的真实性是迁移能力的根本 "在哪里训练,就擅长在哪里执行"——这是 RL for Agent 最核心的原则。DeepResearcher 的贡献不只是一个新模型,而是验证了"真实环境训练"这个方法论的有效性。

第二:涌现行为是评估 Agent 质量的重要指标 当模型在没有被显式教导的情况下,自发学会"多源交叉验证"和"诚实承认不知道",这说明 RL 训练确实内化了某种程度的研究能力,而不只是记住了答案模式。学会识别和重视这类涌现行为,是理解 Agent RL 研究价值的关键。

第三:分工 vs 全能的权衡 Multi-Agent 架构(主 Agent + 浏览 Agent)表明,对于复杂任务,专业分工往往优于"一个模型包揽一切"。这个思想在系统设计层面有广泛的参考价值。


12. 局限性

论文自认的局限:

  1. 计算成本:真实 Web 交互的训练成本远高于受控环境,限制了训练规模
  2. 不可重复性:真实互联网内容随时变化,相同的训练步骤无法精确复现
  3. 网络依赖:训练和推理都需要稳定的网络连接,不适合离线或受限网络环境

深层局限:

  • 奖励稀疏:最终答案准确性作为唯一奖励,中间步骤没有细粒度反馈,训练效率有提升空间
  • 任务范围:评估主要集中在问答类研究任务,对需要持续跟踪、动态更新的研究任务支持有限
  • 私有信息盲区:训练和推理都只能访问公开互联网,无法处理企业内网、付费数据库等私有信息源
  • 多语言覆盖:真实 Web 训练数据主要以英文为主,中文或其他语言任务的表现有待验证

13. 技术演进图谱

静态问答 LLM              WebGPT(受控浏览)
(2020-2021)              (OpenAI, 2021)
      ↓                         ↓
  ReAct(2022)           WebAgent(受控 RL)
  工具调用雏形               (2023)
      ↓                         ↓
  RAG Agent              受控环境 RL Agent
  (2022-2023)             (2023-2024)
      ↓                         ↓
      └──────────┬──────────────┘
                 ↓
         DeepResearcher(2025)
         真实 Web 端到端 RL
         多 Agent 架构
                 ↑
            [本文位置]
                 ↓
         (预测)在线持续学习 Agent
         自我改进型研究 Agent
         私有知识源集成

14. 阅读难度评级

★★★★☆(较难)

前置知识需求:

  • 必须:理解 LLM 基本工作原理和 Agent 基础概念
  • 必须:了解 RL 基本框架(策略、奖励、价值函数)
  • 推荐:了解 PPO 或 GRPO 等策略梯度算法
  • 推荐:熟悉 RAG 和 Tool Use 的工程实现
  • 加分:了解 WebAgent / WebGPT 等先前工作

注:这是一篇正式学术论文,实验设置和方法部分有一定技术深度,但整体逻辑清晰,有 LLM/Agent 基础的读者完全可以掌握核心思想。


15. 预估阅读时间

本篇笔记约 3000 字。

预计阅读时间:10 分钟


与 LLM 后训练的关系

DeepResearcher 从多个维度深刻影响了 LLM 后训练的方法论与未来方向:

1. 真实任务 RL 后训练是新范式

过去的 RLHF(Reinforcement Learning from Human Feedback)依赖人类偏好标注数据来训练奖励模型,再用 PPO 优化。DeepResearcher 证明了:对于特定任务(如深度研究),任务结果的客观准确性本身就是优质的奖励信号,不依赖人工标注。这是"从任务结果自监督"的后训练范式,可扩展性远优于人工标注方案。

2. 后训练任务选择的原则——真实性优先

DeepResearcher 的核心贡献之一是证明了"训练环境的真实性"对后训练效果的决定性影响。这对整个后训练领域有重要启示:在设计后训练任务时,应优先选择与实际部署场景一致的真实任务,而不是清洗好的、便于训练但偏离现实的合成任务。

3. 长轨迹 RL 后训练的工程挑战

DeepResearcher 的训练轨迹长达数十步,这比传统 RLHF(单轮或短对话)复杂得多。这对后训练的工程实现提出了新挑战:

  • 如何高效存储和重放长轨迹(Replay Buffer 设计)
  • 如何在长轨迹上有效反向传播梯度(避免梯度消失)
  • 如何处理真实环境的不可重复性(不同 epoch 的轨迹不等价)

这些挑战是当前 LLM 后训练领域的活跃研究方向。

4. GRPO 在 Agent 后训练中的适用性

论文使用 GRPO 作为 RL 算法。GRPO 相比 PPO 的优势在于:不需要单独的 Critic 网络,通过组内相对比较来估算优势值,计算效率更高。这对长轨迹的 Agent 后训练尤为重要——长轨迹使得 Critic 网络的训练更加困难,GRPO 的无 Critic 设计降低了工程复杂度。

5. 涌现行为对后训练目标设计的启示

"诚实承认不知道"等涌现行为表明,RL 后训练不只优化了任务性能,还在某种程度上学到了与准确性相关的"认知风格"。这提醒后训练设计者:奖励函数的设计需要谨慎——过于狭窄的奖励可能错过对整体 Agent 能力有价值的涌现行为;适当留白(不对中间步骤过度约束)反而能让模型涌现出更丰富的能力。