【阅读笔记】Introducing Deep Research：OpenAI 如何用 RL 训练研究 Agent

原文链接：https://openai.com/index/introducing-deep-research/ 发布方：OpenAI，2025年

1. 一句话总结

这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。

2. 背景知识

研究 Agent 是什么？

想象你要写一份关于"新能源汽车市场趋势"的深度报告。普通人会花几个小时搜索几十个网页、翻阅 PDF、提炼数据、对比信息来源，最后综合成文。Deep Research 要做的，就是让 AI 替代这个过程——自主搜索、阅读、分析、整合，最后输出完整报告。

为什么这很难？

普通的 LLM 回答问题像"一次射箭"——给一个问题，输出一个答案。Deep Research 需要的是"持续侦探"能力：

搜到一个线索，发现它指向另一个方向，立刻调整
读到一份 PDF，里面有个数据，和之前搜到的矛盾，要决定信哪个
遇到信息缺口，主动去补充，而不是凑合着编

这需要模型具备规划、执行、回溯、调整的能力——这是 RL 训练的核心价值所在。

底层模型是什么？

Deep Research 底层使用的是专门针对网页浏览和数据分析优化的 o3 模型（o 系列是 OpenAI 的推理模型，擅长多步推理和链式思考）。

3. 为什么会出现这篇文章（技术演进路线）

早期 LLM（GPT-3）        → 单轮问答，无工具调用
↓
ReAct / Tool-Use（2022）  → 能调用搜索 API，但依赖 Prompt 工程
↓
RAG（2023）               → 检索增强，但检索来自静态知识库，非真实互联网
↓
Agent + 受控环境 RL（2024）→ 在受控 RAG 环境或模拟器中训练 Agent
↓
Deep Research（2025）     → 端到端 RL on 真实互联网浏览任务
                            ↑
                        [本文所在位置]

旧方案的困境：

Prompt 工程方案：稳定性差，换个问法就失效，无法泛化
RAG 方案：信息来源是预先索引的静态库，不适合需要探索、发现新信息的研究任务
模拟器 RL：训练环境和真实环境存在 gap，迁移效果有限

OpenAI 的答案： 把真实的网页浏览、文档分析作为训练环境，让模型直接在"战场"上学习。

4. 试图解决的问题

问题一：单步推理不足以完成复杂研究任务

现象：传统 LLM 一次性输出答案，无法在发现新信息后自我纠正
为什么难：需要维护长达数十步的工作记忆和任务状态
影响：生成的报告逻辑断层，关键信息遗漏

问题二：Prompt 工程脆弱，无法泛化

现象：精心设计的 Agent 提示词在特定任务上表现好，换个领域就崩
为什么难：Prompt 是人工规则，无法覆盖真实互联网的无限可能
影响：产品稳定性差，无法大规模部署

问题三：幻觉和错误推断

现象：模型在信息不足时倾向于"编造"合理的答案
为什么难：模型的训练目标是生成连贯文本，而不是"承认不知道"
影响：报告中出现看似合理但实际错误的数据和结论

5. 核心创新（最重要！）

创新一：端到端强化学习训练（End-to-End RL on Hard Browsing Tasks）

作者做了什么： 用覆盖多领域（金融、科学、法律、技术等）的真实浏览和推理任务作为训练数据，以最终答案的准确性和报告质量作为奖励信号，端到端地训练整个模型。

直觉理解（生活例子）： 想象培训一个新员工做市场调研。

旧方法：给员工一本操作手册（Prompt），告诉他"第一步搜什么，第二步看什么，第三步怎么总结"
新方法：直接给员工布置真实项目，根据最终报告质量给绩效考核，员工自己摸索出最优策略

端到端 RL 就是后者——模型不被告知"怎么做"，而是通过大量真实任务的反馈，自己学会最有效的研究策略。

为什么有效： RL 能学到 Prompt 工程无法显式编写的策略，例如：

什么时候该放弃一条搜索路径
什么时候信息已经足够，不需要再搜
如何判断两个来源矛盾时该信哪个

维度	旧方案（Prompt 工程）	新方案（端到端 RL）
策略来源	人工设计规则	模型自主学习
泛化能力	弱，依赖任务类型	强，能处理未见过的任务类型
回溯能力	基本没有	能在遇到新信息时实时调整方向
训练成本	低（只写 Prompt）	高（需要大量真实任务数据和计算资源）
稳定性	脆弱	相对鲁棒

如果没有这个创新会怎样： 模型最多能在特定固定流程下工作，无法应对真实研究任务的动态性和不确定性。

创新二：多步骤轨迹规划与实时回溯

作者做了什么： 模型学会将复杂问题分解为多步骤执行轨迹（如：搜索→阅读→发现矛盾→重新搜索→综合），并在遇到新信息时动态调整方向，而不是线性执行预定计划。

直觉理解： 普通 Agent 像 GPS 导航：设定目的地后按路线走，路封了就报错。Deep Research 的 Agent 像有经验的老司机：路封了会主动找替代路线，甚至重新评估目的地是否正确。

创新三：多模态输入支持

模型能处理文本、图片、PDF，并调用 Python 工具进行数据分析——这意味着研究任务不再局限于纯文字搜索，能直接分析图表、处理结构化数据。

6. 算法/系统流程

Step 1：接收研究问题
   │  用户输入研究任务（如"分析2024年全球AI芯片市场竞争格局"）
   ↓
Step 2：规划研究路径
   │  模型分解问题，制定初步搜索计划
   │  （RL 训练出的策略，非规则指定）
   ↓
Step 3：执行多步骤信息收集
   │  → 调用搜索工具（网页搜索）
   │  → 浏览并解析网页内容（HTML/PDF/图片）
   │  → 调用 Python 工具处理数据（表格分析、图表解读）
   │  → 发现新信息时判断：是否需要调整研究方向？
   │      ├── 是：回溯，修改搜索策略，继续
   │      └── 否：继续当前路径
   ↓
Step 4：信息综合与报告生成
   │  汇总多来源信息，生成带引用的完整报告
   │  （包含文字、表格、数据图表等）
   ↓
Step 5：输出
   └── 结构化研究报告，附带所有信息来源链接

奖励信号设计（训练阶段）：

最终答案准确性（与标准答案对比）
报告覆盖度（是否涵盖关键信息点）
来源可靠性（是否引用权威信息）

7. 关键设计

奖励的稀疏性问题： 研究任务的奖励只在最后才能获得（报告完成后才能评分），这是 RL 中的"稀疏奖励"问题——模型很难知道中间哪一步做得好。OpenAI 通过设计多领域大规模训练任务来缓解这个问题，让模型从海量轨迹中学习。

o3 模型的作用： o3 的推理能力（长链思维）使其特别适合多步骤规划任务——模型在生成下一步行动前，会进行大量内部"思考"，评估当前信息状态和最优下一步。

8. 实验/数据说明了什么

Humanity's Last Exam（HLE）：

模型	HLE 得分
Deep Research	26.6%
o1	9.1%
GPT-4o	3.3%

HLE 是由数千名学科专家设计的超难考题集，GPT-4o 只能答对 3.3%——Deep Research 达到 26.6%，提升幅度接近 8 倍。

这说明什么？RL 训练使模型在需要深度推理和多步骤信息整合的任务上有质的飞跃，而不是量的提升。

GAIA 基准（General AI Assistants）： 达到新 SOTA。GAIA 测试的是 AI 助手完成真实世界任务的能力（搜索、计算、推理等综合能力），这验证了 Deep Research 不只是学术评测的产物，而是真实工作能力的提升。

实验是否证明了核心论点？ 是的——端到端 RL 能让模型习得 Prompt 工程无法给予的研究策略，在困难任务上产生质的突破。提升主要来自：

多步骤规划能力
信息整合与推理能力
对信息来源的判断力

9. 现实应用情况

OpenAI 已部署： Deep Research 于 2025 年 2 月面向 ChatGPT Pro 用户上线，是 OpenAI 首个正式商业化的深度研究 Agent 产品。

典型使用场景（已有用户反馈）：

金融分析师：市场竞争格局报告，节省 3-5 小时手工调研时间
研究人员：文献综述初稿生成
法律从业者：案例检索与分析
产品经理：竞品分析与趋势研究

行业影响： Deep Research 的发布直接引发了 Perplexity、Google（Gemini Deep Research）、百度（文心深度搜索）等公司的快速跟进，成为 2025 年 AI 产品的核心赛道之一。

10. 对 Agent 的意义

Browser Agent / Deep Research 方向： 这是 Browser Agent 领域的标志性里程碑。它证明了：

真实互联网浏览是可以被 RL 训练的环境
端到端训练比 Pipeline 工程（把搜索、解析、推理分开处理）更有效
多步骤、多工具的 Agent 可以通过 RL 获得自主规划能力，而不依赖人工设计的 SOP

Tool Use 方向： Python 工具调用的集成表明，未来 Agent 的工具使用不会是"固定调用某个 API"，而是"根据任务动态决定是否需要工具、用哪个工具、何时停止"——这本质上是 RL 策略学习的领域。

Multi-Agent 方向： 虽然 Deep Research 主要是单 Agent 架构，但其多步骤轨迹规划的思路为 Multi-Agent 系统（多个专门化 Agent 协作完成任务）提供了重要的方法论参考。

RLE（RL with Exploration）方向： Deep Research 的训练本质上是一个探索问题——模型需要在信息空间中自主探索，而不是按既定路径执行。这与 RLE 的核心挑战高度重合。

11. 对初学者最值得学什么（Top 3）

第一：端到端 RL 思想 不要试图把一个复杂任务拆成固定步骤然后用规则串联。RL 的核心优势在于让模型自己发现最优策略。这个思想将贯穿未来几年 Agent 领域的发展。

第二：训练环境的设计是关键 Deep Research 成功的一个关键是把"真实互联网浏览"作为训练环境，而不是模拟器或静态数据集。训练环境与真实部署环境越接近，泛化能力越强——这是 RL for Agent 的核心原则。

第三：评估基准决定优化方向 HLE 和 GAIA 这类测试不只是"评分工具"，它们定义了什么是"好的研究 Agent"。理解这些基准的设计逻辑，等于理解了这个领域在追求什么。

12. 局限性

已知问题（OpenAI 官方承认）：

幻觉：仍然会出现信息捏造，尤其是在信息来源稀缺时
错误推断：在复杂因果关系的判断上仍有偏差
速度：完成一次深度研究需要 5-30 分钟，不适合需要即时回答的场景
成本：计算资源消耗大，仅对 Pro 用户开放

深层局限：

奖励信号设计难：如何量化"报告质量"本身就是一个未解决的问题，现有奖励函数可能过拟合到特定评估维度
长尾任务覆盖：训练数据虽覆盖多领域，但对某些专业细分领域（如量子计算、罕见病研究）效果仍有限
实时性限制：无法访问需要登录的内网资源，研究范围受限于公开互联网

13. 技术演进图谱

单轮问答 LLM              → ReAct/Tool-Use          → RAG
(GPT-3, 2020)               (2022)                    (2023)
                              ↓
                           Agent RL               → 受控环境 RL
                        （策略学习雏形）              （SWE-Agent等）
                              ↓
                    Deep Research（2025）
                    端到端 RL on 真实互联网
                              ↑
                         [本文位置]
                              ↓
                    （预测）多 Agent 协作 RL
                    持续学习 / 自我改进 Agent

14. 阅读难度评级

★★★☆☆（中等）

前置知识需求：

必须：理解 LLM 基本工作原理（Transformer、预训练）
必须：了解 RL 基本概念（奖励、策略、轨迹）
推荐：接触过 ReAct、RAG、Agent 相关概念
不需要：系统 RL 数学推导背景

注：这是一篇 OpenAI 博文而非学术论文，偏工程描述，技术细节不完整，阅读本身不难，但要深入理解需要补充大量背景知识。

15. 预估阅读时间

本篇笔记约 2700 字。

预计阅读时间：9 分钟

与 LLM 后训练的关系

Deep Research 是现代 LLM 后训练（Post-Training）技术路线的重要里程碑，以下几个维度值得重点关注：

1. RL 后训练的目标扩展

传统 LLM 后训练（如 RLHF）的目标是让模型输出"更符合人类偏好的回答"——本质上是对话质量优化。Deep Research 将 RL 后训练的目标扩展到了任务完成能力：模型不再只优化"说得好不好"，而是优化"任务做成没有"。这标志着后训练从对话对齐走向了 Agent 能力对齐。

2. 从 RLHF 到 Task-Level RL

RLHF 的奖励来自人类标注者的偏好评分；Deep Research 的奖励来自任务结果的客观评估（答案对不对、报告全不全）。后者的可扩展性远高于前者——不需要大量人工标注，任务结果本身就是监督信号。这是后训练领域的重要方向转变。

3. 多步骤轨迹的后训练

传统 SFT/RLHF 处理的是单轮或短对话。Deep Research 的训练数据是包含数十步骤的完整研究轨迹——搜索、阅读、判断、调整、综合。这意味着后训练需要处理长程时序决策，这对训练算法（如 PPO over long rollouts）和计算基础设施都提出了新要求。

4. 对 o 系列模型后训练的启示

o3 等推理模型的核心能力——长链推理（Chain-of-Thought scaling）——与 RL 后训练深度结合。Deep Research 证明了：推理模型 + 任务级 RL 后训练 = 能够完成真实世界复杂任务的 Agent。这为未来"后训练即能力扩展"的范式提供了实证支撑。

5. 泛化性与后训练数据设计

覆盖多领域的浏览和推理任务数据集是 Deep Research 后训练的核心资产。如何设计后训练数据以最大化泛化能力（而不是过拟合到特定任务），是目前 LLM 后训练领域最重要的开放问题之一。