【阅读笔记】Introducing Deep Research:OpenAI 如何用 RL 训练研究 Agent
这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。
这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。
# 【阅读笔记】Toolformer:让语言模型自主学会调用外部工具 > 论文:Toolformer: Language Models Can Teach Themselves to Use Tools > 作者:Meta AI Research(Timo Schick 等) > 发表:NeurIPS 2023 > arXiv:https://arxiv.org/abs/2302.04761 ...
# 【阅读笔记】WebArena:构建真实网页 Agent 评测环境 > 论文:WebArena: A Realistic Web Environment for Building Autonomous Agents > 作者:CMU(Shuyan Zhou 等) > 发表:ICLR 2024 > arXiv:https://arxiv.org/abs/2307.13854 --- ## 1...
# 【阅读笔记】Agent Skills:让 Agent 按需加载专域能力的工程架构 > 原文:https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills > 发布:2025年10月16日 > 来源:Anthropic Engineering Blog --- ## 1...
# 【阅读笔记】Effective Context Engineering:从 Prompt 工程到上下文工程 > 原文:https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents > 发布:2025年9月29日 > 来源:Anthropic Engineering Blog --- ##...
# 【阅读笔记】Claude Code Best Practices:Agentic 编程的工程实践指南 > 原文:https://www.anthropic.com/engineering/claude-code-best-practices > 来源:Anthropic Engineering Blog --- ## 1. 一句话总结 Context Window 是 Agentic ...
# 【阅读笔记】Building Effective Agents:构建有效 Agent 的工程指南 > 原文:https://www.anthropic.com/engineering/building-effective-agents > 发布:2024年12月19日 > 来源:Anthropic Engineering Blog --- ## 1. 一句话总结 在真正需要灵活性之前,...
OpenAI 推出的云端 SWE Agent,基于 codex-1(o3 针对软件工程 RL 训练),通过完全隔离云容器+AGENTS.md+委托式任务模式,实现并行多任务的生产级软件工程 Agent。
通过逆向分析 Claude Code TypeScript 源码,系统揭示生产级 Coding Agent 的 7 组件架构、5 大设计价值观、5 层上下文压缩机制等核心工程设计空间。
ReVeal 通过显式优化自我验证能力(TAPO + 生成-验证交替循环),解决 RLVR 中自验证不可靠的核心问题,使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。
LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思,解决 RL 训练 Agent 不会主动探索的核心问题,在多个环境中大幅提升多次尝试的 pass@k 性能。
# 【阅读笔记】ReVeal:让代码 Agent 学会自我验证,而不是依赖环境 > 论文:ReVeal: Self-Evolving Code Agents via Reliable Self-Verification > 来源:https://openreview.net/forum?id=q56ZI1Co43 --- ## 1. 一句话总结 「这篇论文本质上是在解决**RLVR 中"奖...