标签: RL论文阅读

【阅读笔记】Introducing Deep Research：OpenAI 如何用 RL 训练研究 Agent

这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。

RL Paper Reading

9 分钟阅读

【阅读笔记】Toolformer：让语言模型自主学会调用外部工具

# 【阅读笔记】Toolformer：让语言模型自主学会调用外部工具 > 论文：Toolformer: Language Models Can Teach Themselves to Use Tools > 作者：Meta AI Research（Timo Schick 等） > 发表：NeurIPS 2023 > arXiv：https://arxiv.org/abs/2302.04761 ...

RL论文阅读 Agent Environment Browser Agent

RL Paper Reading

13 分钟阅读

【阅读笔记】WebArena：构建真实网页 Agent 评测环境

# 【阅读笔记】WebArena：构建真实网页 Agent 评测环境 > 论文：WebArena: A Realistic Web Environment for Building Autonomous Agents > 作者：CMU（Shuyan Zhou 等） > 发表：ICLR 2024 > arXiv：https://arxiv.org/abs/2307.13854 --- ## 1...

RL论文阅读 Agent Environment Browser Agent

RL Paper Reading

12 分钟阅读

【阅读笔记】Agent Skills：让 Agent 按需加载专域能力的工程架构

# 【阅读笔记】Agent Skills：让 Agent 按需加载专域能力的工程架构 > 原文：https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills > 发布：2025年10月16日 > 来源：Anthropic Engineering Blog --- ## 1...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

16 分钟阅读

【阅读笔记】Effective Context Engineering：从 Prompt 工程到上下文工程

# 【阅读笔记】Effective Context Engineering：从 Prompt 工程到上下文工程 > 原文：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents > 发布：2025年9月29日 > 来源：Anthropic Engineering Blog --- ##...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

15 分钟阅读

【阅读笔记】Claude Code Best Practices：Agentic 编程的工程实践指南

# 【阅读笔记】Claude Code Best Practices：Agentic 编程的工程实践指南 > 原文：https://www.anthropic.com/engineering/claude-code-best-practices > 来源：Anthropic Engineering Blog --- ## 1. 一句话总结 Context Window 是 Agentic ...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

12 分钟阅读

【阅读笔记】Building Effective Agents：构建有效 Agent 的工程指南

# 【阅读笔记】Building Effective Agents：构建有效 Agent 的工程指南 > 原文：https://www.anthropic.com/engineering/building-effective-agents > 发布：2024年12月19日 > 来源：Anthropic Engineering Blog --- ## 1. 一句话总结在真正需要灵活性之前，...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

10 分钟阅读

【阅读笔记】Introducing Codex：OpenAI 的云端软件工程 Agent

OpenAI 推出的云端 SWE Agent，基于 codex-1（o3 针对软件工程 RL 训练），通过完全隔离云容器+AGENTS.md+委托式任务模式，实现并行多任务的生产级软件工程 Agent。

RL论文阅读 Agent系统 Claude Code

RL Paper Reading

26 分钟阅读

【阅读笔记】Dive into Claude Code：从源码解读 Agent 架构设计空间

通过逆向分析 Claude Code TypeScript 源码，系统揭示生产级 Coding Agent 的 7 组件架构、5 大设计价值观、5 层上下文压缩机制等核心工程设计空间。

RL论文阅读 Agent系统 Claude Code

RL Paper Reading

26 分钟阅读

ReVeal：让代码 Agent 学会可靠自我验证，从而无限进化

ReVeal 通过显式优化自我验证能力（TAPO + 生成-验证交替循环），解决 RLVR 中自验证不可靠的核心问题，使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。

RL论文阅读 RLVR 代码生成+2

RL Paper Reading

18 分钟阅读

LaMer：Meta-RL 让语言 Agent 学会主动探索

LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思，解决 RL 训练 Agent 不会主动探索的核心问题，在多个环境中大幅提升多次尝试的 pass@k 性能。

RL论文阅读 Meta-RL Agent+1

RL Paper Reading

16 分钟阅读

【阅读笔记】ReVeal：让代码 Agent 学会自我验证

# 【阅读笔记】ReVeal：让代码 Agent 学会自我验证，而不是依赖环境 > 论文：ReVeal: Self-Evolving Code Agents via Reliable Self-Verification > 来源：https://openreview.net/forum?id=q56ZI1Co43 --- ## 1. 一句话总结「这篇论文本质上是在解决**RLVR 中"奖...

RL论文阅读

RL Paper Reading

8 分钟阅读