AI Agent、强化学习与大模型前沿研究解读

持续追踪 OpenAI、Anthropic、Google DeepMind、NVIDIA 等研究机构，将论文和技术博客整理为高质量阅读笔记。

文章总数

来源数量

123

标签数量

本周新增

【阅读笔记】Building Effective Agents：构建有效 Agent 的工程指南

# 【阅读笔记】Building Effective Agents：构建有效 Agent 的工程指南 > 原文：https://www.anthropic.com/engineering/building-effective-agents > 发布：2024年12月19日 > 来源：Anthropic Engineering Blog --- ## 1. 一句话总结在真正需要灵活性之前，...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

10 分钟阅读

【阅读笔记】Introducing Codex：OpenAI 的云端软件工程 Agent

OpenAI 推出的云端 SWE Agent，基于 codex-1（o3 针对软件工程 RL 训练），通过完全隔离云容器+AGENTS.md+委托式任务模式，实现并行多任务的生产级软件工程 Agent。

RL论文阅读 Agent系统 Claude Code

RL Paper Reading

26 分钟阅读

【阅读笔记】Dive into Claude Code：从源码解读 Agent 架构设计空间

通过逆向分析 Claude Code TypeScript 源码，系统揭示生产级 Coding Agent 的 7 组件架构、5 大设计价值观、5 层上下文压缩机制等核心工程设计空间。

RL论文阅读 Agent系统 Claude Code

RL Paper Reading

26 分钟阅读

ReVeal：让代码 Agent 学会可靠自我验证，从而无限进化

ReVeal 通过显式优化自我验证能力（TAPO + 生成-验证交替循环），解决 RLVR 中自验证不可靠的核心问题，使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。

RL论文阅读 RLVR 代码生成+2

RL Paper Reading

18 分钟阅读

LaMer：Meta-RL 让语言 Agent 学会主动探索

LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思，解决 RL 训练 Agent 不会主动探索的核心问题，在多个环境中大幅提升多次尝试的 pass@k 性能。

RL论文阅读 Meta-RL Agent+1

RL Paper Reading

16 分钟阅读

【阅读笔记】ReVeal：让代码 Agent 学会自我验证

# 【阅读笔记】ReVeal：让代码 Agent 学会自我验证，而不是依赖环境 > 论文：ReVeal: Self-Evolving Code Agents via Reliable Self-Verification > 来源：https://openreview.net/forum?id=q56ZI1Co43 --- ## 1. 一句话总结「这篇论文本质上是在解决**RLVR 中"奖...

RL论文阅读

RL Paper Reading

8 分钟阅读

【阅读笔记】LAMER：Meta-RL 让 Agent 学会探索

# 【阅读笔记】LAMER：Meta-RL 让 Agent 学会探索 > 论文：LaMer: Meta-RL Induces Exploration in Language Agents > 来源：https://arxiv.org/abs/2512.16848 > 提交：2025年12月18日，v2: 2026年3月8日 --- ## 1. 一句话总结「这篇论文本质上是在解决**RL训...

RL论文阅读

RL Paper Reading

8 分钟阅读

黄仁勋 GTC 台北 2026 演讲笔记：Agentic AI 时代已来

# 黄仁勋 GTC 台北 2026 演讲笔记：Agentic AI 时代已来 > **来源**：NVIDIA GTC Taipei 2026 主题演讲（2026 年 6 月 1 日） > **记录时间**：2026-06-02 --- ## 一句话定调 > "Agent AI 和实用型人工智能时代已经到来。Token 是利润单位，AI 是 GDP 生成器，软件工程师数量正在增加——AI 减...

NVIDIA 黄仁勋 Agentic AI+3

12 分钟阅读

Claude Opus 4.8 - infra 架构解读

# Claude Opus 4.8 - infra 架构解读 **作者：dodo** > **原文**：https://www.anthropic.com/news/claude-opus-4-8 > **发布时间**：2026-05-28 > **解读视角**：大模型基础建设架构设计 > **沉淀时间**：2026-06-02 --- ## 一句话核心 Opus 4.8 是一次以**推...

推理系统多Agent编排算力调度+2

Anthropic Blog

19 分钟阅读