AI Agent、强化学习与大模型前沿研究解读

持续追踪 OpenAI、Anthropic、Google DeepMind、NVIDIA 等研究机构，将论文和技术博客整理为高质量阅读笔记。

文章总数

来源数量

123

标签数量

本周新增

关于外甥女是否适合3+4中本贯通培养的升级版综合评估报告（数据增强版）

基于河南省2026年3+4政策，结合驻马店高级中学历年数据，综合分析成绩靠前的初三学生是否应选择中本贯通路径

升学规划河南教育 3+4贯通培养+1

others

27 分钟阅读

大语言模型对齐技术全景：从 RLHF 到 RLVR 的技术演进与统一视角

从四篇权威综述出发，系统梳理 LLM 对齐技术的演进路线、主流方法对比与前沿方向

RL相关知识对齐技术 RLHF+2

RL相关知识

28 分钟阅读

【阅读笔记】Self-play SWE-RL (SSR)：让 Agent 自己出题、自己做题

# 【阅读笔记】Self-play SWE-RL (SSR)：让 Agent 自己出题、自己做题 > 论文链接：https://arxiv.org/abs/2512.18552 > 作者：Meta FAIR，2025年12月 --- ## 1. 一句话总结 Agent 自己向代码库注入 Bug、自己尝试修复，通过双角色自博弈完全摆脱人工标注数据，在 SWE-bench Verified 上...

RL论文阅读 SWE-Agent Agent RL

RL Paper Reading

13 分钟阅读

【阅读笔记】Agent-RLVR：用 Guidance 破解 Agent RL 的稀疏奖励难题

# 【阅读笔记】Agent-RLVR：用 Guidance 破解 Agent RL 的稀疏奖励难题 > 论文链接：https://arxiv.org/abs/2506.11425 > 作者：Scale AI，2025年6月 --- ## 1. 一句话总结在多步骤 Agent 任务中，用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境，让 RL 训练从稀疏奖励中有效学习...

RL论文阅读 SWE-Agent Agent RL

RL Paper Reading

12 分钟阅读

【阅读笔记】SWE-RL：用开源软件演化数据训练代码推理

# 【阅读笔记】SWE-RL：用开源软件演化数据训练代码推理 > 论文链接：https://arxiv.org/abs/2502.18449 > 作者：Meta/FAIR，2025年2月 --- ## 1. 一句话总结首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法，让70B模型在 SWE-bench Verified 达到41.0%，并意外涌现出跨域推...

RL论文阅读 SWE-Agent Agent RL

RL Paper Reading

12 分钟阅读

【阅读笔记】DeepResearcher：在真实 Web 环境中端到端 RL 训练深度研究 Agent

这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习，学会鲁棒的深度研究能力的问题。

RL论文阅读 Deep Research Agent RL

RL Paper Reading

10 分钟阅读

【阅读笔记】Introducing Deep Research：OpenAI 如何用 RL 训练研究 Agent

这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。

RL论文阅读 Deep Research Agent RL

RL Paper Reading

9 分钟阅读

【阅读笔记】Toolformer：让语言模型自主学会调用外部工具

# 【阅读笔记】Toolformer：让语言模型自主学会调用外部工具 > 论文：Toolformer: Language Models Can Teach Themselves to Use Tools > 作者：Meta AI Research（Timo Schick 等） > 发表：NeurIPS 2023 > arXiv：https://arxiv.org/abs/2302.04761 ...

RL论文阅读 Agent Environment Browser Agent

RL Paper Reading

13 分钟阅读

【阅读笔记】WebArena：构建真实网页 Agent 评测环境

# 【阅读笔记】WebArena：构建真实网页 Agent 评测环境 > 论文：WebArena: A Realistic Web Environment for Building Autonomous Agents > 作者：CMU（Shuyan Zhou 等） > 发表：ICLR 2024 > arXiv：https://arxiv.org/abs/2307.13854 --- ## 1...

RL论文阅读 Agent Environment Browser Agent

RL Paper Reading

12 分钟阅读

【阅读笔记】Agent Skills：让 Agent 按需加载专域能力的工程架构

# 【阅读笔记】Agent Skills：让 Agent 按需加载专域能力的工程架构 > 原文：https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills > 发布：2025年10月16日 > 来源：Anthropic Engineering Blog --- ## 1...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

16 分钟阅读

【阅读笔记】Effective Context Engineering：从 Prompt 工程到上下文工程

# 【阅读笔记】Effective Context Engineering：从 Prompt 工程到上下文工程 > 原文：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents > 发布：2025年9月29日 > 来源：Anthropic Engineering Blog --- ##...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

15 分钟阅读

【阅读笔记】Claude Code Best Practices：Agentic 编程的工程实践指南

# 【阅读笔记】Claude Code Best Practices：Agentic 编程的工程实践指南 > 原文：https://www.anthropic.com/engineering/claude-code-best-practices > 来源：Anthropic Engineering Blog --- ## 1. 一句话总结 Context Window 是 Agentic ...

RL论文阅读 Agent系统 Anthropic

RL Paper Reading

12 分钟阅读