【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理
# 【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理 > 论文链接:https://arxiv.org/abs/2502.18449 > 作者:Meta/FAIR,2025年2月 --- ## 1. 一句话总结 首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法,让70B模型在 SWE-bench Verified 达到41.0%,并意外涌现出跨域推...
持续追踪 OpenAI、Anthropic、Google DeepMind、NVIDIA 等研究机构,将论文和技术博客整理为高质量阅读笔记。
# 【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理 > 论文链接:https://arxiv.org/abs/2502.18449 > 作者:Meta/FAIR,2025年2月 --- ## 1. 一句话总结 首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法,让70B模型在 SWE-bench Verified 达到41.0%,并意外涌现出跨域推...
这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习,学会鲁棒的深度研究能力的问题。
这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。
# 【阅读笔记】Toolformer:让语言模型自主学会调用外部工具 > 论文:Toolformer: Language Models Can Teach Themselves to Use Tools > 作者:Meta AI Research(Timo Schick 等) > 发表:NeurIPS 2023 > arXiv:https://arxiv.org/abs/2302.04761 ...
# 【阅读笔记】WebArena:构建真实网页 Agent 评测环境 > 论文:WebArena: A Realistic Web Environment for Building Autonomous Agents > 作者:CMU(Shuyan Zhou 等) > 发表:ICLR 2024 > arXiv:https://arxiv.org/abs/2307.13854 --- ## 1...
# 【阅读笔记】Agent Skills:让 Agent 按需加载专域能力的工程架构 > 原文:https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills > 发布:2025年10月16日 > 来源:Anthropic Engineering Blog --- ## 1...
# 【阅读笔记】Effective Context Engineering:从 Prompt 工程到上下文工程 > 原文:https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents > 发布:2025年9月29日 > 来源:Anthropic Engineering Blog --- ##...
# 【阅读笔记】Claude Code Best Practices:Agentic 编程的工程实践指南 > 原文:https://www.anthropic.com/engineering/claude-code-best-practices > 来源:Anthropic Engineering Blog --- ## 1. 一句话总结 Context Window 是 Agentic ...
# 【阅读笔记】Building Effective Agents:构建有效 Agent 的工程指南 > 原文:https://www.anthropic.com/engineering/building-effective-agents > 发布:2024年12月19日 > 来源:Anthropic Engineering Blog --- ## 1. 一句话总结 在真正需要灵活性之前,...
OpenAI 推出的云端 SWE Agent,基于 codex-1(o3 针对软件工程 RL 训练),通过完全隔离云容器+AGENTS.md+委托式任务模式,实现并行多任务的生产级软件工程 Agent。
通过逆向分析 Claude Code TypeScript 源码,系统揭示生产级 Coding Agent 的 7 组件架构、5 大设计价值观、5 层上下文压缩机制等核心工程设计空间。
ReVeal 通过显式优化自我验证能力(TAPO + 生成-验证交替循环),解决 RLVR 中自验证不可靠的核心问题,使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。