【汇总表】论文/帖子可落地思路的复制
整理8篇核心论文/帖子对RLE架构设计和算法改进的可落地思路,覆盖环境设计、奖励建模、上下文工程等维度。
整理8篇核心论文/帖子对RLE架构设计和算法改进的可落地思路,覆盖环境设计、奖励建模、上下文工程等维度。
# 【阅读笔记】Self-play SWE-RL (SSR):让 Agent 自己出题、自己做题 > 论文链接:https://arxiv.org/abs/2512.18552 > 作者:Meta FAIR,2025年12月 --- ## 1. 一句话总结 Agent 自己向代码库注入 Bug、自己尝试修复,通过双角色自博弈完全摆脱人工标注数据,在 SWE-bench Verified 上...
# 【阅读笔记】Agent-RLVR:用 Guidance 破解 Agent RL 的稀疏奖励难题 > 论文链接:https://arxiv.org/abs/2506.11425 > 作者:Scale AI,2025年6月 --- ## 1. 一句话总结 在多步骤 Agent 任务中,用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境,让 RL 训练从稀疏奖励中有效学习...
# 【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理 > 论文链接:https://arxiv.org/abs/2502.18449 > 作者:Meta/FAIR,2025年2月 --- ## 1. 一句话总结 首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法,让70B模型在 SWE-bench Verified 达到41.0%,并意外涌现出跨域推...
这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习,学会鲁棒的深度研究能力的问题。
这篇文章本质上是在解决如何用端到端强化学习训练一个能在真实互联网上完成多步骤深度研究的 Agent 的问题。