RLE 设计三论文:SWE-Bench / GAIA / BrowserArena
SWE-Bench以真实GitHub Issue构建最成熟RL训练环境(解决率从2%升至72%);GAIA揭示AI通用可靠性缺口;BrowserArena探索开放Web评估与步骤级反馈。
SWE-Bench以真实GitHub Issue构建最成熟RL训练环境(解决率从2%升至72%);GAIA揭示AI通用可靠性缺口;BrowserArena探索开放Web评估与步骤级反馈。
OpenHands以事件流+Docker沙箱+CodeAct行动空间构建标准化Agent Runtime,天然对接RL训练,SWE-Bench 72%;OpenManus为通用Agent场景开源复现。
CAMEL用Inception Prompting实现自主角色扮演;AgentVerse引入动态专家招募+四阶段MDP;MetaGPT以SOP+结构化文档消灭级联幻觉,HumanEval 85.9%。
冻结主干LLM只训练轻量级残差侧网络,主干不变则缓存表示永不过时,支持65k Token级别长期记忆。
借鉴卡片盒笔记法,让Agent记忆自动建立语义关联网络并动态演化。Multi-Hop F1比MemGPT提升79%,Token消耗仅其1/6。
借鉴OS虚拟内存思想,让LLM自己管理分层记忆(RAM/磁盘),通过函数调用主动存取,解决上下文窗口限制。多跳检索准确率从32%提升到92.5%。
整理8篇核心论文/帖子对RLE架构设计和算法改进的可落地思路,覆盖环境设计、奖励建模、上下文工程等维度。
URIAL 通过3个高质量 ICL 示例,无需任何参数训练,直接将 Base Model 对齐为 Chat 风格,颠覆了对齐必须依赖训练的传统假设。
# 【阅读笔记】Self-play SWE-RL (SSR):让 Agent 自己出题、自己做题 > 论文链接:https://arxiv.org/abs/2512.18552 > 作者:Meta FAIR,2025年12月 --- ## 1. 一句话总结 Agent 自己向代码库注入 Bug、自己尝试修复,通过双角色自博弈完全摆脱人工标注数据,在 SWE-bench Verified 上...
# 【阅读笔记】Agent-RLVR:用 Guidance 破解 Agent RL 的稀疏奖励难题 > 论文链接:https://arxiv.org/abs/2506.11425 > 作者:Scale AI,2025年6月 --- ## 1. 一句话总结 在多步骤 Agent 任务中,用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境,让 RL 训练从稀疏奖励中有效学习...
# 【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理 > 论文链接:https://arxiv.org/abs/2502.18449 > 作者:Meta/FAIR,2025年2月 --- ## 1. 一句话总结 首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法,让70B模型在 SWE-bench Verified 达到41.0%,并意外涌现出跨域推...
这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习,学会鲁棒的深度研究能力的问题。