标签: RL论文阅读

标签

RL论文阅读(25)RL阶段2(6)Agent系统(6)Agent RL(6)大模型基建(4)SWE-Agent(4)Anthropic(4)Agent Architecture(4)RLE(3)Memory Agent(3)

RLE 设计三论文：SWE-Bench / GAIA / BrowserArena

SWE-Bench以真实GitHub Issue构建最成熟RL训练环境（解决率从2%升至72%）；GAIA揭示AI通用可靠性缺口；BrowserArena探索开放Web评估与步骤级反馈。

RL论文阅读 RLE Benchmark+1

RL Paper Reading

15 分钟阅读

Agent Infrastructure：OpenHands 与 OpenManus 深度解读

OpenHands以事件流+Docker沙箱+CodeAct行动空间构建标准化Agent Runtime，天然对接RL训练，SWE-Bench 72%；OpenManus为通用Agent场景开源复现。

RL论文阅读 Agent Infrastructure RLE+1

RL Paper Reading

12 分钟阅读

Multi-Agent 三论文综读：CAMEL / AgentVerse / MetaGPT

CAMEL用Inception Prompting实现自主角色扮演；AgentVerse引入动态专家招募+四阶段MDP；MetaGPT以SOP+结构化文档消灭级联幻觉，HumanEval 85.9%。

RL论文阅读 Multi-Agent Agent Architecture+1

RL Paper Reading

18 分钟阅读

LongMem：冻结主干 + 侧网络，彻底消灭记忆过时

冻结主干LLM只训练轻量级残差侧网络，主干不变则缓存表示永不过时，支持65k Token级别长期记忆。

RL论文阅读 Memory Agent Agent Architecture+1

RL Paper Reading

8 分钟阅读

A-Mem：用 Zettelkasten 让 Agent 记忆自我演化

借鉴卡片盒笔记法，让Agent记忆自动建立语义关联网络并动态演化。Multi-Hop F1比MemGPT提升79%，Token消耗仅其1/6。

RL论文阅读 Memory Agent Agent Architecture+1

RL Paper Reading

10 分钟阅读

MemGPT：把 LLM 变成操作系统

借鉴OS虚拟内存思想，让LLM自己管理分层记忆（RAM/磁盘），通过函数调用主动存取，解决上下文窗口限制。多跳检索准确率从32%提升到92.5%。

RL论文阅读 Memory Agent Agent Architecture+1

RL Paper Reading

15 分钟阅读

【汇总表】论文/帖子可落地思路的复制

整理8篇核心论文/帖子对RLE架构设计和算法改进的可落地思路，覆盖环境设计、奖励建模、上下文工程等维度。

RL论文阅读 RLE Agent RL+1

RL Paper Reading

12 分钟阅读

URIAL 深度解读：用3个例子替代微调的对齐革命

URIAL 通过3个高质量 ICL 示例，无需任何参数训练，直接将 Base Model 对齐为 Chat 风格，颠覆了对齐必须依赖训练的传统假设。

RL论文阅读 Alignment In-Context Learning+1

RL Paper Reading

20 分钟阅读

【阅读笔记】Self-play SWE-RL (SSR)：让 Agent 自己出题、自己做题

# 【阅读笔记】Self-play SWE-RL (SSR)：让 Agent 自己出题、自己做题 > 论文链接：https://arxiv.org/abs/2512.18552 > 作者：Meta FAIR，2025年12月 --- ## 1. 一句话总结 Agent 自己向代码库注入 Bug、自己尝试修复，通过双角色自博弈完全摆脱人工标注数据，在 SWE-bench Verified 上...

RL论文阅读 SWE-Agent Agent RL

RL Paper Reading

13 分钟阅读

【阅读笔记】Agent-RLVR：用 Guidance 破解 Agent RL 的稀疏奖励难题

# 【阅读笔记】Agent-RLVR：用 Guidance 破解 Agent RL 的稀疏奖励难题 > 论文链接：https://arxiv.org/abs/2506.11425 > 作者：Scale AI，2025年6月 --- ## 1. 一句话总结在多步骤 Agent 任务中，用外部 LLM 提供"导师级提示"帮助失败的 rollout 走出困境，让 RL 训练从稀疏奖励中有效学习...

RL论文阅读 SWE-Agent Agent RL

RL Paper Reading

12 分钟阅读

【阅读笔记】SWE-RL：用开源软件演化数据训练代码推理

# 【阅读笔记】SWE-RL：用开源软件演化数据训练代码推理 > 论文链接：https://arxiv.org/abs/2502.18449 > 作者：Meta/FAIR，2025年2月 --- ## 1. 一句话总结首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法，让70B模型在 SWE-bench Verified 达到41.0%，并意外涌现出跨域推...

RL论文阅读 SWE-Agent Agent RL

RL Paper Reading

12 分钟阅读

【阅读笔记】DeepResearcher：在真实 Web 环境中端到端 RL 训练深度研究 Agent

这篇论文本质上是在解决如何让 LLM 在真实互联网交互中通过端到端强化学习，学会鲁棒的深度研究能力的问题。

RL论文阅读 Deep Research Agent RL

RL Paper Reading

10 分钟阅读