标签: RL阶段2

共 6 篇文章

RLE 设计三论文：SWE-Bench / GAIA / BrowserArena

SWE-Bench以真实GitHub Issue构建最成熟RL训练环境（解决率从2%升至72%）；GAIA揭示AI通用可靠性缺口；BrowserArena探索开放Web评估与步骤级反馈。

RL Paper Reading

15 分钟阅读

OpenHands以事件流+Docker沙箱+CodeAct行动空间构建标准化Agent Runtime，天然对接RL训练，SWE-Bench 72%；OpenManus为通用Agent场景开源复现。

RL Paper Reading

12 分钟阅读

CAMEL用Inception Prompting实现自主角色扮演；AgentVerse引入动态专家招募+四阶段MDP；MetaGPT以SOP+结构化文档消灭级联幻觉，HumanEval 85.9%。

RL Paper Reading

18 分钟阅读

冻结主干LLM只训练轻量级残差侧网络，主干不变则缓存表示永不过时，支持65k Token级别长期记忆。

RL Paper Reading

8 分钟阅读

借鉴卡片盒笔记法，让Agent记忆自动建立语义关联网络并动态演化。Multi-Hop F1比MemGPT提升79%，Token消耗仅其1/6。

RL Paper Reading

10 分钟阅读

借鉴OS虚拟内存思想，让LLM自己管理分层记忆（RAM/磁盘），通过函数调用主动存取，解决上下文窗口限制。多跳检索准确率从32%提升到92.5%。

RL Paper Reading

15 分钟阅读