RLE 设计三论文:SWE-Bench / GAIA / BrowserArena
SWE-Bench以真实GitHub Issue构建最成熟RL训练环境(解决率从2%升至72%);GAIA揭示AI通用可靠性缺口;BrowserArena探索开放Web评估与步骤级反馈。
RL Paper Reading
15 分钟阅读SWE-Bench以真实GitHub Issue构建最成熟RL训练环境(解决率从2%升至72%);GAIA揭示AI通用可靠性缺口;BrowserArena探索开放Web评估与步骤级反馈。
OpenHands以事件流+Docker沙箱+CodeAct行动空间构建标准化Agent Runtime,天然对接RL训练,SWE-Bench 72%;OpenManus为通用Agent场景开源复现。
CAMEL用Inception Prompting实现自主角色扮演;AgentVerse引入动态专家招募+四阶段MDP;MetaGPT以SOP+结构化文档消灭级联幻觉,HumanEval 85.9%。
冻结主干LLM只训练轻量级残差侧网络,主干不变则缓存表示永不过时,支持65k Token级别长期记忆。
借鉴卡片盒笔记法,让Agent记忆自动建立语义关联网络并动态演化。Multi-Hop F1比MemGPT提升79%,Token消耗仅其1/6。
借鉴OS虚拟内存思想,让LLM自己管理分层记忆(RAM/磁盘),通过函数调用主动存取,解决上下文窗口限制。多跳检索准确率从32%提升到92.5%。