标签: RLE

RLE 设计三论文：SWE-Bench / GAIA / BrowserArena

SWE-Bench以真实GitHub Issue构建最成熟RL训练环境（解决率从2%升至72%）；GAIA揭示AI通用可靠性缺口；BrowserArena探索开放Web评估与步骤级反馈。

RL Paper Reading

15 分钟阅读

OpenHands以事件流+Docker沙箱+CodeAct行动空间构建标准化Agent Runtime，天然对接RL训练，SWE-Bench 72%；OpenManus为通用Agent场景开源复现。

RL Paper Reading

12 分钟阅读

整理8篇核心论文/帖子对RLE架构设计和算法改进的可落地思路，覆盖环境设计、奖励建模、上下文工程等维度。

RL Paper Reading

12 分钟阅读