Benchmark - HotPursuit

RLE 设计三论文：SWE-Bench / GAIA / BrowserArena

SWE-Bench以真实GitHub Issue构建最成熟RL训练环境（解决率从2%升至72%）；GAIA揭示AI通用可靠性缺口；BrowserArena探索开放Web评估与步骤级反馈。

RL Paper Reading

15 分钟阅读