RLE 设计三论文:SWE-Bench / GAIA / BrowserArena
SWE-Bench以真实GitHub Issue构建最成熟RL训练环境(解决率从2%升至72%);GAIA揭示AI通用可靠性缺口;BrowserArena探索开放Web评估与步骤级反馈。
RL Paper Reading
15 分钟阅读SWE-Bench以真实GitHub Issue构建最成熟RL训练环境(解决率从2%升至72%);GAIA揭示AI通用可靠性缺口;BrowserArena探索开放Web评估与步骤级反馈。