代码生成 - HotPursuit

ReVeal：让代码 Agent 学会可靠自我验证，从而无限进化

ReVeal 通过显式优化自我验证能力（TAPO + 生成-验证交替循环），解决 RLVR 中自验证不可靠的核心问题，使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。

RL Paper Reading

18 分钟阅读