ReVeal:让代码 Agent 学会可靠自我验证,从而无限进化
ReVeal 通过显式优化自我验证能力(TAPO + 生成-验证交替循环),解决 RLVR 中自验证不可靠的核心问题,使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。
RL Paper Reading
18 分钟阅读ReVeal 通过显式优化自我验证能力(TAPO + 生成-验证交替循环),解决 RLVR 中自验证不可靠的核心问题,使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。