标签: RLVR

共 2 篇文章

大语言模型对齐技术全景：从 RLHF 到 RLVR 的技术演进与统一视角

从四篇权威综述出发，系统梳理 LLM 对齐技术的演进路线、主流方法对比与前沿方向

RL相关知识

28 分钟阅读

ReVeal 通过显式优化自我验证能力（TAPO + 生成-验证交替循环），解决 RLVR 中自验证不可靠的核心问题，使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。

RL Paper Reading

18 分钟阅读