URIAL 深度解读:用3个例子替代微调的对齐革命
URIAL 通过3个高质量 ICL 示例,无需任何参数训练,直接将 Base Model 对齐为 Chat 风格,颠覆了对齐必须依赖训练的传统假设。
RL Paper Reading
20 分钟阅读URIAL 通过3个高质量 ICL 示例,无需任何参数训练,直接将 Base Model 对齐为 Chat 风格,颠覆了对齐必须依赖训练的传统假设。
ReVeal 通过显式优化自我验证能力(TAPO + 生成-验证交替循环),解决 RLVR 中自验证不可靠的核心问题,使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。
LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思,解决 RL 训练 Agent 不会主动探索的核心问题,在多个环境中大幅提升多次尝试的 pass@k 性能。