标签: LLM后训练

URIAL 深度解读：用3个例子替代微调的对齐革命

URIAL 通过3个高质量 ICL 示例，无需任何参数训练，直接将 Base Model 对齐为 Chat 风格，颠覆了对齐必须依赖训练的传统假设。

RL Paper Reading

20 分钟阅读

ReVeal 通过显式优化自我验证能力（TAPO + 生成-验证交替循环），解决 RLVR 中自验证不可靠的核心问题，使代码 Agent 在训练 3 轮后能在测试时稳定扩展到 20+ 轮并持续改进。

RL Paper Reading

18 分钟阅读

LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思，解决 RL 训练 Agent 不会主动探索的核心问题，在多个环境中大幅提升多次尝试的 pass@k 性能。

RL Paper Reading

16 分钟阅读