← 返回

标签: Agent RL

6 篇文章

【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理

# 【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理 > 论文链接:https://arxiv.org/abs/2502.18449 > 作者:Meta/FAIR,2025年2月 --- ## 1. 一句话总结 首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法,让70B模型在 SWE-bench Verified 达到41.0%,并意外涌现出跨域推...

RL Paper Reading
12 分钟阅读