AI Agent、强化学习与大模型前沿研究解读

持续追踪 OpenAI、Anthropic、Google DeepMind、NVIDIA 等研究机构,将论文和技术博客整理为高质量阅读笔记。

41
文章总数
10
来源数量
111
标签数量
5
本周新增

标签

【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理

# 【阅读笔记】SWE-RL:用开源软件演化数据训练代码推理 > 论文链接:https://arxiv.org/abs/2502.18449 > 作者:Meta/FAIR,2025年2月 --- ## 1. 一句话总结 首个将基于规则的强化学习直接应用于真实 GitHub PR 数据的软件工程训练方法,让70B模型在 SWE-bench Verified 达到41.0%,并意外涌现出跨域推...

RL Paper Reading
12 分钟阅读