LaMer:Meta-RL 让语言 Agent 学会主动探索
LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思,解决 RL 训练 Agent 不会主动探索的核心问题,在多个环境中大幅提升多次尝试的 pass@k 性能。
持续追踪 OpenAI、Anthropic、Google DeepMind、NVIDIA 等研究机构,将论文和技术博客整理为高质量阅读笔记。
LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思,解决 RL 训练 Agent 不会主动探索的核心问题,在多个环境中大幅提升多次尝试的 pass@k 性能。
# 【阅读笔记】ReVeal:让代码 Agent 学会自我验证,而不是依赖环境 > 论文:ReVeal: Self-Evolving Code Agents via Reliable Self-Verification > 来源:https://openreview.net/forum?id=q56ZI1Co43 --- ## 1. 一句话总结 「这篇论文本质上是在解决**RLVR 中"奖...
# 【阅读笔记】LAMER:Meta-RL 让 Agent 学会探索 > 论文:LaMer: Meta-RL Induces Exploration in Language Agents > 来源:https://arxiv.org/abs/2512.16848 > 提交:2025年12月18日,v2: 2026年3月8日 --- ## 1. 一句话总结 「这篇论文本质上是在解决**RL训...
# 黄仁勋 GTC 台北 2026 演讲笔记:Agentic AI 时代已来 > **来源**:NVIDIA GTC Taipei 2026 主题演讲(2026 年 6 月 1 日) > **记录时间**:2026-06-02 --- ## 一句话定调 > "Agent AI 和实用型人工智能时代已经到来。Token 是利润单位,AI 是 GDP 生成器,软件工程师数量正在增加——AI 减...
# Claude Opus 4.8 - infra 架构解读 **作者:dodo** > **原文**:https://www.anthropic.com/news/claude-opus-4-8 > **发布时间**:2026-05-28 > **解读视角**:大模型基础建设架构设计 > **沉淀时间**:2026-06-02 --- ## 一句话核心 Opus 4.8 是一次以**推...