Meta-RL - HotPursuit

LaMer：Meta-RL 让语言 Agent 学会主动探索

LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思，解决 RL 训练 Agent 不会主动探索的核心问题，在多个环境中大幅提升多次尝试的 pass@k 性能。

RL Paper Reading

16 分钟阅读