LaMer:Meta-RL 让语言 Agent 学会主动探索
LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思,解决 RL 训练 Agent 不会主动探索的核心问题,在多个环境中大幅提升多次尝试的 pass@k 性能。
RL Paper Reading
16 分钟阅读LaMer 通过跨 Episode 的 Meta-RL 训练框架和 in-context 自我反思,解决 RL 训练 Agent 不会主动探索的核心问题,在多个环境中大幅提升多次尝试的 pass@k 性能。