Multi-Agent 三论文综读:CAMEL / AgentVerse / MetaGPT

RL Paper Reading入库于 2026/6/9|

Multi-Agent 论文笔记:MetaGPT、AgentVerse、CAMEL

阅读难度:★★☆☆☆ (三篇均等) | 预计阅读时间:18 分钟

论文来源:MetaGPT (arXiv 2308.00352, ICLR 2024) | AgentVerse (arXiv 2308.10848) | CAMEL (arXiv 2303.17760)


总体背景:为什么需要 Multi-Agent?

单个 LLM Agent 的局限:

  • 复杂任务(如完整软件开发)超出单个 Agent 的能力边界
  • 单 Agent 没有"同行评审",容易产生幻觉且无法自我纠正
  • 并行能力有限,无法同时处理独立的子任务

Multi-Agent 的核心价值:任务分解 + 角色专精 + 相互校验

技术演进路线:

单 Agent(AutoGPT)→ 简单对话式多 Agent
    → CAMEL(角色扮演自动化)
    → AgentVerse(动态专家招募)
    → MetaGPT(SOP驱动,结构化输出)
    → OpenAI Deep Research / Claude Code Parallel Subagents

CAMEL:最早的自主角色扮演框架

"Communicative Agents for 'Mind' Exploration of Large Language Model Society"

一句话总结

这篇论文本质上是在解决 多 Agent 协作需要大量人工干预 的问题——用"角色扮演 + Inception Prompting"让两个 Agent 自主完成对话,无需人类持续引导。

核心创新:Inception Prompting

传统多 Agent 协作:人 → Agent A → 人审核 → Agent B → 人审核...

CAMEL 的方式:

  1. 设定两个角色(如:AI 助手 + 用户),给出任务目标
  2. 通过"Inception Prompt"同时告知两个 Agent:自己的角色、对方的角色、最终目标
  3. 两个 Agent 自主对话,推进任务完成,不需要人类介入每一步

直觉理解: 就像排练一场戏剧——导演(inception prompt)提前告诉演员彼此的角色和剧情目标,演员之后就可以自主即兴表演,不需要导演每句话都干预。

关键洞察

CAMEL 的主要贡献不只是"做了一个框架",更重要的是:

  • 第一次系统性地研究了 Multi-Agent 在自主协作中出现的问题(角色转换、任务偏移、对话终止时机)
  • 生成了大量多 Agent 对话数据,为研究 LLM Society 提供了工具

局限性

  • 角色漂移(Role Drift):长对话后,Agent 可能忘记自己的角色
  • 任务偏移(Task Shifting):对话可能偏离原始目标
  • 静态角色:角色在开始时固定,无法根据任务进展调整

AgentVerse:动态专家招募框架

"AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors"

一句话总结

这篇论文本质上是在解决 Multi-Agent 角色静态固化、无法根据任务进展调整团队组成 的问题——引入"动态专家招募"机制,让 Agent 团队像真实团队一样随任务演进而调整。

核心架构:四阶段 MDP 框架

任务输入
    ↓
① Expert Recruitment(专家招募)
   - "招聘官" Agent 根据任务和当前进度,自动生成所需专家描述
   - 组建最合适的 Agent 团队
    ↓
② Collaborative Decision-Making(协作决策)
   - 水平结构(Horizontal):民主讨论,适合咨询类任务
   - 垂直结构(Vertical):一人提案 + 其他人审核,适合编程/数学
    ↓
③ Action Execution(行动执行)
   - 执行决策,与环境交互
    ↓
④ Evaluation(评估)
   - 评估当前状态与目标的差距
   - 若未达目标 → 反馈到 Step 1,调整团队组成
   - 若达目标 → 完成

关键创新:动态团队调整

对比CAMEL / MetaGPTAgentVerse
团队组成开始时固定根据反馈动态调整
失败处理无法自动重组评估后重招募更合适的专家
适应性

涌现行为发现

这是 AgentVerse 的额外发现:在多 Agent 协作中,出现了类似人类社会的行为:

  • 志愿者行为(Volunteer):某 Agent 主动帮助卡住的同伴
  • 从众行为(Conformity):偏离目标的 Agent 在其他 Agent 批评下自我纠正
  • 破坏性行为(Destructive):偶尔出现适得其反的协作结果

这些发现对 Multi-Agent 安全研究有重要意义。


MetaGPT:SOP 驱动的生产级 Multi-Agent 框架

"MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework"(ICLR 2024)

一句话总结

这篇论文本质上是在解决 多 Agent 自由对话导致幻觉级联、输出质量低 的问题——将人类软件工程的标准作业流程(SOP)编码进 Multi-Agent 系统,用结构化文档代替自然语言对话。

核心问题:级联幻觉

普通 Multi-Agent 对话链:

Agent A 说了错误的内容
    ↓
Agent B 基于错误内容继续生成
    ↓
Agent C 基于 B 的错误继续...
    ↓
最终输出偏差极大("电话游戏"效应)

MetaGPT 的解法:不让 Agent 用自然语言闲聊,而是通过结构化文档交付

核心设计:角色 + SOP + 结构化输出

五个角色(软件公司分工):

产品经理 → 架构师 → 项目经理 → 工程师 → QA 工程师
    ↓          ↓          ↓          ↓          ↓
   PRD      系统设计    任务分解    代码实现    测试用例
(结构化文档)(类图/接口定义)(任务列表)(代码文件)(测试脚本)

关键规则:每个角色的输出必须是结构化文档,不是自由对话

对比ChatDev(自由对话)MetaGPT(结构化输出)
信息传递自然语言消息PRD / 类图 / 接口定义文件
幻觉风险高(级联传递)低(格式约束+可验证)
输出质量不稳定可重复,更高质量

发布-订阅通信机制(Publish-Subscribe):

所有 Agent 共享一个消息池(Message Pool),不是点对点通信。每个 Agent 根据自己的角色订阅感兴趣的消息,避免信息过载。

可执行反馈机制

MetaGPT 的工程师 Agent 写完代码后,会直接运行代码,将运行错误反馈回去迭代修复——这是 SWE-Agent 类工具的早期形态。

实验结果:HumanEval Pass@1 = 85.9%,MBPP = 87.7%,当时 SOTA。

对现代 Agent 系统的影响

MetaGPT 的 SOP + 结构化输出思路直接影响了:

  • Claude Code 的多步骤任务执行(每步有明确交付物)
  • OpenAI 的 Operator/Deep Research(角色分工 + 结构化中间状态)
  • Manus 等 Agent 产品的工作流设计

三篇论文的定位对比

论文核心问题核心解法适用场景
CAMEL多 Agent 需要人工干预太多Inception Prompting,角色扮演自动化研究 Multi-Agent 行为
AgentVerse角色静态,无法根据进展调整动态专家招募 + 4阶段 MDP需要灵活组队的复杂任务
MetaGPT级联幻觉,输出质量低SOP + 结构化文档 + 发布订阅软件工程、生产级任务

对 Agent RL / RLE 的意义

  • CAMEL 提供了研究 Multi-Agent 协作行为的数据生成工具,对 MARL(Multi-Agent RL)数据集构建有价值
  • AgentVerse 的 4 阶段 MDP 框架天然适配 RL 设置:State(当前进度)→ Action(团队决策)→ Reward(任务完成度)→ Next State(环境变化)
  • MetaGPT 的结构化输出设计,为 RLE(RL Environment)中的 reward 信号设计提供了参考——可测量的结构化输出比自由文本更容易定义奖励函数

现实应用

MetaGPT:已有生产级部署,多个公司基于其构建软件开发 Agent。GitHub 28k+ Star。

AgentVerse:主要在学术研究中使用,OpenBMB(清华)维护。

CAMEL:已演化为一个完整的 Multi-Agent 研究平台,持续维护。

行业趋势:Claude Code、OpenAI Deep Research、Manus 都开始出现 Parallel Subagent 能力,本质上是 MetaGPT 思路在生产级别的落地。