Multi-Agent 论文笔记:MetaGPT、AgentVerse、CAMEL
阅读难度:★★☆☆☆ (三篇均等) | 预计阅读时间:18 分钟
论文来源:MetaGPT (arXiv 2308.00352, ICLR 2024) | AgentVerse (arXiv 2308.10848) | CAMEL (arXiv 2303.17760)
总体背景:为什么需要 Multi-Agent?
单个 LLM Agent 的局限:
- 复杂任务(如完整软件开发)超出单个 Agent 的能力边界
- 单 Agent 没有"同行评审",容易产生幻觉且无法自我纠正
- 并行能力有限,无法同时处理独立的子任务
Multi-Agent 的核心价值:任务分解 + 角色专精 + 相互校验
技术演进路线:
单 Agent(AutoGPT)→ 简单对话式多 Agent
→ CAMEL(角色扮演自动化)
→ AgentVerse(动态专家招募)
→ MetaGPT(SOP驱动,结构化输出)
→ OpenAI Deep Research / Claude Code Parallel Subagents
CAMEL:最早的自主角色扮演框架
"Communicative Agents for 'Mind' Exploration of Large Language Model Society"
一句话总结
这篇论文本质上是在解决 多 Agent 协作需要大量人工干预 的问题——用"角色扮演 + Inception Prompting"让两个 Agent 自主完成对话,无需人类持续引导。
核心创新:Inception Prompting
传统多 Agent 协作:人 → Agent A → 人审核 → Agent B → 人审核...
CAMEL 的方式:
- 设定两个角色(如:AI 助手 + 用户),给出任务目标
- 通过"Inception Prompt"同时告知两个 Agent:自己的角色、对方的角色、最终目标
- 两个 Agent 自主对话,推进任务完成,不需要人类介入每一步
直觉理解: 就像排练一场戏剧——导演(inception prompt)提前告诉演员彼此的角色和剧情目标,演员之后就可以自主即兴表演,不需要导演每句话都干预。
关键洞察
CAMEL 的主要贡献不只是"做了一个框架",更重要的是:
- 第一次系统性地研究了 Multi-Agent 在自主协作中出现的问题(角色转换、任务偏移、对话终止时机)
- 生成了大量多 Agent 对话数据,为研究 LLM Society 提供了工具
局限性
- 角色漂移(Role Drift):长对话后,Agent 可能忘记自己的角色
- 任务偏移(Task Shifting):对话可能偏离原始目标
- 静态角色:角色在开始时固定,无法根据任务进展调整
AgentVerse:动态专家招募框架
"AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors"
一句话总结
这篇论文本质上是在解决 Multi-Agent 角色静态固化、无法根据任务进展调整团队组成 的问题——引入"动态专家招募"机制,让 Agent 团队像真实团队一样随任务演进而调整。
核心架构:四阶段 MDP 框架
任务输入
↓
① Expert Recruitment(专家招募)
- "招聘官" Agent 根据任务和当前进度,自动生成所需专家描述
- 组建最合适的 Agent 团队
↓
② Collaborative Decision-Making(协作决策)
- 水平结构(Horizontal):民主讨论,适合咨询类任务
- 垂直结构(Vertical):一人提案 + 其他人审核,适合编程/数学
↓
③ Action Execution(行动执行)
- 执行决策,与环境交互
↓
④ Evaluation(评估)
- 评估当前状态与目标的差距
- 若未达目标 → 反馈到 Step 1,调整团队组成
- 若达目标 → 完成
关键创新:动态团队调整
| 对比 | CAMEL / MetaGPT | AgentVerse |
|---|---|---|
| 团队组成 | 开始时固定 | 根据反馈动态调整 |
| 失败处理 | 无法自动重组 | 评估后重招募更合适的专家 |
| 适应性 | 低 | 高 |
涌现行为发现
这是 AgentVerse 的额外发现:在多 Agent 协作中,出现了类似人类社会的行为:
- 志愿者行为(Volunteer):某 Agent 主动帮助卡住的同伴
- 从众行为(Conformity):偏离目标的 Agent 在其他 Agent 批评下自我纠正
- 破坏性行为(Destructive):偶尔出现适得其反的协作结果
这些发现对 Multi-Agent 安全研究有重要意义。
MetaGPT:SOP 驱动的生产级 Multi-Agent 框架
"MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework"(ICLR 2024)
一句话总结
这篇论文本质上是在解决 多 Agent 自由对话导致幻觉级联、输出质量低 的问题——将人类软件工程的标准作业流程(SOP)编码进 Multi-Agent 系统,用结构化文档代替自然语言对话。
核心问题:级联幻觉
普通 Multi-Agent 对话链:
Agent A 说了错误的内容
↓
Agent B 基于错误内容继续生成
↓
Agent C 基于 B 的错误继续...
↓
最终输出偏差极大("电话游戏"效应)
MetaGPT 的解法:不让 Agent 用自然语言闲聊,而是通过结构化文档交付。
核心设计:角色 + SOP + 结构化输出
五个角色(软件公司分工):
产品经理 → 架构师 → 项目经理 → 工程师 → QA 工程师
↓ ↓ ↓ ↓ ↓
PRD 系统设计 任务分解 代码实现 测试用例
(结构化文档)(类图/接口定义)(任务列表)(代码文件)(测试脚本)
关键规则:每个角色的输出必须是结构化文档,不是自由对话
| 对比 | ChatDev(自由对话) | MetaGPT(结构化输出) |
|---|---|---|
| 信息传递 | 自然语言消息 | PRD / 类图 / 接口定义文件 |
| 幻觉风险 | 高(级联传递) | 低(格式约束+可验证) |
| 输出质量 | 不稳定 | 可重复,更高质量 |
发布-订阅通信机制(Publish-Subscribe):
所有 Agent 共享一个消息池(Message Pool),不是点对点通信。每个 Agent 根据自己的角色订阅感兴趣的消息,避免信息过载。
可执行反馈机制
MetaGPT 的工程师 Agent 写完代码后,会直接运行代码,将运行错误反馈回去迭代修复——这是 SWE-Agent 类工具的早期形态。
实验结果:HumanEval Pass@1 = 85.9%,MBPP = 87.7%,当时 SOTA。
对现代 Agent 系统的影响
MetaGPT 的 SOP + 结构化输出思路直接影响了:
- Claude Code 的多步骤任务执行(每步有明确交付物)
- OpenAI 的 Operator/Deep Research(角色分工 + 结构化中间状态)
- Manus 等 Agent 产品的工作流设计
三篇论文的定位对比
| 论文 | 核心问题 | 核心解法 | 适用场景 |
|---|---|---|---|
| CAMEL | 多 Agent 需要人工干预太多 | Inception Prompting,角色扮演自动化 | 研究 Multi-Agent 行为 |
| AgentVerse | 角色静态,无法根据进展调整 | 动态专家招募 + 4阶段 MDP | 需要灵活组队的复杂任务 |
| MetaGPT | 级联幻觉,输出质量低 | SOP + 结构化文档 + 发布订阅 | 软件工程、生产级任务 |
对 Agent RL / RLE 的意义
- CAMEL 提供了研究 Multi-Agent 协作行为的数据生成工具,对 MARL(Multi-Agent RL)数据集构建有价值
- AgentVerse 的 4 阶段 MDP 框架天然适配 RL 设置:State(当前进度)→ Action(团队决策)→ Reward(任务完成度)→ Next State(环境变化)
- MetaGPT 的结构化输出设计,为 RLE(RL Environment)中的 reward 信号设计提供了参考——可测量的结构化输出比自由文本更容易定义奖励函数
现实应用
MetaGPT:已有生产级部署,多个公司基于其构建软件开发 Agent。GitHub 28k+ Star。
AgentVerse:主要在学术研究中使用,OpenBMB(清华)维护。
CAMEL:已演化为一个完整的 Multi-Agent 研究平台,持续维护。
行业趋势:Claude Code、OpenAI Deep Research、Manus 都开始出现 Parallel Subagent 能力,本质上是 MetaGPT 思路在生产级别的落地。