paper2skills Playbook

Multi-Agent Debate — 多智能体辩论共识

Skill-Multi-Agent-Debate · 10-MAS

causalexperimentoptimizationrecommendationragmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润WF-C 客服分诊WF-F 动态定价WF-G Listing内容优化WF-H 复购增长
实现难度⭐⭐⭐☆☆
业务优先级⭐⭐⭐☆☆
业务视角
适用角色运营负责人 / CTO · 产品经理 · CEO
适用平台Amazon PPC + 库存 + 定价 多 Agent 协作 · TikTok 内容运营流水线
什么情况下用运营任务太碎,选品/定价/广告/客服同时跑,人手严重不足;重复性运营动作需要 7×24 响应但没有足够人力
成功是什么样的多个 AI Agent 协作自动完成跨系统运营任务,运营团队人效提升 3-5 倍,7×24 无人值守运营
业务痛点
运营人手不够任务太多价格变化没有及时响应重复性工作占据太多时间想做 7×24 监控但没人盯

1. 解决的问题

- LLM 生成初始答案后,即使答案错误,也会在后续反思中"维护"这个答案

2. 核心算法逻辑

MultiAgent Debate (MAD) 提出了一种通过多 Agent 辩论来解决复杂推理问题的方法。核心洞察:单个 LLM 一旦对初始答案建立信心,后续的自我反思会陷入"思维退化"(DegenerationofThought),无法产生真正的新思路。多个 Agent 之间的对抗性辩论可以打破这种认知锁定。

3. 业务应用场景

一条评论的情感标注可能存在歧义。例如:"Spectra S1 吸奶器价格贵但确实好用"——这到底是正面还是负面?单 Agent 可能因 prompt 偏向而给出不稳定的结果。

- 待标注的评论文本 - 多个标注 Agent(使用不同的 prompt/模型) - Judge Agent 的裁决标准

业务价值: - 减少单 Agent 的标注偏差,提升标注一致性 - 歧义案例的置信度量化,指导人工复核优先级 - 复杂情感表达的多维度标注,比单标签更丰富

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • 数据要求:低,无需额外训练数据
  • 技术门槛:中,核心是 Prompt 设计(角色分化、辩论协议)
  • 工程复杂度:中低,多 Agent 轮流调用
  • 维护成本:低,调整角色 prompt 即可
  • 解决真实问题:DoT 是 LLM 自我反思的根本局限
  • 成本可控:GPT-3.5 × N 的总成本可能仍低于 GPT-4 单次调用

7. 代码模板

代码块数量:4 · 路径:paper2skills-code/mas/multi_agent_debate

cd paper2skills-code/mas/multi_agent_debate
python debate_system.py

8. 论文来源

  • 2305.19118