MASEval — 系统级 MAS 评估：Framework 影响与模型影响同等重要

Skill-MASEval-System-Evaluation · 10-MAS

causalexperimentoptimizationrecommendationmulti_agent供应链与补货推荐与搜索MAS与智能体工程WF-A 智能补货WF-D 选品扫描

年化 ROI20-60 万

实现难度⭐⭐☆☆☆

业务优先级⭐⭐⭐⭐☆

业务视角

适用角色运营负责人 / CTO · 产品经理 · CEO

适用平台Amazon PPC + 库存 + 定价多 Agent 协作 · TikTok 内容运营流水线

什么情况下用运营任务太碎，选品/定价/广告/客服同时跑，人手严重不足；重复性运营动作需要 7×24 响应但没有足够人力

成功是什么样的多个 AI Agent 协作自动完成跨系统运营任务，运营团队人效提升 3-5 倍，7×24 无人值守运营

业务痛点

运营人手不够任务太多价格变化没有及时响应重复性工作占据太多时间想做 7×24 监控但没人盯

1. 解决的问题

传统 MAS 评估聚焦模型级（Model-Level）：固定 framework，换 LLM 比性能差异。MASEval 提出系统级（System-Level）评估范式，将完整 MAS 系统（模型 × Framework × 协调逻辑）作为原子评测单元，形成 3×3×3 全因子实验设计：3 个 LLM backbone × 3 个 Agent Framework（smolagents/LlamaIndex/AutoGen 等）× 3 种协调逻辑（顺序/并行/自适应）。

2. 核心算法逻辑

传统 MAS 评估聚焦模型级（ModelLevel）：固定 framework，换 LLM 比性能差异。MASEval 提出系统级（SystemLevel）评估范式，将完整 MAS 系统（模型 × Framework × 协调逻辑）作为原子评测单元，形成 3×3×3 全因子实验设计：3 个 LLM backbone × 3 个 Agent Framework（smolagents/LlamaIndex/AutoGen 等）× 3 种协调

3. 业务应用场景

业务问题：WF-A 补货决策 MAS 计划部署，技术选型阶段在 LangGraph / CrewAI / AutoGen 间抉择，不同 framework 带来的性能差异不明。

数据要求： - 标准补货决策任务集（20-50 条，含 SKU 历史销量、库存水位、lead time） - 3 种 framework 的相同 Agent 逻辑实现 - 统一评分标准（补货量偏差率 ≤ 5%、响应延迟 ≤ 2s）

预期产出： MASEval 跑完 3×1×3（3 framework × 固定模型 × 3 协调逻辑）全因子实验，输出 `ComparisonReport`： - 各 framework 准确率对比及 effect_size - framework overhead（额外 latency/token） - 最优 framework 推荐 + 次优备选

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

20-60 万

7. 代码模板

代码块数量：1 · 路径：paper2skills-code/mas/maseval_system_evaluation

# 快速调用示例
from mas.maseval_system_evaluation import MASEvalRunner, AgentSystemConfig, BenchmarkTask

tasks = [BenchmarkTask(task_id="t1", description="补货决策", 
                        input_data={"sku": "B001", "stock": 50},
                        expected_output={"reorder_qty": 200}, domain="supply_chain")]

configs = [
    AgentSystemConfig(model="gpt-4o-mini", framework="langgraph",  coordination_logic="sequential"),
    AgentSystemConfig(model="gpt-4o-mini", framework="crewai",     coordination_logic="sequential"),
    AgentSystemConfig(model="gpt-4o-mini", framework="autogen",    coordination_logic="sequential"),
]

runner = MASEvalRunner()
report = runner.compare_systems(configs, tasks)
print(f"最优 Framework: {report.best_system.framework}")
print(f"最大性能差距: {report.performance_gap:.1%}")
print(f"Framework 效应量: {report.framework_effect_size:.3f}")

8. 论文来源

2603.08835