MASEval — 系统级 MAS 评估:Framework 影响与模型影响同等重要
Skill-MASEval-System-Evaluation · 10-MAS
1. 解决的问题
传统 MAS 评估聚焦模型级(Model-Level):固定 framework,换 LLM 比性能差异。MASEval 提出系统级(System-Level)评估范式,将完整 MAS 系统(模型 × Framework × 协调逻辑)作为原子评测单元,形成 3×3×3 全因子实验设计:3 个 LLM backbone × 3 个 Agent Framework(smolagents/LlamaIndex/AutoGen 等)× 3 种协调逻辑(顺序/并行/自适应)。
2. 核心算法逻辑
传统 MAS 评估聚焦模型级(ModelLevel):固定 framework,换 LLM 比性能差异。MASEval 提出系统级(SystemLevel)评估范式,将完整 MAS 系统(模型 × Framework × 协调逻辑)作为原子评测单元,形成 3×3×3 全因子实验设计:3 个 LLM backbone × 3 个 Agent Framework(smolagents/LlamaIndex/AutoGen 等)× 3 种协调
3. 业务应用场景
业务问题:WF-A 补货决策 MAS 计划部署,技术选型阶段在 LangGraph / CrewAI / AutoGen 间抉择,不同 framework 带来的性能差异不明。
数据要求: - 标准补货决策任务集(20-50 条,含 SKU 历史销量、库存水位、lead time) - 3 种 framework 的相同 Agent 逻辑实现 - 统一评分标准(补货量偏差率 ≤ 5%、响应延迟 ≤ 2s)
预期产出: MASEval 跑完 3×1×3(3 framework × 固定模型 × 3 协调逻辑)全因子实验,输出 `ComparisonReport`: - 各 framework 准确率对比及 effect_size - framework overhead(额外 latency/token) - 最优 framework 推荐 + 次优备选
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
20-60 万
7. 代码模板
代码块数量:1 · 路径:paper2skills-code/mas/maseval_system_evaluation
# 快速调用示例
from mas.maseval_system_evaluation import MASEvalRunner, AgentSystemConfig, BenchmarkTask
tasks = [BenchmarkTask(task_id="t1", description="补货决策",
input_data={"sku": "B001", "stock": 50},
expected_output={"reorder_qty": 200}, domain="supply_chain")]
configs = [
AgentSystemConfig(model="gpt-4o-mini", framework="langgraph", coordination_logic="sequential"),
AgentSystemConfig(model="gpt-4o-mini", framework="crewai", coordination_logic="sequential"),
AgentSystemConfig(model="gpt-4o-mini", framework="autogen", coordination_logic="sequential"),
]
runner = MASEvalRunner()
report = runner.compare_systems(configs, tasks)
print(f"最优 Framework: {report.best_system.framework}")
print(f"最大性能差距: {report.performance_gap:.1%}")
print(f"Framework 效应量: {report.framework_effect_size:.3f}")
8. 论文来源
- 2603.08835