MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试
Skill-MCP-Tool-Use-Benchmark · 16-智能体工程
1. 解决的问题
MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。
2. 核心算法逻辑
MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCPUniverse, MCPRADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。
3. 业务应用场景
公司部署了多个客服 Agent (基于不同 LLM),需要客观评估它们的 tool use 能力: - 简单查询: 单次 tool call (订单查询) - 复杂查询: 多步串行 (先查订单 → 再查物流) - 批量查询: 并行调用 (同时查多个订单)
当前评估仅靠人工抽查,无法量化比较不同模型的能力差异。
| 模型 | TFS | TEFS | Token Eff. | 适用场景 | |------|-----|------|-----------|---------| | Claude Sonnet 4.5 | 高 | 高 | 中 | 复杂查询,预算充足 | | gpt-5 | 高 | 低 | 低 | 简单查询,不推荐复杂场景 | | qwen3-235b | 中 | 中高 | 最高 | 成本敏感场景 | | 内部 Hermes 4 70B | 待测 | 待测 | 待测 | 本地部署替代方案 |
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- 数据要求: 中,需要构建 domain-specific 测试集
- 技术门槛: 中,需要理解 MCP 协议 + 评估指标
- 工程复杂度: 中,沙箱环境 + mock 函数 + 指标计算
- 维护成本: 中低,测试集可复用,新增任务时增量更新
- 数据驱动选型: 替代主观印象,用指标说话
- 预防故障: 新 tool 上线前的回归测试
7. 代码模板
代码块数量:3 · 路径:未检测到
cd paper2skills-code/llm_agent_engineering/mcp_tool_use_benchmark
python3 mcp_agent_bench.py
8. 论文来源
- 2512.24565