MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

Skill-MCP-Tool-Use-Benchmark · 16-智能体工程

causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规WF-C 客服分诊WF-D 选品扫描

实现难度⭐⭐⭐☆☆

业务优先级⭐⭐⭐☆☆

业务视角

适用角色CTO / 技术负责人 · 产品经理 · 数据工程师

适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent

什么情况下用想把 AI 集成到业务系统，但 LLM 稳定性差、幻觉问题、成本控制都是挑战；Agent 任务失败了不知道哪步出了问题

成功是什么样的AI Agent 在生产环境稳定运行，失败可追踪，成本可控，复杂任务完成率 >85%

业务痛点

LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性，忽略了一个关键问题：模型能完成任务，但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

2. 核心算法逻辑

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCPUniverse, MCPRADAR) 主要测正确性，忽略了一个关键问题：模型能完成任务，但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

3. 业务应用场景

公司部署了多个客服 Agent (基于不同 LLM)，需要客观评估它们的 tool use 能力： - 简单查询: 单次 tool call (订单查询) - 复杂查询: 多步串行 (先查订单 → 再查物流) - 批量查询: 并行调用 (同时查多个订单)

当前评估仅靠人工抽查，无法量化比较不同模型的能力差异。

| 模型 | TFS | TEFS | Token Eff. | 适用场景 | |------|-----|------|-----------|---------| | Claude Sonnet 4.5 | 高 | 高 | 中 | 复杂查询，预算充足 | | gpt-5 | 高 | 低 | 低 | 简单查询，不推荐复杂场景 | | qwen3-235b | 中 | 中高 | 最高 | 成本敏感场景 | | 内部 Hermes 4 70B | 待测 | 待测 | 待测 | 本地部署替代方案 |

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

数据要求: 中，需要构建 domain-specific 测试集
技术门槛: 中，需要理解 MCP 协议 + 评估指标
工程复杂度: 中，沙箱环境 + mock 函数 + 指标计算
维护成本: 中低，测试集可复用，新增任务时增量更新
数据驱动选型: 替代主观印象，用指标说话
预防故障: 新 tool 上线前的回归测试

7. 代码模板

代码块数量：3 · 路径：未检测到

cd paper2skills-code/llm_agent_engineering/mcp_tool_use_benchmark
python3 mcp_agent_bench.py

8. 论文来源

2512.24565