paper2skills Playbook

MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

Skill-MCP-Tool-Use-Benchmark · 16-智能体工程

causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规WF-C 客服分诊WF-D 选品扫描
实现难度⭐⭐⭐☆☆
业务优先级⭐⭐⭐☆☆
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

2. 核心算法逻辑

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCPUniverse, MCPRADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

3. 业务应用场景

公司部署了多个客服 Agent (基于不同 LLM),需要客观评估它们的 tool use 能力: - 简单查询: 单次 tool call (订单查询) - 复杂查询: 多步串行 (先查订单 → 再查物流) - 批量查询: 并行调用 (同时查多个订单)

当前评估仅靠人工抽查,无法量化比较不同模型的能力差异。

| 模型 | TFS | TEFS | Token Eff. | 适用场景 | |------|-----|------|-----------|---------| | Claude Sonnet 4.5 | 高 | 高 | 中 | 复杂查询,预算充足 | | gpt-5 | 高 | 低 | 低 | 简单查询,不推荐复杂场景 | | qwen3-235b | 中 | 中高 | 最高 | 成本敏感场景 | | 内部 Hermes 4 70B | 待测 | 待测 | 待测 | 本地部署替代方案 |

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • 数据要求: 中,需要构建 domain-specific 测试集
  • 技术门槛: 中,需要理解 MCP 协议 + 评估指标
  • 工程复杂度: 中,沙箱环境 + mock 函数 + 指标计算
  • 维护成本: 中低,测试集可复用,新增任务时增量更新
  • 数据驱动选型: 替代主观印象,用指标说话
  • 预防故障: 新 tool 上线前的回归测试

7. 代码模板

代码块数量:3 · 路径:未检测到

cd paper2skills-code/llm_agent_engineering/mcp_tool_use_benchmark
python3 mcp_agent_bench.py

8. 论文来源

  • 2512.24565