paper2skills Playbook

MCP Tool 描述质量审核 — 六维 Smell 扫描与动态路由

Skill-Tool-Description-Audit · 16-智能体工程

causalexperimentoptimizationrecommendationragmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规WF-A 智能补货WF-C 客服分诊WF-G Listing内容优化
实现难度⭐⭐⭐☆☆
业务优先级⭐⭐⭐☆☆
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。

2. 核心算法逻辑

Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 tradeoff)。

3. 业务应用场景

公司内部 MCP server 管理多个业务 tools(订单查询、物流追踪、尺码推荐、合规检查、退换货处理等)。随着工具数量增加,描述质量参差不齐: - 56% 的工具目的不清晰 - 89% 缺少使用指南 - 客服 agent 经常选错工具或传错参数

MCP Smell Scanner 落地方案:

| Tool | Purpose | Guidelines | Limitations | Params | Examples | Returns | Smells | |------|---------|-----------|-------------|--------|----------|---------|--------| | order_lookup | 4 | 2 | 1 | 3 | 1 | 2 | Missing Guidelines, Unstated Limits, Exemplar Issues | | logistics_track | 3 | 3 | 2 | 4 |

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • 数据要求: 低,直接扫描现有 MCP tool 描述
  • 技术门槛: 中,需要理解 MCP 协议 + FM prompt engineering
  • 工程复杂度: 中,六维评分 + 增强 + 路由三层架构
  • 维护成本: 中低,FM 评分可自动化,只需定期校准
  • 普适性强: 任何使用 MCP 的系统都受益
  • 成本收益明确: 准确率提升直接转化为业务价值

7. 代码模板

代码块数量:3 · 路径:paper2skills-code/llm_agent_engineering/tool_description_audit

cd paper2skills-code/llm_agent_engineering/tool_description_audit
python3 mcp_smell_scanner.py

8. 论文来源

  • 2602.14878