EComStage — 电商 Agent 三阶段(Perception/Planning/Action)双向 Benchmark

Skill-Agent-Stage-Evaluation · 16-智能体工程

experimentoptimizationrecommendationragmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程WF-C 客服分诊WF-E Review监控WF-G Listing内容优化WF-H 复购增长

实现难度⭐⭐⭐☆☆

业务优先级⭐⭐⭐☆☆

业务视角

适用角色CTO / 技术负责人 · 产品经理 · 数据工程师

适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent

什么情况下用想把 AI 集成到业务系统，但 LLM 稳定性差、幻觉问题、成本控制都是挑战；Agent 任务失败了不知道哪步出了问题

成功是什么样的AI Agent 在生产环境稳定运行，失败可追踪，成本可控，复杂任务完成率 >85%

业务痛点

LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角

EComStage 解决现有 ecommerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customeroriented 和 merchantoriented 两类视角:

跨境母婴客服 Agent 上线 3-6 个月后,运营经常发现"总指标差,但具体哪里差不知道"。需要一套 stage-wise 评估,把整体满意度下降问题定位到具体能力短板:

- 是 Perception 出问题(没听懂客户问什么) - 还是 Planning 出问题(听懂但选错处理路径) - 还是 Action 出问题(路径对但回复质量差)

- 跨境母婴客服历史会话 5000+(每类任务 200-500) - 人工标注(双语):意图标签、attitude 标签、scenario route 标签、solution 选项、reference answer - 用 Qwen3 / GPT-4o 等做一致性检查

请查看原始代码模板获取输入规格。

请查看原始代码模板获取输出规格。

代码块数量：3 · 路径：paper2skills-code/llm_agent_engineering/agent_stage_evaluation

cd paper2skills-code/llm_agent_engineering/agent_stage_evaluation
python ecomstage_eval.py