EComStage — 电商 Agent 三阶段(Perception/Planning/Action)双向 Benchmark
Skill-Agent-Stage-Evaluation · 16-智能体工程
experimentoptimizationrecommendationragmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程WF-C 客服分诊WF-E Review监控WF-G Listing内容优化WF-H 复购增长
实现难度⭐⭐⭐☆☆
业务优先级⭐⭐⭐☆☆
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
1. 解决的问题
EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角
2. 核心算法逻辑
EComStage 解决现有 ecommerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customeroriented 和 merchantoriented 两类视角:
3. 业务应用场景
跨境母婴客服 Agent 上线 3-6 个月后,运营经常发现"总指标差,但具体哪里差不知道"。需要一套 stage-wise 评估,把整体满意度下降问题定位到具体能力短板:
- 是 Perception 出问题(没听懂客户问什么) - 还是 Planning 出问题(听懂但选错处理路径) - 还是 Action 出问题(路径对但回复质量差)
- 跨境母婴客服历史会话 5000+(每类任务 200-500) - 人工标注(双语):意图标签、attitude 标签、scenario route 标签、solution 选项、reference answer - 用 Qwen3 / GPT-4o 等做一致性检查
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- 数据要求:中,需要每个任务 200-500 标注样本
- 技术门槛:低-中,主要是评估流水线 + 报告生成
- 工程复杂度:低,close-ended + cosine sim 都很标准
- 维护成本:低,数据集定期补充即可
- 业务价值极高:本项目 paper-审核 工作流可直接整合 EComStage,变成 Agent 能力体检
- 指导选型:论文实证 Qwen3-4B-Instruct 接近 Claude Sonnet 4,跨境母婴成本可降 80%+
7. 代码模板
代码块数量:3 · 路径:paper2skills-code/llm_agent_engineering/agent_stage_evaluation
cd paper2skills-code/llm_agent_engineering/agent_stage_evaluation
python ecomstage_eval.py
8. 论文来源
- 2507.05639
- 2601.02752