SkillForge — 领域特定自演化 Agent Skill 萃取与优化
Skill-Auto-Skill-Synthesis · 16-智能体工程
causalexperimentoptimizationknowledge_graphmulti_agent广告与投放客服与VOC知识图谱与RAGMAS与智能体工程WF-B 广告优化WF-C 客服分诊WF-E Review监控WF-H 复购增长
年化 ROIbad case 自动诊断省去人工质检 30%-50% 工时
实现难度⭐⭐⭐⭐☆
业务优先级⭐⭐⭐⭐☆
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
1. 解决的问题
母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张
2. 核心算法逻辑
SkillForge 解决企业级 Agent Skill 的两大难题:(1) 通用 Skill 创建器缺少领域基础,产出的初始 Skill 与真实任务对不齐;(2) 部署后没有机制把执行失败回溯到 Skill 缺陷并定向修复。它把 Skill 视为可版本化的"软件模块"(包含 SKILL.md + tools.json + references/),建立 创建评估优化 端到端闭环。
3. 业务应用场景
母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张。新接入一个国家或类目,新人 onboarding 周期长且质量不一致。
- 历史工单(中英 + 目标市场语言):至少 200-500 个 ticket 每个场景 - 内部 KB 文档(产品规格、政策、物流约束) - 工具列表(订单查询 API、物流追踪 API、退货系统 API)的 schema
- 新国家/类目 Skill 冷启动周期:人工写 2-3 周 → 自动生成 1-2 天 - 客服一致性 CR:初始 +4.3pp,3 轮自演化后 +9-12pp(对应论文 RQ1/RQ2) - 售前转化率(由首响一致性驱动)预期提升 5-8%
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- 数据要求:中高,需要至少 200-500 个工单每场景 + 脱敏管道
- 技术门槛:中高,需要 ReAct + LLM-judge + VFS 工程
- 工程复杂度:中,论文设计清晰但要落地 4 维度并行 Analyzer 有调优工作
- 维护成本:低,自演化机制本身就是维护机制
- 业务价值极高:跨境多国扩张 + 类目扩张是母婴出海核心增长引擎
- 方法论可复用:本项目 paper2skills 工作流本质上就是 SkillForge 的论文版本——把这套机制应用到自己身上
7. 代码模板
代码块数量:3 · 路径:未检测到
cd paper2skills-code/llm_agent_engineering/auto_skill_synthesis
python skillforge.py
8. 论文来源
- 2602.12430
- 2602.12670
- 2604.08618