SkillForge — 领域特定自演化 Agent Skill 萃取与优化

Skill-Auto-Skill-Synthesis · 16-智能体工程

causalexperimentoptimizationknowledge_graphmulti_agent广告与投放客服与VOC知识图谱与RAGMAS与智能体工程WF-B 广告优化WF-C 客服分诊WF-E Review监控WF-H 复购增长

年化 ROIbad case 自动诊断省去人工质检 30%-50% 工时

实现难度⭐⭐⭐⭐☆

业务优先级⭐⭐⭐⭐☆

业务视角

适用角色CTO / 技术负责人 · 产品经理 · 数据工程师

适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent

什么情况下用想把 AI 集成到业务系统，但 LLM 稳定性差、幻觉问题、成本控制都是挑战；Agent 任务失败了不知道哪步出了问题

成功是什么样的AI Agent 在生产环境稳定运行，失败可追踪，成本可控，复杂任务完成率 >85%

业务痛点

LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张

2. 核心算法逻辑

SkillForge 解决企业级 Agent Skill 的两大难题:(1) 通用 Skill 创建器缺少领域基础,产出的初始 Skill 与真实任务对不齐;(2) 部署后没有机制把执行失败回溯到 Skill 缺陷并定向修复。它把 Skill 视为可版本化的"软件模块"(包含 SKILL.md + tools.json + references/),建立创建评估优化端到端闭环。

3. 业务应用场景

母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张。新接入一个国家或类目,新人 onboarding 周期长且质量不一致。

- 历史工单(中英 + 目标市场语言):至少 200-500 个 ticket 每个场景 - 内部 KB 文档(产品规格、政策、物流约束) - 工具列表(订单查询 API、物流追踪 API、退货系统 API)的 schema

- 新国家/类目 Skill 冷启动周期:人工写 2-3 周 → 自动生成 1-2 天 - 客服一致性 CR:初始 +4.3pp,3 轮自演化后 +9-12pp(对应论文 RQ1/RQ2) - 售前转化率(由首响一致性驱动)预期提升 5-8%

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

数据要求:中高,需要至少 200-500 个工单每场景 + 脱敏管道
技术门槛:中高,需要 ReAct + LLM-judge + VFS 工程
工程复杂度:中,论文设计清晰但要落地 4 维度并行 Analyzer 有调优工作
维护成本:低,自演化机制本身就是维护机制
业务价值极高:跨境多国扩张 + 类目扩张是母婴出海核心增长引擎
方法论可复用:本项目 paper2skills 工作流本质上就是 SkillForge 的论文版本——把这套机制应用到自己身上

7. 代码模板

代码块数量：3 · 路径：未检测到

cd paper2skills-code/llm_agent_engineering/auto_skill_synthesis
python skillforge.py

8. 论文来源

2602.12430
2602.12670
2604.08618