Skill 自动演化与验证 — EvoSkills 双 LLM 协同优化

Skill-Co-Evolutionary-Skill-Verification · 16-智能体工程

causalexperimentoptimizationmulti_agent客服与VOCMAS与智能体工程WF-C 客服分诊

实现难度⭐⭐⭐⭐☆

业务优先级⭐⭐⭐⭐☆

业务视角

适用角色CTO / 技术负责人 · 产品经理 · 数据工程师

适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent

什么情况下用想把 AI 集成到业务系统，但 LLM 稳定性差、幻觉问题、成本控制都是挑战；Agent 任务失败了不知道哪步出了问题

成功是什么样的AI Agent 在生产环境稳定运行，失败可追踪，成本可控，复杂任务完成率 >85%

业务痛点

LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

EvoSkills 解决 LLM Agent 多文件 Skill 包自动生成的两个根本挑战

2. 核心算法逻辑

EvoSkills 解决 LLM Agent 多文件 Skill 包自动生成的两个根本挑战:

3. 业务应用场景

跨境母婴客服需要覆盖大量场景:退货、过敏咨询、物流追踪、关税计算、母婴专业问答……每个场景的 SOP 需要人工撰写并打磨,周期 1-2 周/场景。同时人写的 SOP 经常出现 human-machine misalignment:客服 manager 觉得逻辑清晰的步骤,Claude/GPT 执行起来反而经常报错(对应论文 Takeaway 3)。

- 场景接入周期:1-2 周 → 2 天(只需收集 30 个 oracle 样本) - SOP 质量:对应论文 +18pp ~ +40pp 改进 - 维护成本:新法规出来后只需更新 oracle ground-truth,skill 自动重新演化

业务上需要在多个 LLM 服务商之间切换: - 高峰期用 Claude Opus 4.6(贵但准) - 平峰用 GPT-5.2(性价比) - 低优先级用 Qwen3-Coder(成本最低)

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

数据要求:中,需要 oracle ground-truth 样本(30-100 个/场景)
技术门槛:高,需要多 LLM session 编排 + 信息隔离设计
工程复杂度:中高,核心算法清晰但环境执行 + 沙箱隔离需要工程化
维护成本:中,主要是 oracle 数据维护 + 演化轮次调参
方法论价值高:协同演化框架可推广到其他自我改进场景(prompt 优化、tool 演化)
跨平台红利明显:论文给出 +36 ~ +44pp 跨模型迁移收益,直接转化为成本节省

7. 代码模板

代码块数量：4 · 路径：未检测到

cd paper2skills-code/llm_agent_engineering/co_evolutionary_skill_verification
python3 evoskills.py

8. 论文来源

2602.20867
2604.01687
2604.08618