EvoSC — 对比反思 + 自我巩固：Agent 从失败轨迹进化

Skill-EvoSC-Self-Consolidation · 10-MAS

causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规WF-B 广告优化WF-C 客服分诊WF-D 选品扫描WF-G Listing内容优化

实现难度⭐⭐⭐☆☆

业务优先级⭐⭐⭐⭐☆

业务视角

适用角色运营负责人 / CTO · 产品经理 · CEO

适用平台Amazon PPC + 库存 + 定价多 Agent 协作 · TikTok 内容运营流水线

什么情况下用运营任务太碎，选品/定价/广告/客服同时跑，人手严重不足；重复性运营动作需要 7×24 响应但没有足够人力

成功是什么样的多个 AI Agent 协作自动完成跨系统运营任务，运营团队人效提升 3-5 倍，7×24 无人值守运营

业务痛点

运营人手不够任务太多价格变化没有及时响应重复性工作占据太多时间想做 7×24 监控但没人盯

1. 解决的问题

EvoSC（Self-Consolidation for Self-Evolving Agents，arXiv 2602.01966，2026年2月）解决了现有 Agent 自我进化框架的两个根本缺陷

2. 核心算法逻辑

EvoSC（SelfConsolidation for SelfEvolving Agents，arXiv 2602.01966，2026年2月）解决了现有 Agent 自我进化框架的两个根本缺陷：

3. 业务应用场景

跨境母婴客服 Agent 处理退款纠纷时，初期拒绝率过高（错误处理"金额 >500 元且购买超 30 天"的案例），导致差评激增。传统方式是人工总结 SOP 然后更新 prompt，成本高且滞后。

量化收益： - 纠纷升级率：从 18% 降至 7%（-61%） - 无需人工编写新 SOP，进化周期从 2 周压缩至 1 天 - prompt token 保持 15 tokens，不随案例积累而膨胀

关键洞察：EvoSC 的对比反思自动发现了"阈值组合规则"（金额 AND 时间），这类复合条件即使经验丰富的运营也需要数据分析才能发现。

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

✅ 客服 Agent：每日处理大量纠纷，失败案例是最宝贵的训练数据
✅ 选品 Agent：合规失误成本极高，需从历史误判中快速学习
✅ 供应链 Agent：补货决策误判会直接导致缺货或积压
❌ 冷启动阶段（无历史轨迹时无法对比反思）
❌ 任务多样性极高时（错误模式难以归纳复用）
实现难度：⭐⭐⭐☆☆（对比反思逻辑较简洁，核心难点在生产级 soft prompt tuning）

7. 代码模板

代码块数量：4 · 路径：paper2skills-code/mas/evosc_self_consolidation

"""
EvoSC: Self-Consolidation for Self-Evolving Agents
参考: arXiv 2602.01966 | EvoSC (2026)

双机制: 对比反思（Contrastive Reflection）× 自我巩固（Self-Consolidation）
"""

from __future__ import annotations

from dataclasses import dataclass, field
from typing import Any
from enum import Enum


# ──────────────────────────────────────────────
# 核心数据类
# ──────────────────────────────────────────────

class OutcomeType(str, Enum):
    SUCCESS = "success"
    FAILURE = "failure"


@dataclass
class Step:
    """轨迹中的单个执行步骤"""
    action: str                # 执行的动作
    observation: str           # 环境反馈
    reasoning: str = ""        # 推理过程（可选）


@dataclass
class AgentTrajectory:
    """Agent 执行轨迹（成功或失败）"""
    task: str
    steps: list[Step]
    outcome: OutcomeType
    reward: float = 0.0        # 奖励信号（成功=1.0，失败=0.0 或负值）
    metadata: dict = field(default_factory=dict)


@dataclass
class ErrorPattern:
    """从对比反思中提炼的错误模式"""
    trigger: str               # 触发条件（什么上下文下会犯此错）
    wrong_action: str          # 错误动作（失败路径的选择）
    correct_action: str        # 正确替代（成功路径的选择）
    confidence: float = 0.8    # 模式置信度
    occurrences: int = 1       # 在失败轨迹中的出现次数


@dataclass
class CompactPromptToken:
    """
    自我巩固后的紧凑 prompt token。
    固定长度（与历史轨迹数 T 无关），可注入任意推理上下文。
    """
    content: str               # 压缩后的文本表示（生产中为向量）
    token_count: int = 0       # 占用 token 数（目标 ≤ 20）
    source_patterns: list[str] = field(default_factory=list)  # 来源错误模式摘要

8. 论文来源

2602.01966