paper2skills Playbook

ATLAS — 梯度无关持续学习:Teacher-Student 双架构在线适应

Skill-ATLAS-Gradient-Free-Continual · 16-智能体工程

causalexperimentforecastingoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程WF-A 智能补货WF-C 客服分诊
实现难度⭐⭐⭐☆☆
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。

2. 核心算法逻辑

传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。

3. 业务应用场景

痛点:婴儿奶粉旺季/淡季需求波动大,固定规则备货导致缺货或积压,重新微调模型成本高。

效果:无需重训,第 5 次补货决策开始质量可见提升;运营人员可直接编辑 PLM 中的策略规则进行干预。

痛点:退款场景规则复杂(金额/原因/渠道各维度组合),人工写规则无法穷举,微调频率追不上业务变化。

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

未自动抽取;请查看原始 Skill 卡片。

7. 代码模板

代码块数量:3 · 路径:未检测到

"""
ATLAS — Gradient-Free Continual Learning via Teacher-Student Architecture
Paper: arXiv:2511.01093 | Nov 2025
Use case: WF-A supply chain agent adaptation + WF-C customer service continuous optimization
"""
from __future__ import annotations

import json
import time
import hashlib
from dataclasses import dataclass, field
from typing import Any


# ─── 数据类 ───────────────────────────────────────────────────────────────

@dataclass
class Experience:
    """原始经验记录:任务输入 + 执行结果 + 成功标记"""
    exp_id: str
    task_type: str          # 任务类型(如 "restock", "refund")
    task_input: dict        # 任务输入上下文
    decision: str           # Student 的执行决策
    outcome: dict           # 实际结果(成功率、偏差等)
    success: bool           # 是否成功
    timestamp: float = field(default_factory=time.time)
    tags: list[str] = field(default_factory=list)


@dataclass
class DistilledKnowledge:
    """蒸馏知识条目:从经验提炼的可读策略规则"""
    rule_id: str
    task_type: str
    rule_text: str          # 可读规则(如 "旺季备货乘以1.4系数")
    confidence: float       # 0-1,基于支撑经验数量
    support_count: int      # 支撑该规则的原始经验数量
    created_at: float = field(default_factory=time.time)
    updated_at: float = field(default_factory=time.time)


# ─── 持久学习记忆(PLM)──────────────────────────────────────────────────

class LearningMemory:
    """持久学习记忆:存储原始经验 + 蒸馏知识,支持检索和更新"""

    def __init__(self) -> None:
        self._experiences: list[Experience] = []
        self._knowledge: dict[str, list[DistilledKnowledge]] = {}  # task_type → rules
        self._supervision_levels: dict[str, float] = {}             # task_type → 0-1

    # --- 经验管理 ---
    def add_experience(self, exp: Experience) -> None:
        self._experiences.append(exp)

    def get_experiences(self, task_type: str, limit: int = 10) -> list[Experience]:
        """检索最近的同类任务经验"""
        filtered = [e for e in self._experiences if e.task_type == task_type]
        return sorted(filtered, key=lambda e: e.timestamp, reverse=True)[:limit]

8. 论文来源

  • 2511.01093