ATLAS — 梯度无关持续学习：Teacher-Student 双架构在线适应

Skill-ATLAS-Gradient-Free-Continual · 16-智能体工程

causalexperimentforecastingoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程WF-A 智能补货WF-C 客服分诊

实现难度⭐⭐⭐☆☆

业务视角

适用角色CTO / 技术负责人 · 产品经理 · 数据工程师

适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent

什么情况下用想把 AI 集成到业务系统，但 LLM 稳定性差、幻觉问题、成本控制都是挑战；Agent 任务失败了不知道哪步出了问题

成功是什么样的AI Agent 在生产环境稳定运行，失败可追踪，成本可控，复杂任务完成率 >85%

业务痛点

LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

传统持续学习依赖反向传播更新模型权重，存在三个根本缺陷：必须离线批量训练（无法在服务中实时更新）、灾难性遗忘（新任务覆盖旧能力）、部署 Agent 无法自改（推理阶段参数冻结）。ATLAS 的突破在于：将"学习"从参数空间迁移到系统编排层，通过持久学习记忆（Persistent Learning Memory, PLM）存储经验蒸馏后的指导性知识，无需触碰模型权重。

2. 核心算法逻辑

3. 业务应用场景

痛点：婴儿奶粉旺季/淡季需求波动大，固定规则备货导致缺货或积压，重新微调模型成本高。

效果：无需重训，第 5 次补货决策开始质量可见提升；运营人员可直接编辑 PLM 中的策略规则进行干预。

痛点：退款场景规则复杂（金额/原因/渠道各维度组合），人工写规则无法穷举，微调频率追不上业务变化。

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

未自动抽取；请查看原始 Skill 卡片。

7. 代码模板

代码块数量：3 · 路径：未检测到

"""
ATLAS — Gradient-Free Continual Learning via Teacher-Student Architecture
Paper: arXiv:2511.01093 | Nov 2025
Use case: WF-A supply chain agent adaptation + WF-C customer service continuous optimization
"""
from __future__ import annotations

import json
import time
import hashlib
from dataclasses import dataclass, field
from typing import Any


# ─── 数据类 ───────────────────────────────────────────────────────────────

@dataclass
class Experience:
    """原始经验记录：任务输入 + 执行结果 + 成功标记"""
    exp_id: str
    task_type: str          # 任务类型（如 "restock", "refund"）
    task_input: dict        # 任务输入上下文
    decision: str           # Student 的执行决策
    outcome: dict           # 实际结果（成功率、偏差等）
    success: bool           # 是否成功
    timestamp: float = field(default_factory=time.time)
    tags: list[str] = field(default_factory=list)


@dataclass
class DistilledKnowledge:
    """蒸馏知识条目：从经验提炼的可读策略规则"""
    rule_id: str
    task_type: str
    rule_text: str          # 可读规则（如 "旺季备货乘以1.4系数"）
    confidence: float       # 0-1，基于支撑经验数量
    support_count: int      # 支撑该规则的原始经验数量
    created_at: float = field(default_factory=time.time)
    updated_at: float = field(default_factory=time.time)


# ─── 持久学习记忆（PLM）──────────────────────────────────────────────────

class LearningMemory:
    """持久学习记忆：存储原始经验 + 蒸馏知识，支持检索和更新"""

    def __init__(self) -> None:
        self._experiences: list[Experience] = []
        self._knowledge: dict[str, list[DistilledKnowledge]] = {}  # task_type → rules
        self._supervision_levels: dict[str, float] = {}             # task_type → 0-1

    # --- 经验管理 ---
    def add_experience(self, exp: Experience) -> None:
        self._experiences.append(exp)

    def get_experiences(self, task_type: str, limit: int = 10) -> list[Experience]:
        """检索最近的同类任务经验"""
        filtered = [e for e in self._experiences if e.task_type == task_type]
        return sorted(filtered, key=lambda e: e.timestamp, reverse=True)[:limit]

8. 论文来源

2511.01093