ATLAS — 梯度无关持续学习:Teacher-Student 双架构在线适应
Skill-ATLAS-Gradient-Free-Continual · 16-智能体工程
causalexperimentforecastingoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程WF-A 智能补货WF-C 客服分诊
实现难度⭐⭐⭐☆☆
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
1. 解决的问题
传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。
2. 核心算法逻辑
传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。
3. 业务应用场景
痛点:婴儿奶粉旺季/淡季需求波动大,固定规则备货导致缺货或积压,重新微调模型成本高。
效果:无需重训,第 5 次补货决策开始质量可见提升;运营人员可直接编辑 PLM 中的策略规则进行干预。
痛点:退款场景规则复杂(金额/原因/渠道各维度组合),人工写规则无法穷举,微调频率追不上业务变化。
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
未自动抽取;请查看原始 Skill 卡片。
7. 代码模板
代码块数量:3 · 路径:未检测到
"""
ATLAS — Gradient-Free Continual Learning via Teacher-Student Architecture
Paper: arXiv:2511.01093 | Nov 2025
Use case: WF-A supply chain agent adaptation + WF-C customer service continuous optimization
"""
from __future__ import annotations
import json
import time
import hashlib
from dataclasses import dataclass, field
from typing import Any
# ─── 数据类 ───────────────────────────────────────────────────────────────
@dataclass
class Experience:
"""原始经验记录:任务输入 + 执行结果 + 成功标记"""
exp_id: str
task_type: str # 任务类型(如 "restock", "refund")
task_input: dict # 任务输入上下文
decision: str # Student 的执行决策
outcome: dict # 实际结果(成功率、偏差等)
success: bool # 是否成功
timestamp: float = field(default_factory=time.time)
tags: list[str] = field(default_factory=list)
@dataclass
class DistilledKnowledge:
"""蒸馏知识条目:从经验提炼的可读策略规则"""
rule_id: str
task_type: str
rule_text: str # 可读规则(如 "旺季备货乘以1.4系数")
confidence: float # 0-1,基于支撑经验数量
support_count: int # 支撑该规则的原始经验数量
created_at: float = field(default_factory=time.time)
updated_at: float = field(default_factory=time.time)
# ─── 持久学习记忆(PLM)──────────────────────────────────────────────────
class LearningMemory:
"""持久学习记忆:存储原始经验 + 蒸馏知识,支持检索和更新"""
def __init__(self) -> None:
self._experiences: list[Experience] = []
self._knowledge: dict[str, list[DistilledKnowledge]] = {} # task_type → rules
self._supervision_levels: dict[str, float] = {} # task_type → 0-1
# --- 经验管理 ---
def add_experience(self, exp: Experience) -> None:
self._experiences.append(exp)
def get_experiences(self, task_type: str, limit: int = 10) -> list[Experience]:
"""检索最近的同类任务经验"""
filtered = [e for e in self._experiences if e.task_type == task_type]
return sorted(filtered, key=lambda e: e.timestamp, reverse=True)[:limit]
8. 论文来源
- 2511.01093