AIM-RM — LLM 多 Agent 库存管理：历史经验相似匹配

Skill-AIM-RM-LLM-Inventory-MAS-Memory · 10-MAS

causalexperimentforecastingoptimizationragmulti_agent广告与投放供应链与补货推荐与搜索MAS与智能体工程WF-A 智能补货WF-B 广告优化

年化 ROI200-400万元

业务优先级⭐⭐⭐⭐⭐

业务视角

适用角色运营负责人 / CTO · 产品经理 · CEO

适用平台Amazon PPC + 库存 + 定价多 Agent 协作 · TikTok 内容运营流水线

什么情况下用运营任务太碎，选品/定价/广告/客服同时跑，人手严重不足；重复性运营动作需要 7×24 响应但没有足够人力

成功是什么样的多个 AI Agent 协作自动完成跨系统运营任务，运营团队人效提升 3-5 倍，7×24 无人值守运营

业务痛点

运营人手不够任务太多价格变化没有及时响应重复性工作占据太多时间想做 7×24 监控但没人盯

1. 解决的问题

LLM-MAS 在库存管理中面临跨场景适应性差的困境——不同 SKU、季节、供应链配置导致需求模式千差万别，零样本或少样本 LLM Agent 难以泛化到新场景。

2. 核心算法逻辑

AIMRM（AI Agent for Inventory Management with Retrieval Memory）解决的核心问题是：LLMMAS 在库存管理中面临跨场景适应性差的困境——不同 SKU、季节、供应链配置导致需求模式千差万别，零样本或少样本 LLM Agent 难以泛化到新场景。

3. 业务应用场景

业务问题：母婴品牌同时运营 0-6月龄段（阶段 1）和 6-12月龄段（阶段 2）配方奶粉，两个 SKU 需求模式迥异： - 阶段 1 需求受新生儿出生率影响，季节性弱但受政策（生育补贴）影响大 - 阶段 2 需求随阶段 1 滞后约 6 个月，且与辅食引入节奏耦合

传统 RL/规则方法在新市场（如东南亚新建仓）因缺乏历史数据而冷启动失败，导致大量缺货或呆滞库存。

数据要求： - 历史场景记录：每日库存水位、30/60/90 天需求滚动均值和标准差、当前在途量、提前期天数 - 记忆库初始化（w/ RL log）：可借用同品类成熟市场（如中国大陆）的 RL 优化轨迹 - 场景特征维度：≥8 维（current_stock, demand_7d, demand_30d, demand_cv, lead_time, backlog, season_flag, promo_flag）

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

工程：向量数据库（Qdrant/FAISS）+ LLM API 调用
成本：~$200-500/月（LLM API） + 向量数据库托管 ~$50/月
上线周期：4-6 周（含历史数据清洗 + RL log 生成）
核心组件：向量数据库（FAISS 可本地运行，无需云服务）
无需训练 RL 模型（w/o RL log 模式直接上线）
最低可行版本：单级 Agent + 50条历史记录即可验证效果

7. 代码模板

代码块数量：2 · 路径：未检测到

"""
AIM-RM: LLM Multi-Agent Inventory Management with Retrieval Memory
arXiv:2602.05524 (AAMAS 2026)

母婴出海应用：多 SKU 季节性库存管理 + 大促备货决策
依赖：numpy, dataclasses, anthropic (或任何 LLM SDK)
"""

from __future__ import annotations
import os
import json
import math
from dataclasses import dataclass, field, asdict
from typing import Optional
import numpy as np


# ─────────────────────────────────────────────
# 1. 数据结构定义
# ─────────────────────────────────────────────

@dataclass
class InventoryState:
    """当前库存场景状态向量（用于相似度检索）"""
    sku_id: str
    current_stock: float          # 当前库存量（件）
    demand_7d: float              # 过去7天日均需求
    demand_30d: float             # 过去30天日均需求
    demand_cv: float              # 需求变异系数（标准差/均值）
    lead_time: int                # 补货提前期（天）
    backlog: float                # 当前缺货积压量
    season_flag: int              # 季节标志 0=淡季 1=旺季
    promo_flag: int               # 促销标志 0=无 1=有
    # 以下字段仅用于记忆存储，不参与相似度计算
    demand_history: list[float] = field(default_factory=list)
    timestamp: str = ""

    def to_feature_vector(self) -> np.ndarray:
        """提取用于 Euclidean 距离计算的特征向量（归一化前）"""
        return np.array([
            self.current_stock,
            self.demand_7d,
            self.demand_30d,
            self.demand_cv,
            float(self.lead_time),
            self.backlog,
            float(self.season_flag),
            float(self.promo_flag),
        ], dtype=float)


@dataclass
class MemoryRecord:
    """一条历史决策记录（场景 + 动作 + 结果）"""
    state: InventoryState
    order_quantity: float         # 当时的订货决策量
    holding_cost: float           # 当期库存持有成本
    shortage_cost: float          # 当期缺货成本
    total_cost: float             # 综合成本（越小越好）
    source: str = "runtime"      # "runtime" | "rl_log"（预置RL轨迹）

8. 论文来源

2602.05524