paper2skills Playbook

Memory-as-Action — RL 内嵌式记忆操作策略 (DCPO 训练)

Skill-Memory-as-Action · 16-智能体工程

causalexperimentoptimizationmulti_agent推荐与搜索MAS与智能体工程
实现难度⭐⭐⭐⭐⭐
业务优先级⭐⭐⭐⭐⭐
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action

2. 核心算法逻辑

MemAct(MemoryasAction) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action:

3. 业务应用场景

跨境母婴客服 agent 处理"多目标"客诉:一次对话里客户同时问"过敏退货 + 物流追踪 + 关税咨询 + 推荐替代品",每个子问题需要独立工具调用。

现状用 Focus(P2-2) 纯 prompt 控制,但有两个问题: 1. 子目标多到 4 个以上时,Focus 频繁压缩导致丢失上下文,准确率从 80% 跌到 60% 2. Prompt 不适配模型,Haiku 4.5 调好的 prompt 换到 Qwen3-7B 失效

- 模型成本:从 Haiku 4.5 ($1/Mtok output) 切到自训 Qwen2.5-7B ($0.1/Mtok 自建) = -90% - 训练投入:Cold-Start SFT + DCPO RL ≈ 2-3 周 + 8x H100 训练 ≈ $5k - ROI: 月度 100k 工单 × ($1 - $0.1) × 0.5 Mtok = $45k/月节省, 1 个月回本

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • 数据要求:中高,需 800+ 条 cold-start 轨迹 + 8k+ RL 训练样本
  • 技术门槛:,需懂 RL (GRPO/DCPO) + 分布式训练 + segmentation 工程
  • 工程复杂度:,DCPO segmentation + advantage mapping + segmented SFT
  • 维护成本:中,模型迭代时需重新训练,但 cold-start 流程可复用
  • 方法论价值极高:把 memory 视为 first-class action 是范式级创新
  • 实施门槛极高:小团队不易承担 RL 训练 + 工程基建

7. 代码模板

代码块数量:7 · 路径:paper2skills-code/llm_agent_engineering/memory_as_action

cd paper2skills-code/llm_agent_engineering/memory_as_action
python3 memact.py

8. 论文来源

  • 2309.00071
  • 2310.08560
  • 2402.03300
  • 2503.05292
  • 2508.07976
  • 2510.12635