Memory-as-Action — RL 内嵌式记忆操作策略 (DCPO 训练)
Skill-Memory-as-Action · 16-智能体工程
causalexperimentoptimizationmulti_agent推荐与搜索MAS与智能体工程
实现难度⭐⭐⭐⭐⭐
业务优先级⭐⭐⭐⭐⭐
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
1. 解决的问题
MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action
2. 核心算法逻辑
MemAct(MemoryasAction) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action:
3. 业务应用场景
跨境母婴客服 agent 处理"多目标"客诉:一次对话里客户同时问"过敏退货 + 物流追踪 + 关税咨询 + 推荐替代品",每个子问题需要独立工具调用。
现状用 Focus(P2-2) 纯 prompt 控制,但有两个问题: 1. 子目标多到 4 个以上时,Focus 频繁压缩导致丢失上下文,准确率从 80% 跌到 60% 2. Prompt 不适配模型,Haiku 4.5 调好的 prompt 换到 Qwen3-7B 失效
- 模型成本:从 Haiku 4.5 ($1/Mtok output) 切到自训 Qwen2.5-7B ($0.1/Mtok 自建) = -90% - 训练投入:Cold-Start SFT + DCPO RL ≈ 2-3 周 + 8x H100 训练 ≈ $5k - ROI: 月度 100k 工单 × ($1 - $0.1) × 0.5 Mtok = $45k/月节省, 1 个月回本
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- 数据要求:中高,需 800+ 条 cold-start 轨迹 + 8k+ RL 训练样本
- 技术门槛:高,需懂 RL (GRPO/DCPO) + 分布式训练 + segmentation 工程
- 工程复杂度:高,DCPO segmentation + advantage mapping + segmented SFT
- 维护成本:中,模型迭代时需重新训练,但 cold-start 流程可复用
- 方法论价值极高:把 memory 视为 first-class action 是范式级创新
- 实施门槛极高:小团队不易承担 RL 训练 + 工程基建
7. 代码模板
代码块数量:7 · 路径:paper2skills-code/llm_agent_engineering/memory_as_action
cd paper2skills-code/llm_agent_engineering/memory_as_action
python3 memact.py
8. 论文来源
- 2309.00071
- 2310.08560
- 2402.03300
- 2503.05292
- 2508.07976
- 2510.12635