Memory-as-Action — RL 内嵌式记忆操作策略 (DCPO 训练)

Skill-Memory-as-Action · 16-智能体工程

causalexperimentoptimizationmulti_agent推荐与搜索MAS与智能体工程

实现难度⭐⭐⭐⭐⭐

业务优先级⭐⭐⭐⭐⭐

业务视角

适用角色CTO / 技术负责人 · 产品经理 · 数据工程师

适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent

什么情况下用想把 AI 集成到业务系统，但 LLM 稳定性差、幻觉问题、成本控制都是挑战；Agent 任务失败了不知道哪步出了问题

成功是什么样的AI Agent 在生产环境稳定运行，失败可追踪，成本可控，复杂任务完成率 >85%

业务痛点

LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action

2. 核心算法逻辑

MemAct(MemoryasAction) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action:

3. 业务应用场景

跨境母婴客服 agent 处理"多目标"客诉:一次对话里客户同时问"过敏退货 + 物流追踪 + 关税咨询 + 推荐替代品",每个子问题需要独立工具调用。

现状用 Focus(P2-2) 纯 prompt 控制,但有两个问题: 1. 子目标多到 4 个以上时,Focus 频繁压缩导致丢失上下文,准确率从 80% 跌到 60% 2. Prompt 不适配模型,Haiku 4.5 调好的 prompt 换到 Qwen3-7B 失效

- 模型成本:从 Haiku 4.5 ($1/Mtok output) 切到自训 Qwen2.5-7B ($0.1/Mtok 自建) = -90% - 训练投入:Cold-Start SFT + DCPO RL ≈ 2-3 周 + 8x H100 训练 ≈ $5k - ROI: 月度 100k 工单 × ($1 - $0.1) × 0.5 Mtok = $45k/月节省, 1 个月回本

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

数据要求:中高,需 800+ 条 cold-start 轨迹 + 8k+ RL 训练样本
技术门槛:高,需懂 RL (GRPO/DCPO) + 分布式训练 + segmentation 工程
工程复杂度:高,DCPO segmentation + advantage mapping + segmented SFT
维护成本:中,模型迭代时需重新训练,但 cold-start 流程可复用
方法论价值极高:把 memory 视为 first-class action 是范式级创新
实施门槛极高:小团队不易承担 RL 训练 + 工程基建

7. 代码模板

代码块数量：7 · 路径：paper2skills-code/llm_agent_engineering/memory_as_action

cd paper2skills-code/llm_agent_engineering/memory_as_action
python3 memact.py

8. 论文来源

2309.00071
2310.08560
2402.03300
2503.05292
2508.07976
2510.12635