ACON — Agent 长上下文压缩与 NL 准则优化
Skill-Context-Compression · 16-智能体工程
1. 解决的问题
跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)
2. 核心算法逻辑
ACON(Agent Context Optimization) 解决长 horizon LLM Agent 的核心瓶颈:上下文随交互无界增长。Agent 在每一步要积累 observation + action,十几步后 context 就爆炸,带来高成本 + 长上下文稀释相关信息。
3. 业务应用场景
跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)。这些 API 返回非常长(单个 API 可能 5000+ token),累积后超出大多数模型的 128k context。
- 跨境客服历史对话 10-30 轮(input) - 多次 API 返回的原始 JSON(订单/物流/产品) - 一份"成功 trajectory"(完整 context 下 Agent 给出正确建议)的标注 - 一份"失败 trajectory"(压缩后 Agent 给出错误建议)的标注
- 长对话客服推理成本 -60-70%(对应 API token 费节省) - 客服首响时延 -60-70% - AppWorld benchmark 显示压缩后 Agent 反而准确率不降——长上下文稀释效应被消除
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- 数据要求:中,需要 success/failure trajectory pair(50-200 对每场景)
- 技术门槛:中-高,UT/CO 两阶段优化 + LoRA 蒸馏
- 工程复杂度:中,gradient-free + 接现成 LLM API,无 RL 复杂度
- 维护成本:中,guideline 需随业务场景演化定期更新
- 直接降本:任何长 horizon Agent 场景都受益,本项目 paper-workflow 自身就是长流程
- 小模型增益巨大:与 Hermes 4 / Qwen3-4B 这种开源模型组合,可实现 GPT-5 级体验 + 1/10 成本
7. 代码模板
代码块数量:3 · 路径:paper2skills-code/llm_agent_engineering/context_compression
cd paper2skills-code/llm_agent_engineering/context_compression
python acon.py
8. 论文来源
- 2309.03409
- 2406.07496
- 2407.18901
- 2407.19056
- 2510.00615