仿生粘菌主动上下文剪枝 — Focus Agent 自主压缩架构
Skill-Active-Context-Pruning · 16-智能体工程
1. 解决的问题
Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式
2. 核心算法逻辑
Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索收缩策略,把 LLM agent 从被动 "appendonly" 模式升级为主动 "explore → compress → withdraw" 模式:
3. 业务应用场景
跨境母婴客服 agent 需要处理长会话:客户多轮咨询(过敏 → 退货 → 物流 → 关税 → 售后)。每轮会调多个工具(查订单、查批次、查物流、查关税),最终 context 累积到 30k-80k token,主要是中间工具结果(批次明细、物流单步骤、关税计算表)。
如果用 Claude Haiku 4.5 处理 100k 工单/月: - Baseline:每工单 50k token × 100k = 5B token/月 ≈ $500 - 但 50k token 里只有 5-10k 是关键 (客户身份、品牌、决策依据)
- Token 消耗:-22.7% (按论文数据)= -$113/月,年化 -$1.4k - 响应延迟:context 短 = TTFT 快 = 客户体验更好 - 准确率:论文实证 0 退步 (60% = 60%),内部测试需验证
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- 数据要求:低,不需训练数据,纯 prompt 工程
- 技术门槛:中,要懂 ReAct loop + tool 系统 + LLM message manipulation
- 工程复杂度:中,主要是 message store + history pruning 的状态管理
- 维护成本:低,prompt 一次调好后基本不变
- 立刻可落地:不需要训练,纯架构 + prompt
- 直接降本:22-57% token 节省直接转化为 API 成本节省
7. 代码模板
代码块数量:4 · 路径:paper2skills-code/llm_agent_engineering/active_context_pruning
cd paper2skills-code/llm_agent_engineering/active_context_pruning
python3 focus_agent.py
8. 论文来源
- 2305.16291
- 2307.03172
- 2309.17453
- 2310.08560
- 2601.07190