paper2skills Playbook

16-智能体工程

Agent Skills/Tools, Context, MCP/A2A, Safety/Fault/Cost

ATLAS — 梯度无关持续学习:Teacher-Student 双架构在线适应

16-智能体工程

传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。

⭐⭐⭐☆☆
causalexperimentforecastingoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程

仿生粘菌主动上下文剪枝 — Focus Agent 自主压缩架构

16-智能体工程

Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式

⭐⭐⭐☆☆
causalexperimentmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

AgeMem — LTM+STM 统一 Agent 记忆:RL 自适应管理跨会话知识

16-智能体工程

AgeMem 是首个将 LTM(长期记忆)和 STM(短期记忆)统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块,由外置 Memory Manager 或启发式 trigger 决策,导致组合效果差、部署成本高(需要额外 expert LLM)。AgeMem 的突破在于:记忆操作本身就是 action,由同一个 LLM policy 通过 RL 学习"何时调什么"。

10 万⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Agent Error Budget — 双向错误预算:自主权随可靠性动态调整

16-智能体工程

传统 SRE 错误预算是单向消耗品:违反 SLO 就消耗预算,预算耗尽就停止发布,恢复后窗口重置。Agent 双向错误预算在此基础上引入自主权预算(Autonomy Budget):好行为可以赢回预算,自主权随可靠性动态升降。

⭐⭐☆☆☆
causalexperimentmulti_agentpricing供应链与补货客服与VOCMAS与智能体工程定价与利润

Agent Fault Tolerance(Agent 容错回退)

16-智能体工程

Agent 执行可能因 API 超时、LLM 输出格式错误、工具返回异常而失败。容错机制:(1) Retry with exponential backoff($t_{retry} = \min(t_{base} \cdot 2^n, t_{max})$);(2) Fallback 策略——LLM 失败切备选模型,工具失败用简化版;(3) Circuit Breaker——连续失败 N 次后停止尝试,避免雪崩。

5-15 万元⭐⭐☆☆☆
causalforecastingoptimizationmulti_agent供应链与补货MAS与智能体工程

Agent SLO Manager — 三层 SLI 体系:服务/任务/判断质量

16-智能体工程

传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补

⭐⭐☆☆☆
experimentrecommendationmulti_agent广告与投放供应链与补货推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Agent Safety Guardrails(Agent 安全对抗护栏)

16-智能体工程

LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护:(1) 输入过滤——检测注入模式;(2) 工具调用前置验证——参数白名单+范围检查;(3) 输出审计——敏感信息脱敏。

10-30 万元⭐⭐☆☆☆
experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

EComStage — 电商 Agent 三阶段(Perception/Planning/Action)双向 Benchmark

16-智能体工程

EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角

⭐⭐⭐☆☆
experimentoptimizationrecommendationragmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

AgentTrace — 因果图根因分析:0.12s 定位多 Agent 故障

16-智能体工程

AgentTrace 的核心洞察是:多 Agent 系统(MAS)的故障传播是确定性的因果链,而非需要 LLM 进行语义推理的模糊问题。

5-20 万⭐⭐☆☆☆
causalexperimentforecastingragmulti_agentdata_collection供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

AgentTrust — 运行时安全拦截:95% 准确率,< 1ms,MCP 集成

16-智能体工程

为什么基础设施沙箱不足:容器/seccomp 工作在系统调用层,不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法,但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作,理解"操作意图"而非仅检查"操作权限"。

20-60 万元⭐⭐☆☆☆
causalexperimentmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

AgeMem — 统一 LTM+STM 管理的 Agentic Memory

16-智能体工程

AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致

STM Filter + Summary 让对话 context 维持紧凑⭐⭐⭐⭐☆
causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

Subterranean Agent — 将工作流 SOP 编译进 LLM 权重

16-智能体工程

每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天

$150/天 → 约 $0.5–1.2/天(按 128–462× 节省比例)
causalexperimentoptimizationmulti_agentvisual_generation广告与投放客服与VOCMAS与智能体工程风控与合规视觉内容生成

Atomix — Agent 工具调用事务性:故障注入成功率 0-7% → 37-57%

16-智能体工程

Atomix 为 Agent 工具调用引入事务语义,解决多步 Agent 工作流在故障(网络抖动、服务超时、LLM 幻觉)下产生的中间态污染问题。无事务保护时,30% 故障注入场景的成功率仅 0-7%;Atomix Tx-Full 模式将其提升至 37-57%,媲美快照回滚(CR)。

10万⭐⭐⭐☆☆
causalexperimentforecastingmulti_agent广告与投放供应链与补货MAS与智能体工程

SkillForge — 领域特定自演化 Agent Skill 萃取与优化

16-智能体工程

母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张

bad case 自动诊断省去人工质检 30%-50% 工时⭐⭐⭐⭐☆
causalexperimentoptimizationknowledge_graphmulti_agent广告与投放客服与VOC知识图谱与RAGMAS与智能体工程

AutoSkill — 经验驱动终身学习:Skill 自进化版本管理

16-智能体工程

RAG 的局限:被动检索,只能复用已显式存入的知识,无法从对话轨迹中自动归纳模式;Fine-tuning 的局限:参数固化后无法增量更新,每次新能力都需全量重训,知识以黑盒形式埋在权重里,不可审计不可编辑。

⭐⭐⭐☆☆
causalexperimentragmulti_agent广告与投放供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

CASCADE — 案例推理部署时学习:Contextual Bandit 无参数自适应

16-智能体工程

部署时学习(Deployment-Time Learning, DTL) 是 CASCADE 提出的第三个 LLM 生命周期阶段:预训练(Pre-training)→ 微调(Fine-tuning)→ 部署时学习。现有方案只在前两个阶段学习,部署后模型冻结,无法从实际使用中积累经验。

⭐⭐☆☆☆
causalexperimentoptimizationrecommendationragmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

CapSeal — Agent 秘密中介:能力封装取代直接密钥暴露

16-智能体工程

传统方式将 API Key 存入环境变量或配置文件,Agent 运行时直接读取。Prompt Injection 攻击可诱导 Agent 将密钥外泄。CapSeal 彻底切断 Agent 与明文密钥的直接联系。

⭐⭐⭐☆☆
causalexperimentmulti_agent广告与投放供应链与补货MAS与智能体工程

ACON — Agent 长上下文压缩与 NL 准则优化

16-智能体工程

跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)

90% 成本, 性能接近 GPT-5⭐⭐⭐⭐☆
causalexperimentoptimizationmulti_agentdata_collection广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程

Cost-Aware Agent Scheduling(成本感知调度)

16-智能体工程

不是所有 Agent 任务都需要 GPT-4——简单分类任务用 SLM(Small LM),复杂推理用 LLM。成本感知调度根据任务复杂度动态路由到最优模型。

⭐⭐☆☆☆
causalexperimentoptimizationmulti_agent客服与VOCMAS与智能体工程

Cultural Adaptation Agent — 跨文化适应:母婴跨境的本地化 AI 策略

16-智能体工程

语言翻译是跨境电商的最低门槛,真正影响转化的是文化适配:同一款婴儿奶粉,美国妈妈关注"科学配方/AAP认证",德国妈妈关注"有机/欧盟标准",日本妈妈关注"安心品质/无添加"——这些差异不是语言问题,而是深层文化价值观差异。

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agentdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

TDP — DAG 任务解耦规划:82% Token 节省 + 错误隔离

16-智能体工程

传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题

⭐⭐☆☆☆
causalexperimentforecastingmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索MAS与智能体工程风控与合规视觉内容生成

KLong — 超长时域 Agent 训练:轨迹分割 SFT + 渐进 RL

16-智能体工程

训练 LLM Agent 执行超长时域任务(50+ 步)面临两大瓶颈

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing供应链与补货推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

LMM-Searcher — 长链多模态 Agent:UID 占位符按需加载图片

16-智能体工程

LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题:在 100 轮搜索会话中,若每张图片直接嵌入为 base64(约 1,000-3,000 tokens),50 张图片就会占用 50,000-150,000 tokens,远超实用预算。

⭐⭐☆☆☆
causalexperimentmulti_agentvisual_generation推荐与搜索MAS与智能体工程风控与合规视觉内容生成

Shopping Companion — 记忆增强的长期偏好购物 Agent

16-智能体工程

Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。

⭐⭐⭐⭐☆
experimentoptimizationrecommendationragmulti_agentpricing广告与投放供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆
experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

16-智能体工程

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

MUZZLE — Web Agent 间接 Prompt Injection 红队框架

16-智能体工程

间接 Prompt Injection(IPI) 的核心机制:攻击者无法直接访问 Agent 的系统提示,但可通过控制 Agent 抓取的外部内容(商品描述、用户评论、网页正文)向 Agent 上下文注入恶意指令,使 Agent 偏离原始任务目标执行攻击者意图。

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

Memory-as-Action — RL 内嵌式记忆操作策略 (DCPO 训练)

16-智能体工程

MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action

⭐⭐⭐⭐⭐
causalexperimentoptimizationmulti_agent推荐与搜索MAS与智能体工程

开源 Tool Use 基座模型选型 — Hermes 4 混合推理家族

16-智能体工程

Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。

⭐⭐⭐☆☆
experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

编排轨迹驱动的强化学习 — MAS RL 三维设计框架

16-智能体工程

随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。

⭐⭐⭐⭐⭐
causalexperimentoptimizationmulti_agent客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Progent — 最小权限 Agent 框架:SMT 验证 + 单调约束性

16-智能体工程

最小权限原则在 Agent 中的实现:传统应用最小权限通过 OS/IAM 静态配置实现,但 LLM Agent 的工具调用集合在运行时动态变化,需要动态感知策略。Progent 用符号规则表示权限策略:`{tool: "purchase_order.create", constraints: {"amount": {"max": 1000}}}`,支持在任务执行中实时评估。

30-80 万元⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agent广告与投放供应链与补货MAS与智能体工程风控与合规

ReliabilityBench — Agent 生产可靠性三维评估:pass@1 高估 20-40%

16-智能体工程

ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架(arXiv 2601.06112,2026年1月)。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润

SLM Tool Calling 成本优化 — 350M 参数击败 LLM

16-智能体工程

AWS 2026 年的实证研究证明:通过领域特定 SFT,仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation,导致"参数稀释"。

⭐⭐☆☆☆
causalexperimentoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程风控与合规

Sandlock — 轻量 Agent 沙箱:5ms 启动,HTTP ACL,可逆文件系统

16-智能体工程

为什么容器/microVM 不适合短命令 Agent:Docker 容器启动需 500ms-2s,microVM(Firecracker)需 125ms+,对于每次工具调用仅数十毫秒的 Agent 来说开销过大。Sandlock 通过 Rust 实现,启动延迟 5ms,专为短命令高频执行设计,Redis 集成零额外开销。

20-50 万元⭐⭐⭐☆☆
causalexperimentmulti_agent供应链与补货MAS与智能体工程

SoK Agentic Skills — Agent Skill 全生命周期与方法论底座

16-智能体工程

SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题

⭐⭐⭐☆☆
causalexperimentrecommendationragknowledge_graphmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

任务自适应拓扑路由 — AdaptOrch 动态多智能体编排

16-智能体工程

AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超 模型选择 的贡献,成为系统性能的主变量。

⭐⭐⭐⭐☆
causalexperimentforecastingrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Tool Auto Discovery — Agent 工具自动发现:OpenAPI + MCP Schema 自注册

16-智能体工程

当 Agent 系统规模膨胀至 100+ 工具时,手动注册成为瓶颈:每次新 API 上线都需要开发者手工编写 ToolDefinition、更新路由表、验证参数类型——一个典型企业集成需要 2 个工作日。

⭐⭐⭐☆☆
causalexperimentmulti_agentpricing广告与投放供应链与补货数据采集与治理MAS与智能体工程定价与利润

Tool Call Decision Framework — 必要性/效用/可负担性三维工具调用决策

16-智能体工程

LLM 工具调用存在系统性错位:模型既会过度调用(把可推理的问题交给工具),也会遗漏调用(低估工具对复杂查询的价值)。根本原因在于模型自感知与任务实际需求之间存在认知盲区——模型过度自信于自身知识覆盖,却对边界外的未知盲区无感知。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

MCP Tool 描述质量审核 — 六维 Smell 扫描与动态路由

16-智能体工程

Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationragmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

VLM E-commerce Adaptation — 大规模视觉语言模型电商适配

16-智能体工程

通用 VLM(如 GPT-4V、LLaVA 等)在电商场景表现欠佳,根本原因是三大领域偏差:同款多图(同一产品的主图/侧面图/背面图/细节图共享同一 listing,模型需跨图聚合)、属性中心化(电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色",与图片描述类任务截然不同)、噪声图片(用户上传的低质量/遮挡/非标图占比极高)。

1.6 万元⭐⭐⭐☆☆
causalexperimentmulti_agentvisual_generation数据采集与治理MAS与智能体工程风控与合规视觉内容生成

XSkill — 多模态 Agent 双流自进化:经验+技能协同积累

16-智能体工程

XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制,执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化

5-10 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationmulti_agentpricingvisual_generation客服与VOC推荐与搜索MAS与智能体工程定价与利润视觉内容生成