16-智能体工程

Agent Skills/Tools, Context, MCP/A2A, Safety/Fault/Cost

ATLAS — 梯度无关持续学习：Teacher-Student 双架构在线适应

16-智能体工程

传统持续学习依赖反向传播更新模型权重，存在三个根本缺陷：必须离线批量训练（无法在服务中实时更新）、灾难性遗忘（新任务覆盖旧能力）、部署 Agent 无法自改（推理阶段参数冻结）。ATLAS 的突破在于：将"学习"从参数空间迁移到系统编排层，通过持久学习记忆（Persistent Learning Memory, PLM）存储经验蒸馏后的指导性知识，无需触碰模型权重。

⭐⭐⭐☆☆

causalexperimentforecastingoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程

仿生粘菌主动上下文剪枝 — Focus Agent 自主压缩架构

16-智能体工程

Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式

⭐⭐⭐☆☆

causalexperimentmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

AgeMem — LTM+STM 统一 Agent 记忆：RL 自适应管理跨会话知识

16-智能体工程

AgeMem 是首个将 LTM（长期记忆）和 STM（短期记忆）统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块，由外置 Memory Manager 或启发式 trigger 决策，导致组合效果差、部署成本高（需要额外 expert LLM）。AgeMem 的突破在于：记忆操作本身就是 action，由同一个 LLM policy 通过 RL 学习"何时调什么"。

10 万⭐⭐⭐☆☆

causalexperimentoptimizationmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Agent Error Budget — 双向错误预算：自主权随可靠性动态调整

16-智能体工程

传统 SRE 错误预算是单向消耗品：违反 SLO 就消耗预算，预算耗尽就停止发布，恢复后窗口重置。Agent 双向错误预算在此基础上引入自主权预算（Autonomy Budget）：好行为可以赢回预算，自主权随可靠性动态升降。

⭐⭐☆☆☆

causalexperimentmulti_agentpricing供应链与补货客服与VOCMAS与智能体工程定价与利润

Agent Fault Tolerance（Agent 容错回退）

16-智能体工程

Agent 执行可能因 API 超时、LLM 输出格式错误、工具返回异常而失败。容错机制：(1) Retry with exponential backoff（$t_{retry} = \min(t_{base} \cdot 2^n, t_{max})$）；(2) Fallback 策略——LLM 失败切备选模型，工具失败用简化版；(3) Circuit Breaker——连续失败 N 次后停止尝试，避免雪崩。

5-15 万元⭐⭐☆☆☆

causalforecastingoptimizationmulti_agent供应链与补货MAS与智能体工程

Whispers of Wealth — Agent 支付协议安全红队：Branded/Vault Whisper 攻击

16-智能体工程

WF-D 选品扫描工作流中，AI 导购 Agent 根据母婴产品描述为用户推荐商品

5000 万⭐⭐☆☆☆

causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

Agent SLO Manager — 三层 SLI 体系：服务/任务/判断质量

16-智能体工程

传统 pass@1 仅衡量"至少一次成功"，无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补

⭐⭐☆☆☆

experimentrecommendationmulti_agent广告与投放供应链与补货推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Agent Safety Guardrails（Agent 安全对抗护栏）

16-智能体工程

LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护：(1) 输入过滤——检测注入模式；(2) 工具调用前置验证——参数白名单+范围检查；(3) 输出审计——敏感信息脱敏。

10-30 万元⭐⭐☆☆☆

experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

EComStage — 电商 Agent 三阶段(Perception/Planning/Action)双向 Benchmark

16-智能体工程

EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角

⭐⭐⭐☆☆

experimentoptimizationrecommendationragmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

AgentTrace — 因果图根因分析：0.12s 定位多 Agent 故障

16-智能体工程

AgentTrace 的核心洞察是：多 Agent 系统（MAS）的故障传播是确定性的因果链，而非需要 LLM 进行语义推理的模糊问题。

5-20 万⭐⭐☆☆☆

causalexperimentforecastingragmulti_agentdata_collection供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

AgentTrust — 运行时安全拦截：95% 准确率，< 1ms，MCP 集成

16-智能体工程

为什么基础设施沙箱不足：容器/seccomp 工作在系统调用层，不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法，但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作，理解"操作意图"而非仅检查"操作权限"。

20-60 万元⭐⭐☆☆☆

causalexperimentmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

AgeMem — 统一 LTM+STM 管理的 Agentic Memory

16-智能体工程

AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致

STM Filter + Summary 让对话 context 维持紧凑⭐⭐⭐⭐☆

causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

Subterranean Agent — 将工作流 SOP 编译进 LLM 权重

16-智能体工程

每日需要上架数百个 SKU，每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP，当前用 LangGraph 编排，frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天

$150/天 → 约 $0.5–1.2/天（按 128–462× 节省比例）

causalexperimentoptimizationmulti_agentvisual_generation广告与投放客服与VOCMAS与智能体工程风控与合规视觉内容生成

Atomix — Agent 工具调用事务性：故障注入成功率 0-7% → 37-57%

16-智能体工程

Atomix 为 Agent 工具调用引入事务语义，解决多步 Agent 工作流在故障（网络抖动、服务超时、LLM 幻觉）下产生的中间态污染问题。无事务保护时，30% 故障注入场景的成功率仅 0-7%；Atomix Tx-Full 模式将其提升至 37-57%，媲美快照回滚（CR）。

10万⭐⭐⭐☆☆

causalexperimentforecastingmulti_agent广告与投放供应链与补货MAS与智能体工程

SkillForge — 领域特定自演化 Agent Skill 萃取与优化

16-智能体工程

母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张

bad case 自动诊断省去人工质检 30%-50% 工时⭐⭐⭐⭐☆

causalexperimentoptimizationknowledge_graphmulti_agent广告与投放客服与VOC知识图谱与RAGMAS与智能体工程

AutoSkill — 经验驱动终身学习：Skill 自进化版本管理

16-智能体工程

RAG 的局限：被动检索，只能复用已显式存入的知识，无法从对话轨迹中自动归纳模式；Fine-tuning 的局限：参数固化后无法增量更新，每次新能力都需全量重训，知识以黑盒形式埋在权重里，不可审计不可编辑。

⭐⭐⭐☆☆

causalexperimentragmulti_agent广告与投放供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

CASCADE — 案例推理部署时学习：Contextual Bandit 无参数自适应

16-智能体工程

部署时学习（Deployment-Time Learning, DTL）是 CASCADE 提出的第三个 LLM 生命周期阶段：预训练（Pre-training）→ 微调（Fine-tuning）→ 部署时学习。现有方案只在前两个阶段学习，部署后模型冻结，无法从实际使用中积累经验。

⭐⭐☆☆☆

causalexperimentoptimizationrecommendationragmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

CapSeal — Agent 秘密中介：能力封装取代直接密钥暴露

16-智能体工程

传统方式将 API Key 存入环境变量或配置文件，Agent 运行时直接读取。Prompt Injection 攻击可诱导 Agent 将密钥外泄。CapSeal 彻底切断 Agent 与明文密钥的直接联系。

⭐⭐⭐☆☆

causalexperimentmulti_agent广告与投放供应链与补货MAS与智能体工程

CausalFlow — LLM Agent 因果调试：失败轨迹 → 最小反事实修复

16-智能体工程

CausalFlow 将 Agent 的一次执行视为有序步骤序列

⭐⭐⭐☆☆

causalexperimentforecastingoptimizationmulti_agent广告与投放供应链与补货MAS与智能体工程风控与合规

Skill 自动演化与验证 — EvoSkills 双 LLM 协同优化

16-智能体工程

EvoSkills 解决 LLM Agent 多文件 Skill 包自动生成的两个根本挑战

⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agent客服与VOCMAS与智能体工程

ACON — Agent 长上下文压缩与 NL 准则优化

16-智能体工程

跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)

90% 成本, 性能接近 GPT-5⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agentdata_collection广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程

Cost-Aware Agent Scheduling（成本感知调度）

16-智能体工程

不是所有 Agent 任务都需要 GPT-4——简单分类任务用 SLM（Small LM），复杂推理用 LLM。成本感知调度根据任务复杂度动态路由到最优模型。

⭐⭐☆☆☆

causalexperimentoptimizationmulti_agent客服与VOCMAS与智能体工程

Cultural Adaptation Agent — 跨文化适应：母婴跨境的本地化 AI 策略

16-智能体工程

语言翻译是跨境电商的最低门槛，真正影响转化的是文化适配：同一款婴儿奶粉，美国妈妈关注"科学配方/AAP认证"，德国妈妈关注"有机/欧盟标准"，日本妈妈关注"安心品质/无添加"——这些差异不是语言问题，而是深层文化价值观差异。

⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agentdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

TDP — DAG 任务解耦规划：82% Token 节省 + 错误隔离

16-智能体工程

传统 LLM Agent 在执行复杂任务时，把所有历史消息塞入 context window（"full history" 模式），导致两个问题

⭐⭐☆☆☆

causalexperimentforecastingmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索MAS与智能体工程风控与合规视觉内容生成

KLong — 超长时域 Agent 训练：轨迹分割 SFT + 渐进 RL

16-智能体工程

训练 LLM Agent 执行超长时域任务（50+ 步）面临两大瓶颈

⭐⭐⭐⭐☆

causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing供应链与补货推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

LDP — 身份感知 Agent 通信协议：模型级路由 + 37% Token 节省

16-智能体工程

Google A2A 和 Anthropic MCP 这两大主流 Agent 通信协议存在共同缺陷：不暴露模型级属性。

⭐⭐☆☆☆

causalexperimentmulti_agentpricing客服与VOC数据采集与治理MAS与智能体工程定价与利润风控与合规

LMM-Searcher — 长链多模态 Agent：UID 占位符按需加载图片

16-智能体工程

LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题：在 100 轮搜索会话中，若每张图片直接嵌入为 base64（约 1,000-3,000 tokens），50 张图片就会占用 50,000-150,000 tokens，远超实用预算。

⭐⭐☆☆☆

causalexperimentmulti_agentvisual_generation推荐与搜索MAS与智能体工程风控与合规视觉内容生成

Shopping Companion — 记忆增强的长期偏好购物 Agent

16-智能体工程

Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。

⭐⭐⭐⭐☆

experimentoptimizationrecommendationragmulti_agentpricing广告与投放供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆

experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

16-智能体工程

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性，忽略了一个关键问题：模型能完成任务，但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

MUZZLE — Web Agent 间接 Prompt Injection 红队框架

16-智能体工程

间接 Prompt Injection（IPI）的核心机制：攻击者无法直接访问 Agent 的系统提示，但可通过控制 Agent 抓取的外部内容（商品描述、用户评论、网页正文）向 Agent 上下文注入恶意指令，使 Agent 偏离原始任务目标执行攻击者意图。

⭐⭐☆☆☆

causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

Memory-as-Action — RL 内嵌式记忆操作策略 (DCPO 训练)

16-智能体工程

MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action

⭐⭐⭐⭐⭐

causalexperimentoptimizationmulti_agent推荐与搜索MAS与智能体工程

开源 Tool Use 基座模型选型 — Hermes 4 混合推理家族

16-智能体工程

Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。

⭐⭐⭐☆☆

experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

编排轨迹驱动的强化学习 — MAS RL 三维设计框架

16-智能体工程

随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。

⭐⭐⭐⭐⭐

causalexperimentoptimizationmulti_agent客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Progent — 最小权限 Agent 框架：SMT 验证 + 单调约束性

16-智能体工程

最小权限原则在 Agent 中的实现：传统应用最小权限通过 OS/IAM 静态配置实现，但 LLM Agent 的工具调用集合在运行时动态变化，需要动态感知策略。Progent 用符号规则表示权限策略：`{tool: "purchase_order.create", constraints: {"amount": {"max": 1000}}}`，支持在任务执行中实时评估。

30-80 万元⭐⭐⭐☆☆

causalexperimentoptimizationmulti_agent广告与投放供应链与补货MAS与智能体工程风控与合规

ReliabilityBench — Agent 生产可靠性三维评估：pass@1 高估 20-40%

16-智能体工程

ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架（arXiv 2601.06112，2026年1月）。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面

⭐⭐☆☆☆

causalexperimentrecommendationmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润

SLM Tool Calling 成本优化 — 350M 参数击败 LLM

16-智能体工程

AWS 2026 年的实证研究证明：通过领域特定 SFT，仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation，导致"参数稀释"。

⭐⭐☆☆☆

causalexperimentoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程风控与合规

Sandlock — 轻量 Agent 沙箱：5ms 启动，HTTP ACL，可逆文件系统

16-智能体工程

为什么容器/microVM 不适合短命令 Agent：Docker 容器启动需 500ms-2s，microVM（Firecracker）需 125ms+，对于每次工具调用仅数十毫秒的 Agent 来说开销过大。Sandlock 通过 Rust 实现，启动延迟 5ms，专为短命令高频执行设计，Redis 集成零额外开销。

20-50 万元⭐⭐⭐☆☆

causalexperimentmulti_agent供应链与补货MAS与智能体工程

SoK Agentic Skills — Agent Skill 全生命周期与方法论底座

16-智能体工程

SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题

⭐⭐⭐☆☆

causalexperimentrecommendationragknowledge_graphmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

任务自适应拓扑路由 — AdaptOrch 动态多智能体编排

16-智能体工程

AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超模型选择的贡献,成为系统性能的主变量。

⭐⭐⭐⭐☆

causalexperimentforecastingrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Tool Auto Discovery — Agent 工具自动发现：OpenAPI + MCP Schema 自注册

16-智能体工程

当 Agent 系统规模膨胀至 100+ 工具时，手动注册成为瓶颈：每次新 API 上线都需要开发者手工编写 ToolDefinition、更新路由表、验证参数类型——一个典型企业集成需要 2 个工作日。

⭐⭐⭐☆☆

causalexperimentmulti_agentpricing广告与投放供应链与补货数据采集与治理MAS与智能体工程定价与利润

Tool Call Decision Framework — 必要性/效用/可负担性三维工具调用决策

16-智能体工程

LLM 工具调用存在系统性错位：模型既会过度调用（把可推理的问题交给工具），也会遗漏调用（低估工具对复杂查询的价值）。根本原因在于模型自感知与任务实际需求之间存在认知盲区——模型过度自信于自身知识覆盖，却对边界外的未知盲区无感知。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

MCP Tool 描述质量审核 — 六维 Smell 扫描与动态路由

16-智能体工程

Queen's University 2026 年的大规模实证研究揭示：97.1% 的 MCP tool 描述至少含有一个 smell，这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由，在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationragmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

VLM E-commerce Adaptation — 大规模视觉语言模型电商适配

16-智能体工程

通用 VLM（如 GPT-4V、LLaVA 等）在电商场景表现欠佳，根本原因是三大领域偏差：同款多图（同一产品的主图/侧面图/背面图/细节图共享同一 listing，模型需跨图聚合）、属性中心化（电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色"，与图片描述类任务截然不同）、噪声图片（用户上传的低质量/遮挡/非标图占比极高）。

1.6 万元⭐⭐⭐☆☆

causalexperimentmulti_agentvisual_generation数据采集与治理MAS与智能体工程风控与合规视觉内容生成

XSkill — 多模态 Agent 双流自进化：经验+技能协同积累

16-智能体工程

XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制，执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化

5-10 万⭐⭐⭐☆☆

causalexperimentforecastingoptimizationrecommendationmulti_agentpricingvisual_generation客服与VOC推荐与搜索MAS与智能体工程定价与利润视觉内容生成