客服与VOC

Causal Cohort Analysis — 因果队列分析：促销干预的长期用户行为效应

01-因果推断

传统队列分析（Cohort Analysis）追踪同一时期加入的用户群体的行为轨迹，但无法剥离选择偏差：高价值用户本来就会复购，促销只是"锦上添花"而非真正驱动因素。直接比较"接受促销的队列 vs 未接受促销的队列"，会高估促销效果 30-60%。

200-500 万元⭐⭐⭐☆☆

causalexperimentragpricing客服与VOC知识图谱与RAG定价与利润

ClusterSC - 聚类合成控制法

01-因果推断

合成控制法（Synthetic Control, SC）通过为目标单元"合成"一个反事实来估计因果效应，是评估地区级/城市级无法做 A/B 的大型干预（如区域广告投放、城市政策）的黄金标准。

0 万元⭐⭐⭐☆☆

causalexperimentforecastingoptimizationpricing广告与投放客服与VOC定价与利润

DML Cohort 因果效应 - 群体异质性 HTE 估计

01-因果推断

平台对所有新妈妈用户统一发放"新生儿满减券",ROI 整体回归到 1.2-1.5x,猜测某些群体响应强、某些群体弱,但不知如何切分 - 数据要求:用户注册时填写宝宝生日 + 高维行为日志(2000 维:RFM、品类偏好、渠道、地理) - DML 配置: - 第一阶段:XGBoost 拟合 $E[Y|X]$,LightGBM 拟合 $E[D|X]$ - PCA 降维至 10 维,K-mea

1500-2500 万元⭐⭐⭐⭐☆

causalexperimentpricing客服与VOC定价与利润

Guardrailed Uplift Targeting — 约束优化 CATE：业务护栏驱动的精准干预

01-因果推断

当前做法是向所有"高流失风险"用户统一发"免费延长30天"优惠券，ROI 极低——很多用户即使不发券也会续订

25-28万⭐⭐⭐☆☆

causalexperimentforecastingoptimizationragmulti_agentpricing广告与投放客服与VOC知识图谱与RAGMAS与智能体工程定价与利润

Causal Mediation Analysis — Decomposing "Why It Works

01-因果推断

核心思想：中介分析回答"为什么"——一个干预（如推荐算法更新）通过什么机制影响了结果（如转化率）。它将总效应分解为

10-30万⭐⭐☆☆☆

causalexperimentforecastingoptimizationrecommendation客服与VOC推荐与搜索

NEO-LRP（Neural Embedded Optimization for Location-Routing）

04-供应链

核心思想：把"建哪些仓"和"怎么配送"这两个原本耦合的 NP-hard 问题解耦——用一个预训练好的图神经网络（GNN）充当配送路径成本的快速估计器，把估计值直接嵌进选址的混合整数规划（MIP）里，从而让 MIP 求解器只需要做高层选址-分配决策，而不必在求解过程中展开庞大的车辆路径（VRP）变量。

91 万元⭐⭐⭐☆☆

causalforecastingoptimizationfraud_detection广告与投放供应链与补货客服与VOCMAS与智能体工程风控与合规

Deep RL for Two-Echelon Inventory Optimization

04-供应链

多级库存优化（Multi-Echelon Inventory Optimization, MEIO）解决的是供应链中多个节点（工厂、仓库、门店）的联合库存决策问题。相比传统的单点库存管理，DRL方法将供应链建模为马尔可夫决策过程（MDP），智能体（Agent）学习在每个时间步决定"生产多少、发往哪里"，以最大化长期累积利润。

forecastingoptimizationmulti_agentpricing广告与投放供应链与补货客服与VOCMAS与智能体工程定价与利润

Semantic ID Retrieval for Recommendation (RPG)

05-推荐系统

传统推荐系统用无序的one-hot ID或量化向量表示商品，丢失了语义信息。

⭐⭐⭐☆☆

experimentforecastingrecommendationrag客服与VOC推荐与搜索

Competitor Product Intelligence（竞品选品监测）

06-增长模型

监测到竞品 Momcozy 密集上线 5 个"Silicon Flange"（硅胶法兰）新 SKU，且上线 2 周内均进入 BSR Top 5000

35-70 万元⭐⭐☆☆☆

causalforecastingpricing供应链与补货客服与VOC数据采集与治理定价与利润

Cross-Border Cold-Start Forecast（跨境冷启动需求预测）

06-增长模型

跨境电商的致命问题：70-80% 商品在目标市场无历史数据，15-25% 上架后零销量，但传统预测模型会给出"看起来合理"的正数预测→导致库存积压。ZODIAC 用双域 LSTM + 双头架构同时解决"零销量预测"和"过预测"两个核心痛点。

60-120 万元⭐⭐⭐☆☆

causalexperimentforecastingrecommendationfraud_detectionpricing供应链与补货客服与VOC推荐与搜索定价与利润风控与合规

Customer Churn Prediction (用户流失预测)

06-增长模型

识别哪些用户即将停止使用产品/服务，从而提前采取挽留措施。

1.5-3 万⭐⭐☆☆☆

causalexperimentforecastingfraud_detection客服与VOC风控与合规

Customer Journey Prototype Detection 客户旅程序列原型检测

06-增长模型

业务问题母婴用户跨越App、小程序、线下门店、Web多个渠道，每个渠道的转化效率不同

1000万

causalexperimentforecastingoptimizationrecommendation供应链与补货客服与VOC推荐与搜索

DQN-Inspired Purchase Intent Prediction

06-增长模型

传统购买预测模型将问题视为静态分类任务。DQN-inspired方法引入强化学习思维：将用户会话视为状态，营销干预视为动作，转化/流失视为奖励。通过经验回放和Epsilon-Greedy探索，模型学会识别高价值干预时机。

100万

causalexperimentforecastingrecommendation供应链与补货客服与VOC推荐与搜索

Skill: Deep Learning for Customer Churn Prediction

06-增长模型

母婴订阅盒服务（如每月奶粉+尿布套餐）面临用户流失风险

100 万⭐⭐⭐☆☆

causalexperimentforecastingoptimizationfraud_detection客服与VOC风控与合规

生成式智能体营销沙盒仿真 - 零数据消费者行为推演

06-增长模型

某母婴 DTC 独立站准备从纯打折升级为"付费会员制（年费 $49 免邮 + 专属抢购）"

50-200 万元⭐⭐☆☆☆

causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程定价与利润

Guardrailed CATE-NBA

06-增长模型

光算出每个用户的增量效应（CATE）还不够——真实业务有预算上限、有高净值用户保护、有每天不能无限制打扰用户的体验红线。Guardrailed CATE-NBA 打通了"预测→决策"的最后一公里：三层漏斗把因果估算的结果直接转化为带约束的最优行动名单。

10 万元⭐⭐⭐☆☆

causalexperimentforecastingoptimizationpricing广告与投放供应链与补货客服与VOCMAS与智能体工程定价与利润

LTV预测 - 零膨胀对数正态模型 (ZILN)

06-增长模型

我们通过 Facebook/TikTok 广告获取了大量北美新客，但并非所有新客都有长期价值

100-200 万⭐⭐⭐☆☆

experimentforecastingoptimization广告与投放客服与VOC推荐与搜索

New Product Opportunity Mining (新品机会挖掘模型)

06-增长模型

在新商品上市前预测其成功概率，从而优化选品决策和资源配置。

500万

causalexperimentforecastingoptimizationpricing供应链与补货客服与VOC定价与利润风控与合规

Skill-Product-Lifecycle-Stage

06-增长模型

核心思想：把一个 SKU 或品类的销量时间序列，分解为趋势+季节+残差三层信号，通过微分分析（斜率变化率）自动定位「成长→成熟→衰退」的阶段边界，并用年龄-销量矩（AVM）作为阶段状态的低成本代理特征，最终输出四阶段标签（引入/成长/成熟/衰退）+ 进入时机决策建议。

⭐⭐☆☆☆

causalexperimentforecasting客服与VOC

RFM Customer Segmentation for Targeted Marketing

06-增长模型

R (Recency)：最近一次购买距今多少天。越近越可能再次购买。

⭐☆☆☆☆

experimentrecommendation广告与投放客服与VOC推荐与搜索

UCB-LDP Dynamic Pricing（上下文动态定价）

06-增长模型

独立站每天面对来自北美高净值用户（iPhone + 5分钟停留）和东南亚价格敏感用户（安卓 + 10秒跳出）的混合流量

500万⭐⭐☆☆☆

causalexperimentforecastingoptimizationpricing广告与投放供应链与补货客服与VOC定价与利润风控与合规

Uplift Modeling for Churn Prediction

06-增长模型

识别哪些用户会因为干预（如优惠券、客服电话）而降低流失概率。

6万元

causalexperimentforecastingrecommendationpricing广告与投放客服与VOC推荐与搜索定价与利润

STAN 用户生命周期自适应建模

06-增长模型

业务问题母婴出海电商用户决策周期长（孕期到育儿多阶段），不同阶段用户需求差异巨大

176万元

causalexperimentforecastingoptimizationrecommendation供应链与补货客服与VOC推荐与搜索

AgentRouter — 知识图谱引导的多智能体路由器

08-知识图谱

大促高峰期每日 5 万条跨领域工单，正确路由率从 61% → 82%，每天减少约 10,500 条二次转单 - 单条转单处理成本约 5 元，节约运营成本 5.25 万元/天；年化 1900 万元 - 用户 CSAT 评分从 3.8 → 4.3（满分 5），复购意愿提升可观

1900 万元⭐⭐⭐☆☆

causalrecommendationragknowledge_graphmulti_agentfraud_detectionpricing广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

CausalRAG - 因果图驱动的检索增强生成

08-知识图谱

用户反馈"机器转了两圈突然停下并闪红灯"，传统 FAQ 机器人把所有带"红灯"的内容（充电时亮红灯/故障码等）全部返回，答非所问，最终用户申请退货

120-200 万元

causalrecommendationragknowledge_graphmulti_agentfraud_detection供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

面向电商的稠密检索与语义排序

08-知识图谱

传统电商搜索基于 BM25/TF-IDF 关键词匹配，无法理解语义。例如用户搜"缓解涨奶 pain"，关键词系统只能匹配包含"pain"或"涨奶"字样的商品，无法召回"吸奶器"、"冷敷贴"等语义相关但关键词不匹配的商品。

⭐⭐⭐☆☆

causalexperimentrecommendationragknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG定价与利润

GraphRAG - 知识图谱增强检索生成

08-知识图谱

GraphRAG（Graph Retrieval-Augmented Generation）将传统 RAG（检索增强生成）中的文本块检索升级为知识图谱结构化检索，通过图遍历获取与查询相关的实体、关系和子图，显著提升复杂推理场景的答案准确性和可解释性。

50-100万⭐⭐⭐⭐☆

forecastingoptimizationrecommendationragknowledge_graphpricing供应链与补货客服与VOC推荐与搜索知识图谱与RAG定价与利润

稀疏+稠密混合检索 — BM25 与向量检索融合

08-知识图谱

母婴出海电商的搜索场景高度两极化：部分用户输入精确型号（"Spectra S1 Plus"、"B07X4X5GXD"），纯向量检索因 OOV 问题召回率低；另一部分用户输入模糊语义查询（"适合背奶妈妈的静音吸奶器"），纯 BM25 只能匹配字面词汇，无法理解意图

35 万

causalexperimentragknowledge_graph客服与VOC推荐与搜索知识图谱与RAG

AI Agent 驱动的电商知识图谱自动构建

08-知识图谱

传统知识图谱构建依赖人工定义 Schema 和编写抽取规则，成本高、扩展性差。AI Agent 驱动的 KG 自动构建将全流程拆解为三个由 LLM Agent 协作完成的阶段，从非结构化产品描述中自动产出结构化知识图谱，无需预定义 Schema 或人工规则。

⭐⭐⭐☆☆

causalexperimentrecommendationragknowledge_graphmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

KG Data Fusion Pipeline — 多源采集数据驱动的知识图谱自动构建：竞品属性图谱融合

08-知识图谱

母婴跨境电商竞品分析需要整合来自 Amazon、Walmart、品牌官网、用户评论等多源异构数据，构建统一的产品属性知识图谱。

4.5 万元⭐⭐⭐☆☆

causalexperimentrecommendationknowledge_graphmulti_agentdata_collectionpricing客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润

知识图谱增量更新（KG Incremental Update）

08-知识图谱

电商知识图谱的数据不是静态的——新品上架、价格调整、用户评论新增、竞品关系变化，每天都有大量三元组需要更新。若每次变更都触发全量 KG 重建，计算成本极高（百万节点 KG 重建需 4-8 小时）。增量更新（Incremental Update）只处理变更的局部子图，将更新耗时压缩至秒级到分钟级。

causalexperimentrecommendationknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG数据采集与治理定价与利润

KG-Powered User Profiling — 知识图谱驱动的用户画像：产品知识增强推荐

08-知识图谱

传统协同过滤仅依赖 user-item 矩阵，缺乏对产品语义的理解，导致跨品类推荐能力弱。KG-Powered User Profiling 通过异构图融合将产品知识图谱（属性/认证/成分/适用年龄段）与用户行为图（购买/浏览/评价）结合，构建知识增强的用户偏好向量。

跨品类推荐 CTR 提升 18%，用户 LTV 增加，冷启动转化率提升⭐⭐⭐☆☆

experimentrecommendationknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG定价与利润

Knowledge Graph Question Answering (KGQA)

08-知识图谱

构建了产品知识图谱后，如何让非技术人员（运营、客服、业务方）用自然语言查询它？

⭐⭐⭐☆☆

experimentforecastingrecommendationragknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG定价与利润

Multilingual Named Entity Recognition (Universal NER v2)

08-知识图谱

母婴出海电商的用户评论、客服对话、社交媒体内容涉及多语言（英语、德语、法语、西班牙语、日语等）。

⭐⭐☆☆☆

causalexperimentknowledge_graphmulti_agent客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

Multimodal RAG - 图文混合多模态检索增强生成

08-知识图谱

Multimodal RAG（多模态检索增强生成）将 RAG 系统从纯文本扩展到图文混合模态，实现

causalexperimentragknowledge_graphvisual_generation客服与VOC推荐与搜索知识图谱与RAG视觉内容生成

领域 Ontology 与图谱 Schema 设计

08-知识图谱

知识图谱的 Schema（本体 / Ontology）是整个 KG 的"地图"——它定义了有哪些实体类型、有哪些关系、每个属性的值域和约束。Schema 质量直接决定下游 KGQA 的检索上限和 GraphRAG 的推理深度。母婴电商领域 Ontology 设计需要平衡覆盖率（覆盖所有业务场景）与可管理性（避免过度细化导致维护失控）。

causalexperimentragknowledge_graphpricing客服与VOC知识图谱与RAG定价与利润

检索后精排 — Cross-Encoder Reranking

08-知识图谱

RAG 管道的检索阶段（BM25/向量检索）优先保证召回率，会返回大量候选文档（top-50~100）。但这些候选文档与查询的相关性排序往往不准——召回阶段的 Bi-encoder 是独立编码查询和文档，无法捕捉两者间的细粒度交互。

28 万

causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

RAPTOR - 递归抽象树型分层检索

08-知识图谱

RAPTOR（Recursive Abstractive Processing for Tree-Organized Retrieval）将长文档转化为一棵"抽象树"

causalexperimentrecommendationragknowledge_graph广告与投放客服与VOC推荐与搜索知识图谱与RAG风控与合规

语义分块策略 — RAG 管道的基础层

08-知识图谱

母婴出海电商的 Amazon Listing 商品详情页通常包含多个话题段落：产品特性（Safety Features）、使用说明（How to Use）、注意事项（Warnings）、规格参数（Specifications）

18 万

causalexperimentragknowledge_graph客服与VOC推荐与搜索知识图谱与RAG

Argos — Agentic时序异常检测

09-DataAgent-LLM

Argos 解决的核心矛盾是：LLM能生成异常检测规则，但无法同时保证可解释性、可复现性和准确率。

5-10万

causalexperimentoptimizationmulti_agentfraud_detection广告与投放供应链与补货客服与VOCMAS与智能体工程

客服对话决策树 - 从日志中自学策略

09-DataAgent-LLM

母婴出海电商客服 70% 工单是"退换货咨询"(尺码错、漏发、过敏等),人工处理成本高,响应慢

600 万元⭐⭐⭐☆☆

experimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

Data Collection Agent Pipeline — LLM Agent 自动化多源数据采集 Pipeline

09-DataAgent-LLM

传统数据采集依赖人工编写爬虫脚本，每个数据源需要单独维护。

⭐⭐⭐☆☆

causalexperimentmulti_agentdata_collectionpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

Data-to-Dashboard — 多Agent智能可视化生成

09-DataAgent-LLM

Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表，而是先理解数据背后的业务洞察，再基于洞察选择最合适的可视化表达方式。

8.6万

causalexperimentoptimizationmulti_agentvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程视觉内容生成

DeepAnalyze — 自主数据科学Agent

09-DataAgent-LLM

背景：母婴品牌在Amazon、Shopify、SHEIN等多个平台销售，运营团队每周需要汇总各平台数据生成分析报告，耗时4-6小时/周

20万

causalexperimentoptimizationmulti_agent广告与投放客服与VOCMAS与智能体工程

Dial-In LLM 层次化客服意图聚类 - 无监督发现 Case 意图树

09-DataAgent-LLM

WF-C 客服分诊的核心是"意图细分"——母婴 Case 复杂(退款/换货/咨询/投诉/物流/产品使用/安全升级),嵌入距离无法区分字面相似但意图截然不同的对话片段(如"宝宝用了这个奶粉一直哭" 可能是质量投诉或产品适配咨询). Dial-In LLM 用 LoRA 微调小型 LLM 作为聚类"工具人"(Qwen2.5-7B / ChatGLM3-6B):① 连贯性评估器判断簇语义一致性 ② 意图命名器生成"动作-目标"标签 ③ 迭代搜索自动发现最优簇数,无需预设 K.

200-400 万元⭐⭐⭐⭐☆

causalexperimentmulti_agent客服与VOCMAS与智能体工程

ProRCA — 因果图路径溯源根因分析

09-DataAgent-LLM

当 GMV 暴跌时，传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因，哪个是被牵连的。

100 万⭐⭐☆☆☆

causalexperimentforecastingmulti_agentfraud_detectionpricingvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程定价与利润风控与合规视觉内容生成

Text-to-SQL Agent for Natural Language Data Query

09-DataAgent-LLM

业务团队（运营、市场、产品）需要数据但不懂SQL。

⭐⭐⭐☆☆

experimentmulti_agent广告与投放客服与VOCMAS与智能体工程

MemGPT — 长期记忆与虚拟上下文管理

10-MAS

MemGPT 将操作系统的虚拟内存管理思想引入 LLM Agent 的记忆系统。核心洞察：LLM 的上下文窗口就像物理 RAM——容量有限且昂贵，而 Agent 需要处理的任务往往远超这个容量。解决方案是构建一个分层记忆体系，让 LLM 主动管理自己的记忆。

⭐⭐⭐⭐☆

causalexperimentragknowledge_graphmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

AutoGen — 多智能体对话编排框架

10-MAS

AutoGen 是一个通用的多智能体对话框架，核心洞察：将复杂的 LLM 应用开发简化为多 agent 之间的对话编排。不同于传统的单 agent 链式调用，AutoGen 允许多个具备不同能力的 agent 通过自然语言对话协作完成复杂任务。

⭐⭐⭐☆☆

causalexperimentoptimizationragmulti_agentpricing供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

CAMEL — 角色扮演式自主协作多 Agent 框架

10-MAS

CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) 提出了一种基于角色扮演（Role-Playing）的多 Agent 自主协作范式。核心洞察：当两个互补角色的 Agent（指令发出者 vs 执行者）在结构化协议约束下对话时，可以自主完成复杂任务，无需人工逐步干预。

⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

EvoSC — 对比反思 + 自我巩固：Agent 从失败轨迹进化

10-MAS

EvoSC（Self-Consolidation for Self-Evolving Agents，arXiv 2602.01966，2026年2月）解决了现有 Agent 自我进化框架的两个根本缺陷

⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Flowr — 零售供应链多 Agent 端到端自动化

10-MAS

母婴品牌在亚马逊/独立站同时运营，SKU 达 500+，跨境仓（海外仓 + 国内直发）补货涉及 DHL/UPS 运输周期（15-30 天）、海关清关（3-7 天）、Amazon FBA 入仓（1-5 天），任何一环延误都导致断货（Lost Buy Box，单 SKU 日损失 2,000-8,000 元）

91 万元

causalexperimentforecastingoptimizationragmulti_agentpricing供应链与补货客服与VOC知识图谱与RAGMAS与智能体工程定价与利润

MAS Orchestrator — 多智能体编排与调度

10-MAS

MAS Orchestrator 是多 Agent 系统的"中枢神经系统"，负责协调多个子 Agent 的执行顺序、数据流转、状态同步和错误恢复。核心洞察：分解后的子任务需要一个可靠的调度器来管理它们的生命周期——启动、监控、通信、容错、收尾。

⭐⭐⭐⭐☆

experimentoptimizationknowledge_graphmulti_agentvisual_generation客服与VOC知识图谱与RAGMAS与智能体工程视觉内容生成

MAS Scale Management — 大规模多智能体集群管理：万级并发、单调扩展、公司制架构

10-MAS

1. 性能坍塌问题：新 Agent 加入时，系统路由还不了解其能力，导致任务分配混乱、性能下降

⭐⭐⭐☆☆

experimentoptimizationmulti_agent广告与投放供应链与补货客服与VOCMAS与智能体工程风控与合规

MAS Testing & Verification — 多智能体系统测试验证：覆盖制导 Fuzzing + 跨框架可观测性

10-MAS

MAS 的失败模式与单体软件完全不同：Agent 之间的交互是非确定性的，工具调用可能失败，Agent 可能陷入死循环，而这些问题用传统单元测试根本无法发现。MAS 专用测试体系需要解决三个独特问题

causalexperimentragmulti_agent广告与投放供应链与补货客服与VOC知识图谱与RAGMAS与智能体工程风控与合规

MetaGPT — SOP 驱动的多智能体协作框架

10-MAS

MetaGPT 将人类组织中的 Standardized Operating Procedures（SOP，标准作业程序）引入多 agent 协作。核心洞察：复杂任务失败的主要原因是 agent 间缺乏标准化协作规范和结构化信息传递。通过模拟软件公司的角色分工（PM → Architect → Engineer → QA）和文档驱动的工作流，MetaGPT 显著减少了多 agent 协作中的幻觉和级联错误。

⭐⭐⭐⭐☆

causalexperimentragmulti_agentdata_collectionpricing客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润

Multi-Agent Debate — 多智能体辩论共识

10-MAS

- LLM 生成初始答案后，即使答案错误，也会在后续反思中"维护"这个答案

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationragmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

ReAct — 推理与行动交替执行

10-MAS

ReAct (Reasoning + Acting) 提出了一种推理与行动交织的范式。核心洞察：纯推理（Chain-of-Thought）容易幻觉，纯行动（Tool Use）缺乏规划——只有把两者交替进行，才能既保持思维连贯性又确保信息准确性。

⭐⭐⭐☆☆

causalexperimentmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润

Reflexion — 言语强化学习与自我反思

10-MAS

Reflexion 提出了一种言语强化学习（Verbal Reinforcement Learning）机制。核心洞察：传统 RL 需要更新模型权重，成本高且难以解释；而 LLM 可以通过自然语言形式的"自我反思"来改进策略，无需任何权重更新。

⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agentpricing供应链与补货客服与VOCMAS与智能体工程定价与利润

Self-Refine + RL — 反馈闭环与自进化 Agent

10-MAS

Self-Refine 是一种让 Agent 对自身输出进行批评和改进的迭代机制。核心洞察：语言模型不仅能生成内容，也能评估和改进内容——利用同一模型的双重能力，实现无需外部监督的自我进化。

⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agent客服与VOC数据采集与治理MAS与智能体工程

Skill Registry — 技能注册表与动态发现

10-MAS

Skill Registry 是 MAS 工作流的核心基础设施，负责管理所有可用技能的元数据、依赖关系和运行时状态。核心洞察：一个可扩展的多 Agent 系统必须能动态发现、加载和组合技能，而不是硬编码固定流程。

⭐⭐⭐☆☆

experimentmulti_agent客服与VOC数据采集与治理MAS与智能体工程

Subagent Decomposer — 复杂任务子智能体分解

10-MAS

Subagent Decomposer 负责将复杂的 Task Blueprint 分解为可独立执行的子任务，并分配给专门的子 Agent。核心洞察：复杂任务（如"生成全品类 VOC 周报"）无法由单个 Agent 高效完成，必须分解为并行/串行的子任务，每个子任务由最优技能的子 Agent 执行。

36万⭐⭐⭐⭐☆

experimentrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

Tree of Thoughts — 树搜索式任务规划

10-MAS

Tree of Thoughts (ToT) 将 LLM 的推理过程从线性链式思维（Chain-of-Thought）扩展为树状搜索。核心洞察：人类解决复杂问题时会探索多条路径、评估中间进展、在死胡同回溯——LLM 也应该具备这种"深思熟虑"的能力。

⭐⭐⭐⭐☆

causalexperimentoptimizationrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

AI Brand Storytelling — AI 辅助品牌故事创作：情感连接与文化适应

11-AI人文

钩子（Hook） → 冲突（Conflict） → 解决（Resolution） → 行动召唤（CTA）

⭐⭐☆☆☆

causalexperimentoptimization广告与投放客服与VOC推荐与搜索数据采集与治理风控与合规

AI Consumer Wellbeing Ethics — 消费者福祉与 AI 伦理：母婴场景

11-AI人文

AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求：AI 客服首条消息必须声明身份；AI 生成内容必须标注。母婴场景额外要求：当 AI 给出健康/营养建议时，必须附注"请咨询儿科医生"。

⭐⭐☆☆☆

experimentrecommendationmulti_agent广告与投放供应链与补货客服与VOC推荐与搜索MAS与智能体工程风控与合规

AIGC Content Detection — AI生成内容鉴别：母婴评论真实性保护

11-AI人文

AI 生成文本与人类写作在统计层面存在系统性差异，可通过以下三类特征加以量化鉴别

⭐⭐☆☆☆

experimentforecastingmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

Cultural Data Collection — 跨文化 UGC 采集与母婴消费文化差异识别

11-AI人文

文化语境的不可迁移性——相同语义在不同文化中承载截然不同的消费偏好信号。

280 万⭐⭐⭐☆☆

causalexperimentrecommendationdata_collectionpricing供应链与补货客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

Emotional AI Customer Care — 情感感知客服：高压场景的同理心 AI

11-AI人文

情绪识别：通过关键词匹配（域内词典）+ 句式特征（连续感叹号、全大写）识别用户情绪状态，将其分级为 CALM / ANXIOUS / FRUSTRATED / ANGRY / FRIGHTENED 五档。母婴高压场景（安全召回、产品危害）优先触发 FRIGHTENED 级别，绕过普通情绪判断逻辑。

⭐⭐☆☆☆

causalexperimentforecastingmulti_agentdata_collectionpricing广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程定价与利润

Skill-Data-Drift-Detection

12-ML基础

核心思想：生产 ML 模型上线后，输入数据的分布会随时间偏移（用户行为变化、季节性、竞品冲击），导致模型悄然失效。数据漂移检测通过持续监控特征分布（统计漂移）和预测误差（性能漂移）两条并行轨道，在模型失效前触发告警和重训——区别于异常检测，漂移检测关注的是系统性、持续性的分布偏移，而非偶发性异常点。

⭐⭐☆☆☆

causalexperimentforecastingrecommendationpricing广告与投放供应链与补货客服与VOC推荐与搜索定价与利润

Feature Engineering for E-Commerce Machine Learning

12-ML基础

核心问题：模型效果的上限由特征质量决定。同样的算法，好的特征 vs 差的特征，效果可能差3-5倍。特征工程是"把领域知识注入模型的艺术"。

⭐⭐⭐☆☆

causalexperimentforecastingrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

Feature Selection（特征选择）

12-ML基础

我们从多个数据源（CRM、广告平台、网站分析、客服系统）汇总了 200+ 特征

30-60 万元⭐⭐⭐⭐☆

causalexperimentforecastingoptimizationdata_collection广告与投放客服与VOC数据采集与治理MAS与智能体工程

Amazon ToS Compliance Guardrail（亚马逊合规护栏）

13-广告分析

LLM 在生成商品文案、广告文案、客服回复时可能无意间违反平台规则（医疗声明、安全认证、受限品类）。Compliance Guardrail 在 LLM 输出端建立三层过滤——从确定性规则匹配到风险评分到人工升级——确保所有面向亚马逊的内容合规。

5-10 万⭐⭐☆☆☆

causalexperimentrecommendationragmulti_agentfraud_detectionpricing广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

层次图神经网络跨设备用户匹配 - 无ID的跨端行为拼接

13-广告分析

将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图

⭐⭐⭐⭐☆⭐⭐⭐☆☆

causalexperimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规视觉内容生成

Amazon Listing 文案 AI 生成（标题+Bullet+描述全套）

13-广告分析

某母婴品牌每月新品 8-12 个 SKU，人工撰写一套完整 Listing（标题+5条Bullet+描述+后台ST）需要 2-3 小时/SKU，月均耗时 20-30 小时

18-192 万元⭐⭐☆☆☆

causalexperimentforecastingoptimization广告与投放客服与VOC数据采集与治理风控与合规

Skill-Listing-Quality-Scoring

13-广告分析

核心思想：把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度，用神经网络预测每个内容位置（标题/主图/描述/bullet points）对转化成功率的贡献，并反向输出"改哪里能提升最多"的可操作建议。

⭐⭐☆☆☆

experimentforecastingoptimizationrecommendationpricingvisual_generation广告与投放客服与VOC推荐与搜索数据采集与治理定价与利润风控与合规视觉内容生成

AGRS 属性引导评论摘要 - 大规模零幻觉 Review 摘要 pipeline

14-用户分析

传统 LLM 摘要"无约束自由生成"产生幻觉(摘要包含评论中不存在的属性). AGRS 把摘要任务结构化:ABSA 提取 aspect-sentiment → canonical 归一化 → 代表性评论加权采样 → 结构化 prompt 引导 LLM 生成. 100% 基于真实评论,根本规避幻觉. 4 阶段 pipeline 端到端可扩展到百万产品.

1.5 万/月⭐⭐⭐☆☆

causalexperimentpricing供应链与补货客服与VOC数据采集与治理定价与利润

GPLR 用户人群标签生成 - 购买行为到可解释 Persona 的低成本桥接

14-用户分析

用户购买行为包含丰富的人群信号，但直接为百万用户调用 LLM 标注成本极高。GPLR 解决这个矛盾：用少量 LLM 标注 + 图结构传播覆盖全量用户。三步流程：① Diversity-Uncertainty（DU）采样选出最有代表性的"原型用户"做 LLM 标注；② LLM 基于购买历史为原型用户赋予 Persona 标签；③ 在用户-产品交互图上随机游走，将标签从有标注用户传播至全量未标注用户。

10 万⭐⭐☆☆☆

causalexperimentrecommendationpricing广告与投放客服与VOC推荐与搜索定价与利润

LACA 跨语言 ABSA - LLM 数据增强多语种情感分析

14-用户分析

Momcozy 在德/法/西市场每月接收 5000+ 母语客服工单(如德语 "Die Verpackung ist sehr schwer zu öffnen"). 传统做法用 Google Translate 翻译成英文后跑英文 ABSA,翻译会丢失 aspect 对齐("Verpackung" → "package" 时 BIO 边界错位 30%+). 跨境品牌每月因机翻错误导致工单

300-600 万元⭐⭐⭐⭐☆

causalexperimentforecastingpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

MAA 多 Agent 行动建议 - 从评论到产品改进决策链

14-用户分析

Momcozy M5 吸奶器在美国/德国/中国三市场销售,各市场用户痛点完全不同(美国关注续航便携、德国关注静音认证、中国关注清洗方便). 现有运营复盘只产出"差评列表",无法直接驱动产品改进决策——产品经理拿到差评列表还要花 1-2 周二次提炼 - 数据要求:三市场 Amazon Review API + market 标签 - MAA 配置: - 按市场分别聚类(K=5,每市场 5

510-920 万元/年⭐⭐⭐⭐☆

causalexperimentrecommendationmulti_agentpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

Multilingual Customer Service Translation — 多语言客服自动翻译与情绪感知保全

14-用户分析

母婴出海电商的客服场景中，买家使用西班牙语、德语、日语等多语言发起售后投诉，直接机器翻译存在两大失真

⭐⭐⭐☆☆

causalexperimentmulti_agent客服与VOCMAS与智能体工程定价与利润

PersonaBot RAG画像生成 - LLM+RAG驱动的客户画像落地工具

14-用户分析

Momcozy 在 Amazon US 的 S9/S12 系列累积数万条评论，但产品团队只能依赖人工抽查了解用户诉求，无法识别"职场背奶妈妈"与"新手妈妈"在痛点上的差异，导致广告文案和详情页对所有人说同样的话，转化率损耗严重 - 数据要求： - Amazon Review 数据（user_id、product_id、评论文本、评分、时间戳），CSV 格式 - 数量：每 SKU ≥ 50

20-40 万元⭐⭐☆☆☆

causalexperimentrag广告与投放客服与VOC推荐与搜索知识图谱与RAG

Personalized Promotion Targeting — 个性化促销定向：用户响应异质性建模

14-用户分析

1. Cannibalization（自相残杀）：把折扣发给"本来就会买"的高意愿用户，白白损失利润

300-600 万元⭐⭐⭐☆☆

causalexperimentforecastingoptimization客服与VOC

Review Pain-Point Mining（竞品差评痛点挖掘）

14-用户分析

想进入"电动吸奶器"品类，但已有 Momcozy/Medela/Spectra 等强竞品

50-100 万元⭐⭐☆☆☆

causalexperiment广告与投放客服与VOC

Session意图漂移建模 - 跨会话用户购买意图变化检测

14-用户分析

现有电商推荐系统多依赖商品标题、价格等表层属性推断用户意图，且只关注单次购买或单会话内的短期偏好变化。SessionIntentBench 的核心创新在于：提出意图树（Intention Tree）概念，通过跨会话建模用户意图的时序演化，构建大规模多模态意图基准。

⭐⭐⭐☆☆

causalexperimentforecastingoptimizationrecommendationpricing客服与VOC推荐与搜索定价与利润

超稀疏矩阵补全 - 每行仅2-5个观测值的页面转移矩阵恢复

14-用户分析

传统矩阵补全（如 SoftImpute、ALS）假设"大部分条目可观测"，但电商session的页面转移矩阵天然稀疏——每个用户session只有3-5次页面跳转，导致采样概率 `p = C/d`（C≈2-5, d=页面类型数），绝大多数转移对从未被同一用户触发。

高⭐⭐☆☆☆

causalexperimentforecastingoptimization客服与VOC推荐与搜索

StaR 观点语句排序 - 排序而非生成的可解释评论分析

14-用户分析

Momcozy 暖奶器在 Amazon US/DE 各 5000+ 评论,差评包含细碎复合表达(如"加热慢又不均匀,温控也不准"). 传统 ABSA 把整句标注为"加热问题",丢失了 3 个独立改进点;直接用 LLM 总结容易生成评论中不存在的属性(如"接口设计差") - 数据要求:Amazon Review API 双市场评论 - StaR 配置: - Step 1 Candidate

80-150 万/年⭐⭐⭐☆☆

causalexperimentrecommendationragdata_collection广告与投放客服与VOC推荐与搜索数据采集与治理

TRACE 跨会话点击流用户嵌入

14-用户分析

传统序列推荐模型只看单会话内的商品点击序列，TRACE 的创新在于：把整个用户的多会话页面浏览历史（包括首页、搜索页、详情页、购物车、结账等各类页面，跨越数天甚至数周）打包成一条有序序列，送入轻量级 Transformer Encoder 学习全局用户状态嵌入。

10 万⭐⭐⭐☆☆

causalexperimentforecastingoptimizationrecommendation广告与投放供应链与补货客服与VOC推荐与搜索

用户行为轨迹模式挖掘与预测 - 变阶马尔可夫模型

14-用户分析

母婴电商需要桑基图展示用户从首页→搜索→PDP→加购→支付的流量宽度

5000 万⭐⭐⭐☆☆

experimentforecastingoptimizationrecommendation客服与VOC推荐与搜索

User Profile Long Memory — 跨会话用户画像：育儿阶段感知与偏好记忆

14-用户分析

用户上月购买了 Stage 1 奶粉，系统推断宝宝约 2-3 月龄

50 万⭐⭐☆☆☆

causalexperimentrecommendationmulti_agentdata_collectionpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

Channel Saturation Curve（渠道饱和曲线建模）

15-营销投放分析

Facebook 月预算从 $5 万加到 $8 万后，ROAS 从 3.2 掉到 2.1

18-25 万元⭐⭐☆☆☆

causalexperimentoptimization广告与投放客服与VOC推荐与搜索风控与合规

GenAI Advertising — 无 Cookie 生成式受众定向 & LLM 原生广告拍卖

15-营销投放分析

匿名访客（未授权追踪）向 AI 助手提问穿搭，传统推荐因无 Cookie 完全失效，品牌白白流失高意图实时流量 - 数据要求：用户自然语言查询文本 + SKU 库（含品类、场景标签、图片描述）+ 广告主实时出价 - GenAI 方案： - 用户问："我下周去海边参加婚礼，梨形身材，有什么建议

15 万⭐⭐☆☆☆

causalexperimentforecastingoptimizationrecommendationmulti_agentfraud_detectionpricing广告与投放供应链与补货客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

ATLAS — 梯度无关持续学习：Teacher-Student 双架构在线适应

16-智能体工程

传统持续学习依赖反向传播更新模型权重，存在三个根本缺陷：必须离线批量训练（无法在服务中实时更新）、灾难性遗忘（新任务覆盖旧能力）、部署 Agent 无法自改（推理阶段参数冻结）。ATLAS 的突破在于：将"学习"从参数空间迁移到系统编排层，通过持久学习记忆（Persistent Learning Memory, PLM）存储经验蒸馏后的指导性知识，无需触碰模型权重。

⭐⭐⭐☆☆

causalexperimentforecastingoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程

仿生粘菌主动上下文剪枝 — Focus Agent 自主压缩架构

16-智能体工程

Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式

⭐⭐⭐☆☆

causalexperimentmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

AgeMem — LTM+STM 统一 Agent 记忆：RL 自适应管理跨会话知识

16-智能体工程

AgeMem 是首个将 LTM（长期记忆）和 STM（短期记忆）统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块，由外置 Memory Manager 或启发式 trigger 决策，导致组合效果差、部署成本高（需要额外 expert LLM）。AgeMem 的突破在于：记忆操作本身就是 action，由同一个 LLM policy 通过 RL 学习"何时调什么"。

10 万⭐⭐⭐☆☆

causalexperimentoptimizationmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Agent Error Budget — 双向错误预算：自主权随可靠性动态调整

16-智能体工程

传统 SRE 错误预算是单向消耗品：违反 SLO 就消耗预算，预算耗尽就停止发布，恢复后窗口重置。Agent 双向错误预算在此基础上引入自主权预算（Autonomy Budget）：好行为可以赢回预算，自主权随可靠性动态升降。

⭐⭐☆☆☆

causalexperimentmulti_agentpricing供应链与补货客服与VOCMAS与智能体工程定价与利润

Whispers of Wealth — Agent 支付协议安全红队：Branded/Vault Whisper 攻击

16-智能体工程

WF-D 选品扫描工作流中，AI 导购 Agent 根据母婴产品描述为用户推荐商品

5000 万⭐⭐☆☆☆

causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

Agent Safety Guardrails（Agent 安全对抗护栏）

16-智能体工程

LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护：(1) 输入过滤——检测注入模式；(2) 工具调用前置验证——参数白名单+范围检查；(3) 输出审计——敏感信息脱敏。

10-30 万元⭐⭐☆☆☆

experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

EComStage — 电商 Agent 三阶段(Perception/Planning/Action)双向 Benchmark

16-智能体工程

EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角

⭐⭐⭐☆☆

experimentoptimizationrecommendationragmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

AgentTrace — 因果图根因分析：0.12s 定位多 Agent 故障

16-智能体工程

AgentTrace 的核心洞察是：多 Agent 系统（MAS）的故障传播是确定性的因果链，而非需要 LLM 进行语义推理的模糊问题。

5-20 万⭐⭐☆☆☆

causalexperimentforecastingragmulti_agentdata_collection供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

AgentTrust — 运行时安全拦截：95% 准确率，< 1ms，MCP 集成

16-智能体工程

为什么基础设施沙箱不足：容器/seccomp 工作在系统调用层，不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法，但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作，理解"操作意图"而非仅检查"操作权限"。

20-60 万元⭐⭐☆☆☆

causalexperimentmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

AgeMem — 统一 LTM+STM 管理的 Agentic Memory

16-智能体工程

AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致

STM Filter + Summary 让对话 context 维持紧凑⭐⭐⭐⭐☆

causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

Subterranean Agent — 将工作流 SOP 编译进 LLM 权重

16-智能体工程

每日需要上架数百个 SKU，每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP，当前用 LangGraph 编排，frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天

$150/天 → 约 $0.5–1.2/天（按 128–462× 节省比例）

causalexperimentoptimizationmulti_agentvisual_generation广告与投放客服与VOCMAS与智能体工程风控与合规视觉内容生成

SkillForge — 领域特定自演化 Agent Skill 萃取与优化

16-智能体工程

母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张

bad case 自动诊断省去人工质检 30%-50% 工时⭐⭐⭐⭐☆

causalexperimentoptimizationknowledge_graphmulti_agent广告与投放客服与VOC知识图谱与RAGMAS与智能体工程

AutoSkill — 经验驱动终身学习：Skill 自进化版本管理

16-智能体工程

RAG 的局限：被动检索，只能复用已显式存入的知识，无法从对话轨迹中自动归纳模式；Fine-tuning 的局限：参数固化后无法增量更新，每次新能力都需全量重训，知识以黑盒形式埋在权重里，不可审计不可编辑。

⭐⭐⭐☆☆

causalexperimentragmulti_agent广告与投放供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

CASCADE — 案例推理部署时学习：Contextual Bandit 无参数自适应

16-智能体工程

部署时学习（Deployment-Time Learning, DTL）是 CASCADE 提出的第三个 LLM 生命周期阶段：预训练（Pre-training）→ 微调（Fine-tuning）→ 部署时学习。现有方案只在前两个阶段学习，部署后模型冻结，无法从实际使用中积累经验。

⭐⭐☆☆☆

causalexperimentoptimizationrecommendationragmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

Skill 自动演化与验证 — EvoSkills 双 LLM 协同优化

16-智能体工程

EvoSkills 解决 LLM Agent 多文件 Skill 包自动生成的两个根本挑战

⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agent客服与VOCMAS与智能体工程

ACON — Agent 长上下文压缩与 NL 准则优化

16-智能体工程

跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)

90% 成本, 性能接近 GPT-5⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agentdata_collection广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程

Cost-Aware Agent Scheduling（成本感知调度）

16-智能体工程

不是所有 Agent 任务都需要 GPT-4——简单分类任务用 SLM（Small LM），复杂推理用 LLM。成本感知调度根据任务复杂度动态路由到最优模型。

⭐⭐☆☆☆

causalexperimentoptimizationmulti_agent客服与VOCMAS与智能体工程

Cultural Adaptation Agent — 跨文化适应：母婴跨境的本地化 AI 策略

16-智能体工程

语言翻译是跨境电商的最低门槛，真正影响转化的是文化适配：同一款婴儿奶粉，美国妈妈关注"科学配方/AAP认证"，德国妈妈关注"有机/欧盟标准"，日本妈妈关注"安心品质/无添加"——这些差异不是语言问题，而是深层文化价值观差异。

⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agentdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

LDP — 身份感知 Agent 通信协议：模型级路由 + 37% Token 节省

16-智能体工程

Google A2A 和 Anthropic MCP 这两大主流 Agent 通信协议存在共同缺陷：不暴露模型级属性。

⭐⭐☆☆☆

causalexperimentmulti_agentpricing客服与VOC数据采集与治理MAS与智能体工程定价与利润风控与合规

Shopping Companion — 记忆增强的长期偏好购物 Agent

16-智能体工程

Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。

⭐⭐⭐⭐☆

experimentoptimizationrecommendationragmulti_agentpricing广告与投放供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆

experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

16-智能体工程

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性，忽略了一个关键问题：模型能完成任务，但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

MUZZLE — Web Agent 间接 Prompt Injection 红队框架

16-智能体工程

间接 Prompt Injection（IPI）的核心机制：攻击者无法直接访问 Agent 的系统提示，但可通过控制 Agent 抓取的外部内容（商品描述、用户评论、网页正文）向 Agent 上下文注入恶意指令，使 Agent 偏离原始任务目标执行攻击者意图。

⭐⭐☆☆☆

causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

开源 Tool Use 基座模型选型 — Hermes 4 混合推理家族

16-智能体工程

Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。

⭐⭐⭐☆☆

experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

编排轨迹驱动的强化学习 — MAS RL 三维设计框架

16-智能体工程

随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。

⭐⭐⭐⭐⭐

causalexperimentoptimizationmulti_agent客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

SLM Tool Calling 成本优化 — 350M 参数击败 LLM

16-智能体工程

AWS 2026 年的实证研究证明：通过领域特定 SFT，仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation，导致"参数稀释"。

⭐⭐☆☆☆

causalexperimentoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程风控与合规

SoK Agentic Skills — Agent Skill 全生命周期与方法论底座

16-智能体工程

SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题

⭐⭐⭐☆☆

causalexperimentrecommendationragknowledge_graphmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

任务自适应拓扑路由 — AdaptOrch 动态多智能体编排

16-智能体工程

AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超模型选择的贡献,成为系统性能的主变量。

⭐⭐⭐⭐☆

causalexperimentforecastingrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Tool Call Decision Framework — 必要性/效用/可负担性三维工具调用决策

16-智能体工程

LLM 工具调用存在系统性错位：模型既会过度调用（把可推理的问题交给工具），也会遗漏调用（低估工具对复杂查询的价值）。根本原因在于模型自感知与任务实际需求之间存在认知盲区——模型过度自信于自身知识覆盖，却对边界外的未知盲区无感知。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

MCP Tool 描述质量审核 — 六维 Smell 扫描与动态路由

16-智能体工程

Queen's University 2026 年的大规模实证研究揭示：97.1% 的 MCP tool 描述至少含有一个 smell，这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由，在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationragmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

XSkill — 多模态 Agent 双流自进化：经验+技能协同积累

16-智能体工程

XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制，执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化

5-10 万⭐⭐⭐☆☆

causalexperimentforecastingoptimizationrecommendationmulti_agentpricingvisual_generation客服与VOC推荐与搜索MAS与智能体工程定价与利润视觉内容生成

AIGP — LLM 动态定价：长期 GMV 对齐框架（+13% GMV A/B实测）

17-价格优化

业务痛点：吸奶器年度销量呈强季节性（Q3-Q4 旺季 GMV 占全年 65%），且 Momcozy 经常在大促前一周大幅降价抢占位次

1,321 万元

experimentforecastingoptimizationrecommendationpricing供应链与补货客服与VOC推荐与搜索定价与利润

AR Logistics Visualization — 增强现实包裹可视化追踪：跨境物流透明化与客服AI视频答复

18-物流履约

跨境母婴电商的物流追踪长期依赖纯文本状态更新（"已揽收"、"在途中"、"清关中"），消费者对包裹实际位置和预期到达时间高度不确定，导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合

12.7 万⭐⭐⭐☆☆

causalexperimentforecastingfraud_detectionvisual_generation广告与投放供应链与补货客服与VOC风控与合规视觉内容生成

Last-Mile Delivery Prediction（最后一公里配送时效预测）

18-物流履约

预测从"到达目的国仓库"到"用户签收"的时长。用生存分析（Cox PH 或 AFT 模型）建模配送时长分布，考虑承运商、目的地邮编区、包裹体积、节假日等协变量。

4-6 万元⭐⭐☆☆☆

causalforecasting供应链与补货客服与VOC

Returns Reverse Logistics（退货逆向物流）

18-物流履约

预测退货概率 + 优化退货处理路径。退货概率用 XGBoost 建模（产品类别、价格、用户历史退货率、配送时长），退货处理用规则+成本优化——退货到 FBA vs 第三方仓 vs 弃置。

6-10 万元⭐⭐☆☆☆

causalforecastingoptimizationfraud_detectionpricing供应链与补货客服与VOC定价与利润风控与合规

Click Fraud Detection（广告刷量检测）

19-风控反欺诈

检测广告点击中的无效流量（IVT）——Bot 点击、竞品恶意点击、重复点击。用时间序列异常 + 行为模式识别。

6-15 万元⭐⭐☆☆☆

causalexperimentoptimizationdata_collectionfraud_detection广告与投放客服与VOC数据采集与治理风控与合规

DS-DGA-GCN — 动态图假评论群组检测：冷启动新品防刷评

19-风控反欺诈

核心思想：在"产品 → 评论 → 评论者"三方动态异构图上检测刷评团伙群组。不看单条评论文本质量，而是看评论者之间的网络行为模式——真实用户构成稀疏随机网络，刷评团伙则共现密集、行为高度同步。

⭐⭐⭐☆☆

causalexperimentknowledge_graphfraud_detection客服与VOC知识图谱与RAG风控与合规

Fraud Signal Collection — 欺诈信号数据采集（刷单行为、虚假评论、异常流量）

19-风控反欺诈

欺诈检测系统的核心上限由欺诈信号采集的覆盖度和质量决定。母婴电商面临的三类典型欺诈

48 万⭐⭐☆☆☆

experimentmulti_agentdata_collectionfraud_detection广告与投放客服与VOC数据采集与治理MAS与智能体工程风控与合规

FraudSquad — LLM 生成虚假评论检测：LM 嵌入 + 门控图变换器

19-风控反欺诈

核心思想：LLM 生成的虚假评论文本质量极高（语法流畅、情感真实），传统文本特征工程（词频/情感/长度）已失效。FraudSquad 转变思路——不只看"单条评论写得怎样"，而是看"这个评论者在评论图中的行为模式是否异常"。

⭐⭐⭐☆☆

causalexperimentfraud_detection广告与投放客服与VOC推荐与搜索风控与合规

Identity Fraud Detection — 多维账号欺诈检测：设备+行为+网络三重验证

19-风控反欺诈

核心思想：三维欺诈信号融合检测账号欺诈——设备指纹相似度（识别同一设备多账号）+ 行为序列异常（购买/浏览模式偏差）+ 账号关联网络社区（图社区发现）。三维信号通过加权融合输出欺诈概率，任一维度异常均触发预警。

⭐⭐☆☆☆

experimentforecastingmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

Review Fraud Detection（虚假评论检测）

19-风控反欺诈

GNN 图神经网络检测虚假评论——不是看单条评论文本，而是看评论者-产品-评分之间的关系图。虚假评论团通常呈现异常图模式：同批次账号、评分极端（1 或 5 星）、评论时间集中、文本相似度高。

5-15 万元⭐⭐⭐☆☆

causalknowledge_graphmulti_agentfraud_detection客服与VOC知识图谱与RAGMAS与智能体工程风控与合规

Transaction Anomaly Detection（异常交易检测）

19-风控反欺诈

Isolation Forest + 动态阈值检测异常交易模式。特征：订单金额、支付方式、IP 国家 vs 收货国家、下单到支付间隔、同一 IP 下单频率、地址变更次数。

3-8 万元⭐⭐☆☆☆

experimentoptimizationfraud_detection广告与投放客服与VOC风控与合规

DAWN — Talking-Head Review Video（AI口播Review视频）

20-AI视频生成

首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列，无误差累积，支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。

30-60 万元

causalexperimentvisual_generation广告与投放客服与VOC数据采集与治理视觉内容生成

E-Commerce Video Benchmark（电商视频质量评估基准）

20-AI视频生成

唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT（自然场景），但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。

forecastingrecommendationvisual_generation广告与投放供应链与补货客服与VOC推荐与搜索视觉内容生成

Text-to-Edit — Video Ad Auto-Editing（MLLM广告自动剪辑）

20-AI视频生成

端到端广告视频生成：输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿（镜头序列 + 配音脚本 + 装饰标签）。

causalexperimentpricingvisual_generation广告与投放客服与VOC定价与利润视觉内容生成

Virbo — Multilingual Avatar UGC（多语言虚拟人UGC批量生产）

20-AI视频生成

完整多语言短视频生成系统：角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS（百余语言）→ 特效渲染。

35-60 万元

causalexperimentforecastingvisual_generation广告与投放供应链与补货客服与VOC视觉内容生成

Compliance-Scored Guardrail Orchestration — 合规评分 Best-of-N 守护编排

21-合规决策

核心思想：把 LLM 自动生成的合规风险控制从“生成后人工看一眼”升级为同步的加权评分系统。系统并行生成多个候选输出，对每个候选运行 PII、内容安全、schema、领域规则和证据引用检查，计算合规得分；一旦最佳候选超过阈值就提前返回，否则进入人工复核。

⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Consumer Complaint Recall Prediction — 消费者投诉驱动的召回风险预测

21-合规决策

核心思想：从 CPSC/NHTSA 非结构化消费者投诉文本出发，通过半参数主题模型（Hierarchical Dirichlet Process Pitman-Yor, HDPYP）自动提取缺陷主题，预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比，预测准确率提升约 14%（p<0.05），提前约 1 年预警召回事件。

⭐⭐☆☆☆

causalexperimentforecastingrecommendationmulti_agentdata_collectionfraud_detection供应链与补货客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规