paper2skills Playbook

推荐与搜索

认知不确定性共形评分 - 数据稀疏区域自适应区间加宽

01-因果推断

标准共形预测对所有数据点使用统一的非一致性分数,无法区分"数据多的区域"和"数据少的区域"。根本原因:传统共形分数只捕捉偶然不确定性(aleatoric uncertainty,数据本身的随机性),对认知不确定性(epistemic uncertainty,训练数据不足导致的模型无知)视而不见——在数据稀疏区域仍然给出窄区间,形成虚假的高置信度。

causalexperimentforecastingrag推荐与搜索知识图谱与RAG

Causal Mediation Analysis — Decomposing "Why It Works

01-因果推断

核心思想:中介分析回答"为什么"——一个干预(如推荐算法更新)通过什么机制影响了结果(如转化率)。它将总效应分解为

10-30万⭐⭐☆☆☆
causalexperimentforecastingoptimizationrecommendation客服与VOC推荐与搜索

Skill: A/B 实验设计基础

02-A_B实验

A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述,将学术界的最佳实践封装为可直接调用的 Python 工具包,解决电商实验中最常见的四类问题

causalexperimentforecastingoptimizationrecommendationpricing供应链与补货推荐与搜索定价与利润

Agentic AB Testing — AI Agent 驱动 A/B 实验:假设→设计→解读→决策

02-A_B实验

传统 A/B 测试有三大痛点:① 依赖统计专业知识(功效分析、多重检验校正),② 分析耗时(从数据到决策通常需要 2-3 周),③ 假设生成靠人工经验(容易受认知偏差影响)。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationmulti_agent推荐与搜索数据采集与治理MAS与智能体工程

Multi-Armed Bandit (多臂老虎机)

02-A_B实验

在探索(exploration)和利用(exploitation)之间取得平衡。

⭐⭐☆☆☆
experimentforecastingoptimizationrecommendation广告与投放推荐与搜索

Network Effect Experiments(网络效应实验)

02-A_B实验

标准 A/B 假设 SUTVA(用户间无干扰),但社交电商(分享/推荐/UGC)违反此假设——A 组用户的行为会影响 B 组用户。解决方案:Cluster Randomization(按社交簇随机分组)或 Two-Stage Randomization(先随机簇,簇内再随机个体)。

确保社交功能实验正确性,隐性
causalexperimentrecommendation推荐与搜索

Thompson Sampling for Multi-Armed Bandit

02-A_B实验

Thompson Sampling是一种基于贝叶斯后验采样的在线决策算法,用于解决探索-利用权衡(Exploration-Exploitation Tradeoff)问题。算法的核心洞见是:按照每个动作是最优动作的概率来选择动作,而非简单地选择当前估计奖励最高的动作。

experimentoptimizationrecommendation广告与投放推荐与搜索

智能预测 - 双重稳健估计 (Doubly Robust Estimation)

03-时间序列

我们计划在北美市场投放吸奶器季节性促销活动(如母亲节、黑五)

30-50 万⭐⭐⭐☆☆
causalforecastingoptimizationrecommendationmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润

Streaming Data Forecasting — 流式采集数据驱动的实时需求预测:采集→特征→预测端到端

03-时间序列

传统需求预测依赖离线批处理(T-1 日数据训练,次日生效预测),对突发事件(爆品上线、竞品大促、舆情事件)响应迟滞 12-24 小时。

60 万元⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationrecommendationragdata_collectionpricing供应链与补货推荐与搜索知识图谱与RAG数据采集与治理定价与利润

Business Metric-Aware Forecasting for Inventory Management

04-供应链

核心思想:库存健康诊断不是"某个 SKU 库存多少",而是回答三个问题:① 这批货还能动吗(FSN分级)?② 过多还是过少(Over/Under stock 三态)?③ 为什么和计划不一样(供应计划方差归因到4类根因)。同时严格区分「预测准确率(Forecast Accuracy)」和「计划准确率(Plan Accuracy)」——两者可以完全脱钩。

⭐⭐☆☆☆
causalexperimentforecastingoptimization广告与投放供应链与补货推荐与搜索

Skill: Monodense 单品价格弹性估计

04-供应链

传统价格弹性估计依赖计量经济学方法(log-log OLS、AIDS 等),需要强函数形式假设,且难以处理高维商品特征、季节性、竞品价格等复杂交互。Walmart 团队提出的 Monodense Deep Learning Model (DLM) 通过深度学习实现无需对照实验(treatment-control free)的单品级弹性估计。

causalexperimentforecastingoptimizationrecommendationpricing广告与投放供应链与补货推荐与搜索定价与利润

Multi-Channel Inventory Pooling(多渠道库存池化)

04-供应链

吸奶器在 Amazon FBA 仓缺货(销量超预期),但独立站海外仓还有 200 件积压,TikTok Shop 也在慢速消化——三渠道信息不互通,总库存 800 件却出现"某渠道缺货 + 某渠道积压"

200-400 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationfraud_detection广告与投放供应链与补货推荐与搜索风控与合规

Multilevel Facility Location Optimization (多级设施选址优化)

04-供应链

在一个从工厂到终端消费者的多层级供应链网络中,决定在哪里建哪类设施、各层级之间如何连通,使全链路固定成本和运输成本之和最小。

1000 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationfraud_detection广告与投放供应链与补货推荐与搜索风控与合规

Pre-launch new product demand forecasting using Bass model with ML

04-供应链

核心思想:新品上市前无历史销量,但不是无信息——相似 SKU 的历史数据、产品属性特征、Bass 扩散参数估计三条路径可以构建新品的需求先验分布。上市后用贝叶斯更新快速收敛,并通过「探索加成」(首批量刻意多订一点以加速学习)避免因首批订少而永久缺乏数据的陷阱。

⭐⭐⭐☆☆
experimentforecastingpricing供应链与补货推荐与搜索定价与利润

PASTA - 离线悲观选品框架

04-供应链

如何仅凭历史离线日志(无需在线试错),找出使总期望收益最大化的商品展示组合。

15-30 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationragfraud_detectionpricing供应链与补货推荐与搜索知识图谱与RAG定价与利润风控与合规

Ad-Aware Recommendation — 广告感知协同排序:有机推荐与赞助商品的联合优化

05-推荐系统

传统电商推荐系统中,广告排序(Sponsored Ranking) 和 有机推荐(Organic Recommendation) 是两个完全独立的系统,分别优化 CTR/ROAS 和个性化相关性,导致用户体验分裂——同一用户可能在广告位看到高竞价但低相关商品,在有机推荐区看到高相关但低转化意图商品。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendation广告与投放推荐与搜索

因果图聚合权重去偏推荐 - CAGED

05-推荐系统

Momcozy 吸奶器爆款 SKU 占全部流量的 60%+,200 余款配件(替换配件、特殊尺码)几乎零曝光

500 万元
causalexperimentoptimizationrecommendationragpricing供应链与补货推荐与搜索知识图谱与RAG定价与利润

扩散模型冷启动CTR - 新品零交互时的转化潜力预热

05-推荐系统

传统推荐系统采用 Embedding & MLP 范式:每个商品 ID 对应一个向量,该向量通过用户历史交互数据学习。新品没有历史交互 → Embedding 全为随机噪声 → CTR 预测失效,这就是冷启动问题。

10万
causalexperimentforecastingrecommendationpricingvisual_generation推荐与搜索定价与利润视觉内容生成

Popularity-Aware Meta-Learning for Cold-Start Recommendation

05-推荐系统

母婴品类SKU迭代快(奶粉按月龄分段、辅食按月添加),新品上架无历史交互数据,传统协同过滤无法推荐。

⭐⭐⭐☆☆
experimentforecastingrecommendation供应链与补货推荐与搜索

反事实推荐 - 双重校准估计器(DCE)

05-推荐系统

是 MNAR(Missing Not At Random)选择偏差:用户只对系统曝光过的商品产生反馈,而曝光本身受热度/历史 CTR 影响,导致推荐模型陷入"自我强化"循环。

200-400 万元⭐⭐⭐☆☆
causalexperimentforecastingrecommendationpricing推荐与搜索定价与利润

Deep Learning Recommendation with Heterogeneous Inference

05-推荐系统

传统协同过滤只利用正向交互(用户点击、购买)来建模,忽略了负向信号(用户不点击、跳过)的价值。Heterogeneous Inference (HI) 通过同时建模两种推理模式

causalexperimentoptimizationrecommendationmulti_agent推荐与搜索MAS与智能体工程

Diversity-Aware Reranking with SMMR

05-推荐系统

传统推荐系统追求相关性最大化,导致结果高度同质化——用户搜"婴儿奶粉",首页全是同一品牌同一段位。

⭐⭐☆☆☆
causalexperimentoptimizationrecommendationragpricing供应链与补货推荐与搜索定价与利润

Explainable Recommendation for Business Trust

05-推荐系统

黑盒推荐系统给用户推了"吸奶器",用户会问"为什么给我推这个?

⭐⭐☆☆☆
causalexperimentforecastingoptimizationrecommendationknowledge_graphpricing推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

MAS Collaborative Recommendation — 多智能体协同个性化推荐:LLM Agent 异构协作框架

05-推荐系统

传统推荐系统是单一模型的端到端优化,难以整合多维用户意图(价格敏感、品牌偏好、安全认证关注)。MAS Collaborative Recommendation 将推荐任务分解为多个专业化 LLM Agent 的协作问题

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationrecommendationragmulti_agentpricing广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

Marketing-Driven Recommendation — 营销活动驱动的推荐系统:Promotion-Aware 个性化协同优化

05-推荐系统

传统推荐系统的目标是最大化用户相关性(CTR/CVR),营销系统的目标是最大化 GMV 和促销 ROI。这两个目标通常分开优化,导致推荐了用户喜欢但不需要促销的商品(浪费预算),或促销了高利润商品但对用户不相关(浪费曝光)。

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationrecommendationdata_collectionpricing广告与投放供应链与补货推荐与搜索数据采集与治理定价与利润

Semantic ID Retrieval for Recommendation (RPG)

05-推荐系统

传统推荐系统用无序的one-hot ID或量化向量表示商品,丢失了语义信息。

⭐⭐⭐☆☆
experimentforecastingrecommendationrag客服与VOC推荐与搜索

Session-Based Recommendation with SR-GNN

05-推荐系统

母婴出海电商中 60%+ 用户以匿名状态浏览(未登录/未注册)

首年投入约 15 万,预期年增量 GMV 约 1440 万,⭐⭐⭐☆☆
causalexperimentforecastingrecommendationpricing推荐与搜索定价与利润

Category Trend Forecasting(品类趋势预测)

06-增长模型

监测到"wearable breast pump"(穿戴式吸奶器)谷歌搜索量过去 6 个月增长 180%($p<0.01$),BSR 上升 45%,TikTok 话题 #wearablepump 播放量 2.3 亿

50-100 万元⭐⭐☆☆☆
experimentforecasting广告与投放供应链与补货推荐与搜索

Cross-Border Cold-Start Forecast(跨境冷启动需求预测)

06-增长模型

跨境电商的致命问题:70-80% 商品在目标市场无历史数据,15-25% 上架后零销量,但传统预测模型会给出"看起来合理"的正数预测→导致库存积压。ZODIAC 用双域 LSTM + 双头架构同时解决"零销量预测"和"过预测"两个核心痛点。

60-120 万元⭐⭐⭐☆☆
causalexperimentforecastingrecommendationfraud_detectionpricing供应链与补货客服与VOC推荐与搜索定价与利润风控与合规

Cross-Market Product Transfer(跨市场产品适配性预测)

06-增长模型

一款吸奶器在京东月销 5000+ 台(¥399),需要判断是否引入 Amazon US($59.99)、Amazon DE(€54.99)、Amazon UK(£49.99)

30-60 万元⭐⭐⭐☆☆
causalexperimentforecastingrecommendationpricing广告与投放供应链与补货推荐与搜索定价与利润

DQN-Inspired Purchase Intent Prediction

06-增长模型

传统购买预测模型将问题视为静态分类任务。DQN-inspired方法引入强化学习思维:将用户会话视为状态,营销干预视为动作,转化/流失视为奖励。通过经验回放和Epsilon-Greedy探索,模型学会识别高价值干预时机。

100万
causalexperimentforecastingrecommendation供应链与补货客服与VOC推荐与搜索

LTV预测 - 零膨胀对数正态模型 (ZILN)

06-增长模型

我们通过 Facebook/TikTok 广告获取了大量北美新客,但并非所有新客都有长期价值

100-200 万⭐⭐⭐☆☆
experimentforecastingoptimization广告与投放客服与VOC推荐与搜索

Skill-Market-Size-Estimation

06-增长模型

核心思想:在选品决策前量化「这个品类有多大、能拿多少」,避免「市场很大」的模糊判断。用两条互相校验的路径(Top-down 和 Bottom-up)估算 TAM/SAM/SOM,并通过 Google Trends 校准和 Monte Carlo 模拟将点估计扩展为置信区间,输出可进入 ROI 模型的数字范围。

⭐⭐☆☆☆
causalexperimentforecastingpricing广告与投放供应链与补货推荐与搜索定价与利润

Uplift Modeling for Churn Prediction

06-增长模型

识别哪些用户会因为干预(如优惠券、客服电话)而降低流失概率。

6万元
causalexperimentforecastingrecommendationpricing广告与投放客服与VOC推荐与搜索定价与利润

STAN 用户生命周期自适应建模

06-增长模型

业务问题 母婴出海电商用户决策周期长(孕期到育儿多阶段),不同阶段用户需求差异巨大

176万元
causalexperimentforecastingoptimizationrecommendation供应链与补货客服与VOC推荐与搜索

AgentRouter — 知识图谱引导的多智能体路由器

08-知识图谱

大促高峰期每日 5 万条跨领域工单,正确路由率从 61% → 82%,每天减少约 10,500 条二次转单 - 单条转单处理成本约 5 元,节约运营成本 5.25 万元/天;年化 1900 万元 - 用户 CSAT 评分从 3.8 → 4.3(满分 5),复购意愿提升可观

1900 万元⭐⭐⭐☆☆
causalrecommendationragknowledge_graphmulti_agentfraud_detectionpricing广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

Audience Knowledge Graph(广告受众知识图谱)

08-知识图谱

用知识图谱技术构建广告受众画像图——不是简单的标签列表,而是实体关系图:用户→购买→产品→属于→品类→适合→年龄段。基于 KG 的受众定向比关键词匹配精准 3-5 倍。

20-35 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationragknowledge_graphmulti_agent广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程

CausalRAG — 因果图增强检索:语义相似 + 因果链路双轨 RAG

08-知识图谱

传统 RAG 将文档切分为固定长度的 chunk,导致原本有完整因果逻辑的段落被割裂。例如"产品A未通过认证 → 被召回 → 触发贸易禁令"这一因果链横跨多个 chunk,单个 chunk 无法表达完整逻辑。

⭐⭐⭐☆☆
causalexperimentragknowledge_graph推荐与搜索知识图谱与RAG风控与合规

CausalRAG - 因果图驱动的检索增强生成

08-知识图谱

用户反馈"机器转了两圈突然停下并闪红灯",传统 FAQ 机器人把所有带"红灯"的内容(充电时亮红灯/故障码等)全部返回,答非所问,最终用户申请退货

120-200 万元
causalrecommendationragknowledge_graphmulti_agentfraud_detection供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

面向电商的稠密检索与语义排序

08-知识图谱

传统电商搜索基于 BM25/TF-IDF 关键词匹配,无法理解语义。例如用户搜"缓解涨奶 pain",关键词系统只能匹配包含"pain"或"涨奶"字样的商品,无法召回"吸奶器"、"冷敷贴"等语义相关但关键词不匹配的商品。

⭐⭐⭐☆☆
causalexperimentrecommendationragknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG定价与利润

KG 实体消歧与去重(Entity Resolution & Deduplication)

08-知识图谱

电商知识图谱中同一商品在不同数据源有多种命名:中文名"吸奶器"、英文名"breast pump"、闽南语"集乳器"、品牌型号"Spectra S1"、Amazon ASIN"B07XYZ123"——若不做统一,KG 会出现大量重复节点,导致关系断裂、推理失效、检索召回率下降。实体消歧(Entity Resolution) 通过三步流水线将多源异构实体识别为同一现实对象并合并。

causalexperimentforecastingknowledge_graph推荐与搜索知识图谱与RAG数据采集与治理

GNN Foundations(图神经网络基础)

08-知识图谱

GNN 三大基础架构的统一入门:GCN(图卷积,邻居特征加权平均 $\mathbf{h}_v^{(l+1)} = \sigma(\mathbf{W}^{(l)} \sum_{u \in N(v)} \frac{\mathbf{h}_u^{(l)}}{\sqrt{d_v d_u}})$)→ GAT(加注意力权重)→ GraphSAGE(归纳式采样聚合,适合大规模图)。

补充 KG 推荐基础能力,隐性
causalforecastingrecommendationragknowledge_graphmulti_agent供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程

GraphRAG - 知识图谱增强检索生成

08-知识图谱

GraphRAG(Graph Retrieval-Augmented Generation) 将传统 RAG(检索增强生成)中的文本块检索升级为知识图谱结构化检索,通过图遍历获取与查询相关的实体、关系和子图,显著提升复杂推理场景的答案准确性和可解释性。

50-100万⭐⭐⭐⭐☆
forecastingoptimizationrecommendationragknowledge_graphpricing供应链与补货客服与VOC推荐与搜索知识图谱与RAG定价与利润

HGCN — 双曲图卷积网络

08-知识图谱

HGCN (Hyperbolic Graph Convolutional Networks) 解决传统 GNN 在欧氏空间中无法有效编码层次结构的问题。核心洞察:树状/层次化图结构(如品类树、组织架构)在欧氏空间中存在根本性的容量限制,而双曲空间天然适合表示层次关系。

⭐⭐⭐⭐☆
causalexperimentoptimizationrecommendationragknowledge_graphmulti_agentpricing推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

HGT — 异构图 Transformer 表示学习

08-知识图谱

HGT (Heterogeneous Graph Transformer) 解决传统 GNN 无法处理异构图(节点和边有多种类型)的核心问题。传统 GNN 假设所有节点和边共享同一特征分布,这在电商场景(用户/产品/评论/属性共存)中完全不成立。

⭐⭐⭐⭐☆
causalexperimentoptimizationrecommendationragknowledge_graphmulti_agentpricing推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

HyDE - 假设文档嵌入查询扩展

08-知识图谱

HyDE(Hypothetical Document Embeddings) 的洞察极其简单却有效

causalexperimentoptimizationragknowledge_graphdata_collection广告与投放推荐与搜索知识图谱与RAG数据采集与治理

稀疏+稠密混合检索 — BM25 与向量检索融合

08-知识图谱

母婴出海电商的搜索场景高度两极化:部分用户输入精确型号("Spectra S1 Plus"、"B07X4X5GXD"),纯向量检索因 OOV 问题召回率低;另一部分用户输入模糊语义查询("适合背奶妈妈的静音吸奶器"),纯 BM25 只能匹配字面词汇,无法理解意图

35 万
causalexperimentragknowledge_graph客服与VOC推荐与搜索知识图谱与RAG

知识图谱增强推荐 - CoLaKG (LLM × KG)

08-知识图谱

海外华人妈妈购买奶粉需综合考量品牌(HiPP/Aptamil)、成分(DHA/HMO 益生元)、段位(1段/2段)、认证(EU 有机/Non-GMO),传统 CF 无法解读这些维度

100-200 万元⭐⭐⭐☆☆
causalexperimentrecommendationknowledge_graph推荐与搜索知识图谱与RAG

AI Agent 驱动的电商知识图谱自动构建

08-知识图谱

传统知识图谱构建依赖人工定义 Schema 和编写抽取规则,成本高、扩展性差。AI Agent 驱动的 KG 自动构建 将全流程拆解为三个由 LLM Agent 协作完成的阶段,从非结构化产品描述中自动产出结构化知识图谱,无需预定义 Schema 或人工规则。

⭐⭐⭐☆☆
causalexperimentrecommendationragknowledge_graphmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

知识图谱增量更新(KG Incremental Update)

08-知识图谱

电商知识图谱的数据不是静态的——新品上架、价格调整、用户评论新增、竞品关系变化,每天都有大量三元组需要更新。若每次变更都触发全量 KG 重建,计算成本极高(百万节点 KG 重建需 4-8 小时)。增量更新(Incremental Update) 只处理变更的局部子图,将更新耗时压缩至秒级到分钟级。

causalexperimentrecommendationknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG数据采集与治理定价与利润

KG-Powered User Profiling — 知识图谱驱动的用户画像:产品知识增强推荐

08-知识图谱

传统协同过滤仅依赖 user-item 矩阵,缺乏对产品语义的理解,导致跨品类推荐能力弱。KG-Powered User Profiling 通过异构图融合将产品知识图谱(属性/认证/成分/适用年龄段)与用户行为图(购买/浏览/评价)结合,构建知识增强的用户偏好向量。

跨品类推荐 CTR 提升 18%,用户 LTV 增加,冷启动转化率提升⭐⭐⭐☆☆
experimentrecommendationknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG定价与利润

Knowledge Graph Relation Completion with CBLiP

08-知识图谱

母婴出海电商的商品知识图谱需要维护大量实体关系(品牌-产品、产品-成分、成分-功效、产品-适用年龄等)。

⭐⭐⭐☆☆
causalexperimentforecastingrecommendationknowledge_graph供应链与补货推荐与搜索知识图谱与RAG

Knowledge Graph Question Answering (KGQA)

08-知识图谱

构建了产品知识图谱后,如何让非技术人员(运营、客服、业务方)用自然语言查询它?

⭐⭐⭐☆☆
experimentforecastingrecommendationragknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG定价与利润

Knowledge Graph for Skills Management(知识图谱驱动的技能管理)

08-知识图谱

知识图谱(Knowledge Graph, KG) 是一种用图结构表示知识的方法,通过实体-关系-实体的三元组形式(如"Uplift Modeling -应用于- 广告投放")将碎片化信息组织成可推理的知识网络。

⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationknowledge_graphpricing广告与投放供应链与补货推荐与搜索知识图谱与RAG定价与利润

Multilingual Named Entity Recognition (Universal NER v2)

08-知识图谱

母婴出海电商的用户评论、客服对话、社交媒体内容涉及多语言(英语、德语、法语、西班牙语、日语等)。

⭐⭐☆☆☆
causalexperimentknowledge_graphmulti_agent客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

Multimodal RAG - 图文混合多模态检索增强生成

08-知识图谱

Multimodal RAG(多模态检索增强生成) 将 RAG 系统从纯文本扩展到图文混合模态,实现

causalexperimentragknowledge_graphvisual_generation客服与VOC推荐与搜索知识图谱与RAG视觉内容生成

检索后精排 — Cross-Encoder Reranking

08-知识图谱

RAG 管道的检索阶段(BM25/向量检索)优先保证召回率,会返回大量候选文档(top-50~100)。但这些候选文档与查询的相关性排序往往不准——召回阶段的 Bi-encoder 是独立编码查询和文档,无法捕捉两者间的细粒度交互。

28 万
causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

RAPTOR - 递归抽象树型分层检索

08-知识图谱

RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval) 将长文档转化为一棵"抽象树"

causalexperimentrecommendationragknowledge_graph广告与投放客服与VOC推荐与搜索知识图谱与RAG风控与合规

语义分块策略 — RAG 管道的基础层

08-知识图谱

母婴出海电商的 Amazon Listing 商品详情页通常包含多个话题段落:产品特性(Safety Features)、使用说明(How to Use)、注意事项(Warnings)、规格参数(Specifications)

18 万
causalexperimentragknowledge_graph客服与VOC推荐与搜索知识图谱与RAG

客服对话决策树 - 从日志中自学策略

09-DataAgent-LLM

母婴出海电商客服 70% 工单是"退换货咨询"(尺码错、漏发、过敏等),人工处理成本高,响应慢

600 万元⭐⭐⭐☆☆
experimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

NL2Dashboard Automation(自然语言→仪表盘)

09-DataAgent-LLM

将自然语言分析需求自动转化为 BI 仪表盘(图表+指标卡片+筛选器)。NL→结构化查询→Chart DSL→渲染。核心:意图解析(trend/comparison/distribution/ranking)+ 自动图表类型选择。

节省 BI 开发人力
experimentforecastingoptimizationrecommendationragmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程视觉内容生成

RAG-Enhanced Data Analysis(RAG 增强数据分析)

09-DataAgent-LLM

"为什么德国站吸奶器转化率下降"→ RAG 检索到上月分析"德国站转化率下降是因为欧元贬值导致价格上涨 8%"→本次发现同样模式→自动引用历史结论+实时数据验证

减少重复分析 50%,节省分析人力
causalexperimentforecastingragmulti_agentpricingvisual_generation供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润视觉内容生成

AIM-RM — LLM 多 Agent 库存管理:历史经验相似匹配

10-MAS

LLM-MAS 在库存管理中面临跨场景适应性差的困境——不同 SKU、季节、供应链配置导致需求模式千差万别,零样本或少样本 LLM Agent 难以泛化到新场景。

200-400万元
causalexperimentforecastingoptimizationragmulti_agent广告与投放供应链与补货推荐与搜索MAS与智能体工程

MemGPT — 长期记忆与虚拟上下文管理

10-MAS

MemGPT 将操作系统的虚拟内存管理思想引入 LLM Agent 的记忆系统。核心洞察:LLM 的上下文窗口就像物理 RAM——容量有限且昂贵,而 Agent 需要处理的任务往往远超这个容量。解决方案是构建一个分层记忆体系,让 LLM 主动管理自己的记忆。

⭐⭐⭐⭐☆
causalexperimentragknowledge_graphmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

AutoGen — 多智能体对话编排框架

10-MAS

AutoGen 是一个通用的多智能体对话框架,核心洞察:将复杂的 LLM 应用开发简化为多 agent 之间的对话编排。不同于传统的单 agent 链式调用,AutoGen 允许多个具备不同能力的 agent 通过自然语言对话协作完成复杂任务。

⭐⭐⭐☆☆
causalexperimentoptimizationragmulti_agentpricing供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

CAMEL — 角色扮演式自主协作多 Agent 框架

10-MAS

CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) 提出了一种基于角色扮演(Role-Playing)的多 Agent 自主协作范式。核心洞察:当两个互补角色的 Agent(指令发出者 vs 执行者)在结构化协议约束下对话时,可以自主完成复杂任务,无需人工逐步干预。

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

EvoSC — 对比反思 + 自我巩固:Agent 从失败轨迹进化

10-MAS

EvoSC(Self-Consolidation for Self-Evolving Agents,arXiv 2602.01966,2026年2月)解决了现有 Agent 自我进化框架的两个根本缺陷

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Helicase — 不确定性感知供应链知识图谱:多 Agent 自主构建

10-MAS

Helicase 是一个自主多 Agent LLM 系统,将高层供应链查询(如"某奶粉品牌的原料来源")分解为可执行调查计划,通过专业 Agent 协作增量构建带不确定性标注的知识图谱。名字来源于生物学的螺旋酶——螺旋式展开 DNA,隐喻系统通过迭代循环逐层揭示知识。

⭐⭐⭐☆☆
causalexperimentragknowledge_graphmulti_agent供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

LLM AutoBidding MAS — 大语言模型驱动的层次化自动竞价系统

10-MAS

诊断:用单一 LLM 直接生成竞价出价,会产生"竞价幻觉"——LLM 对价格的量化感知不准确,输出如 `$15.00`(实际均值 $0.80)的离谱出价。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationragmulti_agentpricing广告与投放推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

MAS Adversarial Defense — 多智能体系统攻防:群体合谋检测、规划时攻击防御、路由感知注入

10-MAS

`Skill-Agent-Safety-Guardrails` 保护的是单个 Agent 免受提示注入攻击。但 MAS 中的攻击比单 Agent 复杂 10 倍:攻击者可以利用多个 Agent 之间的信任关系和通信路径发动群体级攻击。

5-10 万/月⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agentpricing广告与投放供应链与补货推荐与搜索MAS与智能体工程定价与利润

MAS Dynamic Trust — 多智能体动态信任图:抵御 Sleeper Agent 与历史感知可信聚合

10-MAS

MAS 中 Agent 之间传递消息,但消息的可信度并不相同——某个 Agent 可能已被攻击者控制(Sleeper Agent),在积累足够信任后才触发恶意行为。动态信任管理解决的问题是:在没有可信第三方的情况下,每个 Agent 如何评估其他 Agent 发来消息的可信度,并据此决定接受或拒绝。

5-30 万元⭐⭐☆☆☆
experimentforecastingmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润风控与合规

MASEval — 系统级 MAS 评估:Framework 影响与模型影响同等重要

10-MAS

传统 MAS 评估聚焦模型级(Model-Level):固定 framework,换 LLM 比性能差异。MASEval 提出系统级(System-Level)评估范式,将完整 MAS 系统(模型 × Framework × 协调逻辑)作为原子评测单元,形成 3×3×3 全因子实验设计:3 个 LLM backbone × 3 个 Agent Framework(smolagents/LlamaIndex/AutoGen 等)× 3 种协调逻辑(顺序/并行/自适应)。

20-60 万⭐⭐☆☆☆
causalexperimentoptimizationrecommendationmulti_agent供应链与补货推荐与搜索MAS与智能体工程

Multi-Agent Debate — 多智能体辩论共识

10-MAS

- LLM 生成初始答案后,即使答案错误,也会在后续反思中"维护"这个答案

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationragmulti_agentpricing客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

ParaManager — 小模型主编排:Agent-as-Tool 并行子任务分解

10-MAS

Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationknowledge_graphmulti_agentpricingvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规视觉内容生成

ReAct — 推理与行动交替执行

10-MAS

ReAct (Reasoning + Acting) 提出了一种推理与行动交织的范式。核心洞察:纯推理(Chain-of-Thought)容易幻觉,纯行动(Tool Use)缺乏规划——只有把两者交替进行,才能既保持思维连贯性又确保信息准确性。

⭐⭐⭐☆☆
causalexperimentmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润

Subagent Decomposer — 复杂任务子智能体分解

10-MAS

Subagent Decomposer 负责将复杂的 Task Blueprint 分解为可独立执行的子任务,并分配给专门的子 Agent。核心洞察:复杂任务(如"生成全品类 VOC 周报")无法由单个 Agent 高效完成,必须分解为并行/串行的子任务,每个子任务由最优技能的子 Agent 执行。

36万⭐⭐⭐⭐☆
experimentrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

Tree of Thoughts — 树搜索式任务规划

10-MAS

Tree of Thoughts (ToT) 将 LLM 的推理过程从线性链式思维(Chain-of-Thought)扩展为树状搜索。核心洞察:人类解决复杂问题时会探索多条路径、评估中间进展、在死胡同回溯——LLM 也应该具备这种"深思熟虑"的能力。

⭐⭐⭐⭐☆
causalexperimentoptimizationrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

AI Consumer Wellbeing Ethics — 消费者福祉与 AI 伦理:母婴场景

11-AI人文

AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求:AI 客服首条消息必须声明身份;AI 生成内容必须标注。母婴场景额外要求:当 AI 给出健康/营养建议时,必须附注"请咨询儿科医生"。

⭐⭐☆☆☆
experimentrecommendationmulti_agent广告与投放供应链与补货客服与VOC推荐与搜索MAS与智能体工程风控与合规

AI Explainability for Consumer Trust — AI 推荐可解释性:消费者信任构建

11-AI人文

母婴高风险购买决策(奶粉品牌、安全座椅、辅食选择)的特点是:消费者需要理由才能信任推荐。研究表明,在高风险品类中,"不知道为什么推荐"比"不推荐"更会降低购买意愿。黑盒 AI 推荐的三个信任障碍

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agentfraud_detectionpricing广告与投放推荐与搜索MAS与智能体工程定价与利润风控与合规

AI技术概念 × 疗愈哲理金句卡片库

11-AI人文

本卡片采用 LoRA + Prompt Tuning 跨模态迁移范式,将 AI 技术概念通过类比映射转化为人文疗愈语言。

⭐☆☆☆☆
experimentoptimizationrecommendation推荐与搜索

Cross-Validation Strategies(交叉验证策略)

12-ML基础

交叉验证解决"模型在未知数据上表现如何"的问题——不是依赖一次 train/test split 的"运气",而是通过多次切分平均来获得稳健的泛化能力估计。

3-5 万⭐⭐☆☆☆
forecasting供应链与补货推荐与搜索MAS与智能体工程

Skill-Data-Drift-Detection

12-ML基础

核心思想:生产 ML 模型上线后,输入数据的分布会随时间偏移(用户行为变化、季节性、竞品冲击),导致模型悄然失效。数据漂移检测通过持续监控特征分布(统计漂移)和预测误差(性能漂移)两条并行轨道,在模型失效前触发告警和重训——区别于异常检测,漂移检测关注的是系统性、持续性的分布偏移,而非偶发性异常点。

⭐⭐☆☆☆
causalexperimentforecastingrecommendationpricing广告与投放供应链与补货客服与VOC推荐与搜索定价与利润

Embedding Fundamentals — 嵌入表示学习基础:从 ID 映射到多模态语义对齐

12-ML基础

跨境平台上架 50 款新款婴儿车,无任何历史购买数据,纯 ID 嵌入无法初始化,导致新品在推荐系统中几乎不曝光(冷启动问题)

15-50 万元⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agentpricingvisual_generation供应链与补货推荐与搜索MAS与智能体工程定价与利润视觉内容生成

Feature Engineering for E-Commerce Machine Learning

12-ML基础

核心问题:模型效果的上限由特征质量决定。同样的算法,好的特征 vs 差的特征,效果可能差3-5倍。特征工程是"把领域知识注入模型的艺术"。

⭐⭐⭐☆☆
causalexperimentforecastingrecommendationmulti_agentpricing客服与VOC推荐与搜索MAS与智能体工程定价与利润

Hyperparameter Optimization(超参调优)

12-ML基础

默认参数的 XGBoost 流失预测 AUC=0.78,希望通过超参调优提升到 0.82+

50-100 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendation广告与投放推荐与搜索MAS与智能体工程

Skill-Model-Performance-Monitor

12-ML基础

核心思想:数据漂移检测(Skill-Data-Drift-Detection)解决的是"输入变了吗",模型性能监控解决的是"输出还准吗"。两者共同构成生产 ML 模型的完整健康体系。性能监控通过滑动窗口持续评估 AUC/MAPE 等指标,配合 Shadow Mode(新模型静默跑)和 Champion-Challenger(A/B 对比)两种灰度部署模式,在不影响生产的前提下验证新版本并安全切换。

⭐⭐☆☆☆
causalexperimentforecastingrecommendation供应链与补货推荐与搜索

Amazon ToS Compliance Guardrail(亚马逊合规护栏)

13-广告分析

LLM 在生成商品文案、广告文案、客服回复时可能无意间违反平台规则(医疗声明、安全认证、受限品类)。Compliance Guardrail 在 LLM 输出端建立三层过滤——从确定性规则匹配到风险评分到人工升级——确保所有面向亚马逊的内容合规。

5-10 万⭐⭐☆☆☆
causalexperimentrecommendationragmulti_agentfraud_detectionpricing广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

CDA(Causal-Driven Attribution)— 无用户级数据的因果驱动归因

13-广告分析

核心思想:仅用聚合级别的每日广告曝光量与总订单数,无需任何 User ID 或 Cookie 追踪数据,通过时序因果图谱量化各渠道对转化的真实贡献比例。

⭐⭐☆☆☆
causalexperimentoptimizationrecommendationragmulti_agent广告与投放推荐与搜索知识图谱与RAGMAS与智能体工程

层次图神经网络跨设备用户匹配 - 无ID的跨端行为拼接

13-广告分析

将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图

⭐⭐⭐⭐☆⭐⭐⭐☆☆
causalexperimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规视觉内容生成

电商搜索层次化意图分类 - 母婴跨境广告自动词分类

13-广告分析

WF-B 广告优化的核心是"自动词拉取质量"——母婴搜索词意图复杂(月龄敏感/信息查询/购买意图),错分会导致广告全链路失效. 本论文用两层意图分类:① Label Hierarchy(标签图 GCN + 注意力)让 fine-grained 子类感知父类约束;② Instance Hierarchy(对比学习负对)区分同父类不同子类的查询;③ Neighborhood-aware Sampling(自训练)解决少数类(敏感词 0.05%-0.15%)冷启动. 在 Amazon 真实搜索数据上超

800-1000 万元⭐⭐⭐⭐☆
causalexperimentoptimizationmulti_agent广告与投放推荐与搜索MAS与智能体工程

Skill-Listing-Quality-Scoring

13-广告分析

核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。

⭐⭐☆☆☆
experimentforecastingoptimizationrecommendationpricingvisual_generation广告与投放客服与VOC推荐与搜索数据采集与治理定价与利润风控与合规视觉内容生成

块缺失数据补全 - 整段流量数据丢失时的恢复

14-用户分析

块缺失(Block-wise Missing)的独特挑战:当一整段时间(如连续3天)或一个完整维度(如某渠道所有数据)缺失时,传统插值方法(线性插值、KNN、MICE)依赖"相邻元素"做预测,在块缺失场景下这些邻居全部不存在,方法直接失效。

⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendation广告与投放推荐与搜索

GPLR 用户人群标签生成 - 购买行为到可解释 Persona 的低成本桥接

14-用户分析

用户购买行为包含丰富的人群信号,但直接为百万用户调用 LLM 标注成本极高。GPLR 解决这个矛盾:用少量 LLM 标注 + 图结构传播覆盖全量用户。三步流程:① Diversity-Uncertainty(DU)采样选出最有代表性的"原型用户"做 LLM 标注;② LLM 基于购买历史为原型用户赋予 Persona 标签;③ 在用户-产品交互图上随机游走,将标签从有标注用户传播至全量未标注用户。

10 万⭐⭐☆☆☆
causalexperimentrecommendationpricing广告与投放客服与VOC推荐与搜索定价与利润

LACA 跨语言 ABSA - LLM 数据增强多语种情感分析

14-用户分析

Momcozy 在德/法/西市场每月接收 5000+ 母语客服工单(如德语 "Die Verpackung ist sehr schwer zu öffnen"). 传统做法用 Google Translate 翻译成英文后跑英文 ABSA,翻译会丢失 aspect 对齐("Verpackung" → "package" 时 BIO 边界错位 30%+). 跨境品牌每月因机翻错误导致工单

300-600 万元⭐⭐⭐⭐☆
causalexperimentforecastingpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

MAA 多 Agent 行动建议 - 从评论到产品改进决策链

14-用户分析

Momcozy M5 吸奶器在美国/德国/中国三市场销售,各市场用户痛点完全不同(美国关注续航便携、德国关注静音认证、中国关注清洗方便). 现有运营复盘只产出"差评列表",无法直接驱动产品改进决策——产品经理拿到差评列表还要花 1-2 周二次提炼 - 数据要求:三市场 Amazon Review API + market 标签 - MAA 配置: - 按市场分别聚类(K=5,每市场 5

510-920 万元/年⭐⭐⭐⭐☆
causalexperimentrecommendationmulti_agentpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

PersonaBot RAG画像生成 - LLM+RAG驱动的客户画像落地工具

14-用户分析

Momcozy 在 Amazon US 的 S9/S12 系列累积数万条评论,但产品团队只能依赖人工抽查了解用户诉求,无法识别"职场背奶妈妈"与"新手妈妈"在痛点上的差异,导致广告文案和详情页对所有人说同样的话,转化率损耗严重 - 数据要求: - Amazon Review 数据(user_id、product_id、评论文本、评分、时间戳),CSV 格式 - 数量:每 SKU ≥ 50

20-40 万元⭐⭐☆☆☆
causalexperimentrag广告与投放客服与VOC推荐与搜索知识图谱与RAG

Session意图漂移建模 - 跨会话用户购买意图变化检测

14-用户分析

现有电商推荐系统多依赖商品标题、价格等表层属性推断用户意图,且只关注单次购买或单会话内的短期偏好变化。SessionIntentBench 的核心创新在于:提出意图树(Intention Tree)概念,通过跨会话建模用户意图的时序演化,构建大规模多模态意图基准。

⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationpricing客服与VOC推荐与搜索定价与利润

Shopping Companion — 跨会话偏好记忆购物助手(4B≈GPT-5,Lazada真实数据)

14-用户分析

传统推荐系统的致命缺陷:每次会话从零开始——用户上周告诉导购"我要有机配方奶",下次进来又要重新解释,累计咨询成本极高,转化率低。Shopping Companion 的创新在于构建跨会话长期偏好记忆,将用户偏好结构化存储,Agent 可在后续会话中直接调用,像"私人导购"一样记住每位用户的长期喜好。

10万
causalexperimentoptimizationrecommendationmulti_agentpricing广告与投放推荐与搜索MAS与智能体工程定价与利润

超稀疏矩阵补全 - 每行仅2-5个观测值的页面转移矩阵恢复

14-用户分析

传统矩阵补全(如 SoftImpute、ALS)假设"大部分条目可观测",但电商session的页面转移矩阵天然稀疏——每个用户session只有3-5次页面跳转,导致采样概率 `p = C/d`(C≈2-5, d=页面类型数),绝大多数转移对从未被同一用户触发。

⭐⭐☆☆☆
causalexperimentforecastingoptimization客服与VOC推荐与搜索

StaR 观点语句排序 - 排序而非生成的可解释评论分析

14-用户分析

Momcozy 暖奶器在 Amazon US/DE 各 5000+ 评论,差评包含细碎复合表达(如"加热慢又不均匀,温控也不准"). 传统 ABSA 把整句标注为"加热问题",丢失了 3 个独立改进点;直接用 LLM 总结容易生成评论中不存在的属性(如"接口设计差") - 数据要求:Amazon Review API 双市场评论 - StaR 配置: - Step 1 Candidate

80-150 万/年⭐⭐⭐☆☆
causalexperimentrecommendationragdata_collection广告与投放客服与VOC推荐与搜索数据采集与治理

TRACE 跨会话点击流用户嵌入

14-用户分析

传统序列推荐模型只看单会话内的商品点击序列,TRACE 的创新在于:把整个用户的多会话页面浏览历史(包括首页、搜索页、详情页、购物车、结账等各类页面,跨越数天甚至数周)打包成一条有序序列,送入轻量级 Transformer Encoder 学习全局用户状态嵌入。

10 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendation广告与投放供应链与补货客服与VOC推荐与搜索

DARA Agentic MMM — LLM Agent 驱动的营销组合建模:双阶段自动调参与智能归因

15-营销投放分析

某母婴辅食品牌在美国市场同时投放 Amazon Ads、Meta(FB+IG)、TikTok,月均广告预算 $15 万美元,但各渠道的 adstock 效应差异显著(TikTok 内容影响力可持续 2-4 周,Amazon 关键词效果衰减快)

30-60 万⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationragmulti_agent广告与投放推荐与搜索知识图谱与RAGMAS与智能体工程

GenAI Advertising — 无 Cookie 生成式受众定向 & LLM 原生广告拍卖

15-营销投放分析

匿名访客(未授权追踪)向 AI 助手提问穿搭,传统推荐因无 Cookie 完全失效,品牌白白流失高意图实时流量 - 数据要求:用户自然语言查询文本 + SKU 库(含品类、场景标签、图片描述)+ 广告主实时出价 - GenAI 方案: - 用户问:"我下周去海边参加婚礼,梨形身材,有什么建议

15 万⭐⭐☆☆☆
causalexperimentforecastingoptimizationrecommendationmulti_agentfraud_detectionpricing广告与投放供应链与补货客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Multi-Objective Budget Allocation(多目标预算分配)

15-营销投放分析

$30 万月预算要同时做三件事——黑五冲销量(短期 ROI)、母婴博主种草(品牌搜索量)、新款吸奶器 S2 预热(新品曝光)

30-50 万元⭐⭐⭐☆☆
causalforecastingoptimizationrecommendationmulti_agent广告与投放供应链与补货推荐与搜索MAS与智能体工程

Promotion Effectiveness Evaluation with Causal ML

15-营销投放分析

促销活动期间销售额暴涨30%,这是促销的真实效果,还是"本来就会买的用户"恰好遇到了促销?

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationrecommendation广告与投放推荐与搜索

AgeMem — LTM+STM 统一 Agent 记忆:RL 自适应管理跨会话知识

16-智能体工程

AgeMem 是首个将 LTM(长期记忆)和 STM(短期记忆)统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块,由外置 Memory Manager 或启发式 trigger 决策,导致组合效果差、部署成本高(需要额外 expert LLM)。AgeMem 的突破在于:记忆操作本身就是 action,由同一个 LLM policy 通过 RL 学习"何时调什么"。

10 万⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Agent SLO Manager — 三层 SLI 体系:服务/任务/判断质量

16-智能体工程

传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补

⭐⭐☆☆☆
experimentrecommendationmulti_agent广告与投放供应链与补货推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Agent Safety Guardrails(Agent 安全对抗护栏)

16-智能体工程

LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护:(1) 输入过滤——检测注入模式;(2) 工具调用前置验证——参数白名单+范围检查;(3) 输出审计——敏感信息脱敏。

10-30 万元⭐⭐☆☆☆
experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

EComStage — 电商 Agent 三阶段(Perception/Planning/Action)双向 Benchmark

16-智能体工程

EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角

⭐⭐⭐☆☆
experimentoptimizationrecommendationragmulti_agent客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

AgeMem — 统一 LTM+STM 管理的 Agentic Memory

16-智能体工程

AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致

STM Filter + Summary 让对话 context 维持紧凑⭐⭐⭐⭐☆
causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

CASCADE — 案例推理部署时学习:Contextual Bandit 无参数自适应

16-智能体工程

部署时学习(Deployment-Time Learning, DTL) 是 CASCADE 提出的第三个 LLM 生命周期阶段:预训练(Pre-training)→ 微调(Fine-tuning)→ 部署时学习。现有方案只在前两个阶段学习,部署后模型冻结,无法从实际使用中积累经验。

⭐⭐☆☆☆
causalexperimentoptimizationrecommendationragmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

Cultural Adaptation Agent — 跨文化适应:母婴跨境的本地化 AI 策略

16-智能体工程

语言翻译是跨境电商的最低门槛,真正影响转化的是文化适配:同一款婴儿奶粉,美国妈妈关注"科学配方/AAP认证",德国妈妈关注"有机/欧盟标准",日本妈妈关注"安心品质/无添加"——这些差异不是语言问题,而是深层文化价值观差异。

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agentdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

TDP — DAG 任务解耦规划:82% Token 节省 + 错误隔离

16-智能体工程

传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题

⭐⭐☆☆☆
causalexperimentforecastingmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索MAS与智能体工程风控与合规视觉内容生成

KLong — 超长时域 Agent 训练:轨迹分割 SFT + 渐进 RL

16-智能体工程

训练 LLM Agent 执行超长时域任务(50+ 步)面临两大瓶颈

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing供应链与补货推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

LMM-Searcher — 长链多模态 Agent:UID 占位符按需加载图片

16-智能体工程

LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题:在 100 轮搜索会话中,若每张图片直接嵌入为 base64(约 1,000-3,000 tokens),50 张图片就会占用 50,000-150,000 tokens,远超实用预算。

⭐⭐☆☆☆
causalexperimentmulti_agentvisual_generation推荐与搜索MAS与智能体工程风控与合规视觉内容生成

Shopping Companion — 记忆增强的长期偏好购物 Agent

16-智能体工程

Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。

⭐⭐⭐⭐☆
experimentoptimizationrecommendationragmulti_agentpricing广告与投放供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆
experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

16-智能体工程

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

MUZZLE — Web Agent 间接 Prompt Injection 红队框架

16-智能体工程

间接 Prompt Injection(IPI) 的核心机制:攻击者无法直接访问 Agent 的系统提示,但可通过控制 Agent 抓取的外部内容(商品描述、用户评论、网页正文)向 Agent 上下文注入恶意指令,使 Agent 偏离原始任务目标执行攻击者意图。

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

Memory-as-Action — RL 内嵌式记忆操作策略 (DCPO 训练)

16-智能体工程

MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action

⭐⭐⭐⭐⭐
causalexperimentoptimizationmulti_agent推荐与搜索MAS与智能体工程

开源 Tool Use 基座模型选型 — Hermes 4 混合推理家族

16-智能体工程

Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。

⭐⭐⭐☆☆
experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

编排轨迹驱动的强化学习 — MAS RL 三维设计框架

16-智能体工程

随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。

⭐⭐⭐⭐⭐
causalexperimentoptimizationmulti_agent客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

ReliabilityBench — Agent 生产可靠性三维评估:pass@1 高估 20-40%

16-智能体工程

ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架(arXiv 2601.06112,2026年1月)。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润

SoK Agentic Skills — Agent Skill 全生命周期与方法论底座

16-智能体工程

SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题

⭐⭐⭐☆☆
causalexperimentrecommendationragknowledge_graphmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程

任务自适应拓扑路由 — AdaptOrch 动态多智能体编排

16-智能体工程

AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超 模型选择 的贡献,成为系统性能的主变量。

⭐⭐⭐⭐☆
causalexperimentforecastingrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

MCP Tool 描述质量审核 — 六维 Smell 扫描与动态路由

16-智能体工程

Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationragmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

XSkill — 多模态 Agent 双流自进化:经验+技能协同积累

16-智能体工程

XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制,执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化

5-10 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationmulti_agentpricingvisual_generation客服与VOC推荐与搜索MAS与智能体工程定价与利润视觉内容生成

FraudSquad — LLM 生成虚假评论检测:LM 嵌入 + 门控图变换器

19-风控反欺诈

核心思想:LLM 生成的虚假评论文本质量极高(语法流畅、情感真实),传统文本特征工程(词频/情感/长度)已失效。FraudSquad 转变思路——不只看"单条评论写得怎样",而是看"这个评论者在评论图中的行为模式是否异常"。

⭐⭐⭐☆☆
causalexperimentfraud_detection广告与投放客服与VOC推荐与搜索风控与合规

E-Commerce Video Benchmark(电商视频质量评估基准)

20-AI视频生成

唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。

forecastingrecommendationvisual_generation广告与投放供应链与补货客服与VOC推荐与搜索视觉内容生成

Phantom — Product Showcase I2V(商品主体一致性视频生成)

20-AI视频生成

输入 1-3 张商品参考图,生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤:生成视频时商品外观逐渐漂移("copy-paste"信息泄露问题)。

50 万⭐⭐⭐☆☆
causalexperimentrecommendationknowledge_graphvisual_generation广告与投放推荐与搜索知识图谱与RAG数据采集与治理视觉内容生成

Compliance-Scored Guardrail Orchestration — 合规评分 Best-of-N 守护编排

21-合规决策

核心思想:把 LLM 自动生成的合规风险控制从“生成后人工看一眼”升级为同步的加权评分系统。系统并行生成多个候选输出,对每个候选运行 PII、内容安全、schema、领域规则和证据引用检查,计算合规得分;一旦最佳候选超过阈值就提前返回,否则进入人工复核。

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Consumer Complaint Recall Prediction — 消费者投诉驱动的召回风险预测

21-合规决策

核心思想:从 CPSC/NHTSA 非结构化消费者投诉文本出发,通过半参数主题模型(Hierarchical Dirichlet Process Pitman-Yor, HDPYP)自动提取缺陷主题,预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比,预测准确率提升约 14%(p<0.05),提前约 1 年预警召回事件。

⭐⭐☆☆☆
causalexperimentforecastingrecommendationmulti_agentdata_collectionfraud_detection供应链与补货客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Document Intelligence Parsing — LLM 驱动的文档智能解析:图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF,工厂产能表是 Excel 截图,海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR(Tesseract)只能识别文字,无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成