数据采集与治理

Agentic AB Testing — AI Agent 驱动 A/B 实验：假设→设计→解读→决策

02-A_B实验

传统 A/B 测试有三大痛点：① 依赖统计专业知识（功效分析、多重检验校正），② 分析耗时（从数据到决策通常需要 2-3 周），③ 假设生成靠人工经验（容易受认知偏差影响）。

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationmulti_agent推荐与搜索数据采集与治理MAS与智能体工程

Experiment Data Quality Guard — A/B 实验数据采集质量保障：爬虫/日志污染检测与因果实验完整性

02-A_B实验

A/B 实验的因果推断依赖随机化的完整性：处理组（Treatment）与对照组（Control）的差异必须仅来自实验干预，而非数据采集过程的污染。

10-50 万元⭐⭐☆☆☆

causalexperimentmulti_agentdata_collection数据采集与治理MAS与智能体工程

Streaming Data Forecasting — 流式采集数据驱动的实时需求预测：采集→特征→预测端到端

03-时间序列

传统需求预测依赖离线批处理（T-1 日数据训练，次日生效预测），对突发事件（爆品上线、竞品大促、舆情事件）响应迟滞 12-24 小时。

60 万元⭐⭐⭐⭐☆

causalexperimentforecastingoptimizationrecommendationragdata_collectionpricing供应链与补货推荐与搜索知识图谱与RAG数据采集与治理定价与利润

Marketing-Driven Recommendation — 营销活动驱动的推荐系统：Promotion-Aware 个性化协同优化

05-推荐系统

传统推荐系统的目标是最大化用户相关性（CTR/CVR），营销系统的目标是最大化 GMV 和促销 ROI。这两个目标通常分开优化，导致推荐了用户喜欢但不需要促销的商品（浪费预算），或促销了高利润商品但对用户不相关（浪费曝光）。

⭐⭐⭐⭐☆

causalexperimentforecastingoptimizationrecommendationdata_collectionpricing广告与投放供应链与补货推荐与搜索数据采集与治理定价与利润

Competitor Product Intelligence（竞品选品监测）

06-增长模型

监测到竞品 Momcozy 密集上线 5 个"Silicon Flange"（硅胶法兰）新 SKU，且上线 2 周内均进入 BSR Top 5000

35-70 万元⭐⭐☆☆☆

causalforecastingpricing供应链与补货客服与VOC数据采集与治理定价与利润

生成式智能体营销沙盒仿真 - 零数据消费者行为推演

06-增长模型

某母婴 DTC 独立站准备从纯打折升级为"付费会员制（年费 $49 免邮 + 专属抢购）"

50-200 万元⭐⭐☆☆☆

causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程定价与利润

Product Opportunity Scoring（新品机会评分卡）

06-增长模型

1. 市场规模（搜索量 + BSR 品类总量，$w$=0.25）

40-80 万元⭐⭐☆☆☆

causalforecastingpricing供应链与补货数据采集与治理定价与利润风控与合规

Supplier Evaluation Model（供应商评估模型）

06-增长模型

多准则决策（MCDM）——TOPSIS 方法评估供应商。综合质量、价格、交期、合规、沟通五个维度。

15-25 万元⭐⭐☆☆☆

pricing数据采集与治理定价与利润风控与合规

KG 实体消歧与去重（Entity Resolution & Deduplication）

08-知识图谱

电商知识图谱中同一商品在不同数据源有多种命名：中文名"吸奶器"、英文名"breast pump"、闽南语"集乳器"、品牌型号"Spectra S1"、Amazon ASIN"B07XYZ123"——若不做统一，KG 会出现大量重复节点，导致关系断裂、推理失效、检索召回率下降。实体消歧（Entity Resolution）通过三步流水线将多源异构实体识别为同一现实对象并合并。

causalexperimentforecastingknowledge_graph推荐与搜索知识图谱与RAG数据采集与治理

HyDE - 假设文档嵌入查询扩展

08-知识图谱

HyDE（Hypothetical Document Embeddings）的洞察极其简单却有效

causalexperimentoptimizationragknowledge_graphdata_collection广告与投放推荐与搜索知识图谱与RAG数据采集与治理

KG Data Fusion Pipeline — 多源采集数据驱动的知识图谱自动构建：竞品属性图谱融合

08-知识图谱

母婴跨境电商竞品分析需要整合来自 Amazon、Walmart、品牌官网、用户评论等多源异构数据，构建统一的产品属性知识图谱。

4.5 万元⭐⭐⭐☆☆

causalexperimentrecommendationknowledge_graphmulti_agentdata_collectionpricing客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润

知识图谱增量更新（KG Incremental Update）

08-知识图谱

电商知识图谱的数据不是静态的——新品上架、价格调整、用户评论新增、竞品关系变化，每天都有大量三元组需要更新。若每次变更都触发全量 KG 重建，计算成本极高（百万节点 KG 重建需 4-8 小时）。增量更新（Incremental Update）只处理变更的局部子图，将更新耗时压缩至秒级到分钟级。

causalexperimentrecommendationknowledge_graphpricing客服与VOC推荐与搜索知识图谱与RAG数据采集与治理定价与利润

Multilingual Named Entity Recognition (Universal NER v2)

08-知识图谱

母婴出海电商的用户评论、客服对话、社交媒体内容涉及多语言（英语、德语、法语、西班牙语、日语等）。

⭐⭐☆☆☆

causalexperimentknowledge_graphmulti_agent客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

Data Collection Agent Pipeline — LLM Agent 自动化多源数据采集 Pipeline

09-DataAgent-LLM

传统数据采集依赖人工编写爬虫脚本，每个数据源需要单独维护。

⭐⭐⭐☆☆

causalexperimentmulti_agentdata_collectionpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

Multimodal Table Understanding Agent — 表格理解：规格对比/认证矩阵/价格表

09-DataAgent-LLM

挑战一：跨单元格推理（Cross-Cell Reasoning）

⭐⭐☆☆☆

causalexperimentragmulti_agentpricingvisual_generation供应链与补货推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润风控与合规视觉内容生成

Cross-Org Agent Protocol — 跨组织多智能体协调协议：多委托人、联邦编排、工作区委托

10-MAS

MCP（Model Context Protocol）：解决 Agent 与工具/数据源的连接（Host ↔ Server）

⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agentpricing广告与投放供应链与补货数据采集与治理MAS与智能体工程定价与利润风控与合规

MetaGPT 将人类组织中的 Standardized Operating Procedures（SOP，标准作业程序）引入多 agent 协作。核心洞察：复杂任务失败的主要原因是 agent 间缺乏标准化协作规范和结构化信息传递。通过模拟软件公司的角色分工（PM → Architect → Engineer → QA）和文档驱动的工作流，MetaGPT 显著减少了多 agent 协作中的幻觉和级联错误。

⭐⭐⭐⭐☆

causalexperimentragmulti_agentdata_collectionpricing客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润

Self-Refine + RL — 反馈闭环与自进化 Agent

10-MAS

Self-Refine 是一种让 Agent 对自身输出进行批评和改进的迭代机制。核心洞察：语言模型不仅能生成内容，也能评估和改进内容——利用同一模型的双重能力，实现无需外部监督的自我进化。

⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agent客服与VOC数据采集与治理MAS与智能体工程

Skill Registry — 技能注册表与动态发现

10-MAS

Skill Registry 是 MAS 工作流的核心基础设施，负责管理所有可用技能的元数据、依赖关系和运行时状态。核心洞察：一个可扩展的多 Agent 系统必须能动态发现、加载和组合技能，而不是硬编码固定流程。

⭐⭐⭐☆☆

experimentmulti_agent客服与VOC数据采集与治理MAS与智能体工程

AI Brand Storytelling — AI 辅助品牌故事创作：情感连接与文化适应

11-AI人文

钩子（Hook） → 冲突（Conflict） → 解决（Resolution） → 行动召唤（CTA）

⭐⭐☆☆☆

causalexperimentoptimization广告与投放客服与VOC推荐与搜索数据采集与治理风控与合规

Cultural Data Collection — 跨文化 UGC 采集与母婴消费文化差异识别

11-AI人文

文化语境的不可迁移性——相同语义在不同文化中承载截然不同的消费偏好信号。

280 万⭐⭐⭐☆☆

causalexperimentrecommendationdata_collectionpricing供应链与补货客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

Emotional AI Customer Care — 情感感知客服：高压场景的同理心 AI

11-AI人文

情绪识别：通过关键词匹配（域内词典）+ 句式特征（连续感叹号、全大写）识别用户情绪状态，将其分级为 CALM / ANXIOUS / FRUSTRATED / ANGRY / FRIGHTENED 五档。母婴高压场景（安全召回、产品危害）优先触发 FRIGHTENED 级别，绕过普通情绪判断逻辑。

⭐⭐☆☆☆

causalexperimentforecastingmulti_agentdata_collectionpricing广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程定价与利润

Feature Selection（特征选择）

12-ML基础

我们从多个数据源（CRM、广告平台、网站分析、客服系统）汇总了 200+ 特征

30-60 万元⭐⭐⭐⭐☆

causalexperimentforecastingoptimizationdata_collection广告与投放客服与VOC数据采集与治理MAS与智能体工程

Amazon Listing 文案 AI 生成（标题+Bullet+描述全套）

13-广告分析

某母婴品牌每月新品 8-12 个 SKU，人工撰写一套完整 Listing（标题+5条Bullet+描述+后台ST）需要 2-3 小时/SKU，月均耗时 20-30 小时

18-192 万元⭐⭐☆☆☆

causalexperimentforecastingoptimization广告与投放客服与VOC数据采集与治理风控与合规

Skill-Listing-Quality-Scoring

13-广告分析

核心思想：把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度，用神经网络预测每个内容位置（标题/主图/描述/bullet points）对转化成功率的贡献，并反向输出"改哪里能提升最多"的可操作建议。

⭐⭐☆☆☆

experimentforecastingoptimizationrecommendationpricingvisual_generation广告与投放客服与VOC推荐与搜索数据采集与治理定价与利润风控与合规视觉内容生成

Negative Keyword Safe Guard — 贝叶斯小样本负关键词安全过滤

13-广告分析

母婴品类广告投放中，自动化广告（Auto Campaign）会将产品匹配到大量搜索词。

$432（18% → 3.2%无关消耗）⭐☆☆☆☆

causalexperimentoptimizationrecommendation广告与投放推荐与搜索数据采集与治理

TikTok Shop Content Attribution — 短视频带货兴趣图谱归因

13-广告分析

TikTok Shop 的归因困境与传统广告归因有本质差异

⭐⭐⭐☆☆

causalexperimentrecommendationpricingvisual_generation广告与投放推荐与搜索数据采集与治理定价与利润视觉内容生成

AGRS 属性引导评论摘要 - 大规模零幻觉 Review 摘要 pipeline

14-用户分析

传统 LLM 摘要"无约束自由生成"产生幻觉(摘要包含评论中不存在的属性). AGRS 把摘要任务结构化:ABSA 提取 aspect-sentiment → canonical 归一化 → 代表性评论加权采样 → 结构化 prompt 引导 LLM 生成. 100% 基于真实评论,根本规避幻觉. 4 阶段 pipeline 端到端可扩展到百万产品.

1.5 万/月⭐⭐⭐☆☆

causalexperimentpricing供应链与补货客服与VOC数据采集与治理定价与利润

LACA 跨语言 ABSA - LLM 数据增强多语种情感分析

14-用户分析

Momcozy 在德/法/西市场每月接收 5000+ 母语客服工单(如德语 "Die Verpackung ist sehr schwer zu öffnen"). 传统做法用 Google Translate 翻译成英文后跑英文 ABSA,翻译会丢失 aspect 对齐("Verpackung" → "package" 时 BIO 边界错位 30%+). 跨境品牌每月因机翻错误导致工单

300-600 万元⭐⭐⭐⭐☆

causalexperimentforecastingpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

MAA 多 Agent 行动建议 - 从评论到产品改进决策链

14-用户分析

Momcozy M5 吸奶器在美国/德国/中国三市场销售,各市场用户痛点完全不同(美国关注续航便携、德国关注静音认证、中国关注清洗方便). 现有运营复盘只产出"差评列表",无法直接驱动产品改进决策——产品经理拿到差评列表还要花 1-2 周二次提炼 - 数据要求:三市场 Amazon Review API + market 标签 - MAA 配置: - 按市场分别聚类(K=5,每市场 5

510-920 万元/年⭐⭐⭐⭐☆

causalexperimentrecommendationmulti_agentpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润

StaR 观点语句排序 - 排序而非生成的可解释评论分析

14-用户分析

Momcozy 暖奶器在 Amazon US/DE 各 5000+ 评论,差评包含细碎复合表达(如"加热慢又不均匀,温控也不准"). 传统 ABSA 把整句标注为"加热问题",丢失了 3 个独立改进点;直接用 LLM 总结容易生成评论中不存在的属性(如"接口设计差") - 数据要求:Amazon Review API 双市场评论 - StaR 配置: - Step 1 Candidate

80-150 万/年⭐⭐⭐☆☆

causalexperimentrecommendationragdata_collection广告与投放客服与VOC推荐与搜索数据采集与治理

电商流量来源全维度分析 - 设备/浏览器/来源的转化率诊断

14-用户分析

同样的流量，为何不同渠道/设备/浏览器的转化率差异如此悬殊？

10 万⭐⭐☆☆☆

causalexperimentoptimizationrecommendationmulti_agent广告与投放推荐与搜索数据采集与治理MAS与智能体工程

User Profile Long Memory — 跨会话用户画像：育儿阶段感知与偏好记忆

14-用户分析

用户上月购买了 Stage 1 奶粉，系统推断宝宝约 2-3 月龄

50 万⭐⭐☆☆☆

causalexperimentrecommendationmulti_agentdata_collectionpricing客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

Marketing Data Pipeline — 营销归因多渠道数据采集管道

15-营销投放分析

营销归因的核心难题是数据孤岛：广告平台（Meta/Google/TikTok）、CRM（Salesforce/HubSpot）、电商平台（Amazon/Shopify）、社交媒体各持一方数据，无法直接关联。数据管道需要解决

12 万⭐⭐⭐⭐☆

causalexperimentdata_collection广告与投放数据采集与治理风控与合规

Agent SLO Manager — 三层 SLI 体系：服务/任务/判断质量

16-智能体工程

传统 pass@1 仅衡量"至少一次成功"，无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补

⭐⭐☆☆☆

experimentrecommendationmulti_agent广告与投放供应链与补货推荐与搜索数据采集与治理MAS与智能体工程风控与合规

AgentTrace — 因果图根因分析：0.12s 定位多 Agent 故障

16-智能体工程

AgentTrace 的核心洞察是：多 Agent 系统（MAS）的故障传播是确定性的因果链，而非需要 LLM 进行语义推理的模糊问题。

5-20 万⭐⭐☆☆☆

causalexperimentforecastingragmulti_agentdata_collection供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

AgeMem — 统一 LTM+STM 管理的 Agentic Memory

16-智能体工程

AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致

STM Filter + Summary 让对话 context 维持紧凑⭐⭐⭐⭐☆

causalexperimentoptimizationrecommendationragknowledge_graphmulti_agent广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程

AutoSkill — 经验驱动终身学习：Skill 自进化版本管理

16-智能体工程

RAG 的局限：被动检索，只能复用已显式存入的知识，无法从对话轨迹中自动归纳模式；Fine-tuning 的局限：参数固化后无法增量更新，每次新能力都需全量重训，知识以黑盒形式埋在权重里，不可审计不可编辑。

⭐⭐⭐☆☆

causalexperimentragmulti_agent广告与投放供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程

ACON — Agent 长上下文压缩与 NL 准则优化

16-智能体工程

跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)

90% 成本, 性能接近 GPT-5⭐⭐⭐⭐☆

causalexperimentoptimizationmulti_agentdata_collection广告与投放供应链与补货客服与VOC数据采集与治理MAS与智能体工程

Cultural Adaptation Agent — 跨文化适应：母婴跨境的本地化 AI 策略

16-智能体工程

语言翻译是跨境电商的最低门槛，真正影响转化的是文化适配：同一款婴儿奶粉，美国妈妈关注"科学配方/AAP认证"，德国妈妈关注"有机/欧盟标准"，日本妈妈关注"安心品质/无添加"——这些差异不是语言问题，而是深层文化价值观差异。

⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agentdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

KLong — 超长时域 Agent 训练：轨迹分割 SFT + 渐进 RL

16-智能体工程

训练 LLM Agent 执行超长时域任务（50+ 步）面临两大瓶颈

⭐⭐⭐⭐☆

causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing供应链与补货推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

LDP — 身份感知 Agent 通信协议：模型级路由 + 37% Token 节省

16-智能体工程

Google A2A 和 Anthropic MCP 这两大主流 Agent 通信协议存在共同缺陷：不暴露模型级属性。

⭐⭐☆☆☆

causalexperimentmulti_agentpricing客服与VOC数据采集与治理MAS与智能体工程定价与利润风控与合规

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆

experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

编排轨迹驱动的强化学习 — MAS RL 三维设计框架

16-智能体工程

随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。

⭐⭐⭐⭐⭐

causalexperimentoptimizationmulti_agent客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Tool Auto Discovery — Agent 工具自动发现：OpenAPI + MCP Schema 自注册

16-智能体工程

当 Agent 系统规模膨胀至 100+ 工具时，手动注册成为瓶颈：每次新 API 上线都需要开发者手工编写 ToolDefinition、更新路由表、验证参数类型——一个典型企业集成需要 2 个工作日。

⭐⭐⭐☆☆

causalexperimentmulti_agentpricing广告与投放供应链与补货数据采集与治理MAS与智能体工程定价与利润

VLM E-commerce Adaptation — 大规模视觉语言模型电商适配

16-智能体工程

通用 VLM（如 GPT-4V、LLaVA 等）在电商场景表现欠佳，根本原因是三大领域偏差：同款多图（同一产品的主图/侧面图/背面图/细节图共享同一 listing，模型需跨图聚合）、属性中心化（电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色"，与图片描述类任务截然不同）、噪声图片（用户上传的低质量/遮挡/非标图占比极高）。

1.6 万元⭐⭐⭐☆☆

causalexperimentmulti_agentvisual_generation数据采集与治理MAS与智能体工程风控与合规视觉内容生成

Price Signal Collection — 竞品价格信号实时采集与结构化

17-价格优化

在于：数据异构性（多平台格式差异）、反爬对抗（动态 JS 渲染、验证码）、实时性需求（价格窗口窄、竞品调价响应快）三重矛盾。

73.2 万⭐⭐☆☆☆

causalexperimentforecastingoptimizationdata_collectionfraud_detectionpricing广告与投放数据采集与治理定价与利润

Click Fraud Detection（广告刷量检测）

19-风控反欺诈

检测广告点击中的无效流量（IVT）——Bot 点击、竞品恶意点击、重复点击。用时间序列异常 + 行为模式识别。

6-15 万元⭐⭐☆☆☆

causalexperimentoptimizationdata_collectionfraud_detection广告与投放客服与VOC数据采集与治理风控与合规

Fraud Signal Collection — 欺诈信号数据采集（刷单行为、虚假评论、异常流量）

19-风控反欺诈

欺诈检测系统的核心上限由欺诈信号采集的覆盖度和质量决定。母婴电商面临的三类典型欺诈

48 万⭐⭐☆☆☆

experimentmulti_agentdata_collectionfraud_detection广告与投放客服与VOC数据采集与治理MAS与智能体工程风控与合规

BrandFusion — Multi-Agent Brand Integration（品牌无缝植入视频）

20-AI视频生成

用 AI 生成品牌视频时，品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。

50-80 万元

causalexperimentforecastingoptimizationknowledge_graphmulti_agentvisual_generation广告与投放供应链与补货知识图谱与RAG数据采集与治理MAS与智能体工程视觉内容生成

DAWN — Talking-Head Review Video（AI口播Review视频）

20-AI视频生成

首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列，无误差累积，支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。

30-60 万元

causalexperimentvisual_generation广告与投放客服与VOC数据采集与治理视觉内容生成

Phantom — Product Showcase I2V（商品主体一致性视频生成）

20-AI视频生成

输入 1-3 张商品参考图，生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤：生成视频时商品外观逐渐漂移（"copy-paste"信息泄露问题）。

50 万⭐⭐⭐☆☆

causalexperimentrecommendationknowledge_graphvisual_generation广告与投放推荐与搜索知识图谱与RAG数据采集与治理视觉内容生成

Visual Data Collection — 电商图文视频数据采集与 AI 视频生成素材库构建

20-AI视频生成

- 多模态异构性：图片（JPEG/PNG/WebP）+ 视频（MP4/MOV）+ 产品页截图

380 万⭐⭐⭐☆☆

experimentknowledge_graphdata_collectionvisual_generation广告与投放知识图谱与RAG数据采集与治理视觉内容生成

Skill-Category-Compliance-Prescan

21-合规决策

核心思想：在决定进入新品类之前，用 NLP + 向量聚类对历史召回数据库（CPSC/RAPEX）做自动扫描，计算该品类的「召回风险密度」和「危害类型分布」，输出风险等级（低/中/高）+ 合规成本估算，作为 WF-D 选品扫描的进入前否决门。

⭐⭐☆☆☆

causalexperimentdata_collectionfraud_detection广告与投放数据采集与治理风控与合规

Consumer Complaint Recall Prediction — 消费者投诉驱动的召回风险预测

21-合规决策

核心思想：从 CPSC/NHTSA 非结构化消费者投诉文本出发，通过半参数主题模型（Hierarchical Dirichlet Process Pitman-Yor, HDPYP）自动提取缺陷主题，预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比，预测准确率提升约 14%（p<0.05），提前约 1 年预警召回事件。

⭐⭐☆☆☆

causalexperimentforecastingrecommendationmulti_agentdata_collectionfraud_detection供应链与补货客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Cross-Border Compliance Framework — 跨境电商多辖区合规自动映射

21-合规决策

核心思想：构建多辖区合规矩阵（产品类别 × 目标市场 × 监管要求），自动将产品映射到所有相关监管要求，输出国家专项合规清单。通过规则引擎实现合规优先级自动排序，解决多市场同步上架的合规复杂度问题。

⭐⭐☆☆☆

causalexperimentmulti_agent广告与投放数据采集与治理MAS与智能体工程风控与合规

Adaptive Crawl Scheduling — 自适应爬取调度：Sleeping Bandit + 神经质量优先级

22-数据采集工程

论文：SB-CLASSIFIER [2602.11874, EDBT 2026] + Neural Prioritisation [2506.16146]

⭐⭐⭐☆☆

causalexperimentoptimizationdata_collection数据采集与治理

Clickstream Persona Pipeline — 点击流用户画像：VQ-VAE 离散 Persona + 多层行为 KG

22-数据采集工程

母婴跨境电商应用：独立站/APP 原始点击流 → 离散 persona token，驱动个性化推荐和 A/B 实验

837 万⭐⭐⭐☆☆

experimentrecommendationknowledge_graphdata_collection客服与VOC推荐与搜索知识图谱与RAG数据采集与治理

Data Collection Causal Debiasing — 采集偏差因果修正：爬虫选择性采集对因果分析的去污染

22-数据采集工程

某母婴品牌通过爬虫采集 Amazon 评论，分析"打折 coupon 是否提升复购率"

180 万⭐⭐☆☆☆

causalexperimentdata_collectionpricing客服与VOC数据采集与治理定价与利润

Data Provenance & Lineage — 数据血缘追踪：LLM 训练数据溯源与 AI 法规合规

22-数据采集工程

论文：Tracing Roots [2604.10480] + DEBUGLM [2603.17884]

⭐⭐⭐☆☆

experimentrecommendationmulti_agentdata_collection推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Document Intelligence Parsing — LLM 驱动的文档智能解析：图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF，工厂产能表是 Excel 截图，海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR（Tesseract）只能识别文字，无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成

E-commerce Data Quality Assessment — 电商数据质量评估：错误检测与缺失模态补全

22-数据采集工程

论文：MESReduce [2603.08612] + MMPCBench [2601.19750]

⭐⭐☆☆☆

experimentrecommendationdata_collection推荐与搜索数据采集与治理

Fake Review Detection — 假评论检测：图神经网络+LLM 可解释欺诈识别

22-数据采集工程

论文：JARVIS [2602.12941] + DS-DGA-GCN [2603.08332] + CAMERA [2605.20032]

⭐⭐⭐☆☆

experimentmulti_agentdata_collection客服与VOC数据采集与治理MAS与智能体工程风控与合规

LLM-Focused Web Crawling — LLM/MLLM 引导的主题爬取：KG 驱动发现与动态 JS 页面抽取

22-数据采集工程

1. 广度优先爬取浪费资源：爬 100 个页面才找到 5 个有价值的竞品信息

⭐⭐⭐☆☆

experimentknowledge_graphmulti_agentdata_collectionpricing广告与投放供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润

Market Signal Realtime Collection — 实时市场信号采集：事件驱动感知与趋势冷启动检测

22-数据采集工程

母婴爆品的"起飞时刻"通常在搜索量还很低的阶段。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationdata_collectionpricing广告与投放供应链与补货数据采集与治理定价与利润

Privacy-Preserving Federated Collection — 隐私保护联邦采集：差分隐私预算与联邦推荐

22-数据采集工程

论文：SF-UBM [2604.14833] + MFG-RegretNet [2603.28329]

⭐⭐⭐⭐☆

causalexperimentrecommendationdata_collection广告与投放推荐与搜索数据采集与治理风控与合规

Privacy-Safe Identity Resolution — 隐私合规跨平台 ID 解析：多方对齐与差分隐私

22-数据采集工程

论文：Sherpa.ai [2604.19219] + Cross-Domain SID [2606.01396]

⭐⭐⭐⭐☆

causalexperimentragknowledge_graphdata_collection广告与投放知识图谱与RAG数据采集与治理风控与合规

Procurement Email Extraction — 采购邮件结构化提取：合同条款解析与 MILP 合规验证

22-数据采集工程

论文：Contract2Plan [2601.06164] + ProUIE [2604.10633]

⭐⭐⭐☆☆

experimentoptimizationmulti_agentdata_collectionpricing数据采集与治理MAS与智能体工程定价与利润风控与合规

Realtime Feature Collection — 流式特征采集与在线特征仓库：推荐系统实时个性化的数据基础设施

22-数据采集工程

后果：用户浏览了某款婴儿车 → 系统还在推荐她上周看过的奶粉 → CTR 下降，转化率损失。

100 万元⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationdata_collectionpricing推荐与搜索数据采集与治理定价与利润

Review Dedup & Quality Filter — 多平台评论在线去重与质量排序

22-数据采集工程

从 Amazon、TikTok Shop、独立站同时采集的评论中，30-40% 是重复或低质量内容（同一用户多平台发布、机器生成水评、极短无意义评论）。直接用于 VOC 分析会严重扭曲洞察结论。

10-50 万元⭐⭐☆☆☆

causalexperimentforecastingoptimizationdata_collection广告与投放客服与VOC数据采集与治理

Synthetic Data for E-commerce — 电商合成数据生成：解决新品冷启动与长尾数据稀缺

22-数据采集工程

论文：SIGIR'26 [2602.23620] + ICML'26 [2602.07298] + SCALR [2606.00282]

⭐⭐⭐☆☆

experimentforecastingrecommendationdata_collection供应链与补货推荐与搜索数据采集与治理

Web Page Change Detection — 网页变化检测：VLM 视觉差异识别与 DOM 原子性保护

22-数据采集工程

论文：DiffSpot [2605.29615] + DOM Atomicity [2603.00476]

⭐⭐⭐☆☆

causalexperimentoptimizationdata_collectionpricing供应链与补货数据采集与治理定价与利润