视觉内容生成

扩散模型冷启动CTR - 新品零交互时的转化潜力预热

05-推荐系统

传统推荐系统采用 Embedding & MLP 范式：每个商品 ID 对应一个向量，该向量通过用户历史交互数据学习。新品没有历史交互 → Embedding 全为随机噪声 → CTR 预测失效，这就是冷启动问题。

10万

causalexperimentforecastingrecommendationpricingvisual_generation推荐与搜索定价与利润视觉内容生成

层级商品知识图谱自动构建（图片→KG）

08-知识图谱

零样本下用商品图片自动构建跨语种属性知识图谱:Schema 先行 → VLM 多轮萃取 → LLM 约束推理 → 层级扩展 → 程序化去重。建库成本与 SKU 数量线性解耦,无需人工标注模板。

0 万元⭐⭐⭐☆☆

causalexperimentforecastingknowledge_graphvisual_generation知识图谱与RAG风控与合规视觉内容生成

Multimodal RAG - 图文混合多模态检索增强生成

08-知识图谱

Multimodal RAG（多模态检索增强生成）将 RAG 系统从纯文本扩展到图文混合模态，实现

causalexperimentragknowledge_graphvisual_generation客服与VOC推荐与搜索知识图谱与RAG视觉内容生成

Data-to-Dashboard — 多Agent智能可视化生成

09-DataAgent-LLM

Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表，而是先理解数据背后的业务洞察，再基于洞察选择最合适的可视化表达方式。

8.6万

causalexperimentoptimizationmulti_agentvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程视觉内容生成

Multimodal Table Understanding Agent — 表格理解：规格对比/认证矩阵/价格表

09-DataAgent-LLM

挑战一：跨单元格推理（Cross-Cell Reasoning）

⭐⭐☆☆☆

causalexperimentragmulti_agentpricingvisual_generation供应链与补货推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润风控与合规视觉内容生成

NL2Dashboard Automation（自然语言→仪表盘）

09-DataAgent-LLM

将自然语言分析需求自动转化为 BI 仪表盘（图表+指标卡片+筛选器）。NL→结构化查询→Chart DSL→渲染。核心：意图解析（trend/comparison/distribution/ranking）+ 自动图表类型选择。

节省 BI 开发人力

experimentforecastingoptimizationrecommendationragmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程视觉内容生成

ProRCA — 因果图路径溯源根因分析

09-DataAgent-LLM

当 GMV 暴跌时，传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因，哪个是被牵连的。

100 万⭐⭐☆☆☆

causalexperimentforecastingmulti_agentfraud_detectionpricingvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程定价与利润风控与合规视觉内容生成

RAG-Enhanced Data Analysis（RAG 增强数据分析）

09-DataAgent-LLM

"为什么德国站吸奶器转化率下降"→ RAG 检索到上月分析"德国站转化率下降是因为欧元贬值导致价格上涨 8%"→本次发现同样模式→自动引用历史结论+实时数据验证

减少重复分析 50%，节省分析人力

causalexperimentforecastingragmulti_agentpricingvisual_generation供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润视觉内容生成

G²CP — 图结构 MAS 通信协议：消除级联幻觉

10-MAS

传统 LLM Multi-Agent System（MAS）中，Agent 之间通过自然语言传递信息。

⭐⭐⭐☆☆

causalexperimentforecastingmulti_agentvisual_generation供应链与补货MAS与智能体工程风控与合规视觉内容生成

MAS Orchestrator — 多智能体编排与调度

10-MAS

MAS Orchestrator 是多 Agent 系统的"中枢神经系统"，负责协调多个子 Agent 的执行顺序、数据流转、状态同步和错误恢复。核心洞察：分解后的子任务需要一个可靠的调度器来管理它们的生命周期——启动、监控、通信、容错、收尾。

⭐⭐⭐⭐☆

experimentoptimizationknowledge_graphmulti_agentvisual_generation客服与VOC知识图谱与RAGMAS与智能体工程视觉内容生成

ParaManager — 小模型主编排：Agent-as-Tool 并行子任务分解

10-MAS

Agent-as-Tool 协议统一：ParaManager 将传统系统中异构的 Agent（具有内部状态、多轮推理能力）和 Tool（无状态函数调用）统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口，同时携带显式状态反馈（`status`, `progress`, `output`），让编排器无需了解底层实现差异即可统一调度。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationknowledge_graphmulti_agentpricingvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规视觉内容生成

Embedding Fundamentals — 嵌入表示学习基础：从 ID 映射到多模态语义对齐

12-ML基础

跨境平台上架 50 款新款婴儿车，无任何历史购买数据，纯 ID 嵌入无法初始化，导致新品在推荐系统中几乎不曝光（冷启动问题）

15-50 万元⭐⭐⭐☆☆

causalexperimentrecommendationmulti_agentpricingvisual_generation供应链与补货推荐与搜索MAS与智能体工程定价与利润视觉内容生成

层次图神经网络跨设备用户匹配 - 无ID的跨端行为拼接

13-广告分析

将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图

⭐⭐⭐⭐☆⭐⭐⭐☆☆

causalexperimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规视觉内容生成

Skill-Listing-Quality-Scoring

13-广告分析

核心思想：把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度，用神经网络预测每个内容位置（标题/主图/描述/bullet points）对转化成功率的贡献，并反向输出"改哪里能提升最多"的可操作建议。

⭐⭐☆☆☆

experimentforecastingoptimizationrecommendationpricingvisual_generation广告与投放客服与VOC推荐与搜索数据采集与治理定价与利润风控与合规视觉内容生成

TikTok Shop Content Attribution — 短视频带货兴趣图谱归因

13-广告分析

TikTok Shop 的归因困境与传统广告归因有本质差异

⭐⭐⭐☆☆

causalexperimentrecommendationpricingvisual_generation广告与投放推荐与搜索数据采集与治理定价与利润视觉内容生成

Subterranean Agent — 将工作流 SOP 编译进 LLM 权重

16-智能体工程

每日需要上架数百个 SKU，每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP，当前用 LangGraph 编排，frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天

$150/天 → 约 $0.5–1.2/天（按 128–462× 节省比例）

causalexperimentoptimizationmulti_agentvisual_generation广告与投放客服与VOCMAS与智能体工程风控与合规视觉内容生成

TDP — DAG 任务解耦规划：82% Token 节省 + 错误隔离

16-智能体工程

传统 LLM Agent 在执行复杂任务时，把所有历史消息塞入 context window（"full history" 模式），导致两个问题

⭐⭐☆☆☆

causalexperimentforecastingmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索MAS与智能体工程风控与合规视觉内容生成

LMM-Searcher — 长链多模态 Agent：UID 占位符按需加载图片

16-智能体工程

LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题：在 100 轮搜索会话中，若每张图片直接嵌入为 base64（约 1,000-3,000 tokens），50 张图片就会占用 50,000-150,000 tokens，远超实用预算。

⭐⭐☆☆☆

causalexperimentmulti_agentvisual_generation推荐与搜索MAS与智能体工程风控与合规视觉内容生成

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆

experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

VLM E-commerce Adaptation — 大规模视觉语言模型电商适配

16-智能体工程

通用 VLM（如 GPT-4V、LLaVA 等）在电商场景表现欠佳，根本原因是三大领域偏差：同款多图（同一产品的主图/侧面图/背面图/细节图共享同一 listing，模型需跨图聚合）、属性中心化（电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色"，与图片描述类任务截然不同）、噪声图片（用户上传的低质量/遮挡/非标图占比极高）。

1.6 万元⭐⭐⭐☆☆

causalexperimentmulti_agentvisual_generation数据采集与治理MAS与智能体工程风控与合规视觉内容生成

XSkill — 多模态 Agent 双流自进化：经验+技能协同积累

16-智能体工程

XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制，执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化

5-10 万⭐⭐⭐☆☆

causalexperimentforecastingoptimizationrecommendationmulti_agentpricingvisual_generation客服与VOC推荐与搜索MAS与智能体工程定价与利润视觉内容生成

AR Logistics Visualization — 增强现实包裹可视化追踪：跨境物流透明化与客服AI视频答复

18-物流履约

跨境母婴电商的物流追踪长期依赖纯文本状态更新（"已揽收"、"在途中"、"清关中"），消费者对包裹实际位置和预期到达时间高度不确定，导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合

12.7 万⭐⭐⭐☆☆

causalexperimentforecastingfraud_detectionvisual_generation广告与投放供应链与补货客服与VOC风控与合规视觉内容生成

AnchorCrafter — Virtual Anchor Product Demo（虚拟主播带货视频生成）

20-AI视频生成

在 TikTok 美国站推吸奶器，需要大量真人主播演示视频——但海外主播贵（$200-500/条），中文主播语言不通，且更换主播需重新拍摄

50-100 万元⭐⭐⭐⭐☆

causalexperimentvisual_generation广告与投放风控与合规视觉内容生成

Aquarius — Brand Video Generation（品牌营销视频生成）

20-AI视频生成

母婴品牌需要在美/德/英/日 4 个市场投放品牌视频广告——每个市场需要不同模特、不同语言字幕、不同节日主题（美国感恩节/德国圣诞节/日本新年）

80-150 万元

causalexperimentoptimizationmulti_agentvisual_generation广告与投放MAS与智能体工程视觉内容生成

Brand Video Generation — AI品牌视频生成：从文本/图像到高保真营销视频的全链路技术

20-AI视频生成

如何将品牌语义（Logo、色调、产品特征）与视频扩散模型对齐，在保留用户意图（语义保真）的同时实现自然的品牌可见性。

4.5 万元⭐⭐☆☆☆

causalexperimentoptimizationknowledge_graphmulti_agentvisual_generation广告与投放知识图谱与RAGMAS与智能体工程视觉内容生成

BrandFusion — Multi-Agent Brand Integration（品牌无缝植入视频）

20-AI视频生成

用 AI 生成品牌视频时，品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。

50-80 万元

causalexperimentforecastingoptimizationknowledge_graphmulti_agentvisual_generation广告与投放供应链与补货知识图谱与RAG数据采集与治理MAS与智能体工程视觉内容生成

DAWN — Talking-Head Review Video（AI口播Review视频）

20-AI视频生成

首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列，无误差累积，支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。

30-60 万元

causalexperimentvisual_generation广告与投放客服与VOC数据采集与治理视觉内容生成

E-Commerce Video Benchmark（电商视频质量评估基准）

20-AI视频生成

唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT（自然场景），但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。

forecastingrecommendationvisual_generation广告与投放供应链与补货客服与VOC推荐与搜索视觉内容生成

Phantom — Product Showcase I2V（商品主体一致性视频生成）

20-AI视频生成

输入 1-3 张商品参考图，生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤：生成视频时商品外观逐渐漂移（"copy-paste"信息泄露问题）。

50 万⭐⭐⭐☆☆

causalexperimentrecommendationknowledge_graphvisual_generation广告与投放推荐与搜索知识图谱与RAG数据采集与治理视觉内容生成

Text-to-Edit — Video Ad Auto-Editing（MLLM广告自动剪辑）

20-AI视频生成

端到端广告视频生成：输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿（镜头序列 + 配音脚本 + 装饰标签）。

causalexperimentpricingvisual_generation广告与投放客服与VOC定价与利润视觉内容生成

Virbo — Multilingual Avatar UGC（多语言虚拟人UGC批量生产）

20-AI视频生成

完整多语言短视频生成系统：角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS（百余语言）→ 特效渲染。

35-60 万元

causalexperimentforecastingvisual_generation广告与投放供应链与补货客服与VOC视觉内容生成

Visual Data Collection — 电商图文视频数据采集与 AI 视频生成素材库构建

20-AI视频生成

- 多模态异构性：图片（JPEG/PNG/WebP）+ 视频（MP4/MOV）+ 产品页截图

380 万⭐⭐⭐☆☆

experimentknowledge_graphdata_collectionvisual_generation广告与投放知识图谱与RAG数据采集与治理视觉内容生成

Document Intelligence Parsing — LLM 驱动的文档智能解析：图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF，工厂产能表是 Excel 截图，海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR（Tesseract）只能识别文字，无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成