paper2skills Playbook

视觉内容生成

扩散模型冷启动CTR - 新品零交互时的转化潜力预热

05-推荐系统

传统推荐系统采用 Embedding & MLP 范式:每个商品 ID 对应一个向量,该向量通过用户历史交互数据学习。新品没有历史交互 → Embedding 全为随机噪声 → CTR 预测失效,这就是冷启动问题。

10万
causalexperimentforecastingrecommendationpricingvisual_generation推荐与搜索定价与利润视觉内容生成

层级商品知识图谱自动构建(图片→KG)

08-知识图谱

零样本下用商品图片自动构建跨语种属性知识图谱:Schema 先行 → VLM 多轮萃取 → LLM 约束推理 → 层级扩展 → 程序化去重。建库成本与 SKU 数量线性解耦,无需人工标注模板。

0 万元⭐⭐⭐☆☆
causalexperimentforecastingknowledge_graphvisual_generation知识图谱与RAG风控与合规视觉内容生成

Multimodal RAG - 图文混合多模态检索增强生成

08-知识图谱

Multimodal RAG(多模态检索增强生成) 将 RAG 系统从纯文本扩展到图文混合模态,实现

causalexperimentragknowledge_graphvisual_generation客服与VOC推荐与搜索知识图谱与RAG视觉内容生成

Data-to-Dashboard — 多Agent智能可视化生成

09-DataAgent-LLM

Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表,而是先理解数据背后的业务洞察,再基于洞察选择最合适的可视化表达方式。

8.6万
causalexperimentoptimizationmulti_agentvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程视觉内容生成

NL2Dashboard Automation(自然语言→仪表盘)

09-DataAgent-LLM

将自然语言分析需求自动转化为 BI 仪表盘(图表+指标卡片+筛选器)。NL→结构化查询→Chart DSL→渲染。核心:意图解析(trend/comparison/distribution/ranking)+ 自动图表类型选择。

节省 BI 开发人力
experimentforecastingoptimizationrecommendationragmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程视觉内容生成

ProRCA — 因果图路径溯源根因分析

09-DataAgent-LLM

当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。

100 万⭐⭐☆☆☆
causalexperimentforecastingmulti_agentfraud_detectionpricingvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程定价与利润风控与合规视觉内容生成

RAG-Enhanced Data Analysis(RAG 增强数据分析)

09-DataAgent-LLM

"为什么德国站吸奶器转化率下降"→ RAG 检索到上月分析"德国站转化率下降是因为欧元贬值导致价格上涨 8%"→本次发现同样模式→自动引用历史结论+实时数据验证

减少重复分析 50%,节省分析人力
causalexperimentforecastingragmulti_agentpricingvisual_generation供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润视觉内容生成

G²CP — 图结构 MAS 通信协议:消除级联幻觉

10-MAS

传统 LLM Multi-Agent System(MAS)中,Agent 之间通过自然语言传递信息。

⭐⭐⭐☆☆
causalexperimentforecastingmulti_agentvisual_generation供应链与补货MAS与智能体工程风控与合规视觉内容生成

MAS Orchestrator — 多智能体编排与调度

10-MAS

MAS Orchestrator 是多 Agent 系统的"中枢神经系统",负责协调多个子 Agent 的执行顺序、数据流转、状态同步和错误恢复。核心洞察:分解后的子任务需要一个可靠的调度器来管理它们的生命周期——启动、监控、通信、容错、收尾。

⭐⭐⭐⭐☆
experimentoptimizationknowledge_graphmulti_agentvisual_generation客服与VOC知识图谱与RAGMAS与智能体工程视觉内容生成

ParaManager — 小模型主编排:Agent-as-Tool 并行子任务分解

10-MAS

Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationknowledge_graphmulti_agentpricingvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规视觉内容生成

Embedding Fundamentals — 嵌入表示学习基础:从 ID 映射到多模态语义对齐

12-ML基础

跨境平台上架 50 款新款婴儿车,无任何历史购买数据,纯 ID 嵌入无法初始化,导致新品在推荐系统中几乎不曝光(冷启动问题)

15-50 万元⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agentpricingvisual_generation供应链与补货推荐与搜索MAS与智能体工程定价与利润视觉内容生成

层次图神经网络跨设备用户匹配 - 无ID的跨端行为拼接

13-广告分析

将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图

⭐⭐⭐⭐☆⭐⭐⭐☆☆
causalexperimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规视觉内容生成

Skill-Listing-Quality-Scoring

13-广告分析

核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。

⭐⭐☆☆☆
experimentforecastingoptimizationrecommendationpricingvisual_generation广告与投放客服与VOC推荐与搜索数据采集与治理定价与利润风控与合规视觉内容生成

Subterranean Agent — 将工作流 SOP 编译进 LLM 权重

16-智能体工程

每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天

$150/天 → 约 $0.5–1.2/天(按 128–462× 节省比例)
causalexperimentoptimizationmulti_agentvisual_generation广告与投放客服与VOCMAS与智能体工程风控与合规视觉内容生成

TDP — DAG 任务解耦规划:82% Token 节省 + 错误隔离

16-智能体工程

传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题

⭐⭐☆☆☆
causalexperimentforecastingmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索MAS与智能体工程风控与合规视觉内容生成

LMM-Searcher — 长链多模态 Agent:UID 占位符按需加载图片

16-智能体工程

LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题:在 100 轮搜索会话中,若每张图片直接嵌入为 base64(约 1,000-3,000 tokens),50 张图片就会占用 50,000-150,000 tokens,远超实用预算。

⭐⭐☆☆☆
causalexperimentmulti_agentvisual_generation推荐与搜索MAS与智能体工程风控与合规视觉内容生成

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆
experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

VLM E-commerce Adaptation — 大规模视觉语言模型电商适配

16-智能体工程

通用 VLM(如 GPT-4V、LLaVA 等)在电商场景表现欠佳,根本原因是三大领域偏差:同款多图(同一产品的主图/侧面图/背面图/细节图共享同一 listing,模型需跨图聚合)、属性中心化(电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色",与图片描述类任务截然不同)、噪声图片(用户上传的低质量/遮挡/非标图占比极高)。

1.6 万元⭐⭐⭐☆☆
causalexperimentmulti_agentvisual_generation数据采集与治理MAS与智能体工程风控与合规视觉内容生成

XSkill — 多模态 Agent 双流自进化:经验+技能协同积累

16-智能体工程

XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制,执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化

5-10 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationmulti_agentpricingvisual_generation客服与VOC推荐与搜索MAS与智能体工程定价与利润视觉内容生成

AR Logistics Visualization — 增强现实包裹可视化追踪:跨境物流透明化与客服AI视频答复

18-物流履约

跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合

12.7 万⭐⭐⭐☆☆
causalexperimentforecastingfraud_detectionvisual_generation广告与投放供应链与补货客服与VOC风控与合规视觉内容生成

Aquarius — Brand Video Generation(品牌营销视频生成)

20-AI视频生成

母婴品牌需要在美/德/英/日 4 个市场投放品牌视频广告——每个市场需要不同模特、不同语言字幕、不同节日主题(美国感恩节/德国圣诞节/日本新年)

80-150 万元
causalexperimentoptimizationmulti_agentvisual_generation广告与投放MAS与智能体工程视觉内容生成

BrandFusion — Multi-Agent Brand Integration(品牌无缝植入视频)

20-AI视频生成

用 AI 生成品牌视频时,品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。

50-80 万元
causalexperimentforecastingoptimizationknowledge_graphmulti_agentvisual_generation广告与投放供应链与补货知识图谱与RAG数据采集与治理MAS与智能体工程视觉内容生成

DAWN — Talking-Head Review Video(AI口播Review视频)

20-AI视频生成

首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列,无误差累积,支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。

30-60 万元
causalexperimentvisual_generation广告与投放客服与VOC数据采集与治理视觉内容生成

E-Commerce Video Benchmark(电商视频质量评估基准)

20-AI视频生成

唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。

forecastingrecommendationvisual_generation广告与投放供应链与补货客服与VOC推荐与搜索视觉内容生成

Phantom — Product Showcase I2V(商品主体一致性视频生成)

20-AI视频生成

输入 1-3 张商品参考图,生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤:生成视频时商品外观逐渐漂移("copy-paste"信息泄露问题)。

50 万⭐⭐⭐☆☆
causalexperimentrecommendationknowledge_graphvisual_generation广告与投放推荐与搜索知识图谱与RAG数据采集与治理视觉内容生成

Text-to-Edit — Video Ad Auto-Editing(MLLM广告自动剪辑)

20-AI视频生成

端到端广告视频生成:输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿(镜头序列 + 配音脚本 + 装饰标签)。

causalexperimentpricingvisual_generation广告与投放客服与VOC定价与利润视觉内容生成

Virbo — Multilingual Avatar UGC(多语言虚拟人UGC批量生产)

20-AI视频生成

完整多语言短视频生成系统:角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS(百余语言)→ 特效渲染。

35-60 万元
causalexperimentforecastingvisual_generation广告与投放供应链与补货客服与VOC视觉内容生成

Document Intelligence Parsing — LLM 驱动的文档智能解析:图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF,工厂产能表是 Excel 截图,海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR(Tesseract)只能识别文字,无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成