扩散模型冷启动CTR - 新品零交互时的转化潜力预热
05-推荐系统
传统推荐系统采用 Embedding & MLP 范式:每个商品 ID 对应一个向量,该向量通过用户历史交互数据学习。新品没有历史交互 → Embedding 全为随机噪声 → CTR 预测失效,这就是冷启动问题。
05-推荐系统
传统推荐系统采用 Embedding & MLP 范式:每个商品 ID 对应一个向量,该向量通过用户历史交互数据学习。新品没有历史交互 → Embedding 全为随机噪声 → CTR 预测失效,这就是冷启动问题。
08-知识图谱
零样本下用商品图片自动构建跨语种属性知识图谱:Schema 先行 → VLM 多轮萃取 → LLM 约束推理 → 层级扩展 → 程序化去重。建库成本与 SKU 数量线性解耦,无需人工标注模板。
08-知识图谱
Multimodal RAG(多模态检索增强生成) 将 RAG 系统从纯文本扩展到图文混合模态,实现
09-DataAgent-LLM
Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表,而是先理解数据背后的业务洞察,再基于洞察选择最合适的可视化表达方式。
09-DataAgent-LLM
挑战一:跨单元格推理(Cross-Cell Reasoning)
09-DataAgent-LLM
将自然语言分析需求自动转化为 BI 仪表盘(图表+指标卡片+筛选器)。NL→结构化查询→Chart DSL→渲染。核心:意图解析(trend/comparison/distribution/ranking)+ 自动图表类型选择。
09-DataAgent-LLM
当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。
09-DataAgent-LLM
"为什么德国站吸奶器转化率下降"→ RAG 检索到上月分析"德国站转化率下降是因为欧元贬值导致价格上涨 8%"→本次发现同样模式→自动引用历史结论+实时数据验证
10-MAS
传统 LLM Multi-Agent System(MAS)中,Agent 之间通过自然语言传递信息。
10-MAS
MAS Orchestrator 是多 Agent 系统的"中枢神经系统",负责协调多个子 Agent 的执行顺序、数据流转、状态同步和错误恢复。核心洞察:分解后的子任务需要一个可靠的调度器来管理它们的生命周期——启动、监控、通信、容错、收尾。
10-MAS
Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。
12-ML基础
跨境平台上架 50 款新款婴儿车,无任何历史购买数据,纯 ID 嵌入无法初始化,导致新品在推荐系统中几乎不曝光(冷启动问题)
13-广告分析
将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图
13-广告分析
核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。
13-广告分析
TikTok Shop 的归因困境与传统广告归因有本质差异
16-智能体工程
每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天
16-智能体工程
传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题
16-智能体工程
LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题:在 100 轮搜索会话中,若每张图片直接嵌入为 base64(约 1,000-3,000 tokens),50 张图片就会占用 50,000-150,000 tokens,远超实用预算。
16-智能体工程
The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议
16-智能体工程
通用 VLM(如 GPT-4V、LLaVA 等)在电商场景表现欠佳,根本原因是三大领域偏差:同款多图(同一产品的主图/侧面图/背面图/细节图共享同一 listing,模型需跨图聚合)、属性中心化(电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色",与图片描述类任务截然不同)、噪声图片(用户上传的低质量/遮挡/非标图占比极高)。
16-智能体工程
XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制,执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化
18-物流履约
跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合
20-AI视频生成
在 TikTok 美国站推吸奶器,需要大量真人主播演示视频——但海外主播贵($200-500/条),中文主播语言不通,且更换主播需重新拍摄
20-AI视频生成
母婴品牌需要在美/德/英/日 4 个市场投放品牌视频广告——每个市场需要不同模特、不同语言字幕、不同节日主题(美国感恩节/德国圣诞节/日本新年)
20-AI视频生成
如何将品牌语义(Logo、色调、产品特征)与视频扩散模型对齐,在保留用户意图(语义保真)的同时实现自然的品牌可见性。
20-AI视频生成
用 AI 生成品牌视频时,品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。
20-AI视频生成
首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列,无误差累积,支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。
20-AI视频生成
唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。
20-AI视频生成
输入 1-3 张商品参考图,生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤:生成视频时商品外观逐渐漂移("copy-paste"信息泄露问题)。
20-AI视频生成
端到端广告视频生成:输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿(镜头序列 + 配音脚本 + 装饰标签)。
20-AI视频生成
完整多语言短视频生成系统:角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS(百余语言)→ 特效渲染。
20-AI视频生成
- 多模态异构性:图片(JPEG/PNG/WebP)+ 视频(MP4/MOV)+ 产品页截图
22-数据采集工程
供应商发来的报价单是 PDF,工厂产能表是 Excel 截图,海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR(Tesseract)只能识别文字,无法理解表格结构、跨页截断、图文混排。