Causal Attribution Bridge(因果归因桥梁)
01-因果推断
传统广告归因是相关性的("点了广告→买了"),因果归因是反事实的("如果没有这个广告→还会买吗")。核心:用增量因果效应替代 naive 归因比例。
01-因果推断
传统广告归因是相关性的("点了广告→买了"),因果归因是反事实的("如果没有这个广告→还会买吗")。核心:用增量因果效应替代 naive 归因比例。
01-因果推断
核心思想:从纯观测数据(无干预、无实验)中自动发现变量间的因果结构。PC 算法通过系统的条件独立性检验,逐步剔除无关边、识别 v-structures、传播方向约束,最终输出一个有向无环图(DAG)或部分定向图(CPDAG)。
01-因果推断
合成控制法(Synthetic Control, SC)通过为目标单元"合成"一个反事实来估计因果效应,是评估地区级/城市级无法做 A/B 的大型干预(如区域广告投放、城市政策)的黄金标准。
01-因果推断
rDRP(robust Direct ROI Prediction)在标准 DRP (Direct ROI Prediction, AAAI 2023) 基础上,用共形预测 + MC Dropout 做 ROI 区间估计,再通过启发式校准将区间信息融回点估计。
01-因果推断
共形预测的核心保证:共形预测(Conformal Prediction, CP)在无需分布假设的条件下,为任意黑盒预测模型提供覆盖率理论保证。对于置信水平 1-α(如 90%),输出的预测区间 `[lower, upper]` 在有限样本下满足:`P(y ∈ [lower, upper]) ≥ 1-α`。这一保证来自数据可交换性(exchangeability),而非 Gaussian 分布假设。
01-因果推断
核心思想:利用处理组和对照组在政策/干预前后的变化差异来估计因果效应。基本逻辑是:如果没有干预,处理组的趋势应该与对照组平行(平行趋势假设)。干预后的实际差异减去趋势差异,就是干预的净效应。
01-因果推断
当前做法是向所有"高流失风险"用户统一发"免费延长30天"优惠券,ROI 极低——很多用户即使不发券也会续订
01-因果推断
Momcozy 想知道自己产品的价格弹性——价格下降10%,销量会增加多少
01-因果推断
我们在美国、加拿大、英国、德国同步投放吸奶器广告,不同市场的用户行为差异显著
01-因果推断
识别哪些用户最有可能因为某个干预(如促销、广告)而产生正向行为。
02-A_B实验
传统Uplift模型遵循两阶段离线流程——先收集历史数据估计异质性处理效应(HTE),再求解预算约束优化问题。这在数据丰富时效果良好,但在冷启动场景(新渠道、新市场、新用户群)中完全失效。
02-A_B实验
在探索(exploration)和利用(exploitation)之间取得平衡。
02-A_B实验
电商 GMV / 订单量等指标天然重尾——极少数大客户的超大订单把方差撑得很高。
02-A_B实验
同一海外仓为 Shopify/Amazon/TikTok Shop 多渠道发货,测试"AI 波次合并算法"是否降低拣货时长
02-A_B实验
Thompson Sampling是一种基于贝叶斯后验采样的在线决策算法,用于解决探索-利用权衡(Exploration-Exploitation Tradeoff)问题。算法的核心洞见是:按照每个动作是最优动作的概率来选择动作,而非简单地选择当前估计奖励最高的动作。
03-时间序列
平台在大促期对核心母婴 SKU(纸尿裤、婴儿车)做搜索权重提升 + 首页 Banner 曝光,需要回答"如果没做促销,需求应该是多少"——避免把自然增长功劳归到促销 - 数据要求:全品类销量历史 + 促销标记 + 商品图谱(同类竞品关系) - GCF 配置:节点=SKU,边=同品类竞品,干预=促销曝光,合成控制=未受促销的同类 - 业务价值:促销 ROI 计算精度提升 30-50%,避免
04-供应链
FSDA-DRL(Fast-Slow Dual-Agent Deep Reinforcement Learning)用两个独立的 RL 智能体,在不同时间频率上分别解决"定价"(快决策)和"补货"(慢决策)问题,并通过共享环境状态让它们协作而非博弈。
04-供应链
核心思想:库存健康诊断不是"某个 SKU 库存多少",而是回答三个问题:① 这批货还能动吗(FSN分级)?② 过多还是过少(Over/Under stock 三态)?③ 为什么和计划不一样(供应计划方差归因到4类根因)。同时严格区分「预测准确率(Forecast Accuracy)」和「计划准确率(Plan Accuracy)」——两者可以完全脱钩。
04-供应链
传统价格弹性估计依赖计量经济学方法(log-log OLS、AIDS 等),需要强函数形式假设,且难以处理高维商品特征、季节性、竞品价格等复杂交互。Walmart 团队提出的 Monodense Deep Learning Model (DLM) 通过深度学习实现无需对照实验(treatment-control free)的单品级弹性估计。
04-供应链
吸奶器在 Amazon FBA 仓缺货(销量超预期),但独立站海外仓还有 200 件积压,TikTok Shop 也在慢速消化——三渠道信息不互通,总库存 800 件却出现"某渠道缺货 + 某渠道积压"
04-供应链
在一个从工厂到终端消费者的多层级供应链网络中,决定在哪里建哪类设施、各层级之间如何连通,使全链路固定成本和运输成本之和最小。
04-供应链
核心思想:把"建哪些仓"和"怎么配送"这两个原本耦合的 NP-hard 问题解耦——用一个预训练好的图神经网络(GNN)充当配送路径成本的快速估计器,把估计值直接嵌进选址的混合整数规划(MIP)里,从而让 MIP 求解器只需要做高层选址-分配决策,而不必在求解过程中展开庞大的车辆路径(VRP)变量。
04-供应链
为什么传统归因不够:瀑布式逻辑("缺货→往上查库存→往上查采购")本质上是相关性分析,无法区分"A 导致 B"与"C 同时导致 A 和 B"。实际供应链中,多因素常常通过间接路径(中介变量)影响结果——比如"需求预测误差→战术产能调整→Capped Out Hours(COH)",传统归因会错误地把间接效应归给直接可见的变量。
04-供应链
多级库存优化(Multi-Echelon Inventory Optimization, MEIO)解决的是供应链中多个节点(工厂、仓库、门店)的联合库存决策问题。相比传统的单点库存管理,DRL方法将供应链建模为马尔可夫决策过程(MDP),智能体(Agent)学习在每个时间步决定"生产多少、发往哪里",以最大化长期累积利润。
05-推荐系统
传统电商推荐系统中,广告排序(Sponsored Ranking) 和 有机推荐(Organic Recommendation) 是两个完全独立的系统,分别优化 CTR/ROAS 和个性化相关性,导致用户体验分裂——同一用户可能在广告位看到高竞价但低相关商品,在有机推荐区看到高相关但低转化意图商品。
05-推荐系统
传统推荐系统是单一模型的端到端优化,难以整合多维用户意图(价格敏感、品牌偏好、安全认证关注)。MAS Collaborative Recommendation 将推荐任务分解为多个专业化 LLM Agent 的协作问题
05-推荐系统
传统推荐系统的目标是最大化用户相关性(CTR/CVR),营销系统的目标是最大化 GMV 和促销 ROI。这两个目标通常分开优化,导致推荐了用户喜欢但不需要促销的商品(浪费预算),或促销了高利润商品但对用户不相关(浪费曝光)。
05-推荐系统
传统推荐系统只关注用户与商品的"相关性",完全忽视价格因素;而传统定价系统只优化利润或销量,不考虑用户个性化偏好。Price-Sensitive Recommendation 的核心思想是将个体价格弹性注入推荐排序决策
06-增长模型
母婴跨境新品冷启动需求预测痛点:每年 20-30 款新品上市,前 8 周零销售记录,人工拍脑袋备货首批,积压或断货损失年化 300+ 万元. 本 Skill 组合两个方法:① Bass 扩散模型生成新品扩散曲线形状(创新+模仿系数);② GEANN 图迁移从相似品历史借用销售信号;③ Bass 参数从相似品加权迁移初始化,实现"形状从理论 + 规模从迁移"的双驱动.
06-增长模型
监测到"wearable breast pump"(穿戴式吸奶器)谷歌搜索量过去 6 个月增长 180%($p<0.01$),BSR 上升 45%,TikTok 话题 #wearablepump 播放量 2.3 亿
06-增长模型
新商品没有历史交互数据时,如何精准推荐给用户。
06-增长模型
一款吸奶器在京东月销 5000+ 台(¥399),需要判断是否引入 Amazon US($59.99)、Amazon DE(€54.99)、Amazon UK(£49.99)
06-增长模型
某母婴 DTC 独立站准备从纯打折升级为"付费会员制(年费 $49 免邮 + 专属抢购)"
06-增长模型
光算出每个用户的增量效应(CATE)还不够——真实业务有预算上限、有高净值用户保护、有每天不能无限制打扰用户的体验红线。Guardrailed CATE-NBA 打通了"预测→决策"的最后一公里:三层漏斗把因果估算的结果直接转化为带约束的最优行动名单。
06-增长模型
我们通过 Facebook/TikTok 广告获取了大量北美新客,但并非所有新客都有长期价值
06-增长模型
核心思想:在选品决策前量化「这个品类有多大、能拿多少」,避免「市场很大」的模糊判断。用两条互相校验的路径(Top-down 和 Bottom-up)估算 TAM/SAM/SOM,并通过 Google Trends 校准和 Monte Carlo 模拟将点估计扩展为置信区间,输出可进入 ROI 模型的数字范围。
06-增长模型
R (Recency):最近一次购买距今多少天。越近越可能再次购买。
06-增长模型
独立站每天面对来自北美高净值用户(iPhone + 5分钟停留)和东南亚价格敏感用户(安卓 + 10秒跳出)的混合流量
06-增长模型
识别哪些用户会因为干预(如优惠券、客服电话)而降低流失概率。
08-知识图谱
大促高峰期每日 5 万条跨领域工单,正确路由率从 61% → 82%,每天减少约 10,500 条二次转单 - 单条转单处理成本约 5 元,节约运营成本 5.25 万元/天;年化 1900 万元 - 用户 CSAT 评分从 3.8 → 4.3(满分 5),复购意愿提升可观
08-知识图谱
用知识图谱技术构建广告受众画像图——不是简单的标签列表,而是实体关系图:用户→购买→产品→属于→品类→适合→年龄段。基于 KG 的受众定向比关键词匹配精准 3-5 倍。
08-知识图谱
HyDE(Hypothetical Document Embeddings) 的洞察极其简单却有效
08-知识图谱
知识图谱(Knowledge Graph, KG) 是一种用图结构表示知识的方法,通过实体-关系-实体的三元组形式(如"Uplift Modeling -应用于- 广告投放")将碎片化信息组织成可推理的知识网络。
08-知识图谱
RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval) 将长文档转化为一棵"抽象树"
09-DataAgent-LLM
Argos 解决的核心矛盾是:LLM能生成异常检测规则,但无法同时保证可解释性、可复现性和准确率。
09-DataAgent-LLM
Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表,而是先理解数据背后的业务洞察,再基于洞察选择最合适的可视化表达方式。
09-DataAgent-LLM
背景:母婴品牌在Amazon、Shopify、SHEIN等多个平台销售,运营团队每周需要汇总各平台数据生成分析报告,耗时4-6小时/周
09-DataAgent-LLM
将自然语言分析需求自动转化为 BI 仪表盘(图表+指标卡片+筛选器)。NL→结构化查询→Chart DSL→渲染。核心:意图解析(trend/comparison/distribution/ranking)+ 自动图表类型选择。
09-DataAgent-LLM
当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。
09-DataAgent-LLM
异常检测告诉你"什么出问题了",但不告诉你"为什么"。
09-DataAgent-LLM
业务团队(运营、市场、产品)需要数据但不懂SQL。
10-MAS
LLM-MAS 在库存管理中面临跨场景适应性差的困境——不同 SKU、季节、供应链配置导致需求模式千差万别,零样本或少样本 LLM Agent 难以泛化到新场景。
10-MAS
MCP(Model Context Protocol):解决 Agent 与工具/数据源的连接(Host ↔ Server)
10-MAS
EvoSC(Self-Consolidation for Self-Evolving Agents,arXiv 2602.01966,2026年2月)解决了现有 Agent 自我进化框架的两个根本缺陷
10-MAS
诊断:用单一 LLM 直接生成竞价出价,会产生"竞价幻觉"——LLM 对价格的量化感知不准确,输出如 `$15.00`(实际均值 $0.80)的离谱出价。
10-MAS
`Skill-Agent-Safety-Guardrails` 保护的是单个 Agent 免受提示注入攻击。但 MAS 中的攻击比单 Agent 复杂 10 倍:攻击者可以利用多个 Agent 之间的信任关系和通信路径发动群体级攻击。
10-MAS
`Skill-Multi-Agent-Debate` 解决的是"如何让多个 Agent 通过辩论收敛到更好的答案"——这是非正式共识。MAS 共识机制解决的是更严格的问题:在部分 Agent 可能失败或说谎(Byzantine 容错)的情况下,如何保证整个系统仍能达成一致且正确的决策,并有数学证明?
10-MAS
`Skill-Helicase-Supply-Chain-KG-MAS` 解决的是"如何让 MAS 构建一个静态知识图谱"——一次性构建,然后查询。动态 KG 协同解决的是更难的问题:知识在持续演变,多个 Agent 同时读写 KG,如何保持 KG 的一致性、处理冲突、并让 KG 与 Agent 共同进化?
10-MAS
1. 性能坍塌问题:新 Agent 加入时,系统路由还不了解其能力,导致任务分配混乱、性能下降
10-MAS
MAS 的失败模式与单体软件完全不同:Agent 之间的交互是非确定性的,工具调用可能失败,Agent 可能陷入死循环,而这些问题用传统单元测试根本无法发现。MAS 专用测试体系需要解决三个独特问题
10-MAS
Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。
10-MAS
ReAct (Reasoning + Acting) 提出了一种推理与行动交织的范式。核心洞察:纯推理(Chain-of-Thought)容易幻觉,纯行动(Tool Use)缺乏规划——只有把两者交替进行,才能既保持思维连贯性又确保信息准确性。
10-MAS
SDOF 将 Multi-Agent System(MAS)的执行流程建模为有限状态机(FSM),通过双层防护机制确保 Agent 行为的合法性。
11-AI人文
钩子(Hook) → 冲突(Conflict) → 解决(Resolution) → 行动召唤(CTA)
11-AI人文
AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求:AI 客服首条消息必须声明身份;AI 生成内容必须标注。母婴场景额外要求:当 AI 给出健康/营养建议时,必须附注"请咨询儿科医生"。
11-AI人文
母婴高风险购买决策(奶粉品牌、安全座椅、辅食选择)的特点是:消费者需要理由才能信任推荐。研究表明,在高风险品类中,"不知道为什么推荐"比"不推荐"更会降低购买意愿。黑盒 AI 推荐的三个信任障碍
11-AI人文
情绪识别:通过关键词匹配(域内词典)+ 句式特征(连续感叹号、全大写)识别用户情绪状态,将其分级为 CALM / ANXIOUS / FRUSTRATED / ANGRY / FRIGHTENED 五档。母婴高压场景(安全召回、产品危害)优先触发 FRIGHTENED 级别,绕过普通情绪判断逻辑。
12-ML基础
核心思想:生产 ML 模型上线后,输入数据的分布会随时间偏移(用户行为变化、季节性、竞品冲击),导致模型悄然失效。数据漂移检测通过持续监控特征分布(统计漂移)和预测误差(性能漂移)两条并行轨道,在模型失效前触发告警和重训——区别于异常检测,漂移检测关注的是系统性、持续性的分布偏移,而非偶发性异常点。
12-ML基础
单独用 XGBoost 预测流失 AUC=0.82,单独用 LightGBM AUC=0.81,单独用 Random Forest AUC=0.78
12-ML基础
我们从多个数据源(CRM、广告平台、网站分析、客服系统)汇总了 200+ 特征
12-ML基础
默认参数的 XGBoost 流失预测 AUC=0.78,希望通过超参调优提升到 0.82+
12-ML基础
流失率 5%,直接用 XGBoost 训练,Recall 只有 0.3——70% 的流失用户没被识别
12-ML基础
模型评估体系解决"模型到底好不好"这个问题——不是凭感觉,而是用标准化的量化指标从多个维度衡量模型表现。这是所有预测建模的基础能力,也是 ML 工程中模型选型、A/B 测试结果判读、生产监控的必备技能。
12-ML基础
1. 稀疏性:长尾 SKU 历史销量不足(< 30 天),传统特征工程无法直接应用
13-广告分析
用户从第一次看到广告到最终下单,平均接触5-7个触点(Facebook视频、Google搜索、TikTok短视频、再营销广告、邮件)。
13-广告分析
FB 吸奶器广告点击后:35% 进详情页 → 12% 加购 → 5% 首购 → 2% 复购
13-广告分析
LLM 在生成商品文案、广告文案、客服回复时可能无意间违反平台规则(医疗声明、安全认证、受限品类)。Compliance Guardrail 在 LLM 输出端建立三层过滤——从确定性规则匹配到风险评分到人工升级——确保所有面向亚马逊的内容合规。
13-广告分析
用户点击吸奶器广告,进入品牌店铺后转而购买了储奶袋和奶瓶
13-广告分析
核心思想:仅用聚合级别的每日广告曝光量与总订单数,无需任何 User ID 或 Cookie 追踪数据,通过时序因果图谱量化各渠道对转化的真实贡献比例。
13-广告分析
广告素材疲劳(Creative Fatigue)是指:同一批用户反复看到相同广告后,CTR、CVR 等核心指标持续衰减的现象。
13-广告分析
孕晚期用户购买周期 6-8 周,在"下定决心买推车"后主动搜索并点击所有重定向短信/DPA 广告
13-广告分析
母婴用户在 TikTok 看到吸奶器短视频种草,切换到 Safari 搜索品牌名进独立站下单
13-广告分析
将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图
13-广告分析
母婴 DTC 品牌(如储奶袋/吸奶器)同时在 Google Ads(搜索意图强)、Meta(品牌认知+再营销)、TikTok Shop(内容种草+购买)三个渠道投放
13-广告分析
WF-B 广告优化的核心是"自动词拉取质量"——母婴搜索词意图复杂(月龄敏感/信息查询/购买意图),错分会导致广告全链路失效. 本论文用两层意图分类:① Label Hierarchy(标签图 GCN + 注意力)让 fine-grained 子类感知父类约束;② Instance Hierarchy(对比学习负对)区分同父类不同子类的查询;③ Neighborhood-aware Sampling(自训练)解决少数类(敏感词 0.05%-0.15%)冷启动. 在 Amazon 真实搜索数据上超
13-广告分析
核心思想:用户在多设备间切换(手机看广告、电脑下单)导致底层 Cookie/IDFA 无法跨端串联,同一真实用户被拆分为多个"碎片化身份"。这使得广告平台看到的 ROAS 严重失真——有的记录"只有曝光没有购买",有的记录"只有购买没有广告"。算法通过 Stratified Aggregation(分层聚合) 在 Cohort 层面重建真实曝光与购买的对应关系,无需跨设备图谱,还原因果 ROI。
13-广告分析
某母婴品牌每月新品 8-12 个 SKU,人工撰写一套完整 Listing(标题+5条Bullet+描述+后台ST)需要 2-3 小时/SKU,月均耗时 20-30 小时
13-广告分析
核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。
13-广告分析
母婴品类广告投放中,自动化广告(Auto Campaign)会将产品匹配到大量搜索词。
13-广告分析
Momcozy / Graco 等大牌同投 Google Search + Facebook DPA + TikTok Shop
13-广告分析
WF-B 跨渠道归因痛点:Amazon 14d-click、Meta 7d-click、TikTok 7d-click 归因窗口不一致,Last-Click Mechanism (LCM) 让平台策略性延迟上报点击时间抢归因信用,LCM 不满足 DSIC (Dominant Strategy Incentive Compatible),准确率最低可趋近于 0. PVM (Peer-Validated Mechanism) 让每个平台的归因信用仅依赖其他平台的报告而非自身,消除策略操控动机,理论最
13-广告分析
广告预算有限,如何在不同渠道(Facebook/Google/TikTok)、不同 campaign、不同受众之间分配,使总ROAS(广告支出回报率)最大化?
13-广告分析
传统 CVR(转化率)模型只建模"点击→购买",忽略退款行为,导致
13-广告分析
给未揭示样本强行打硬标签:未转化样本强标为负样本,引入严重偏差
13-广告分析
TikTok Shop 的归因困境与传统广告归因有本质差异
14-用户分析
块缺失(Block-wise Missing)的独特挑战:当一整段时间(如连续3天)或一个完整维度(如某渠道所有数据)缺失时,传统插值方法(线性插值、KNN、MICE)依赖"相邻元素"做预测,在块缺失场景下这些邻居全部不存在,方法直接失效。
14-用户分析
核心问题:新用户来了之后,第7天还剩多少?第30天呢?第90天呢?不同月份来的用户,留存曲线一样吗?Cohort分析把用户按"首次活跃时间"分组,追踪每组的留存轨迹。
14-用户分析
用户购买行为包含丰富的人群信号,但直接为百万用户调用 LLM 标注成本极高。GPLR 解决这个矛盾:用少量 LLM 标注 + 图结构传播覆盖全量用户。三步流程:① Diversity-Uncertainty(DU)采样选出最有代表性的"原型用户"做 LLM 标注;② LLM 基于购买历史为原型用户赋予 Persona 标签;③ 在用户-产品交互图上随机游走,将标签从有标注用户传播至全量未标注用户。
14-用户分析
Momcozy M5 吸奶器在美国/德国/中国三市场销售,各市场用户痛点完全不同(美国关注续航便携、德国关注静音认证、中国关注清洗方便). 现有运营复盘只产出"差评列表",无法直接驱动产品改进决策——产品经理拿到差评列表还要花 1-2 周二次提炼 - 数据要求:三市场 Amazon Review API + market 标签 - MAA 配置: - 按市场分别聚类(K=5,每市场 5
14-用户分析
Momcozy 在 Amazon US 的 S9/S12 系列累积数万条评论,但产品团队只能依赖人工抽查了解用户诉求,无法识别"职场背奶妈妈"与"新手妈妈"在痛点上的差异,导致广告文案和详情页对所有人说同样的话,转化率损耗严重 - 数据要求: - Amazon Review 数据(user_id、product_id、评论文本、评分、时间戳),CSV 格式 - 数量:每 SKU ≥ 50
14-用户分析
想进入"电动吸奶器"品类,但已有 Momcozy/Medela/Spectra 等强竞品
14-用户分析
现有时序→空间的序贯方法在块状缺失(block-missing)场景下失效——当某个渠道或时段整块数据缺失时,无法提取有效特征。同时,静态图结构无法适应分布偏移(非平稳流量数据的动态空间依赖)。
14-用户分析
传统推荐系统的致命缺陷:每次会话从零开始——用户上周告诉导购"我要有机配方奶",下次进来又要重新解释,累计咨询成本极高,转化率低。Shopping Companion 的创新在于构建跨会话长期偏好记忆,将用户偏好结构化存储,Agent 可在后续会话中直接调用,像"私人导购"一样记住每位用户的长期喜好。
14-用户分析
Momcozy 暖奶器在 Amazon US/DE 各 5000+ 评论,差评包含细碎复合表达(如"加热慢又不均匀,温控也不准"). 传统 ABSA 把整句标注为"加热问题",丢失了 3 个独立改进点;直接用 LLM 总结容易生成评论中不存在的属性(如"接口设计差") - 数据要求:Amazon Review API 双市场评论 - StaR 配置: - Step 1 Candidate
14-用户分析
传统序列推荐模型只看单会话内的商品点击序列,TRACE 的创新在于:把整个用户的多会话页面浏览历史(包括首页、搜索页、详情页、购物车、结账等各类页面,跨越数天甚至数周)打包成一条有序序列,送入轻量级 Transformer Encoder 学习全局用户状态嵌入。
14-用户分析
同样的流量,为何不同渠道/设备/浏览器的转化率差异如此悬殊?
14-用户分析
用户从"知道品牌"到"下单购买"要经历多个步骤。
14-用户分析
Utimac 的核心洞察是:不直接补全矩阵条目,而是推断数据生成过程的参数(Estimate the Process, Not the Entries)。
15-营销投放分析
传统多触点归因(Multi-Touch Attribution, MTA)依赖用户级点击路径数据:追踪每个用户从广告曝光→点击→转化的完整旅程,才能判断各渠道贡献。
15-营销投放分析
Facebook 月预算从 $5 万加到 $8 万后,ROAS 从 3.2 掉到 2.1
15-营销投放分析
Momcozy 在美国 Prime Day 前一周突然将吸奶器搜索广告预算翻倍,我们的 impression share 从 22% 跌到 14%
15-营销投放分析
某母婴辅食品牌在美国市场同时投放 Amazon Ads、Meta(FB+IG)、TikTok,月均广告预算 $15 万美元,但各渠道的 adstock 效应差异显著(TikTok 内容影响力可持续 2-4 周,Amazon 关键词效果衰减快)
15-营销投放分析
婴儿推车季节性爆款上线,Google Ads 历史只有 3-5 周数据,传统规则策略难快速找到最优出价时段 - 数据要求:近 3-5 周 Google Ads ROAS 时段数据 + 月度总预算 - DARA 配置:T = 7(一周)或 24(一天时段);Phase 1 LLM 读历史生成日预算向量;Phase 2 每日 ROAS 反馈调整下一日 - 业务价值:冷启动期 ROAS 提升
15-营销投放分析
匿名访客(未授权追踪)向 AI 助手提问穿搭,传统推荐因无 Cookie 完全失效,品牌白白流失高意图实时流量 - 数据要求:用户自然语言查询文本 + SKU 库(含品类、场景标签、图片描述)+ 广告主实时出价 - GenAI 方案: - 用户问:"我下周去海边参加婚礼,梨形身材,有什么建议
15-营销投放分析
同一广告在美国加州和德国巴伐利亚的效果完全不同。Geo-level 分析用地理准实验(Geo Experiment)估计各区域的因果营销效果,避免全国平均掩盖的区域异质性。
15-营销投放分析
CMO 拿到内部 MMM 报告,显示"TikTok ROAS 极高远未饱和,建议把 Meta 预算砍半全移给 TikTok"
15-营销投放分析
营销归因的核心难题是数据孤岛:广告平台(Meta/Google/TikTok)、CRM(Salesforce/HubSpot)、电商平台(Amazon/Shopify)、社交媒体各持一方数据,无法直接关联。数据管道需要解决
15-营销投放分析
品牌每个月在不同渠道(Facebook、Google、TikTok、KOL、线下)投入数百万广告费。
15-营销投放分析
$30 万月预算要同时做三件事——黑五冲销量(短期 ROI)、母婴博主种草(品牌搜索量)、新款吸奶器 S2 预热(新品曝光)
15-营销投放分析
促销活动期间销售额暴涨30%,这是促销的真实效果,还是"本来就会买的用户"恰好遇到了促销?
15-营销投放分析
基于营销投放数据提前 3-7 天预测物流需求峰值,驱动仓储/运力的前置性扩容决策。
16-智能体工程
AgeMem 是首个将 LTM(长期记忆)和 STM(短期记忆)统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块,由外置 Memory Manager 或启发式 trigger 决策,导致组合效果差、部署成本高(需要额外 expert LLM)。AgeMem 的突破在于:记忆操作本身就是 action,由同一个 LLM policy 通过 RL 学习"何时调什么"。
16-智能体工程
传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补
16-智能体工程
AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致
16-智能体工程
每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天
16-智能体工程
Atomix 为 Agent 工具调用引入事务语义,解决多步 Agent 工作流在故障(网络抖动、服务超时、LLM 幻觉)下产生的中间态污染问题。无事务保护时,30% 故障注入场景的成功率仅 0-7%;Atomix Tx-Full 模式将其提升至 37-57%,媲美快照回滚(CR)。
16-智能体工程
母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张
16-智能体工程
RAG 的局限:被动检索,只能复用已显式存入的知识,无法从对话轨迹中自动归纳模式;Fine-tuning 的局限:参数固化后无法增量更新,每次新能力都需全量重训,知识以黑盒形式埋在权重里,不可审计不可编辑。
16-智能体工程
部署时学习(Deployment-Time Learning, DTL) 是 CASCADE 提出的第三个 LLM 生命周期阶段:预训练(Pre-training)→ 微调(Fine-tuning)→ 部署时学习。现有方案只在前两个阶段学习,部署后模型冻结,无法从实际使用中积累经验。
16-智能体工程
传统方式将 API Key 存入环境变量或配置文件,Agent 运行时直接读取。Prompt Injection 攻击可诱导 Agent 将密钥外泄。CapSeal 彻底切断 Agent 与明文密钥的直接联系。
16-智能体工程
CausalFlow 将 Agent 的一次执行视为有序步骤序列
16-智能体工程
跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)
16-智能体工程
语言翻译是跨境电商的最低门槛,真正影响转化的是文化适配:同一款婴儿奶粉,美国妈妈关注"科学配方/AAP认证",德国妈妈关注"有机/欧盟标准",日本妈妈关注"安心品质/无添加"——这些差异不是语言问题,而是深层文化价值观差异。
16-智能体工程
传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题
16-智能体工程
Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。
16-智能体工程
The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议
16-智能体工程
最小权限原则在 Agent 中的实现:传统应用最小权限通过 OS/IAM 静态配置实现,但 LLM Agent 的工具调用集合在运行时动态变化,需要动态感知策略。Progent 用符号规则表示权限策略:`{tool: "purchase_order.create", constraints: {"amount": {"max": 1000}}}`,支持在任务执行中实时评估。
16-智能体工程
AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超 模型选择 的贡献,成为系统性能的主变量。
16-智能体工程
当 Agent 系统规模膨胀至 100+ 工具时,手动注册成为瓶颈:每次新 API 上线都需要开发者手工编写 ToolDefinition、更新路由表、验证参数类型——一个典型企业集成需要 2 个工作日。
17-价格优化
竞品价格监测不只是"看别人卖多少钱",而是建立价格-转化率的因果响应模型,在竞品降价时量化"不跟降会损失多少"和"跟降能获得多少",做出有数据支撑的响应决策。
17-价格优化
同一 SKU 在美国、德国、英国定价不能完全独立——消费者会跨市场比价,亚马逊全球店铺会显示价格差异。需要在"市场本地化定价"和"全球价格一致性"之间找最优平衡。
17-价格优化
吸奶器在美国定价 $129,德国 €119,英国 £99
17-价格优化
在于:数据异构性(多平台格式差异)、反爬对抗(动态 JS 渲染、验证码)、实时性需求(价格窗口窄、竞品调价响应快)三重矛盾。
18-物流履约
跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合
19-风控反欺诈
检测广告点击中的无效流量(IVT)——Bot 点击、竞品恶意点击、重复点击。用时间序列异常 + 行为模式识别。
19-风控反欺诈
欺诈检测系统的核心上限由欺诈信号采集的覆盖度和质量决定。母婴电商面临的三类典型欺诈
19-风控反欺诈
核心思想:LLM 生成的虚假评论文本质量极高(语法流畅、情感真实),传统文本特征工程(词频/情感/长度)已失效。FraudSquad 转变思路——不只看"单条评论写得怎样",而是看"这个评论者在评论图中的行为模式是否异常"。
19-风控反欺诈
Isolation Forest + 动态阈值检测异常交易模式。特征:订单金额、支付方式、IP 国家 vs 收货国家、下单到支付间隔、同一 IP 下单频率、地址变更次数。
20-AI视频生成
在 TikTok 美国站推吸奶器,需要大量真人主播演示视频——但海外主播贵($200-500/条),中文主播语言不通,且更换主播需重新拍摄
20-AI视频生成
母婴品牌需要在美/德/英/日 4 个市场投放品牌视频广告——每个市场需要不同模特、不同语言字幕、不同节日主题(美国感恩节/德国圣诞节/日本新年)
20-AI视频生成
如何将品牌语义(Logo、色调、产品特征)与视频扩散模型对齐,在保留用户意图(语义保真)的同时实现自然的品牌可见性。
20-AI视频生成
用 AI 生成品牌视频时,品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。
20-AI视频生成
首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列,无误差累积,支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。
20-AI视频生成
唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。
20-AI视频生成
输入 1-3 张商品参考图,生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤:生成视频时商品外观逐渐漂移("copy-paste"信息泄露问题)。
20-AI视频生成
端到端广告视频生成:输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿(镜头序列 + 配音脚本 + 装饰标签)。
20-AI视频生成
完整多语言短视频生成系统:角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS(百余语言)→ 特效渲染。
20-AI视频生成
- 多模态异构性:图片(JPEG/PNG/WebP)+ 视频(MP4/MOV)+ 产品页截图
21-合规决策
核心思想:在决定进入新品类之前,用 NLP + 向量聚类对历史召回数据库(CPSC/RAPEX)做自动扫描,计算该品类的「召回风险密度」和「危害类型分布」,输出风险等级(低/中/高)+ 合规成本估算,作为 WF-D 选品扫描的进入前否决门。
21-合规决策
核心思想:把 LLM 自动生成的合规风险控制从“生成后人工看一眼”升级为同步的加权评分系统。系统并行生成多个候选输出,对每个候选运行 PII、内容安全、schema、领域规则和证据引用检查,计算合规得分;一旦最佳候选超过阈值就提前返回,否则进入人工复核。
21-合规决策
核心思想:构建多辖区合规矩阵(产品类别 × 目标市场 × 监管要求),自动将产品映射到所有相关监管要求,输出国家专项合规清单。通过规则引擎实现合规优先级自动排序,解决多市场同步上架的合规复杂度问题。
22-数据采集工程
1. 广度优先爬取浪费资源:爬 100 个页面才找到 5 个有价值的竞品信息
22-数据采集工程
母婴爆品的"起飞时刻"通常在搜索量还很低的阶段。
22-数据采集工程
论文:SF-UBM [2604.14833] + MFG-RegretNet [2603.28329]
22-数据采集工程
论文:Sherpa.ai [2604.19219] + Cross-Domain SID [2606.01396]
22-数据采集工程
从 Amazon、TikTok Shop、独立站同时采集的评论中,30-40% 是重复或低质量内容(同一用户多平台发布、机器生成水评、极短无意义评论)。直接用于 VOC 分析会严重扭曲洞察结论。