Causal Attribution Bridge(因果归因桥梁)
01-因果推断
传统广告归因是相关性的("点了广告→买了"),因果归因是反事实的("如果没有这个广告→还会买吗")。核心:用增量因果效应替代 naive 归因比例。
01-因果推断
传统广告归因是相关性的("点了广告→买了"),因果归因是反事实的("如果没有这个广告→还会买吗")。核心:用增量因果效应替代 naive 归因比例。
01-因果推断
传统队列分析(Cohort Analysis)追踪同一时期加入的用户群体的行为轨迹,但无法剥离选择偏差:高价值用户本来就会复购,促销只是"锦上添花"而非真正驱动因素。直接比较"接受促销的队列 vs 未接受促销的队列",会高估促销效果 30-60%。
01-因果推断
核心思想:从纯观测数据(无干预、无实验)中自动发现变量间的因果结构。PC 算法通过系统的条件独立性检验,逐步剔除无关边、识别 v-structures、传播方向约束,最终输出一个有向无环图(DAG)或部分定向图(CPDAG)。
01-因果推断
合成控制法(Synthetic Control, SC)通过为目标单元"合成"一个反事实来估计因果效应,是评估地区级/城市级无法做 A/B 的大型干预(如区域广告投放、城市政策)的黄金标准。
01-因果推断
rDRP(robust Direct ROI Prediction)在标准 DRP (Direct ROI Prediction, AAAI 2023) 基础上,用共形预测 + MC Dropout 做 ROI 区间估计,再通过启发式校准将区间信息融回点估计。
01-因果推断
共形预测的核心保证:共形预测(Conformal Prediction, CP)在无需分布假设的条件下,为任意黑盒预测模型提供覆盖率理论保证。对于置信水平 1-α(如 90%),输出的预测区间 `[lower, upper]` 在有限样本下满足:`P(y ∈ [lower, upper]) ≥ 1-α`。这一保证来自数据可交换性(exchangeability),而非 Gaussian 分布假设。
01-因果推断
平台对所有新妈妈用户统一发放"新生儿满减券",ROI 整体回归到 1.2-1.5x,猜测某些群体响应强、某些群体弱,但不知如何切分 - 数据要求:用户注册时填写宝宝生日 + 高维行为日志(2000 维:RFM、品类偏好、渠道、地理) - DML 配置: - 第一阶段:XGBoost 拟合 $E[Y|X]$,LightGBM 拟合 $E[D|X]$ - PCA 降维至 10 维,K-mea
01-因果推断
核心思想:利用处理组和对照组在政策/干预前后的变化差异来估计因果效应。基本逻辑是:如果没有干预,处理组的趋势应该与对照组平行(平行趋势假设)。干预后的实际差异减去趋势差异,就是干预的净效应。
01-因果推断
标准共形预测对所有数据点使用统一的非一致性分数,无法区分"数据多的区域"和"数据少的区域"。根本原因:传统共形分数只捕捉偶然不确定性(aleatoric uncertainty,数据本身的随机性),对认知不确定性(epistemic uncertainty,训练数据不足导致的模型无知)视而不见——在数据稀疏区域仍然给出窄区间,形成虚假的高置信度。
01-因果推断
当前做法是向所有"高流失风险"用户统一发"免费延长30天"优惠券,ROI 极低——很多用户即使不发券也会续订
01-因果推断
Momcozy 想知道自己产品的价格弹性——价格下降10%,销量会增加多少
01-因果推断
我们在美国、加拿大、英国、德国同步投放吸奶器广告,不同市场的用户行为差异显著
01-因果推断
核心思想:中介分析回答"为什么"——一个干预(如推荐算法更新)通过什么机制影响了结果(如转化率)。它将总效应分解为
01-因果推断
标准 Split Conformal Prediction 的覆盖保证是"期望意义"的——跨多次校准集随机抽取,平均覆盖率为 `1-α`,但单次校准的覆盖率可能远低于目标值。实验表明:当校准集 n=50 时,目标覆盖率 90% 的标准共形预测,实际违约率高达 ~40%(即 40% 的概率实际覆盖 < 90%)。
01-因果推断
识别哪些用户最有可能因为某个干预(如促销、广告)而产生正向行为。
02-A_B实验
A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述,将学术界的最佳实践封装为可直接调用的 Python 工具包,解决电商实验中最常见的四类问题
02-A_B实验
Power Analysis告诉你"测多少",实验跑完后,如何正确解读结果?
02-A_B实验
传统 A/B 测试有三大痛点:① 依赖统计专业知识(功效分析、多重检验校正),② 分析耗时(从数据到决策通常需要 2-3 周),③ 假设生成靠人工经验(容易受认知偏差影响)。
02-A_B实验
传统Uplift模型遵循两阶段离线流程——先收集历史数据估计异质性处理效应(HTE),再求解预算约束优化问题。这在数据丰富时效果良好,但在冷启动场景(新渠道、新市场、新用户群)中完全失效。
02-A_B实验
CUPED (Controlled-experiment Using Pre-Experiment Data) 用实验前数据作为协变量,减少实验组间方差,使同样的样本量能检测到更小的效应量。核心公式:$Y_{cuped} = \bar{Y} - \theta(\bar{X} - \mu_X)$,其中 $X$ 是实验前同一用户的指标值,$\theta = \text{Cov}(Y,X)/\text{Var}(X)$。方差缩减率 $\approx 1 - \rho^2_{Y,X}$。若实验前购买金额
02-A_B实验
A/B 实验的因果推断依赖随机化的完整性:处理组(Treatment)与对照组(Control)的差异必须仅来自实验干预,而非数据采集过程的污染。
02-A_B实验
在探索(exploration)和利用(exploitation)之间取得平衡。
02-A_B实验
标准 A/B 假设 SUTVA(用户间无干扰),但社交电商(分享/推荐/UGC)违反此假设——A 组用户的行为会影响 B 组用户。解决方案:Cluster Randomization(按社交簇随机分组)或 Two-Stage Randomization(先随机簇,簇内再随机个体)。
02-A_B实验
A/B测试需要多少样本才能检测出真实的效应?
02-A_B实验
电商 GMV / 订单量等指标天然重尾——极少数大客户的超大订单把方差撑得很高。
02-A_B实验
传统固定样本量 A/B 需要等到收集满 N 个样本才分析。Sequential Testing 允许在实验过程中多次中期分析,一旦检测到显著差异即可提前停止(节省时间和样本)。用 $\alpha$-spending function 控制整体 Type I error:每次中期分析消耗一部分 $\alpha$ 预算。
02-A_B实验
同一海外仓为 Shopify/Amazon/TikTok Shop 多渠道发货,测试"AI 波次合并算法"是否降低拣货时长
02-A_B实验
Thompson Sampling是一种基于贝叶斯后验采样的在线决策算法,用于解决探索-利用权衡(Exploration-Exploitation Tradeoff)问题。算法的核心洞见是:按照每个动作是最优动作的概率来选择动作,而非简单地选择当前估计奖励最高的动作。
03-时间序列
平台在大促期对核心母婴 SKU(纸尿裤、婴儿车)做搜索权重提升 + 首页 Banner 曝光,需要回答"如果没做促销,需求应该是多少"——避免把自然增长功劳归到促销 - 数据要求:全品类销量历史 + 促销标记 + 商品图谱(同类竞品关系) - GCF 配置:节点=SKU,边=同品类竞品,干预=促销曝光,合成控制=未受促销的同类 - 业务价值:促销 ROI 计算精度提升 30-50%,避免
03-时间序列
传统需求预测只给点估计("下月卖 1000 件"),业务需要区间估计("95% 置信区间: 850-1200 件")。Conformal Prediction 提供分布无关的、有限样本有效的预测区间,无需假设误差分布。
03-时间序列
为时序预测的每个时间步生成分布无关的预测区间。EnbPI (Ensemble Batch Prediction Intervals):用 Bootstrap 集成 + Conformal 残差构建适应时序依赖的预测区间。
03-时间序列
标准共形预测(Conformal Prediction)要求数据可交换性(exchangeability):校准集和测试集的样本可以任意排列而不影响分布。但时间序列违反这个假设——序列存在自相关性,昨天的销量影响今天的需求。
03-时间序列
某母婴品牌618大促备货奶粉 SKU(如 A2 奶粉 900g),需提前 7 天向供应商下 PO
03-时间序列
打通需求预测和库存决策——不是先预测再独立决策,而是将预测不确定性直接编码为库存策略参数。核心:服务水平优化——给定预测分布 $N(\hat{\mu}, \hat{\sigma})$,安全库存 $SS = z_\alpha \cdot \hat{\sigma} \cdot \sqrt{LT}$,其中 $z_\alpha$ 由缺货成本 vs 持有成本决定。
03-时间序列
Momcozy 60+ SKU × 多仓(上海/香港/海外仓) × 多市场(US/DE/JP),各层独立预测加总 30-50% 不一致;采购按 SKU 下单,但财务按市场聚合,两边数字对不上,月底对账 2-3 PM 天纯人工调和 - 数据要求:历史 SKU/仓/市场 三层销售时序 + 加总矩阵 S - HiFoReAd 配置: - Stage 1: LGBM + AutoETS 三月预测
03-时间序列
我们计划在北美市场投放吸奶器季节性促销活动(如母亲节、黑五)
03-时间序列
多个时序共享长期均衡关系(如吸奶器销量←→配件销量)。Johansen 协整检验确定协整向量数量,VECM 建模短期动态调整 + 长期均衡约束。$\Delta Y_t = \Pi Y_{t-1} + \sum \Gamma_i \Delta Y_{t-i} + \epsilon_t$,其中 $\Pi = \alpha\beta'$($\beta$ 是协整向量,$\alpha$ 是调整速度)。
03-时间序列
业务时序数据充满"人造季节性"——黑五、Prime Day、圣诞促销让销量暴涨,春节让物流停滞。
03-时间序列
传统需求预测依赖离线批处理(T-1 日数据训练,次日生效预测),对突发事件(爆品上线、竞品大促、舆情事件)响应迟滞 12-24 小时。
03-时间序列
核心思想:TFT 是一种专为多水平时间序列预测设计的深度学习架构,能够同时处理静态特征(如产品类别)、时变已知特征(如节假日)和时变未知特征(如历史销量),并提供可解释的预测结果。
03-时间序列
母婴出海电商的关键指标(GMV、订单量、转化率、退货率)时刻波动。
03-时间序列
基于历史销售数据,预测未来一段时间的需求量,从而指导备货、定价和供应链决策。
03-时间序列
如何让 LLM 的世界知识真正改善时间序列预测,而不仅仅是把数值序列塞进 Prompt 让 LLM 凑答案。
04-供应链
供应链的需求预测不同于通用时序预测——它必须考虑促销日历、竞品行动、渠道库存、季节性生命周期等商业因素。
04-供应链
核心思想:供应商的 MOQ(最低起订量)和价格阶梯(all-units discount)把补货决策从"按需订货"变成了一个权衡题——少订安全但单价高,多订便宜但压库存。Q-jump (s,S) 策略给出了在随机需求+all-units折扣下的最优解:当库存触发订货点 s 时,根据「凑量判据」决定是按实际需求量订还是直接跳到折扣门槛 Q。
04-供应链
FSDA-DRL(Fast-Slow Dual-Agent Deep Reinforcement Learning)用两个独立的 RL 智能体,在不同时间频率上分别解决"定价"(快决策)和"补货"(慢决策)问题,并通过共享环境状态让它们协作而非博弈。
04-供应链
核心思想:库存健康诊断不是"某个 SKU 库存多少",而是回答三个问题:① 这批货还能动吗(FSN分级)?② 过多还是过少(Over/Under stock 三态)?③ 为什么和计划不一样(供应计划方差归因到4类根因)。同时严格区分「预测准确率(Forecast Accuracy)」和「计划准确率(Plan Accuracy)」——两者可以完全脱钩。
04-供应链
母婴跨境海运提前期(Lead Time, LT)在 25-50 天剧烈波动(苏伊士事件/港口拥堵). 传统安全库存假设 LT 固定,实际服务水平远低于设定值(设 95% 实际只有 85%). Gen-QOT 用深度自回归生成模型对 LT 进行分布式建模(不假设参数分布),并把"订单整批到货"扩展为分批随机到达(QOT, Quantity-Over-Time),精确建模拼箱拆批到港行为. 动态安全库存自适应季节性 + 港口拥堵期.
04-供应链
传统价格弹性估计依赖计量经济学方法(log-log OLS、AIDS 等),需要强函数形式假设,且难以处理高维商品特征、季节性、竞品价格等复杂交互。Walmart 团队提出的 Monodense Deep Learning Model (DLM) 通过深度学习实现无需对照实验(treatment-control free)的单品级弹性估计。
04-供应链
吸奶器在 Amazon FBA 仓缺货(销量超预期),但独立站海外仓还有 200 件积压,TikTok Shop 也在慢速消化——三渠道信息不互通,总库存 800 件却出现"某渠道缺货 + 某渠道积压"
04-供应链
如何在供应链的多个节点(工厂→仓库→配送中心→门店)之间分配库存,使得总成本最低的同时保证服务水平。
04-供应链
场景 A:季度 $200K 预算在 8 个核心 SKU 间分配
04-供应链
在一个从工厂到终端消费者的多层级供应链网络中,决定在哪里建哪类设施、各层级之间如何连通,使全链路固定成本和运输成本之和最小。
04-供应链
核心思想:把"建哪些仓"和"怎么配送"这两个原本耦合的 NP-hard 问题解耦——用一个预训练好的图神经网络(GNN)充当配送路径成本的快速估计器,把估计值直接嵌进选址的混合整数规划(MIP)里,从而让 MIP 求解器只需要做高层选址-分配决策,而不必在求解过程中展开庞大的车辆路径(VRP)变量。
04-供应链
核心思想:新品上市前无历史销量,但不是无信息——相似 SKU 的历史数据、产品属性特征、Bass 扩散参数估计三条路径可以构建新品的需求先验分布。上市后用贝叶斯更新快速收敛,并通过「探索加成」(首批量刻意多订一点以加速学习)避免因首批订少而永久缺乏数据的陷阱。
04-供应链
如何仅凭历史离线日志(无需在线试错),找出使总期望收益最大化的商品展示组合。
04-供应链
PPO-swap 解决的是在真实道路网络(加权图)上,如何快速决定把哪个仓库/站点搬去哪里,使全局配送成本最低。传统 Gurobi 在大图上算不动(千节点场景需数小时),贪心启发式又容易陷入局部最优。PPO-swap 以"从初始布局出发、反复微调"取代"从零开始构建",每一步只做一次交换(Swap):关掉一个现有设施,在另一个节点重开,直到整体成本无法再降。
04-供应链
核心思想:把任意一个 SKU 的历史销量分解为两个互相独立的信号——「基线需求」(正常销售节奏)和「促销 lift」(大促拉动的额外需求)——分别建模、分别备货,并专门处理大促结束后需求虚高的「Post-Promotion Elevation(PPE)」问题,避免系统在大促后 3 个月内持续过量备货。
04-供应链
需求预测告诉你"预计卖多少",安全库存告诉你"为了防止意外,应该多备多少"。
04-供应链
核心思想:当旺季需求(如双11前 8,000 件/月)超过工厂单月产能(5,000 件),需要解决三个问题:① 提前多久开始生产(提前期排程)?② 多供应商时如何分单(Pareto 前沿)?③ 产能完全满足不了时,哪个 SKU 优先(优先级排序)?
04-供应链
为什么传统归因不够:瀑布式逻辑("缺货→往上查库存→往上查采购")本质上是相关性分析,无法区分"A 导致 B"与"C 同时导致 A 和 B"。实际供应链中,多因素常常通过间接路径(中介变量)影响结果——比如"需求预测误差→战术产能调整→Capped Out Hours(COH)",传统归因会错误地把间接效应归给直接可见的变量。
04-供应链
多级库存优化(Multi-Echelon Inventory Optimization, MEIO)解决的是供应链中多个节点(工厂、仓库、门店)的联合库存决策问题。相比传统的单点库存管理,DRL方法将供应链建模为马尔可夫决策过程(MDP),智能体(Agent)学习在每个时间步决定"生产多少、发往哪里",以最大化长期累积利润。
05-推荐系统
传统电商推荐系统中,广告排序(Sponsored Ranking) 和 有机推荐(Organic Recommendation) 是两个完全独立的系统,分别优化 CTR/ROAS 和个性化相关性,导致用户体验分裂——同一用户可能在广告位看到高竞价但低相关商品,在有机推荐区看到高相关但低转化意图商品。
05-推荐系统
Momcozy 吸奶器爆款 SKU 占全部流量的 60%+,200 余款配件(替换配件、特殊尺码)几乎零曝光
05-推荐系统
传统推荐系统采用 Embedding & MLP 范式:每个商品 ID 对应一个向量,该向量通过用户历史交互数据学习。新品没有历史交互 → Embedding 全为随机噪声 → CTR 预测失效,这就是冷启动问题。
05-推荐系统
母婴品类SKU迭代快(奶粉按月龄分段、辅食按月添加),新品上架无历史交互数据,传统协同过滤无法推荐。
05-推荐系统
是 MNAR(Missing Not At Random)选择偏差:用户只对系统曝光过的商品产生反馈,而曝光本身受热度/历史 CTR 影响,导致推荐模型陷入"自我强化"循环。
05-推荐系统
传统协同过滤只利用正向交互(用户点击、购买)来建模,忽略了负向信号(用户不点击、跳过)的价值。Heterogeneous Inference (HI) 通过同时建模两种推理模式
05-推荐系统
传统推荐系统追求相关性最大化,导致结果高度同质化——用户搜"婴儿奶粉",首页全是同一品牌同一段位。
05-推荐系统
黑盒推荐系统给用户推了"吸奶器",用户会问"为什么给我推这个?
05-推荐系统
母婴跨境电商新用户注册率高但转化低,约 65% 新用户第一屏浏览 ≤3 个商品后跳出
05-推荐系统
传统推荐系统是单一模型的端到端优化,难以整合多维用户意图(价格敏感、品牌偏好、安全认证关注)。MAS Collaborative Recommendation 将推荐任务分解为多个专业化 LLM Agent 的协作问题
05-推荐系统
传统推荐系统的目标是最大化用户相关性(CTR/CVR),营销系统的目标是最大化 GMV 和促销 ROI。这两个目标通常分开优化,导致推荐了用户喜欢但不需要促销的商品(浪费预算),或促销了高利润商品但对用户不相关(浪费曝光)。
05-推荐系统
根据用户历史行为,预测用户对未交互商品的兴趣程度。
05-推荐系统
是排序评估指标与训练损失函数之间的不匹配。
05-推荐系统
传统推荐系统只关注用户与商品的"相关性",完全忽视价格因素;而传统定价系统只优化利润或销量,不考虑用户个性化偏好。Price-Sensitive Recommendation 的核心思想是将个体价格弹性注入推荐排序决策
05-推荐系统
传统推荐系统用无序的one-hot ID或量化向量表示商品,丢失了语义信息。
05-推荐系统
母婴出海电商中 60%+ 用户以匿名状态浏览(未登录/未注册)
06-增长模型
母婴跨境新品冷启动需求预测痛点:每年 20-30 款新品上市,前 8 周零销售记录,人工拍脑袋备货首批,积压或断货损失年化 300+ 万元. 本 Skill 组合两个方法:① Bass 扩散模型生成新品扩散曲线形状(创新+模仿系数);② GEANN 图迁移从相似品历史借用销售信号;③ Bass 参数从相似品加权迁移初始化,实现"形状从理论 + 规模从迁移"的双驱动.
06-增长模型
监测到"wearable breast pump"(穿戴式吸奶器)谷歌搜索量过去 6 个月增长 180%($p<0.01$),BSR 上升 45%,TikTok 话题 #wearablepump 播放量 2.3 亿
06-增长模型
新商品没有历史交互数据时,如何精准推荐给用户。
06-增长模型
监测到竞品 Momcozy 密集上线 5 个"Silicon Flange"(硅胶法兰)新 SKU,且上线 2 周内均进入 BSR Top 5000
06-增长模型
跨境电商的致命问题:70-80% 商品在目标市场无历史数据,15-25% 上架后零销量,但传统预测模型会给出"看起来合理"的正数预测→导致库存积压。ZODIAC 用双域 LSTM + 双头架构同时解决"零销量预测"和"过预测"两个核心痛点。
06-增长模型
一款吸奶器在京东月销 5000+ 台(¥399),需要判断是否引入 Amazon US($59.99)、Amazon DE(€54.99)、Amazon UK(£49.99)
06-增长模型
识别哪些用户即将停止使用产品/服务,从而提前采取挽留措施。
06-增长模型
业务问题 母婴用户跨越App、小程序、线下门店、Web多个渠道,每个渠道的转化效率不同
06-增长模型
传统购买预测模型将问题视为静态分类任务。DQN-inspired方法引入强化学习思维:将用户会话视为状态,营销干预视为动作,转化/流失视为奖励。通过经验回放和Epsilon-Greedy探索,模型学会识别高价值干预时机。
06-增长模型
母婴订阅盒服务(如每月奶粉+尿布套餐)面临用户流失风险
06-增长模型
某母婴 DTC 独立站准备从纯打折升级为"付费会员制(年费 $49 免邮 + 专属抢购)"
06-增长模型
光算出每个用户的增量效应(CATE)还不够——真实业务有预算上限、有高净值用户保护、有每天不能无限制打扰用户的体验红线。Guardrailed CATE-NBA 打通了"预测→决策"的最后一公里:三层漏斗把因果估算的结果直接转化为带约束的最优行动名单。
06-增长模型
我们通过 Facebook/TikTok 广告获取了大量北美新客,但并非所有新客都有长期价值
06-增长模型
核心思想:在选品决策前量化「这个品类有多大、能拿多少」,避免「市场很大」的模糊判断。用两条互相校验的路径(Top-down 和 Bottom-up)估算 TAM/SAM/SOM,并通过 Google Trends 校准和 Monte Carlo 模拟将点估计扩展为置信区间,输出可进入 ROI 模型的数字范围。
06-增长模型
在新商品上市前预测其成功概率,从而优化选品决策和资源配置。
06-增长模型
核心思想:把一个 SKU 或品类的销量时间序列,分解为趋势+季节+残差三层信号,通过微分分析(斜率变化率)自动定位「成长→成熟→衰退」的阶段边界,并用年龄-销量矩(AVM)作为阶段状态的低成本代理特征,最终输出四阶段标签(引入/成长/成熟/衰退)+ 进入时机决策建议。
06-增长模型
1. 市场规模(搜索量 + BSR 品类总量,$w$=0.25)
06-增长模型
R (Recency):最近一次购买距今多少天。越近越可能再次购买。
06-增长模型
多准则决策(MCDM)——TOPSIS 方法评估供应商。综合质量、价格、交期、合规、沟通五个维度。
06-增长模型
独立站每天面对来自北美高净值用户(iPhone + 5分钟停留)和东南亚价格敏感用户(安卓 + 10秒跳出)的混合流量
06-增长模型
识别哪些用户会因为干预(如优惠券、客服电话)而降低流失概率。
06-增长模型
业务问题 母婴出海电商用户决策周期长(孕期到育儿多阶段),不同阶段用户需求差异巨大
08-知识图谱
大促高峰期每日 5 万条跨领域工单,正确路由率从 61% → 82%,每天减少约 10,500 条二次转单 - 单条转单处理成本约 5 元,节约运营成本 5.25 万元/天;年化 1900 万元 - 用户 CSAT 评分从 3.8 → 4.3(满分 5),复购意愿提升可观
08-知识图谱
手动 ERP 排查可能要 2-3 周,到时候竞争对手早把备货扫空了
08-知识图谱
用知识图谱技术构建广告受众画像图——不是简单的标签列表,而是实体关系图:用户→购买→产品→属于→品类→适合→年龄段。基于 KG 的受众定向比关键词匹配精准 3-5 倍。
08-知识图谱
传统 RAG 将文档切分为固定长度的 chunk,导致原本有完整因果逻辑的段落被割裂。例如"产品A未通过认证 → 被召回 → 触发贸易禁令"这一因果链横跨多个 chunk,单个 chunk 无法表达完整逻辑。
08-知识图谱
用户反馈"机器转了两圈突然停下并闪红灯",传统 FAQ 机器人把所有带"红灯"的内容(充电时亮红灯/故障码等)全部返回,答非所问,最终用户申请退货
08-知识图谱
传统电商搜索基于 BM25/TF-IDF 关键词匹配,无法理解语义。例如用户搜"缓解涨奶 pain",关键词系统只能匹配包含"pain"或"涨奶"字样的商品,无法召回"吸奶器"、"冷敷贴"等语义相关但关键词不匹配的商品。
08-知识图谱
电商知识图谱中同一商品在不同数据源有多种命名:中文名"吸奶器"、英文名"breast pump"、闽南语"集乳器"、品牌型号"Spectra S1"、Amazon ASIN"B07XYZ123"——若不做统一,KG 会出现大量重复节点,导致关系断裂、推理失效、检索召回率下降。实体消歧(Entity Resolution) 通过三步流水线将多源异构实体识别为同一现实对象并合并。
08-知识图谱
GNN 三大基础架构的统一入门:GCN(图卷积,邻居特征加权平均 $\mathbf{h}_v^{(l+1)} = \sigma(\mathbf{W}^{(l)} \sum_{u \in N(v)} \frac{\mathbf{h}_u^{(l)}}{\sqrt{d_v d_u}})$)→ GAT(加注意力权重)→ GraphSAGE(归纳式采样聚合,适合大规模图)。
08-知识图谱
GraphRAG(Graph Retrieval-Augmented Generation) 将传统 RAG(检索增强生成)中的文本块检索升级为知识图谱结构化检索,通过图遍历获取与查询相关的实体、关系和子图,显著提升复杂推理场景的答案准确性和可解释性。
08-知识图谱
HGCN (Hyperbolic Graph Convolutional Networks) 解决传统 GNN 在欧氏空间中无法有效编码层次结构的问题。核心洞察:树状/层次化图结构(如品类树、组织架构)在欧氏空间中存在根本性的容量限制,而双曲空间天然适合表示层次关系。
08-知识图谱
HGT (Heterogeneous Graph Transformer) 解决传统 GNN 无法处理异构图(节点和边有多种类型)的核心问题。传统 GNN 假设所有节点和边共享同一特征分布,这在电商场景(用户/产品/评论/属性共存)中完全不成立。
08-知识图谱
零样本下用商品图片自动构建跨语种属性知识图谱:Schema 先行 → VLM 多轮萃取 → LLM 约束推理 → 层级扩展 → 程序化去重。建库成本与 SKU 数量线性解耦,无需人工标注模板。
08-知识图谱
HyDE(Hypothetical Document Embeddings) 的洞察极其简单却有效
08-知识图谱
母婴出海电商的搜索场景高度两极化:部分用户输入精确型号("Spectra S1 Plus"、"B07X4X5GXD"),纯向量检索因 OOV 问题召回率低;另一部分用户输入模糊语义查询("适合背奶妈妈的静音吸奶器"),纯 BM25 只能匹配字面词汇,无法理解意图
08-知识图谱
海外华人妈妈购买奶粉需综合考量品牌(HiPP/Aptamil)、成分(DHA/HMO 益生元)、段位(1段/2段)、认证(EU 有机/Non-GMO),传统 CF 无法解读这些维度
08-知识图谱
传统知识图谱构建依赖人工定义 Schema 和编写抽取规则,成本高、扩展性差。AI Agent 驱动的 KG 自动构建 将全流程拆解为三个由 LLM Agent 协作完成的阶段,从非结构化产品描述中自动产出结构化知识图谱,无需预定义 Schema 或人工规则。
08-知识图谱
母婴跨境电商竞品分析需要整合来自 Amazon、Walmart、品牌官网、用户评论等多源异构数据,构建统一的产品属性知识图谱。
08-知识图谱
电商知识图谱的数据不是静态的——新品上架、价格调整、用户评论新增、竞品关系变化,每天都有大量三元组需要更新。若每次变更都触发全量 KG 重建,计算成本极高(百万节点 KG 重建需 4-8 小时)。增量更新(Incremental Update) 只处理变更的局部子图,将更新耗时压缩至秒级到分钟级。
08-知识图谱
传统协同过滤仅依赖 user-item 矩阵,缺乏对产品语义的理解,导致跨品类推荐能力弱。KG-Powered User Profiling 通过异构图融合将产品知识图谱(属性/认证/成分/适用年龄段)与用户行为图(购买/浏览/评价)结合,构建知识增强的用户偏好向量。
08-知识图谱
母婴出海电商的商品知识图谱需要维护大量实体关系(品牌-产品、产品-成分、成分-功效、产品-适用年龄等)。
08-知识图谱
构建了产品知识图谱后,如何让非技术人员(运营、客服、业务方)用自然语言查询它?
08-知识图谱
知识图谱(Knowledge Graph, KG) 是一种用图结构表示知识的方法,通过实体-关系-实体的三元组形式(如"Uplift Modeling -应用于- 广告投放")将碎片化信息组织成可推理的知识网络。
08-知识图谱
母婴出海电商的用户评论、客服对话、社交媒体内容涉及多语言(英语、德语、法语、西班牙语、日语等)。
08-知识图谱
Multimodal RAG(多模态检索增强生成) 将 RAG 系统从纯文本扩展到图文混合模态,实现
08-知识图谱
知识图谱的 Schema(本体 / Ontology)是整个 KG 的"地图"——它定义了有哪些实体类型、有哪些关系、每个属性的值域和约束。Schema 质量直接决定下游 KGQA 的检索上限和 GraphRAG 的推理深度。母婴电商领域 Ontology 设计需要平衡覆盖率(覆盖所有业务场景)与可管理性(避免过度细化导致维护失控)。
08-知识图谱
RAG 管道的检索阶段(BM25/向量检索)优先保证召回率,会返回大量候选文档(top-50~100)。但这些候选文档与查询的相关性排序往往不准——召回阶段的 Bi-encoder 是独立编码查询和文档,无法捕捉两者间的细粒度交互。
08-知识图谱
RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval) 将长文档转化为一棵"抽象树"
08-知识图谱
母婴出海电商的 Amazon Listing 商品详情页通常包含多个话题段落:产品特性(Safety Features)、使用说明(How to Use)、注意事项(Warnings)、规格参数(Specifications)
09-DataAgent-LLM
Argos 解决的核心矛盾是:LLM能生成异常检测规则,但无法同时保证可解释性、可复现性和准确率。
09-DataAgent-LLM
母婴出海电商客服 70% 工单是"退换货咨询"(尺码错、漏发、过敏等),人工处理成本高,响应慢
09-DataAgent-LLM
传统数据采集依赖人工编写爬虫脚本,每个数据源需要单独维护。
09-DataAgent-LLM
Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表,而是先理解数据背后的业务洞察,再基于洞察选择最合适的可视化表达方式。
09-DataAgent-LLM
背景:母婴品牌在Amazon、Shopify、SHEIN等多个平台销售,运营团队每周需要汇总各平台数据生成分析报告,耗时4-6小时/周
09-DataAgent-LLM
WF-C 客服分诊的核心是"意图细分"——母婴 Case 复杂(退款/换货/咨询/投诉/物流/产品使用/安全升级),嵌入距离无法区分字面相似但意图截然不同的对话片段(如"宝宝用了这个奶粉一直哭" 可能是质量投诉或产品适配咨询). Dial-In LLM 用 LoRA 微调小型 LLM 作为聚类"工具人"(Qwen2.5-7B / ChatGLM3-6B):① 连贯性评估器 判断簇语义一致性 ② 意图命名器 生成"动作-目标"标签 ③ 迭代搜索自动发现最优簇数,无需预设 K.
09-DataAgent-LLM
挑战一:跨单元格推理(Cross-Cell Reasoning)
09-DataAgent-LLM
将自然语言分析需求自动转化为 BI 仪表盘(图表+指标卡片+筛选器)。NL→结构化查询→Chart DSL→渲染。核心:意图解析(trend/comparison/distribution/ranking)+ 自动图表类型选择。
09-DataAgent-LLM
当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。
09-DataAgent-LLM
"为什么德国站吸奶器转化率下降"→ RAG 检索到上月分析"德国站转化率下降是因为欧元贬值导致价格上涨 8%"→本次发现同样模式→自动引用历史结论+实时数据验证
09-DataAgent-LLM
异常检测告诉你"什么出问题了",但不告诉你"为什么"。
09-DataAgent-LLM
业务团队(运营、市场、产品)需要数据但不懂SQL。
10-MAS
LLM-MAS 在库存管理中面临跨场景适应性差的困境——不同 SKU、季节、供应链配置导致需求模式千差万别,零样本或少样本 LLM Agent 难以泛化到新场景。
10-MAS
MemGPT 将操作系统的虚拟内存管理思想引入 LLM Agent 的记忆系统。核心洞察:LLM 的上下文窗口就像物理 RAM——容量有限且昂贵,而 Agent 需要处理的任务往往远超这个容量。解决方案是构建一个分层记忆体系,让 LLM 主动管理自己的记忆。
10-MAS
连接 MAS 算法层(AutoGen/ReAct/编排)和智能体工程层(MCP/Context/Skill管理),把"能跑的 Agent demo"变成"生产可用的 Agent 系统"。核心模式:算法→协议→基础设施。
10-MAS
Agent Q-Mix 将多 Agent 系统的通信拓扑选择建模为多智能体强化学习(MARL)问题:每个 Agent 在每个时间步从 6 种通信动作中选择一个,整个系统通过 QMIX 值分解联合优化,学习"哪些 Agent 需要相互通信、何时通信、用何种方式通信"。
10-MAS
静态工具注册(配置文件写死 Agent 列表)无法应对 MAS 三大动态性:① Agent 数量动态扩缩;② 能力随版本演化;③ 健康状态实时变化(宕机/过载/SLO 降级)。
10-MAS
AgenticPay 将买卖双方谈判建模为三方博弈:Buyer Agent(代理买家利益)+ Seller Agent(代理卖家利益)+ Mediator Agent(协调双方找到 ZOPA)。LLM 驱动每个 Agent 根据各自的 BATNA(最佳替代方案)和策略参数自主生成报价、评估还价、决定让步幅度。
10-MAS
AutoGen 是一个通用的多智能体对话框架,核心洞察:将复杂的 LLM 应用开发简化为多 agent 之间的对话编排。不同于传统的单 agent 链式调用,AutoGen 允许多个具备不同能力的 agent 通过自然语言对话协作完成复杂任务。
10-MAS
CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) 提出了一种基于角色扮演(Role-Playing)的多 Agent 自主协作范式。核心洞察:当两个互补角色的 Agent(指令发出者 vs 执行者)在结构化协议约束下对话时,可以自主完成复杂任务,无需人工逐步干预。
10-MAS
MCP(Model Context Protocol):解决 Agent 与工具/数据源的连接(Host ↔ Server)
10-MAS
静态 DAG 的局限:传统工作流引擎(Airflow、Prefect 等)要求在运行前确定完整的 DAG 拓扑。一旦启动,节点集合与依赖边均固定,无法根据中间执行结果裁剪冗余分支或插入新必要节点。当业务逻辑含有"发现 A 就不需要 B"或"发现 C 就需要新增 D"的条件语义时,静态 DAG 只能用 stub 节点 + 空操作变通,徒增图复杂度。
10-MAS
传统补货系统是轮询式(定时跑批),每日/每周检查库存状态。事件驱动架构(Event-Driven Architecture)改为推送式:事件发生时立刻触发对应 Agent,实现毫秒级响应而非天级延迟。
10-MAS
EvoSC(Self-Consolidation for Self-Evolving Agents,arXiv 2602.01966,2026年2月)解决了现有 Agent 自我进化框架的两个根本缺陷
10-MAS
母婴品牌在亚马逊/独立站同时运营,SKU 达 500+,跨境仓(海外仓 + 国内直发)补货涉及 DHL/UPS 运输周期(15-30 天)、海关清关(3-7 天)、Amazon FBA 入仓(1-5 天),任何一环延误都导致断货(Lost Buy Box,单 SKU 日损失 2,000-8,000 元)
10-MAS
传统 LLM Multi-Agent System(MAS)中,Agent 之间通过自然语言传递信息。
10-MAS
Helicase 是一个自主多 Agent LLM 系统,将高层供应链查询(如"某奶粉品牌的原料来源")分解为可执行调查计划,通过专业 Agent 协作增量构建带不确定性标注的知识图谱。名字来源于生物学的螺旋酶——螺旋式展开 DNA,隐喻系统通过迭代循环逐层揭示知识。
10-MAS
诊断:用单一 LLM 直接生成竞价出价,会产生"竞价幻觉"——LLM 对价格的量化感知不准确,输出如 `$15.00`(实际均值 $0.80)的离谱出价。
10-MAS
`Skill-Agent-Safety-Guardrails` 保护的是单个 Agent 免受提示注入攻击。但 MAS 中的攻击比单 Agent 复杂 10 倍:攻击者可以利用多个 Agent 之间的信任关系和通信路径发动群体级攻击。
10-MAS
`Skill-Multi-Agent-Debate` 解决的是"如何让多个 Agent 通过辩论收敛到更好的答案"——这是非正式共识。MAS 共识机制解决的是更严格的问题:在部分 Agent 可能失败或说谎(Byzantine 容错)的情况下,如何保证整个系统仍能达成一致且正确的决策,并有数学证明?
10-MAS
`Skill-Helicase-Supply-Chain-KG-MAS` 解决的是"如何让 MAS 构建一个静态知识图谱"——一次性构建,然后查询。动态 KG 协同解决的是更难的问题:知识在持续演变,多个 Agent 同时读写 KG,如何保持 KG 的一致性、处理冲突、并让 KG 与 Agent 共同进化?
10-MAS
MAS 中 Agent 之间传递消息,但消息的可信度并不相同——某个 Agent 可能已被攻击者控制(Sleeper Agent),在积累足够信任后才触发恶意行为。动态信任管理解决的问题是:在没有可信第三方的情况下,每个 Agent 如何评估其他 Agent 发来消息的可信度,并据此决定接受或拒绝。
10-MAS
MAS Orchestrator 是多 Agent 系统的"中枢神经系统",负责协调多个子 Agent 的执行顺序、数据流转、状态同步和错误恢复。核心洞察:分解后的子任务需要一个可靠的调度器来管理它们的生命周期——启动、监控、通信、容错、收尾。
10-MAS
MAS 生产化最常见的失败不来自 Agent 逻辑,而来自资源竞争:多个 Agent 并行调用同一个限速 API,导致连接重置、HTTP 502、上下文泄漏、Zombie Agent 挂起。这些问题在操作系统领域早已有成熟解法——HiveMind 和 AgentRM 把 OS 调度理论直接搬到 MAS 层。
10-MAS
1. 性能坍塌问题:新 Agent 加入时,系统路由还不了解其能力,导致任务分配混乱、性能下降
10-MAS
MAS 的失败模式与单体软件完全不同:Agent 之间的交互是非确定性的,工具调用可能失败,Agent 可能陷入死循环,而这些问题用传统单元测试根本无法发现。MAS 专用测试体系需要解决三个独特问题
10-MAS
传统 MAS 评估聚焦模型级(Model-Level):固定 framework,换 LLM 比性能差异。MASEval 提出系统级(System-Level)评估范式,将完整 MAS 系统(模型 × Framework × 协调逻辑)作为原子评测单元,形成 3×3×3 全因子实验设计:3 个 LLM backbone × 3 个 Agent Framework(smolagents/LlamaIndex/AutoGen 等)× 3 种协调逻辑(顺序/并行/自适应)。
10-MAS
MetaGPT 将人类组织中的 Standardized Operating Procedures(SOP,标准作业程序) 引入多 agent 协作。核心洞察:复杂任务失败的主要原因是 agent 间缺乏标准化协作规范和结构化信息传递。通过模拟软件公司的角色分工(PM → Architect → Engineer → QA)和文档驱动的工作流,MetaGPT 显著减少了多 agent 协作中的幻觉和级联错误。
10-MAS
- LLM 生成初始答案后,即使答案错误,也会在后续反思中"维护"这个答案
10-MAS
Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。
10-MAS
ReAct (Reasoning + Acting) 提出了一种推理与行动交织的范式。核心洞察:纯推理(Chain-of-Thought)容易幻觉,纯行动(Tool Use)缺乏规划——只有把两者交替进行,才能既保持思维连贯性又确保信息准确性。
10-MAS
Reflexion 提出了一种言语强化学习(Verbal Reinforcement Learning)机制。核心洞察:传统 RL 需要更新模型权重,成本高且难以解释;而 LLM 可以通过自然语言形式的"自我反思"来改进策略,无需任何权重更新。
10-MAS
SDOF 将 Multi-Agent System(MAS)的执行流程建模为有限状态机(FSM),通过双层防护机制确保 Agent 行为的合法性。
10-MAS
Self-Refine 是一种让 Agent 对自身输出进行批评和改进的迭代机制。核心洞察:语言模型不仅能生成内容,也能评估和改进内容——利用同一模型的双重能力,实现无需外部监督的自我进化。
10-MAS
Skill Registry 是 MAS 工作流的核心基础设施,负责管理所有可用技能的元数据、依赖关系和运行时状态。核心洞察:一个可扩展的多 Agent 系统必须能动态发现、加载和组合技能,而不是硬编码固定流程。
10-MAS
Subagent Decomposer 负责将复杂的 Task Blueprint 分解为可独立执行的子任务,并分配给专门的子 Agent。核心洞察:复杂任务(如"生成全品类 VOC 周报")无法由单个 Agent 高效完成,必须分解为并行/串行的子任务,每个子任务由最优技能的子 Agent 执行。
10-MAS
Tree of Thoughts (ToT) 将 LLM 的推理过程从线性链式思维(Chain-of-Thought)扩展为树状搜索。核心洞察:人类解决复杂问题时会探索多条路径、评估中间进展、在死胡同回溯——LLM 也应该具备这种"深思熟虑"的能力。
11-AI人文
钩子(Hook) → 冲突(Conflict) → 解决(Resolution) → 行动召唤(CTA)
11-AI人文
AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求:AI 客服首条消息必须声明身份;AI 生成内容必须标注。母婴场景额外要求:当 AI 给出健康/营养建议时,必须附注"请咨询儿科医生"。
11-AI人文
母婴高风险购买决策(奶粉品牌、安全座椅、辅食选择)的特点是:消费者需要理由才能信任推荐。研究表明,在高风险品类中,"不知道为什么推荐"比"不推荐"更会降低购买意愿。黑盒 AI 推荐的三个信任障碍
11-AI人文
本卡片采用 LoRA + Prompt Tuning 跨模态迁移范式,将 AI 技术概念通过类比映射转化为人文疗愈语言。
11-AI人文
AI 生成文本与人类写作在统计层面存在系统性差异,可通过以下三类特征加以量化鉴别
11-AI人文
文化语境的不可迁移性——相同语义在不同文化中承载截然不同的消费偏好信号。
11-AI人文
情绪识别:通过关键词匹配(域内词典)+ 句式特征(连续感叹号、全大写)识别用户情绪状态,将其分级为 CALM / ANXIOUS / FRUSTRATED / ANGRY / FRIGHTENED 五档。母婴高压场景(安全召回、产品危害)优先触发 FRIGHTENED 级别,绕过普通情绪判断逻辑。
12-ML基础
交叉验证解决"模型在未知数据上表现如何"的问题——不是依赖一次 train/test split 的"运气",而是通过多次切分平均来获得稳健的泛化能力估计。
12-ML基础
核心思想:生产 ML 模型上线后,输入数据的分布会随时间偏移(用户行为变化、季节性、竞品冲击),导致模型悄然失效。数据漂移检测通过持续监控特征分布(统计漂移)和预测误差(性能漂移)两条并行轨道,在模型失效前触发告警和重训——区别于异常检测,漂移检测关注的是系统性、持续性的分布偏移,而非偶发性异常点。
12-ML基础
跨境平台上架 50 款新款婴儿车,无任何历史购买数据,纯 ID 嵌入无法初始化,导致新品在推荐系统中几乎不曝光(冷启动问题)
12-ML基础
单独用 XGBoost 预测流失 AUC=0.82,单独用 LightGBM AUC=0.81,单独用 Random Forest AUC=0.78
12-ML基础
核心问题:模型效果的上限由特征质量决定。同样的算法,好的特征 vs 差的特征,效果可能差3-5倍。特征工程是"把领域知识注入模型的艺术"。
12-ML基础
我们从多个数据源(CRM、广告平台、网站分析、客服系统)汇总了 200+ 特征
12-ML基础
默认参数的 XGBoost 流失预测 AUC=0.78,希望通过超参调优提升到 0.82+
12-ML基础
流失率 5%,直接用 XGBoost 训练,Recall 只有 0.3——70% 的流失用户没被识别
12-ML基础
模型评估体系解决"模型到底好不好"这个问题——不是凭感觉,而是用标准化的量化指标从多个维度衡量模型表现。这是所有预测建模的基础能力,也是 ML 工程中模型选型、A/B 测试结果判读、生产监控的必备技能。
12-ML基础
核心思想:数据漂移检测(Skill-Data-Drift-Detection)解决的是"输入变了吗",模型性能监控解决的是"输出还准吗"。两者共同构成生产 ML 模型的完整健康体系。性能监控通过滑动窗口持续评估 AUC/MAPE 等指标,配合 Shadow Mode(新模型静默跑)和 Champion-Challenger(A/B 对比)两种灰度部署模式,在不影响生产的前提下验证新版本并安全切换。
12-ML基础
1. 稀疏性:长尾 SKU 历史销量不足(< 30 天),传统特征工程无法直接应用
13-广告分析
用户从第一次看到广告到最终下单,平均接触5-7个触点(Facebook视频、Google搜索、TikTok短视频、再营销广告、邮件)。
13-广告分析
FB 吸奶器广告点击后:35% 进详情页 → 12% 加购 → 5% 首购 → 2% 复购
13-广告分析
LLM 在生成商品文案、广告文案、客服回复时可能无意间违反平台规则(医疗声明、安全认证、受限品类)。Compliance Guardrail 在 LLM 输出端建立三层过滤——从确定性规则匹配到风险评分到人工升级——确保所有面向亚马逊的内容合规。
13-广告分析
用户点击吸奶器广告,进入品牌店铺后转而购买了储奶袋和奶瓶
13-广告分析
核心思想:仅用聚合级别的每日广告曝光量与总订单数,无需任何 User ID 或 Cookie 追踪数据,通过时序因果图谱量化各渠道对转化的真实贡献比例。
13-广告分析
广告素材疲劳(Creative Fatigue)是指:同一批用户反复看到相同广告后,CTR、CVR 等核心指标持续衰减的现象。
13-广告分析
孕晚期用户购买周期 6-8 周,在"下定决心买推车"后主动搜索并点击所有重定向短信/DPA 广告
13-广告分析
母婴用户在 TikTok 看到吸奶器短视频种草,切换到 Safari 搜索品牌名进独立站下单
13-广告分析
将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图
13-广告分析
母婴 DTC 品牌(如储奶袋/吸奶器)同时在 Google Ads(搜索意图强)、Meta(品牌认知+再营销)、TikTok Shop(内容种草+购买)三个渠道投放
13-广告分析
WF-B 广告优化的核心是"自动词拉取质量"——母婴搜索词意图复杂(月龄敏感/信息查询/购买意图),错分会导致广告全链路失效. 本论文用两层意图分类:① Label Hierarchy(标签图 GCN + 注意力)让 fine-grained 子类感知父类约束;② Instance Hierarchy(对比学习负对)区分同父类不同子类的查询;③ Neighborhood-aware Sampling(自训练)解决少数类(敏感词 0.05%-0.15%)冷启动. 在 Amazon 真实搜索数据上超
13-广告分析
核心思想:用户在多设备间切换(手机看广告、电脑下单)导致底层 Cookie/IDFA 无法跨端串联,同一真实用户被拆分为多个"碎片化身份"。这使得广告平台看到的 ROAS 严重失真——有的记录"只有曝光没有购买",有的记录"只有购买没有广告"。算法通过 Stratified Aggregation(分层聚合) 在 Cohort 层面重建真实曝光与购买的对应关系,无需跨设备图谱,还原因果 ROI。
13-广告分析
某母婴品牌每月新品 8-12 个 SKU,人工撰写一套完整 Listing(标题+5条Bullet+描述+后台ST)需要 2-3 小时/SKU,月均耗时 20-30 小时
13-广告分析
核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。
13-广告分析
母婴品类广告投放中,自动化广告(Auto Campaign)会将产品匹配到大量搜索词。
13-广告分析
Momcozy / Graco 等大牌同投 Google Search + Facebook DPA + TikTok Shop
13-广告分析
WF-B 跨渠道归因痛点:Amazon 14d-click、Meta 7d-click、TikTok 7d-click 归因窗口不一致,Last-Click Mechanism (LCM) 让平台策略性延迟上报点击时间抢归因信用,LCM 不满足 DSIC (Dominant Strategy Incentive Compatible),准确率最低可趋近于 0. PVM (Peer-Validated Mechanism) 让每个平台的归因信用仅依赖其他平台的报告而非自身,消除策略操控动机,理论最
13-广告分析
广告预算有限,如何在不同渠道(Facebook/Google/TikTok)、不同 campaign、不同受众之间分配,使总ROAS(广告支出回报率)最大化?
13-广告分析
传统 CVR(转化率)模型只建模"点击→购买",忽略退款行为,导致
13-广告分析
给未揭示样本强行打硬标签:未转化样本强标为负样本,引入严重偏差
13-广告分析
TikTok Shop 的归因困境与传统广告归因有本质差异
14-用户分析
传统 LLM 摘要"无约束自由生成"产生幻觉(摘要包含评论中不存在的属性). AGRS 把摘要任务结构化:ABSA 提取 aspect-sentiment → canonical 归一化 → 代表性评论加权采样 → 结构化 prompt 引导 LLM 生成. 100% 基于真实评论,根本规避幻觉. 4 阶段 pipeline 端到端可扩展到百万产品.
14-用户分析
块缺失(Block-wise Missing)的独特挑战:当一整段时间(如连续3天)或一个完整维度(如某渠道所有数据)缺失时,传统插值方法(线性插值、KNN、MICE)依赖"相邻元素"做预测,在块缺失场景下这些邻居全部不存在,方法直接失效。
14-用户分析
核心问题:新用户来了之后,第7天还剩多少?第30天呢?第90天呢?不同月份来的用户,留存曲线一样吗?Cohort分析把用户按"首次活跃时间"分组,追踪每组的留存轨迹。
14-用户分析
用户购买行为包含丰富的人群信号,但直接为百万用户调用 LLM 标注成本极高。GPLR 解决这个矛盾:用少量 LLM 标注 + 图结构传播覆盖全量用户。三步流程:① Diversity-Uncertainty(DU)采样选出最有代表性的"原型用户"做 LLM 标注;② LLM 基于购买历史为原型用户赋予 Persona 标签;③ 在用户-产品交互图上随机游走,将标签从有标注用户传播至全量未标注用户。
14-用户分析
Momcozy 在德/法/西市场每月接收 5000+ 母语客服工单(如德语 "Die Verpackung ist sehr schwer zu öffnen"). 传统做法用 Google Translate 翻译成英文后跑英文 ABSA,翻译会丢失 aspect 对齐("Verpackung" → "package" 时 BIO 边界错位 30%+). 跨境品牌每月因机翻错误导致工单
14-用户分析
Momcozy M5 吸奶器在美国/德国/中国三市场销售,各市场用户痛点完全不同(美国关注续航便携、德国关注静音认证、中国关注清洗方便). 现有运营复盘只产出"差评列表",无法直接驱动产品改进决策——产品经理拿到差评列表还要花 1-2 周二次提炼 - 数据要求:三市场 Amazon Review API + market 标签 - MAA 配置: - 按市场分别聚类(K=5,每市场 5
14-用户分析
母婴出海电商的客服场景中,买家使用西班牙语、德语、日语等多语言发起售后投诉,直接机器翻译存在两大失真
14-用户分析
母婴独立站(如 Momcozy/Graco 品牌站)的首页、分类页(奶瓶/奶粉/童车)、搜索页在转化漏斗中起什么作用
14-用户分析
Momcozy 在 Amazon US 的 S9/S12 系列累积数万条评论,但产品团队只能依赖人工抽查了解用户诉求,无法识别"职场背奶妈妈"与"新手妈妈"在痛点上的差异,导致广告文案和详情页对所有人说同样的话,转化率损耗严重 - 数据要求: - Amazon Review 数据(user_id、product_id、评论文本、评分、时间戳),CSV 格式 - 数量:每 SKU ≥ 50
14-用户分析
1. Cannibalization(自相残杀):把折扣发给"本来就会买"的高意愿用户,白白损失利润
14-用户分析
想进入"电动吸奶器"品类,但已有 Momcozy/Medela/Spectra 等强竞品
14-用户分析
现有时序→空间的序贯方法在块状缺失(block-missing)场景下失效——当某个渠道或时段整块数据缺失时,无法提取有效特征。同时,静态图结构无法适应分布偏移(非平稳流量数据的动态空间依赖)。
14-用户分析
现有电商推荐系统多依赖商品标题、价格等表层属性推断用户意图,且只关注单次购买或单会话内的短期偏好变化。SessionIntentBench 的核心创新在于:提出意图树(Intention Tree)概念,通过跨会话建模用户意图的时序演化,构建大规模多模态意图基准。
14-用户分析
传统推荐系统的致命缺陷:每次会话从零开始——用户上周告诉导购"我要有机配方奶",下次进来又要重新解释,累计咨询成本极高,转化率低。Shopping Companion 的创新在于构建跨会话长期偏好记忆,将用户偏好结构化存储,Agent 可在后续会话中直接调用,像"私人导购"一样记住每位用户的长期喜好。
14-用户分析
传统矩阵补全(如 SoftImpute、ALS)假设"大部分条目可观测",但电商session的页面转移矩阵天然稀疏——每个用户session只有3-5次页面跳转,导致采样概率 `p = C/d`(C≈2-5, d=页面类型数),绝大多数转移对从未被同一用户触发。
14-用户分析
Momcozy 暖奶器在 Amazon US/DE 各 5000+ 评论,差评包含细碎复合表达(如"加热慢又不均匀,温控也不准"). 传统 ABSA 把整句标注为"加热问题",丢失了 3 个独立改进点;直接用 LLM 总结容易生成评论中不存在的属性(如"接口设计差") - 数据要求:Amazon Review API 双市场评论 - StaR 配置: - Step 1 Candidate
14-用户分析
传统序列推荐模型只看单会话内的商品点击序列,TRACE 的创新在于:把整个用户的多会话页面浏览历史(包括首页、搜索页、详情页、购物车、结账等各类页面,跨越数天甚至数周)打包成一条有序序列,送入轻量级 Transformer Encoder 学习全局用户状态嵌入。
14-用户分析
同样的流量,为何不同渠道/设备/浏览器的转化率差异如此悬殊?
14-用户分析
母婴电商需要桑基图展示用户从首页→搜索→PDP→加购→支付的流量宽度
14-用户分析
用户从"知道品牌"到"下单购买"要经历多个步骤。
14-用户分析
用户上月购买了 Stage 1 奶粉,系统推断宝宝约 2-3 月龄
14-用户分析
Utimac 的核心洞察是:不直接补全矩阵条目,而是推断数据生成过程的参数(Estimate the Process, Not the Entries)。
15-营销投放分析
传统多触点归因(Multi-Touch Attribution, MTA)依赖用户级点击路径数据:追踪每个用户从广告曝光→点击→转化的完整旅程,才能判断各渠道贡献。
15-营销投放分析
Facebook 月预算从 $5 万加到 $8 万后,ROAS 从 3.2 掉到 2.1
15-营销投放分析
Momcozy 在美国 Prime Day 前一周突然将吸奶器搜索广告预算翻倍,我们的 impression share 从 22% 跌到 14%
15-营销投放分析
某母婴辅食品牌在美国市场同时投放 Amazon Ads、Meta(FB+IG)、TikTok,月均广告预算 $15 万美元,但各渠道的 adstock 效应差异显著(TikTok 内容影响力可持续 2-4 周,Amazon 关键词效果衰减快)
15-营销投放分析
婴儿推车季节性爆款上线,Google Ads 历史只有 3-5 周数据,传统规则策略难快速找到最优出价时段 - 数据要求:近 3-5 周 Google Ads ROAS 时段数据 + 月度总预算 - DARA 配置:T = 7(一周)或 24(一天时段);Phase 1 LLM 读历史生成日预算向量;Phase 2 每日 ROAS 反馈调整下一日 - 业务价值:冷启动期 ROAS 提升
15-营销投放分析
匿名访客(未授权追踪)向 AI 助手提问穿搭,传统推荐因无 Cookie 完全失效,品牌白白流失高意图实时流量 - 数据要求:用户自然语言查询文本 + SKU 库(含品类、场景标签、图片描述)+ 广告主实时出价 - GenAI 方案: - 用户问:"我下周去海边参加婚礼,梨形身材,有什么建议
15-营销投放分析
同一广告在美国加州和德国巴伐利亚的效果完全不同。Geo-level 分析用地理准实验(Geo Experiment)估计各区域的因果营销效果,避免全国平均掩盖的区域异质性。
15-营销投放分析
CMO 拿到内部 MMM 报告,显示"TikTok ROAS 极高远未饱和,建议把 Meta 预算砍半全移给 TikTok"
15-营销投放分析
营销归因的核心难题是数据孤岛:广告平台(Meta/Google/TikTok)、CRM(Salesforce/HubSpot)、电商平台(Amazon/Shopify)、社交媒体各持一方数据,无法直接关联。数据管道需要解决
15-营销投放分析
品牌每个月在不同渠道(Facebook、Google、TikTok、KOL、线下)投入数百万广告费。
15-营销投放分析
$30 万月预算要同时做三件事——黑五冲销量(短期 ROI)、母婴博主种草(品牌搜索量)、新款吸奶器 S2 预热(新品曝光)
15-营销投放分析
促销活动期间销售额暴涨30%,这是促销的真实效果,还是"本来就会买的用户"恰好遇到了促销?
15-营销投放分析
基于营销投放数据提前 3-7 天预测物流需求峰值,驱动仓储/运力的前置性扩容决策。
16-智能体工程
传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。
16-智能体工程
Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式
16-智能体工程
AgeMem 是首个将 LTM(长期记忆)和 STM(短期记忆)统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块,由外置 Memory Manager 或启发式 trigger 决策,导致组合效果差、部署成本高(需要额外 expert LLM)。AgeMem 的突破在于:记忆操作本身就是 action,由同一个 LLM policy 通过 RL 学习"何时调什么"。
16-智能体工程
传统 SRE 错误预算是单向消耗品:违反 SLO 就消耗预算,预算耗尽就停止发布,恢复后窗口重置。Agent 双向错误预算在此基础上引入自主权预算(Autonomy Budget):好行为可以赢回预算,自主权随可靠性动态升降。
16-智能体工程
Agent 执行可能因 API 超时、LLM 输出格式错误、工具返回异常而失败。容错机制:(1) Retry with exponential backoff($t_{retry} = \min(t_{base} \cdot 2^n, t_{max})$);(2) Fallback 策略——LLM 失败切备选模型,工具失败用简化版;(3) Circuit Breaker——连续失败 N 次后停止尝试,避免雪崩。
16-智能体工程
WF-D 选品扫描工作流中,AI 导购 Agent 根据母婴产品描述为用户推荐商品
16-智能体工程
传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补
16-智能体工程
LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护:(1) 输入过滤——检测注入模式;(2) 工具调用前置验证——参数白名单+范围检查;(3) 输出审计——敏感信息脱敏。
16-智能体工程
EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角
16-智能体工程
AgentTrace 的核心洞察是:多 Agent 系统(MAS)的故障传播是确定性的因果链,而非需要 LLM 进行语义推理的模糊问题。
16-智能体工程
为什么基础设施沙箱不足:容器/seccomp 工作在系统调用层,不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法,但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作,理解"操作意图"而非仅检查"操作权限"。
16-智能体工程
AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致
16-智能体工程
每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天
16-智能体工程
Atomix 为 Agent 工具调用引入事务语义,解决多步 Agent 工作流在故障(网络抖动、服务超时、LLM 幻觉)下产生的中间态污染问题。无事务保护时,30% 故障注入场景的成功率仅 0-7%;Atomix Tx-Full 模式将其提升至 37-57%,媲美快照回滚(CR)。
16-智能体工程
母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张
16-智能体工程
RAG 的局限:被动检索,只能复用已显式存入的知识,无法从对话轨迹中自动归纳模式;Fine-tuning 的局限:参数固化后无法增量更新,每次新能力都需全量重训,知识以黑盒形式埋在权重里,不可审计不可编辑。
16-智能体工程
部署时学习(Deployment-Time Learning, DTL) 是 CASCADE 提出的第三个 LLM 生命周期阶段:预训练(Pre-training)→ 微调(Fine-tuning)→ 部署时学习。现有方案只在前两个阶段学习,部署后模型冻结,无法从实际使用中积累经验。
16-智能体工程
传统方式将 API Key 存入环境变量或配置文件,Agent 运行时直接读取。Prompt Injection 攻击可诱导 Agent 将密钥外泄。CapSeal 彻底切断 Agent 与明文密钥的直接联系。
16-智能体工程
CausalFlow 将 Agent 的一次执行视为有序步骤序列
16-智能体工程
EvoSkills 解决 LLM Agent 多文件 Skill 包自动生成的两个根本挑战
16-智能体工程
跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)
16-智能体工程
不是所有 Agent 任务都需要 GPT-4——简单分类任务用 SLM(Small LM),复杂推理用 LLM。成本感知调度根据任务复杂度动态路由到最优模型。
16-智能体工程
语言翻译是跨境电商的最低门槛,真正影响转化的是文化适配:同一款婴儿奶粉,美国妈妈关注"科学配方/AAP认证",德国妈妈关注"有机/欧盟标准",日本妈妈关注"安心品质/无添加"——这些差异不是语言问题,而是深层文化价值观差异。
16-智能体工程
传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题
16-智能体工程
训练 LLM Agent 执行超长时域任务(50+ 步)面临两大瓶颈
16-智能体工程
Google A2A 和 Anthropic MCP 这两大主流 Agent 通信协议存在共同缺陷:不暴露模型级属性。
16-智能体工程
LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题:在 100 轮搜索会话中,若每张图片直接嵌入为 base64(约 1,000-3,000 tokens),50 张图片就会占用 50,000-150,000 tokens,远超实用预算。
16-智能体工程
Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。
16-智能体工程
The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议
16-智能体工程
MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。
16-智能体工程
间接 Prompt Injection(IPI) 的核心机制:攻击者无法直接访问 Agent 的系统提示,但可通过控制 Agent 抓取的外部内容(商品描述、用户评论、网页正文)向 Agent 上下文注入恶意指令,使 Agent 偏离原始任务目标执行攻击者意图。
16-智能体工程
MemAct(Memory-as-Action) 把"记忆管理"从外部启发式控制器(sliding window / 外部 summarizer)升级为 agent policy 内嵌的可学习 action
16-智能体工程
Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。
16-智能体工程
随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。
16-智能体工程
最小权限原则在 Agent 中的实现:传统应用最小权限通过 OS/IAM 静态配置实现,但 LLM Agent 的工具调用集合在运行时动态变化,需要动态感知策略。Progent 用符号规则表示权限策略:`{tool: "purchase_order.create", constraints: {"amount": {"max": 1000}}}`,支持在任务执行中实时评估。
16-智能体工程
ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架(arXiv 2601.06112,2026年1月)。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面
16-智能体工程
AWS 2026 年的实证研究证明:通过领域特定 SFT,仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation,导致"参数稀释"。
16-智能体工程
为什么容器/microVM 不适合短命令 Agent:Docker 容器启动需 500ms-2s,microVM(Firecracker)需 125ms+,对于每次工具调用仅数十毫秒的 Agent 来说开销过大。Sandlock 通过 Rust 实现,启动延迟 5ms,专为短命令高频执行设计,Redis 集成零额外开销。
16-智能体工程
SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题
16-智能体工程
AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超 模型选择 的贡献,成为系统性能的主变量。
16-智能体工程
当 Agent 系统规模膨胀至 100+ 工具时,手动注册成为瓶颈:每次新 API 上线都需要开发者手工编写 ToolDefinition、更新路由表、验证参数类型——一个典型企业集成需要 2 个工作日。
16-智能体工程
LLM 工具调用存在系统性错位:模型既会过度调用(把可推理的问题交给工具),也会遗漏调用(低估工具对复杂查询的价值)。根本原因在于模型自感知与任务实际需求之间存在认知盲区——模型过度自信于自身知识覆盖,却对边界外的未知盲区无感知。
16-智能体工程
Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。
16-智能体工程
通用 VLM(如 GPT-4V、LLaVA 等)在电商场景表现欠佳,根本原因是三大领域偏差:同款多图(同一产品的主图/侧面图/背面图/细节图共享同一 listing,模型需跨图聚合)、属性中心化(电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色",与图片描述类任务截然不同)、噪声图片(用户上传的低质量/遮挡/非标图占比极高)。
16-智能体工程
XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制,执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化
17-价格优化
业务痛点:吸奶器年度销量呈强季节性(Q3-Q4 旺季 GMV 占全年 65%),且 Momcozy 经常在大促前一周大幅降价抢占位次
17-价格优化
1+1>2 的定价魔法——吸奶器 + 配件捆绑包的总价不是简单相加,而是利用消费者对捆绑包的心理估值高于单品之和(或互补品的联合需求),找到最大化总利润的捆绑价格。
17-价格优化
竞品价格监测不只是"看别人卖多少钱",而是建立价格-转化率的因果响应模型,在竞品降价时量化"不跟降会损失多少"和"跟降能获得多少",做出有数据支撑的响应决策。
17-价格优化
上下文定价(Contextual Dynamic Pricing)将传统 MAB 定价问题扩展为依赖上下文的序贯决策。买家的潜在估值(valuation)被建模为
17-价格优化
同一 SKU 在美国、德国、英国定价不能完全独立——消费者会跨市场比价,亚马逊全球店铺会显示价格差异。需要在"市场本地化定价"和"全球价格一致性"之间找最优平衡。
17-价格优化
吸奶器在美国定价 $129,德国 €119,英国 £99
17-价格优化
S1 吸奶器库存 500 件,成本 $60,原价 $129
17-价格优化
在于:数据异构性(多平台格式差异)、反爬对抗(动态 JS 渲染、验证码)、实时性需求(价格窗口窄、竞品调价响应快)三重矛盾。
18-物流履约
跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合
18-物流履约
跨境物流的核心是多式联运路径优化——海陆空铁四种运输方式在不同路段的成本/时效组合中找最优。最短路径 Dijkstra 扩展为多目标(成本、时效、碳排放)Pareto 最优路径。
18-物流履约
从历史配送记录中提取经验分位数,用 P95 分位数作为保守承诺基线
18-物流履约
传统需求预测(DeepAR、Prophet)将每个 SKU 独立建模,忽视了商品间的需求传导效应:奶粉缺货时纸尿裤也会滞销;新款婴儿车上市带动安全座椅需求。GraphDeepAR 的核心创新是将商品间关联关系显式建模为图结构
18-物流履约
预测从"到达目的国仓库"到"用户签收"的时长。用生存分析(Cox PH 或 AFT 模型)建模配送时长分布,考虑承运商、目的地邮编区、包裹体积、节假日等协变量。
18-物流履约
"Item Not Received"(INR)欺诈是跨境母婴电商最常见的纠纷类型,占纠纷总量约 35%
18-物流履约
预测退货概率 + 优化退货处理路径。退货概率用 XGBoost 建模(产品类别、价格、用户历史退货率、配送时长),退货处理用规则+成本优化——退货到 FBA vs 第三方仓 vs 弃置。
18-物流履约
传统安全库存公式($SS = Z \cdot \sigma_{LT} \cdot \bar{D}$)基于正态分布假设,但实际跨境供应链中交货期呈现两个典型特征
19-风控反欺诈
检测广告点击中的无效流量(IVT)——Bot 点击、竞品恶意点击、重复点击。用时间序列异常 + 行为模式识别。
19-风控反欺诈
核心思想:在"产品 → 评论 → 评论者"三方动态异构图上检测刷评团伙群组。不看单条评论文本质量,而是看评论者之间的网络行为模式——真实用户构成稀疏随机网络,刷评团伙则共现密集、行为高度同步。
19-风控反欺诈
欺诈检测系统的核心上限由欺诈信号采集的覆盖度和质量决定。母婴电商面临的三类典型欺诈
19-风控反欺诈
核心思想:LLM 生成的虚假评论文本质量极高(语法流畅、情感真实),传统文本特征工程(词频/情感/长度)已失效。FraudSquad 转变思路——不只看"单条评论写得怎样",而是看"这个评论者在评论图中的行为模式是否异常"。
19-风控反欺诈
核心思想:三维欺诈信号融合检测账号欺诈——设备指纹相似度(识别同一设备多账号)+ 行为序列异常(购买/浏览模式偏差)+ 账号关联网络社区(图社区发现)。三维信号通过加权融合输出欺诈概率,任一维度异常均触发预警。
19-风控反欺诈
GNN 图神经网络检测虚假评论——不是看单条评论文本,而是看评论者-产品-评分之间的关系图。虚假评论团通常呈现异常图模式:同批次账号、评分极端(1 或 5 星)、评论时间集中、文本相似度高。
19-风控反欺诈
Isolation Forest + 动态阈值检测异常交易模式。特征:订单金额、支付方式、IP 国家 vs 收货国家、下单到支付间隔、同一 IP 下单频率、地址变更次数。
20-AI视频生成
在 TikTok 美国站推吸奶器,需要大量真人主播演示视频——但海外主播贵($200-500/条),中文主播语言不通,且更换主播需重新拍摄
20-AI视频生成
母婴品牌需要在美/德/英/日 4 个市场投放品牌视频广告——每个市场需要不同模特、不同语言字幕、不同节日主题(美国感恩节/德国圣诞节/日本新年)
20-AI视频生成
如何将品牌语义(Logo、色调、产品特征)与视频扩散模型对齐,在保留用户意图(语义保真)的同时实现自然的品牌可见性。
20-AI视频生成
用 AI 生成品牌视频时,品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。
20-AI视频生成
首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列,无误差累积,支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。
20-AI视频生成
唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。
20-AI视频生成
输入 1-3 张商品参考图,生成商品保持外观一致性的动态展示视频——商品 Logo、纹理、颜色在视频全程不畸变。这解决了通用 I2V 模型的致命伤:生成视频时商品外观逐渐漂移("copy-paste"信息泄露问题)。
20-AI视频生成
端到端广告视频生成:输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿(镜头序列 + 配音脚本 + 装饰标签)。
20-AI视频生成
完整多语言短视频生成系统:角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS(百余语言)→ 特效渲染。
20-AI视频生成
- 多模态异构性:图片(JPEG/PNG/WebP)+ 视频(MP4/MOV)+ 产品页截图
21-合规决策
核心思想:在决定进入新品类之前,用 NLP + 向量聚类对历史召回数据库(CPSC/RAPEX)做自动扫描,计算该品类的「召回风险密度」和「危害类型分布」,输出风险等级(低/中/高)+ 合规成本估算,作为 WF-D 选品扫描的进入前否决门。
21-合规决策
核心思想:把 LLM 自动生成的合规风险控制从“生成后人工看一眼”升级为同步的加权评分系统。系统并行生成多个候选输出,对每个候选运行 PII、内容安全、schema、领域规则和证据引用检查,计算合规得分;一旦最佳候选超过阈值就提前返回,否则进入人工复核。
21-合规决策
核心思想:从 CPSC/NHTSA 非结构化消费者投诉文本出发,通过半参数主题模型(Hierarchical Dirichlet Process Pitman-Yor, HDPYP)自动提取缺陷主题,预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比,预测准确率提升约 14%(p<0.05),提前约 1 年预警召回事件。
21-合规决策
核心思想:构建多辖区合规矩阵(产品类别 × 目标市场 × 监管要求),自动将产品映射到所有相关监管要求,输出国家专项合规清单。通过规则引擎实现合规优先级自动排序,解决多市场同步上架的合规复杂度问题。
21-合规决策
美国:CPSC 强制性标准(16 CFR)/ FDA 21 CFR / FCC
21-合规决策
将监管机构发布的非结构化更新,自动映射到受影响产品品类,并生成优先级告警,驱动合规行动。
21-合规决策
2023 年起德国《供应链尽职调查法》(LkSG)生效,要求年营业额 >4.5 亿欧元的企业对整条供应链的合规负责。母婴出海品牌虽暂无直接法律义务,但头部零售商(Walmart/Target/亚马逊)已要求供应商提供 ESG 合规证明
22-数据采集工程
论文:SB-CLASSIFIER [2602.11874, EDBT 2026] + Neural Prioritisation [2506.16146]
22-数据采集工程
母婴跨境电商应用:独立站/APP 原始点击流 → 离散 persona token,驱动个性化推荐和 A/B 实验
22-数据采集工程
某母婴品牌通过爬虫采集 Amazon 评论,分析"打折 coupon 是否提升复购率"
22-数据采集工程
论文:Tracing Roots [2604.10480] + DEBUGLM [2603.17884]
22-数据采集工程
供应商发来的报价单是 PDF,工厂产能表是 Excel 截图,海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR(Tesseract)只能识别文字,无法理解表格结构、跨页截断、图文混排。
22-数据采集工程
论文:MESReduce [2603.08612] + MMPCBench [2601.19750]
22-数据采集工程
论文:JARVIS [2602.12941] + DS-DGA-GCN [2603.08332] + CAMERA [2605.20032]
22-数据采集工程
1. 广度优先爬取浪费资源:爬 100 个页面才找到 5 个有价值的竞品信息
22-数据采集工程
母婴爆品的"起飞时刻"通常在搜索量还很低的阶段。
22-数据采集工程
论文:SF-UBM [2604.14833] + MFG-RegretNet [2603.28329]
22-数据采集工程
论文:Sherpa.ai [2604.19219] + Cross-Domain SID [2606.01396]
22-数据采集工程
论文:Contract2Plan [2601.06164] + ProUIE [2604.10633]
22-数据采集工程
后果:用户浏览了某款婴儿车 → 系统还在推荐她上周看过的奶粉 → CTR 下降,转化率损失。
22-数据采集工程
从 Amazon、TikTok Shop、独立站同时采集的评论中,30-40% 是重复或低质量内容(同一用户多平台发布、机器生成水评、极短无意义评论)。直接用于 VOC 分析会严重扭曲洞察结论。
22-数据采集工程
论文:SIGIR'26 [2602.23620] + ICML'26 [2602.07298] + SCALR [2606.00282]
22-数据采集工程
论文:DiffSpot [2605.29615] + DOM Atomicity [2603.00476]