Causal Attribution Bridge(因果归因桥梁)
01-因果推断
传统广告归因是相关性的("点了广告→买了"),因果归因是反事实的("如果没有这个广告→还会买吗")。核心:用增量因果效应替代 naive 归因比例。
01-因果推断
传统广告归因是相关性的("点了广告→买了"),因果归因是反事实的("如果没有这个广告→还会买吗")。核心:用增量因果效应替代 naive 归因比例。
01-因果推断
核心思想:从纯观测数据(无干预、无实验)中自动发现变量间的因果结构。PC 算法通过系统的条件独立性检验,逐步剔除无关边、识别 v-structures、传播方向约束,最终输出一个有向无环图(DAG)或部分定向图(CPDAG)。
01-因果推断
共形预测的核心保证:共形预测(Conformal Prediction, CP)在无需分布假设的条件下,为任意黑盒预测模型提供覆盖率理论保证。对于置信水平 1-α(如 90%),输出的预测区间 `[lower, upper]` 在有限样本下满足:`P(y ∈ [lower, upper]) ≥ 1-α`。这一保证来自数据可交换性(exchangeability),而非 Gaussian 分布假设。
01-因果推断
Momcozy 想知道自己产品的价格弹性——价格下降10%,销量会增加多少
02-A_B实验
A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述,将学术界的最佳实践封装为可直接调用的 Python 工具包,解决电商实验中最常见的四类问题
02-A_B实验
传统固定样本量 A/B 需要等到收集满 N 个样本才分析。Sequential Testing 允许在实验过程中多次中期分析,一旦检测到显著差异即可提前停止(节省时间和样本)。用 $\alpha$-spending function 控制整体 Type I error:每次中期分析消耗一部分 $\alpha$ 预算。
02-A_B实验
同一海外仓为 Shopify/Amazon/TikTok Shop 多渠道发货,测试"AI 波次合并算法"是否降低拣货时长
03-时间序列
平台在大促期对核心母婴 SKU(纸尿裤、婴儿车)做搜索权重提升 + 首页 Banner 曝光,需要回答"如果没做促销,需求应该是多少"——避免把自然增长功劳归到促销 - 数据要求:全品类销量历史 + 促销标记 + 商品图谱(同类竞品关系) - GCF 配置:节点=SKU,边=同品类竞品,干预=促销曝光,合成控制=未受促销的同类 - 业务价值:促销 ROI 计算精度提升 30-50%,避免
03-时间序列
传统需求预测只给点估计("下月卖 1000 件"),业务需要区间估计("95% 置信区间: 850-1200 件")。Conformal Prediction 提供分布无关的、有限样本有效的预测区间,无需假设误差分布。
03-时间序列
为时序预测的每个时间步生成分布无关的预测区间。EnbPI (Ensemble Batch Prediction Intervals):用 Bootstrap 集成 + Conformal 残差构建适应时序依赖的预测区间。
03-时间序列
标准共形预测(Conformal Prediction)要求数据可交换性(exchangeability):校准集和测试集的样本可以任意排列而不影响分布。但时间序列违反这个假设——序列存在自相关性,昨天的销量影响今天的需求。
03-时间序列
某母婴品牌618大促备货奶粉 SKU(如 A2 奶粉 900g),需提前 7 天向供应商下 PO
03-时间序列
打通需求预测和库存决策——不是先预测再独立决策,而是将预测不确定性直接编码为库存策略参数。核心:服务水平优化——给定预测分布 $N(\hat{\mu}, \hat{\sigma})$,安全库存 $SS = z_\alpha \cdot \hat{\sigma} \cdot \sqrt{LT}$,其中 $z_\alpha$ 由缺货成本 vs 持有成本决定。
03-时间序列
Momcozy 60+ SKU × 多仓(上海/香港/海外仓) × 多市场(US/DE/JP),各层独立预测加总 30-50% 不一致;采购按 SKU 下单,但财务按市场聚合,两边数字对不上,月底对账 2-3 PM 天纯人工调和 - 数据要求:历史 SKU/仓/市场 三层销售时序 + 加总矩阵 S - HiFoReAd 配置: - Stage 1: LGBM + AutoETS 三月预测
03-时间序列
我们计划在北美市场投放吸奶器季节性促销活动(如母亲节、黑五)
03-时间序列
多个时序共享长期均衡关系(如吸奶器销量←→配件销量)。Johansen 协整检验确定协整向量数量,VECM 建模短期动态调整 + 长期均衡约束。$\Delta Y_t = \Pi Y_{t-1} + \sum \Gamma_i \Delta Y_{t-i} + \epsilon_t$,其中 $\Pi = \alpha\beta'$($\beta$ 是协整向量,$\alpha$ 是调整速度)。
03-时间序列
业务时序数据充满"人造季节性"——黑五、Prime Day、圣诞促销让销量暴涨,春节让物流停滞。
03-时间序列
传统需求预测依赖离线批处理(T-1 日数据训练,次日生效预测),对突发事件(爆品上线、竞品大促、舆情事件)响应迟滞 12-24 小时。
03-时间序列
核心思想:TFT 是一种专为多水平时间序列预测设计的深度学习架构,能够同时处理静态特征(如产品类别)、时变已知特征(如节假日)和时变未知特征(如历史销量),并提供可解释的预测结果。
03-时间序列
基于历史销售数据,预测未来一段时间的需求量,从而指导备货、定价和供应链决策。
03-时间序列
如何让 LLM 的世界知识真正改善时间序列预测,而不仅仅是把数值序列塞进 Prompt 让 LLM 凑答案。
04-供应链
供应链的需求预测不同于通用时序预测——它必须考虑促销日历、竞品行动、渠道库存、季节性生命周期等商业因素。
04-供应链
核心思想:供应商的 MOQ(最低起订量)和价格阶梯(all-units discount)把补货决策从"按需订货"变成了一个权衡题——少订安全但单价高,多订便宜但压库存。Q-jump (s,S) 策略给出了在随机需求+all-units折扣下的最优解:当库存触发订货点 s 时,根据「凑量判据」决定是按实际需求量订还是直接跳到折扣门槛 Q。
04-供应链
FSDA-DRL(Fast-Slow Dual-Agent Deep Reinforcement Learning)用两个独立的 RL 智能体,在不同时间频率上分别解决"定价"(快决策)和"补货"(慢决策)问题,并通过共享环境状态让它们协作而非博弈。
04-供应链
核心思想:库存健康诊断不是"某个 SKU 库存多少",而是回答三个问题:① 这批货还能动吗(FSN分级)?② 过多还是过少(Over/Under stock 三态)?③ 为什么和计划不一样(供应计划方差归因到4类根因)。同时严格区分「预测准确率(Forecast Accuracy)」和「计划准确率(Plan Accuracy)」——两者可以完全脱钩。
04-供应链
母婴跨境海运提前期(Lead Time, LT)在 25-50 天剧烈波动(苏伊士事件/港口拥堵). 传统安全库存假设 LT 固定,实际服务水平远低于设定值(设 95% 实际只有 85%). Gen-QOT 用深度自回归生成模型对 LT 进行分布式建模(不假设参数分布),并把"订单整批到货"扩展为分批随机到达(QOT, Quantity-Over-Time),精确建模拼箱拆批到港行为. 动态安全库存自适应季节性 + 港口拥堵期.
04-供应链
传统价格弹性估计依赖计量经济学方法(log-log OLS、AIDS 等),需要强函数形式假设,且难以处理高维商品特征、季节性、竞品价格等复杂交互。Walmart 团队提出的 Monodense Deep Learning Model (DLM) 通过深度学习实现无需对照实验(treatment-control free)的单品级弹性估计。
04-供应链
吸奶器在 Amazon FBA 仓缺货(销量超预期),但独立站海外仓还有 200 件积压,TikTok Shop 也在慢速消化——三渠道信息不互通,总库存 800 件却出现"某渠道缺货 + 某渠道积压"
04-供应链
如何在供应链的多个节点(工厂→仓库→配送中心→门店)之间分配库存,使得总成本最低的同时保证服务水平。
04-供应链
场景 A:季度 $200K 预算在 8 个核心 SKU 间分配
04-供应链
在一个从工厂到终端消费者的多层级供应链网络中,决定在哪里建哪类设施、各层级之间如何连通,使全链路固定成本和运输成本之和最小。
04-供应链
核心思想:把"建哪些仓"和"怎么配送"这两个原本耦合的 NP-hard 问题解耦——用一个预训练好的图神经网络(GNN)充当配送路径成本的快速估计器,把估计值直接嵌进选址的混合整数规划(MIP)里,从而让 MIP 求解器只需要做高层选址-分配决策,而不必在求解过程中展开庞大的车辆路径(VRP)变量。
04-供应链
核心思想:新品上市前无历史销量,但不是无信息——相似 SKU 的历史数据、产品属性特征、Bass 扩散参数估计三条路径可以构建新品的需求先验分布。上市后用贝叶斯更新快速收敛,并通过「探索加成」(首批量刻意多订一点以加速学习)避免因首批订少而永久缺乏数据的陷阱。
04-供应链
如何仅凭历史离线日志(无需在线试错),找出使总期望收益最大化的商品展示组合。
04-供应链
PPO-swap 解决的是在真实道路网络(加权图)上,如何快速决定把哪个仓库/站点搬去哪里,使全局配送成本最低。传统 Gurobi 在大图上算不动(千节点场景需数小时),贪心启发式又容易陷入局部最优。PPO-swap 以"从初始布局出发、反复微调"取代"从零开始构建",每一步只做一次交换(Swap):关掉一个现有设施,在另一个节点重开,直到整体成本无法再降。
04-供应链
核心思想:把任意一个 SKU 的历史销量分解为两个互相独立的信号——「基线需求」(正常销售节奏)和「促销 lift」(大促拉动的额外需求)——分别建模、分别备货,并专门处理大促结束后需求虚高的「Post-Promotion Elevation(PPE)」问题,避免系统在大促后 3 个月内持续过量备货。
04-供应链
需求预测告诉你"预计卖多少",安全库存告诉你"为了防止意外,应该多备多少"。
04-供应链
核心思想:当旺季需求(如双11前 8,000 件/月)超过工厂单月产能(5,000 件),需要解决三个问题:① 提前多久开始生产(提前期排程)?② 多供应商时如何分单(Pareto 前沿)?③ 产能完全满足不了时,哪个 SKU 优先(优先级排序)?
04-供应链
为什么传统归因不够:瀑布式逻辑("缺货→往上查库存→往上查采购")本质上是相关性分析,无法区分"A 导致 B"与"C 同时导致 A 和 B"。实际供应链中,多因素常常通过间接路径(中介变量)影响结果——比如"需求预测误差→战术产能调整→Capped Out Hours(COH)",传统归因会错误地把间接效应归给直接可见的变量。
04-供应链
多级库存优化(Multi-Echelon Inventory Optimization, MEIO)解决的是供应链中多个节点(工厂、仓库、门店)的联合库存决策问题。相比传统的单点库存管理,DRL方法将供应链建模为马尔可夫决策过程(MDP),智能体(Agent)学习在每个时间步决定"生产多少、发往哪里",以最大化长期累积利润。
05-推荐系统
Momcozy 吸奶器爆款 SKU 占全部流量的 60%+,200 余款配件(替换配件、特殊尺码)几乎零曝光
05-推荐系统
母婴品类SKU迭代快(奶粉按月龄分段、辅食按月添加),新品上架无历史交互数据,传统协同过滤无法推荐。
05-推荐系统
传统推荐系统追求相关性最大化,导致结果高度同质化——用户搜"婴儿奶粉",首页全是同一品牌同一段位。
05-推荐系统
传统推荐系统是单一模型的端到端优化,难以整合多维用户意图(价格敏感、品牌偏好、安全认证关注)。MAS Collaborative Recommendation 将推荐任务分解为多个专业化 LLM Agent 的协作问题
05-推荐系统
传统推荐系统的目标是最大化用户相关性(CTR/CVR),营销系统的目标是最大化 GMV 和促销 ROI。这两个目标通常分开优化,导致推荐了用户喜欢但不需要促销的商品(浪费预算),或促销了高利润商品但对用户不相关(浪费曝光)。
05-推荐系统
根据用户历史行为,预测用户对未交互商品的兴趣程度。
05-推荐系统
是排序评估指标与训练损失函数之间的不匹配。
06-增长模型
母婴跨境新品冷启动需求预测痛点:每年 20-30 款新品上市,前 8 周零销售记录,人工拍脑袋备货首批,积压或断货损失年化 300+ 万元. 本 Skill 组合两个方法:① Bass 扩散模型生成新品扩散曲线形状(创新+模仿系数);② GEANN 图迁移从相似品历史借用销售信号;③ Bass 参数从相似品加权迁移初始化,实现"形状从理论 + 规模从迁移"的双驱动.
06-增长模型
监测到"wearable breast pump"(穿戴式吸奶器)谷歌搜索量过去 6 个月增长 180%($p<0.01$),BSR 上升 45%,TikTok 话题 #wearablepump 播放量 2.3 亿
06-增长模型
监测到竞品 Momcozy 密集上线 5 个"Silicon Flange"(硅胶法兰)新 SKU,且上线 2 周内均进入 BSR Top 5000
06-增长模型
跨境电商的致命问题:70-80% 商品在目标市场无历史数据,15-25% 上架后零销量,但传统预测模型会给出"看起来合理"的正数预测→导致库存积压。ZODIAC 用双域 LSTM + 双头架构同时解决"零销量预测"和"过预测"两个核心痛点。
06-增长模型
一款吸奶器在京东月销 5000+ 台(¥399),需要判断是否引入 Amazon US($59.99)、Amazon DE(€54.99)、Amazon UK(£49.99)
06-增长模型
业务问题 母婴用户跨越App、小程序、线下门店、Web多个渠道,每个渠道的转化效率不同
06-增长模型
传统购买预测模型将问题视为静态分类任务。DQN-inspired方法引入强化学习思维:将用户会话视为状态,营销干预视为动作,转化/流失视为奖励。通过经验回放和Epsilon-Greedy探索,模型学会识别高价值干预时机。
06-增长模型
某母婴 DTC 独立站准备从纯打折升级为"付费会员制(年费 $49 免邮 + 专属抢购)"
06-增长模型
光算出每个用户的增量效应(CATE)还不够——真实业务有预算上限、有高净值用户保护、有每天不能无限制打扰用户的体验红线。Guardrailed CATE-NBA 打通了"预测→决策"的最后一公里:三层漏斗把因果估算的结果直接转化为带约束的最优行动名单。
06-增长模型
核心思想:在选品决策前量化「这个品类有多大、能拿多少」,避免「市场很大」的模糊判断。用两条互相校验的路径(Top-down 和 Bottom-up)估算 TAM/SAM/SOM,并通过 Google Trends 校准和 Monte Carlo 模拟将点估计扩展为置信区间,输出可进入 ROI 模型的数字范围。
06-增长模型
在新商品上市前预测其成功概率,从而优化选品决策和资源配置。
06-增长模型
1. 市场规模(搜索量 + BSR 品类总量,$w$=0.25)
06-增长模型
独立站每天面对来自北美高净值用户(iPhone + 5分钟停留)和东南亚价格敏感用户(安卓 + 10秒跳出)的混合流量
06-增长模型
业务问题 母婴出海电商用户决策周期长(孕期到育儿多阶段),不同阶段用户需求差异巨大
08-知识图谱
手动 ERP 排查可能要 2-3 周,到时候竞争对手早把备货扫空了
08-知识图谱
用知识图谱技术构建广告受众画像图——不是简单的标签列表,而是实体关系图:用户→购买→产品→属于→品类→适合→年龄段。基于 KG 的受众定向比关键词匹配精准 3-5 倍。
08-知识图谱
用户反馈"机器转了两圈突然停下并闪红灯",传统 FAQ 机器人把所有带"红灯"的内容(充电时亮红灯/故障码等)全部返回,答非所问,最终用户申请退货
08-知识图谱
GNN 三大基础架构的统一入门:GCN(图卷积,邻居特征加权平均 $\mathbf{h}_v^{(l+1)} = \sigma(\mathbf{W}^{(l)} \sum_{u \in N(v)} \frac{\mathbf{h}_u^{(l)}}{\sqrt{d_v d_u}})$)→ GAT(加注意力权重)→ GraphSAGE(归纳式采样聚合,适合大规模图)。
08-知识图谱
GraphRAG(Graph Retrieval-Augmented Generation) 将传统 RAG(检索增强生成)中的文本块检索升级为知识图谱结构化检索,通过图遍历获取与查询相关的实体、关系和子图,显著提升复杂推理场景的答案准确性和可解释性。
08-知识图谱
母婴出海电商的商品知识图谱需要维护大量实体关系(品牌-产品、产品-成分、成分-功效、产品-适用年龄等)。
08-知识图谱
知识图谱(Knowledge Graph, KG) 是一种用图结构表示知识的方法,通过实体-关系-实体的三元组形式(如"Uplift Modeling -应用于- 广告投放")将碎片化信息组织成可推理的知识网络。
09-DataAgent-LLM
Argos 解决的核心矛盾是:LLM能生成异常检测规则,但无法同时保证可解释性、可复现性和准确率。
09-DataAgent-LLM
Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表,而是先理解数据背后的业务洞察,再基于洞察选择最合适的可视化表达方式。
09-DataAgent-LLM
挑战一:跨单元格推理(Cross-Cell Reasoning)
09-DataAgent-LLM
将自然语言分析需求自动转化为 BI 仪表盘(图表+指标卡片+筛选器)。NL→结构化查询→Chart DSL→渲染。核心:意图解析(trend/comparison/distribution/ranking)+ 自动图表类型选择。
09-DataAgent-LLM
当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。
09-DataAgent-LLM
"为什么德国站吸奶器转化率下降"→ RAG 检索到上月分析"德国站转化率下降是因为欧元贬值导致价格上涨 8%"→本次发现同样模式→自动引用历史结论+实时数据验证
09-DataAgent-LLM
异常检测告诉你"什么出问题了",但不告诉你"为什么"。
10-MAS
LLM-MAS 在库存管理中面临跨场景适应性差的困境——不同 SKU、季节、供应链配置导致需求模式千差万别,零样本或少样本 LLM Agent 难以泛化到新场景。
10-MAS
连接 MAS 算法层(AutoGen/ReAct/编排)和智能体工程层(MCP/Context/Skill管理),把"能跑的 Agent demo"变成"生产可用的 Agent 系统"。核心模式:算法→协议→基础设施。
10-MAS
Agent Q-Mix 将多 Agent 系统的通信拓扑选择建模为多智能体强化学习(MARL)问题:每个 Agent 在每个时间步从 6 种通信动作中选择一个,整个系统通过 QMIX 值分解联合优化,学习"哪些 Agent 需要相互通信、何时通信、用何种方式通信"。
10-MAS
静态工具注册(配置文件写死 Agent 列表)无法应对 MAS 三大动态性:① Agent 数量动态扩缩;② 能力随版本演化;③ 健康状态实时变化(宕机/过载/SLO 降级)。
10-MAS
AutoGen 是一个通用的多智能体对话框架,核心洞察:将复杂的 LLM 应用开发简化为多 agent 之间的对话编排。不同于传统的单 agent 链式调用,AutoGen 允许多个具备不同能力的 agent 通过自然语言对话协作完成复杂任务。
10-MAS
MCP(Model Context Protocol):解决 Agent 与工具/数据源的连接(Host ↔ Server)
10-MAS
静态 DAG 的局限:传统工作流引擎(Airflow、Prefect 等)要求在运行前确定完整的 DAG 拓扑。一旦启动,节点集合与依赖边均固定,无法根据中间执行结果裁剪冗余分支或插入新必要节点。当业务逻辑含有"发现 A 就不需要 B"或"发现 C 就需要新增 D"的条件语义时,静态 DAG 只能用 stub 节点 + 空操作变通,徒增图复杂度。
10-MAS
传统补货系统是轮询式(定时跑批),每日/每周检查库存状态。事件驱动架构(Event-Driven Architecture)改为推送式:事件发生时立刻触发对应 Agent,实现毫秒级响应而非天级延迟。
10-MAS
母婴品牌在亚马逊/独立站同时运营,SKU 达 500+,跨境仓(海外仓 + 国内直发)补货涉及 DHL/UPS 运输周期(15-30 天)、海关清关(3-7 天)、Amazon FBA 入仓(1-5 天),任何一环延误都导致断货(Lost Buy Box,单 SKU 日损失 2,000-8,000 元)
10-MAS
传统 LLM Multi-Agent System(MAS)中,Agent 之间通过自然语言传递信息。
10-MAS
Helicase 是一个自主多 Agent LLM 系统,将高层供应链查询(如"某奶粉品牌的原料来源")分解为可执行调查计划,通过专业 Agent 协作增量构建带不确定性标注的知识图谱。名字来源于生物学的螺旋酶——螺旋式展开 DNA,隐喻系统通过迭代循环逐层揭示知识。
10-MAS
`Skill-Agent-Safety-Guardrails` 保护的是单个 Agent 免受提示注入攻击。但 MAS 中的攻击比单 Agent 复杂 10 倍:攻击者可以利用多个 Agent 之间的信任关系和通信路径发动群体级攻击。
10-MAS
`Skill-Multi-Agent-Debate` 解决的是"如何让多个 Agent 通过辩论收敛到更好的答案"——这是非正式共识。MAS 共识机制解决的是更严格的问题:在部分 Agent 可能失败或说谎(Byzantine 容错)的情况下,如何保证整个系统仍能达成一致且正确的决策,并有数学证明?
10-MAS
MAS 中 Agent 之间传递消息,但消息的可信度并不相同——某个 Agent 可能已被攻击者控制(Sleeper Agent),在积累足够信任后才触发恶意行为。动态信任管理解决的问题是:在没有可信第三方的情况下,每个 Agent 如何评估其他 Agent 发来消息的可信度,并据此决定接受或拒绝。
10-MAS
MAS 生产化最常见的失败不来自 Agent 逻辑,而来自资源竞争:多个 Agent 并行调用同一个限速 API,导致连接重置、HTTP 502、上下文泄漏、Zombie Agent 挂起。这些问题在操作系统领域早已有成熟解法——HiveMind 和 AgentRM 把 OS 调度理论直接搬到 MAS 层。
10-MAS
1. 性能坍塌问题:新 Agent 加入时,系统路由还不了解其能力,导致任务分配混乱、性能下降
10-MAS
MAS 的失败模式与单体软件完全不同:Agent 之间的交互是非确定性的,工具调用可能失败,Agent 可能陷入死循环,而这些问题用传统单元测试根本无法发现。MAS 专用测试体系需要解决三个独特问题
10-MAS
传统 MAS 评估聚焦模型级(Model-Level):固定 framework,换 LLM 比性能差异。MASEval 提出系统级(System-Level)评估范式,将完整 MAS 系统(模型 × Framework × 协调逻辑)作为原子评测单元,形成 3×3×3 全因子实验设计:3 个 LLM backbone × 3 个 Agent Framework(smolagents/LlamaIndex/AutoGen 等)× 3 种协调逻辑(顺序/并行/自适应)。
10-MAS
Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。
10-MAS
Reflexion 提出了一种言语强化学习(Verbal Reinforcement Learning)机制。核心洞察:传统 RL 需要更新模型权重,成本高且难以解释;而 LLM 可以通过自然语言形式的"自我反思"来改进策略,无需任何权重更新。
10-MAS
SDOF 将 Multi-Agent System(MAS)的执行流程建模为有限状态机(FSM),通过双层防护机制确保 Agent 行为的合法性。
11-AI人文
AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求:AI 客服首条消息必须声明身份;AI 生成内容必须标注。母婴场景额外要求:当 AI 给出健康/营养建议时,必须附注"请咨询儿科医生"。
11-AI人文
AI 生成文本与人类写作在统计层面存在系统性差异,可通过以下三类特征加以量化鉴别
11-AI人文
文化语境的不可迁移性——相同语义在不同文化中承载截然不同的消费偏好信号。
11-AI人文
情绪识别:通过关键词匹配(域内词典)+ 句式特征(连续感叹号、全大写)识别用户情绪状态,将其分级为 CALM / ANXIOUS / FRUSTRATED / ANGRY / FRIGHTENED 五档。母婴高压场景(安全召回、产品危害)优先触发 FRIGHTENED 级别,绕过普通情绪判断逻辑。
12-ML基础
交叉验证解决"模型在未知数据上表现如何"的问题——不是依赖一次 train/test split 的"运气",而是通过多次切分平均来获得稳健的泛化能力估计。
12-ML基础
核心思想:生产 ML 模型上线后,输入数据的分布会随时间偏移(用户行为变化、季节性、竞品冲击),导致模型悄然失效。数据漂移检测通过持续监控特征分布(统计漂移)和预测误差(性能漂移)两条并行轨道,在模型失效前触发告警和重训——区别于异常检测,漂移检测关注的是系统性、持续性的分布偏移,而非偶发性异常点。
12-ML基础
跨境平台上架 50 款新款婴儿车,无任何历史购买数据,纯 ID 嵌入无法初始化,导致新品在推荐系统中几乎不曝光(冷启动问题)
12-ML基础
模型评估体系解决"模型到底好不好"这个问题——不是凭感觉,而是用标准化的量化指标从多个维度衡量模型表现。这是所有预测建模的基础能力,也是 ML 工程中模型选型、A/B 测试结果判读、生产监控的必备技能。
12-ML基础
核心思想:数据漂移检测(Skill-Data-Drift-Detection)解决的是"输入变了吗",模型性能监控解决的是"输出还准吗"。两者共同构成生产 ML 模型的完整健康体系。性能监控通过滑动窗口持续评估 AUC/MAPE 等指标,配合 Shadow Mode(新模型静默跑)和 Champion-Challenger(A/B 对比)两种灰度部署模式,在不影响生产的前提下验证新版本并安全切换。
12-ML基础
1. 稀疏性:长尾 SKU 历史销量不足(< 30 天),传统特征工程无法直接应用
13-广告分析
FB 吸奶器广告点击后:35% 进详情页 → 12% 加购 → 5% 首购 → 2% 复购
13-广告分析
孕晚期用户购买周期 6-8 周,在"下定决心买推车"后主动搜索并点击所有重定向短信/DPA 广告
14-用户分析
传统 LLM 摘要"无约束自由生成"产生幻觉(摘要包含评论中不存在的属性). AGRS 把摘要任务结构化:ABSA 提取 aspect-sentiment → canonical 归一化 → 代表性评论加权采样 → 结构化 prompt 引导 LLM 生成. 100% 基于真实评论,根本规避幻觉. 4 阶段 pipeline 端到端可扩展到百万产品.
14-用户分析
传统序列推荐模型只看单会话内的商品点击序列,TRACE 的创新在于:把整个用户的多会话页面浏览历史(包括首页、搜索页、详情页、购物车、结账等各类页面,跨越数天甚至数周)打包成一条有序序列,送入轻量级 Transformer Encoder 学习全局用户状态嵌入。
15-营销投放分析
Momcozy 在美国 Prime Day 前一周突然将吸奶器搜索广告预算翻倍,我们的 impression share 从 22% 跌到 14%
15-营销投放分析
匿名访客(未授权追踪)向 AI 助手提问穿搭,传统推荐因无 Cookie 完全失效,品牌白白流失高意图实时流量 - 数据要求:用户自然语言查询文本 + SKU 库(含品类、场景标签、图片描述)+ 广告主实时出价 - GenAI 方案: - 用户问:"我下周去海边参加婚礼,梨形身材,有什么建议
15-营销投放分析
$30 万月预算要同时做三件事——黑五冲销量(短期 ROI)、母婴博主种草(品牌搜索量)、新款吸奶器 S2 预热(新品曝光)
15-营销投放分析
基于营销投放数据提前 3-7 天预测物流需求峰值,驱动仓储/运力的前置性扩容决策。
16-智能体工程
传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。
16-智能体工程
传统 SRE 错误预算是单向消耗品:违反 SLO 就消耗预算,预算耗尽就停止发布,恢复后窗口重置。Agent 双向错误预算在此基础上引入自主权预算(Autonomy Budget):好行为可以赢回预算,自主权随可靠性动态升降。
16-智能体工程
Agent 执行可能因 API 超时、LLM 输出格式错误、工具返回异常而失败。容错机制:(1) Retry with exponential backoff($t_{retry} = \min(t_{base} \cdot 2^n, t_{max})$);(2) Fallback 策略——LLM 失败切备选模型,工具失败用简化版;(3) Circuit Breaker——连续失败 N 次后停止尝试,避免雪崩。
16-智能体工程
传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补
16-智能体工程
AgentTrace 的核心洞察是:多 Agent 系统(MAS)的故障传播是确定性的因果链,而非需要 LLM 进行语义推理的模糊问题。
16-智能体工程
为什么基础设施沙箱不足:容器/seccomp 工作在系统调用层,不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法,但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作,理解"操作意图"而非仅检查"操作权限"。
16-智能体工程
Atomix 为 Agent 工具调用引入事务语义,解决多步 Agent 工作流在故障(网络抖动、服务超时、LLM 幻觉)下产生的中间态污染问题。无事务保护时,30% 故障注入场景的成功率仅 0-7%;Atomix Tx-Full 模式将其提升至 37-57%,媲美快照回滚(CR)。
16-智能体工程
RAG 的局限:被动检索,只能复用已显式存入的知识,无法从对话轨迹中自动归纳模式;Fine-tuning 的局限:参数固化后无法增量更新,每次新能力都需全量重训,知识以黑盒形式埋在权重里,不可审计不可编辑。
16-智能体工程
传统方式将 API Key 存入环境变量或配置文件,Agent 运行时直接读取。Prompt Injection 攻击可诱导 Agent 将密钥外泄。CapSeal 彻底切断 Agent 与明文密钥的直接联系。
16-智能体工程
CausalFlow 将 Agent 的一次执行视为有序步骤序列
16-智能体工程
跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)
16-智能体工程
传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题
16-智能体工程
训练 LLM Agent 执行超长时域任务(50+ 步)面临两大瓶颈
16-智能体工程
Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。
16-智能体工程
最小权限原则在 Agent 中的实现:传统应用最小权限通过 OS/IAM 静态配置实现,但 LLM Agent 的工具调用集合在运行时动态变化,需要动态感知策略。Progent 用符号规则表示权限策略:`{tool: "purchase_order.create", constraints: {"amount": {"max": 1000}}}`,支持在任务执行中实时评估。
16-智能体工程
ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架(arXiv 2601.06112,2026年1月)。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面
16-智能体工程
AWS 2026 年的实证研究证明:通过领域特定 SFT,仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation,导致"参数稀释"。
16-智能体工程
为什么容器/microVM 不适合短命令 Agent:Docker 容器启动需 500ms-2s,microVM(Firecracker)需 125ms+,对于每次工具调用仅数十毫秒的 Agent 来说开销过大。Sandlock 通过 Rust 实现,启动延迟 5ms,专为短命令高频执行设计,Redis 集成零额外开销。
16-智能体工程
SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题
16-智能体工程
当 Agent 系统规模膨胀至 100+ 工具时,手动注册成为瓶颈:每次新 API 上线都需要开发者手工编写 ToolDefinition、更新路由表、验证参数类型——一个典型企业集成需要 2 个工作日。
16-智能体工程
Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。
17-价格优化
业务痛点:吸奶器年度销量呈强季节性(Q3-Q4 旺季 GMV 占全年 65%),且 Momcozy 经常在大促前一周大幅降价抢占位次
17-价格优化
1+1>2 的定价魔法——吸奶器 + 配件捆绑包的总价不是简单相加,而是利用消费者对捆绑包的心理估值高于单品之和(或互补品的联合需求),找到最大化总利润的捆绑价格。
17-价格优化
吸奶器在美国定价 $129,德国 €119,英国 £99
17-价格优化
S1 吸奶器库存 500 件,成本 $60,原价 $129
18-物流履约
跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合
18-物流履约
跨境物流的核心是多式联运路径优化——海陆空铁四种运输方式在不同路段的成本/时效组合中找最优。最短路径 Dijkstra 扩展为多目标(成本、时效、碳排放)Pareto 最优路径。
18-物流履约
从历史配送记录中提取经验分位数,用 P95 分位数作为保守承诺基线
18-物流履约
传统需求预测(DeepAR、Prophet)将每个 SKU 独立建模,忽视了商品间的需求传导效应:奶粉缺货时纸尿裤也会滞销;新款婴儿车上市带动安全座椅需求。GraphDeepAR 的核心创新是将商品间关联关系显式建模为图结构
18-物流履约
预测从"到达目的国仓库"到"用户签收"的时长。用生存分析(Cox PH 或 AFT 模型)建模配送时长分布,考虑承运商、目的地邮编区、包裹体积、节假日等协变量。
18-物流履约
"Item Not Received"(INR)欺诈是跨境母婴电商最常见的纠纷类型,占纠纷总量约 35%
18-物流履约
预测退货概率 + 优化退货处理路径。退货概率用 XGBoost 建模(产品类别、价格、用户历史退货率、配送时长),退货处理用规则+成本优化——退货到 FBA vs 第三方仓 vs 弃置。
18-物流履约
传统安全库存公式($SS = Z \cdot \sigma_{LT} \cdot \bar{D}$)基于正态分布假设,但实际跨境供应链中交货期呈现两个典型特征
19-风控反欺诈
核心思想:三维欺诈信号融合检测账号欺诈——设备指纹相似度(识别同一设备多账号)+ 行为序列异常(购买/浏览模式偏差)+ 账号关联网络社区(图社区发现)。三维信号通过加权融合输出欺诈概率,任一维度异常均触发预警。
20-AI视频生成
用 AI 生成品牌视频时,品牌 Logo/包装/视觉资产在视频中会变形、消失或被遮挡。
20-AI视频生成
唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。
20-AI视频生成
完整多语言短视频生成系统:角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS(百余语言)→ 特效渲染。
21-合规决策
核心思想:从 CPSC/NHTSA 非结构化消费者投诉文本出发,通过半参数主题模型(Hierarchical Dirichlet Process Pitman-Yor, HDPYP)自动提取缺陷主题,预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比,预测准确率提升约 14%(p<0.05),提前约 1 年预警召回事件。
21-合规决策
将监管机构发布的非结构化更新,自动映射到受影响产品品类,并生成优先级告警,驱动合规行动。
21-合规决策
2023 年起德国《供应链尽职调查法》(LkSG)生效,要求年营业额 >4.5 亿欧元的企业对整条供应链的合规负责。母婴出海品牌虽暂无直接法律义务,但头部零售商(Walmart/Target/亚马逊)已要求供应商提供 ESG 合规证明
22-数据采集工程
1. 广度优先爬取浪费资源:爬 100 个页面才找到 5 个有价值的竞品信息
22-数据采集工程
母婴爆品的"起飞时刻"通常在搜索量还很低的阶段。
22-数据采集工程
论文:SIGIR'26 [2602.23620] + ICML'26 [2602.07298] + SCALR [2606.00282]
22-数据采集工程
论文:DiffSpot [2605.29615] + DOM Atomicity [2603.00476]