Skill: A/B 实验设计基础
02-A_B实验
A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述,将学术界的最佳实践封装为可直接调用的 Python 工具包,解决电商实验中最常见的四类问题
A/B testing, multi-armed bandits, sequential testing
02-A_B实验
A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述,将学术界的最佳实践封装为可直接调用的 Python 工具包,解决电商实验中最常见的四类问题
02-A_B实验
Power Analysis告诉你"测多少",实验跑完后,如何正确解读结果?
02-A_B实验
传统 A/B 测试有三大痛点:① 依赖统计专业知识(功效分析、多重检验校正),② 分析耗时(从数据到决策通常需要 2-3 周),③ 假设生成靠人工经验(容易受认知偏差影响)。
02-A_B实验
传统Uplift模型遵循两阶段离线流程——先收集历史数据估计异质性处理效应(HTE),再求解预算约束优化问题。这在数据丰富时效果良好,但在冷启动场景(新渠道、新市场、新用户群)中完全失效。
02-A_B实验
CUPED (Controlled-experiment Using Pre-Experiment Data) 用实验前数据作为协变量,减少实验组间方差,使同样的样本量能检测到更小的效应量。核心公式:$Y_{cuped} = \bar{Y} - \theta(\bar{X} - \mu_X)$,其中 $X$ 是实验前同一用户的指标值,$\theta = \text{Cov}(Y,X)/\text{Var}(X)$。方差缩减率 $\approx 1 - \rho^2_{Y,X}$。若实验前购买金额
02-A_B实验
A/B 实验的因果推断依赖随机化的完整性:处理组(Treatment)与对照组(Control)的差异必须仅来自实验干预,而非数据采集过程的污染。
02-A_B实验
在探索(exploration)和利用(exploitation)之间取得平衡。
02-A_B实验
标准 A/B 假设 SUTVA(用户间无干扰),但社交电商(分享/推荐/UGC)违反此假设——A 组用户的行为会影响 B 组用户。解决方案:Cluster Randomization(按社交簇随机分组)或 Two-Stage Randomization(先随机簇,簇内再随机个体)。
02-A_B实验
A/B测试需要多少样本才能检测出真实的效应?
02-A_B实验
电商 GMV / 订单量等指标天然重尾——极少数大客户的超大订单把方差撑得很高。
02-A_B实验
传统固定样本量 A/B 需要等到收集满 N 个样本才分析。Sequential Testing 允许在实验过程中多次中期分析,一旦检测到显著差异即可提前停止(节省时间和样本)。用 $\alpha$-spending function 控制整体 Type I error:每次中期分析消耗一部分 $\alpha$ 预算。
02-A_B实验
同一海外仓为 Shopify/Amazon/TikTok Shop 多渠道发货,测试"AI 波次合并算法"是否降低拣货时长
02-A_B实验
Thompson Sampling是一种基于贝叶斯后验采样的在线决策算法,用于解决探索-利用权衡(Exploration-Exploitation Tradeoff)问题。算法的核心洞见是:按照每个动作是最优动作的概率来选择动作,而非简单地选择当前估计奖励最高的动作。