02-A_B实验

A/B testing, multi-armed bandits, sequential testing

Skill: A/B 实验设计基础

02-A_B实验

A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述，将学术界的最佳实践封装为可直接调用的 Python 工具包，解决电商实验中最常见的四类问题

causalexperimentforecastingoptimizationrecommendationpricing供应链与补货推荐与搜索定价与利润

A/B Test Result Interpretation and Practical Significance

02-A_B实验

Power Analysis告诉你"测多少"，实验跑完后，如何正确解读结果？

10万⭐☆☆☆☆

experiment其他

Agentic AB Testing — AI Agent 驱动 A/B 实验：假设→设计→解读→决策

02-A_B实验

传统 A/B 测试有三大痛点：① 依赖统计专业知识（功效分析、多重检验校正），② 分析耗时（从数据到决策通常需要 2-3 周），③ 假设生成靠人工经验（容易受认知偏差影响）。

⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationmulti_agent推荐与搜索数据采集与治理MAS与智能体工程

预算约束因果Bandit - 新渠道从Day1开始的转化率估计

02-A_B实验

传统Uplift模型遵循两阶段离线流程——先收集历史数据估计异质性处理效应（HTE），再求解预算约束优化问题。这在数据丰富时效果良好，但在冷启动场景（新渠道、新市场、新用户群）中完全失效。

⭐⭐⭐⭐⭐⭐⭐⭐☆☆

causalexperimentoptimization广告与投放

CUPED Variance Reduction（方差缩减）

02-A_B实验

CUPED (Controlled-experiment Using Pre-Experiment Data) 用实验前数据作为协变量，减少实验组间方差，使同样的样本量能检测到更小的效应量。核心公式：$Y_{cuped} = \bar{Y} - \theta(\bar{X} - \mu_X)$，其中 $X$ 是实验前同一用户的指标值，$\theta = \text{Cov}(Y,X)/\text{Var}(X)$。方差缩减率 $\approx 1 - \rho^2_{Y,X}$。若实验前购买金额

加速实验迭代，隐性价值

causalexperiment其他

Experiment Data Quality Guard — A/B 实验数据采集质量保障：爬虫/日志污染检测与因果实验完整性

02-A_B实验

A/B 实验的因果推断依赖随机化的完整性：处理组（Treatment）与对照组（Control）的差异必须仅来自实验干预，而非数据采集过程的污染。

10-50 万元⭐⭐☆☆☆

causalexperimentmulti_agentdata_collection数据采集与治理MAS与智能体工程

Multi-Armed Bandit (多臂老虎机)

02-A_B实验

在探索（exploration）和利用（exploitation）之间取得平衡。

⭐⭐☆☆☆

experimentforecastingoptimizationrecommendation广告与投放推荐与搜索

Network Effect Experiments（网络效应实验）

02-A_B实验

标准 A/B 假设 SUTVA（用户间无干扰），但社交电商（分享/推荐/UGC）违反此假设——A 组用户的行为会影响 B 组用户。解决方案：Cluster Randomization（按社交簇随机分组）或 Two-Stage Randomization（先随机簇，簇内再随机个体）。

确保社交功能实验正确性，隐性

causalexperimentrecommendation推荐与搜索

Power Analysis and Sample Size Calculation for A/B Testing

02-A_B实验

A/B测试需要多少样本才能检测出真实的效应？

10万⭐☆☆☆☆

experimentoptimization其他

STATE — 重尾指标鲁棒 A/B 方差减少：Student-t 回归调整（-70% 方差）

02-A_B实验

电商 GMV / 订单量等指标天然重尾——极少数大客户的超大订单把方差撑得很高。

30-60 万元⭐⭐⭐☆☆

causalexperimentforecastingoptimization广告与投放

Sequential AB Testing（序列化 A/B 检验）

02-A_B实验

传统固定样本量 A/B 需要等到收集满 N 个样本才分析。Sequential Testing 允许在实验过程中多次中期分析，一旦检测到显著差异即可提前停止（节省时间和样本）。用 $\alpha$-spending function 控制整体 Type I error：每次中期分析消耗一部分 $\alpha$ 预算。

15-30 万元⭐⭐☆☆☆

experimentforecasting供应链与补货

Switchback 实验设计 - 数据驱动的双边市场实验

02-A_B实验

同一海外仓为 Shopify/Amazon/TikTok Shop 多渠道发货,测试"AI 波次合并算法"是否降低拣货时长

1500 万/年⭐⭐⭐⭐☆

causalexperimentoptimizationpricing广告与投放供应链与补货定价与利润

Thompson Sampling for Multi-Armed Bandit

02-A_B实验

Thompson Sampling是一种基于贝叶斯后验采样的在线决策算法，用于解决探索-利用权衡（Exploration-Exploitation Tradeoff）问题。算法的核心洞见是：按照每个动作是最优动作的概率来选择动作，而非简单地选择当前估计奖励最高的动作。

experimentoptimizationrecommendation广告与投放推荐与搜索