Skill: A/B 实验设计基础

Skill-AB-Experimental-Design · 02-A_B实验

causalexperimentforecastingoptimizationrecommendationpricing供应链与补货推荐与搜索定价与利润WF-A 智能补货WF-F 动态定价WF-G Listing内容优化

业务视角

适用角色运营负责人 / 产品经理 · 广告优化师 · 选品负责人

适用平台Amazon Listing · TikTok 广告素材 · DTC 落地页

什么情况下用改了主图/标题/价格，不确定销量变化是改动导致的还是流量波动；两个方案团队各持己见，需要数据裁决

成功是什么样的每次改动都有 ≥95% 置信度的数据结论，好的改动快速全量，坏的及时止损

业务痛点

改了主图感觉好多了但不确定小范围测试结果好全量后没效果测试周期短结论不可靠

1. 解决的问题

A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述，将学术界的最佳实践封装为可直接调用的 Python 工具包，解决电商实验中最常见的四类问题

2. 核心算法逻辑

A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述，将学术界的最佳实践封装为可直接调用的 Python 工具包，解决电商实验中最常见的四类问题：

3. 业务应用场景

Momcozy 在 Amazon 详情页测试新版主图，基线转化率 2.5%，期望通过改版实现 10% 相对提升（即达到 2.75%）。

应用流程： 1. 样本量计算：使用 `sample_size_binary` 计算绝对提升所需样本量，再用 `sample_size_relative_lift` 按相对提升做保守修正 2. 实验计划：输入日流量（如 2000 UV/天），自动计算所需实验天数 3. 分层分配：按 `国家 × 设备类型 × 新老用户` 做分层随机化，确保各层内治疗/控制组 1:1 平衡 4. CUPED 加速：利用实验前各用户的转化率作为协变量，缩减方差后提前 30% 时间得出结论

预期效果： - 避免"样本量不足导致假阴性"（Type II 错误） - 分层设计消除国家/设备差异带来的基线不平衡 - CUPED 在保持统计功效的前提下缩短实验周期

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

避免假阴性损失：正确的样本量计算确保 80% 功效，避免"真实有效策略被误判为无效"而导致的收益损失
缩短实验周期：CUPED 方差缩减 20%-50%，等效于将实验时间缩短 20%-50%，在 2000 UV/天的场景下，65 天的实验可缩短至 45-52 天
提升决策置信度：分层随机化消除基线不平衡争议，减少实验结果的政治化解读
统计学概念（Power、MDE、Pooled Proportion）需要一定理解成本
代码本身即插即用，无需复杂基础设施
CUPED 需要历史数据可用，数据工程成本取决于现有数据仓库成熟度

7. 代码模板

代码块数量：3 · 路径：未检测到

paper2skills-code/ab_testing/experimental_design/
├── __init__.py
└── design.py

8. 论文来源

未自动抽取；请查看原始 Skill 卡片。