A/B Test Result Interpretation and Practical Significance
Skill-AB-Test-Result-Interpretation · 02-A_B实验
experiment其他WF-G Listing内容优化
年化 ROI10万
实现难度⭐☆☆☆☆
业务优先级⭐⭐⭐⭐⭐
业务视角
适用角色运营负责人 / 产品经理 · 广告优化师 · 选品负责人
适用平台Amazon Listing · TikTok 广告素材 · DTC 落地页
什么情况下用改了主图/标题/价格,不确定销量变化是改动导致的还是流量波动;两个方案团队各持己见,需要数据裁决
成功是什么样的每次改动都有 ≥95% 置信度的数据结论,好的改动快速全量,坏的及时止损
业务痛点
1. 解决的问题
Power Analysis告诉你"测多少",实验跑完后,如何正确解读结果?
2. 核心算法逻辑
核心问题:Power Analysis告诉你"测多少",实验跑完后,如何正确解读结果?很多团队会犯这些错误:
3. 业务应用场景
实验结果: - 对照组转化率:2.00% - 实验组转化率:2.12% - 相对提升:+6.0% - P值:0.03 - 95% CI:[0.02%, 0.22%]
解读流程: 1. 统计显著? P=0.03 < 0.05 → ✅ 统计显著 2. 效应量? 绝对提升0.12个百分点,相对提升6% → 中小效应 3. 业务显著? 日均50,000 UV,提升0.12% = 每天多60单,月增1,800单 → ✅ 业务显著 4. 置信区间? [0.02%, 0.22%] → 真实提升至少0.02%,值得上线 5. 分段分析? 美国站+8%,德国站+3%,英国站-1% → 考虑分国家上线 6. Guardrail? 客单价无显著变化,退货率无显著变化 → ✅ 安全
结论:建议在美国站和德国站上线,英国站不推。
4. 输入数据要求
请查看原始代码模板获取输入规格。
5. 输出结果
请查看原始代码模板获取输出规格。
6. 业务价值 / ROI
- ROI:避免"统计显著但业务无价值"的错误上线,每次避免损失 > 10万
- 难度:⭐☆☆☆☆(1/5)— 概念简单,但团队常犯错
- 优先级:⭐⭐⭐⭐⭐(5/5)— 每个实验后的必做分析,成本极低但价值极高
7. 代码模板
代码块数量:1 · 路径:未检测到
"""
A/B Test Result Interpretation — A/B实验结果解读
支持:效应量计算、置信区间、分段分析、多重比较校正
"""
import numpy as np
from scipy import stats
def ab_test_summary(control_conversions, control_total,
treatment_conversions, treatment_total,
confidence=0.95):
"""
A/B测试结果全面解读
Args:
control_conversions: 对照组转化数
control_total: 对照组样本量
treatment_conversions: 实验组转化数
treatment_total: 实验组样本量
"""
# 转化率
p_c = control_conversions / control_total
p_t = treatment_conversions / treatment_total
# 绝对和相对提升
abs_lift = p_t - p_c
rel_lift = abs_lift / p_c if p_c > 0 else 0
# Z检验
p_pooled = (control_conversions + treatment_conversions) / (control_total + treatment_total)
se = np.sqrt(p_pooled * (1 - p_pooled) * (1/control_total + 1/treatment_total))
z = abs_lift / se if se > 0 else 0
p_value = 2 * (1 - stats.norm.cdf(abs(z)))
# 置信区间
alpha = 1 - confidence
z_crit = stats.norm.ppf(1 - alpha / 2)
se_diff = np.sqrt(p_c * (1 - p_c) / control_total + p_t * (1 - p_t) / treatment_total)
ci_lower = abs_lift - z_crit * se_diff
ci_upper = abs_lift + z_crit * se_diff
# Cohen's h(比例差异的效应量)
cohens_h = 2 * (np.arcsin(np.sqrt(p_t)) - np.arcsin(np.sqrt(p_c)))
# 业务解读
is_stat_sig = p_value < alpha
is_practical = abs(rel_lift) >= 0.05 # 假设5%相对提升为业务显著阈值
interpretation = []
if is_stat_sig and is_practical:
interpretation.append("✅ 统计显著 + 业务显著 → 建议上线")
elif is_stat_sig and not is_practical:
interpretation.append("⚠️ 统计显著但提升太小 → 评估ROI后决定")
elif not is_stat_sig and is_practical:
interpretation.append("📊 业务提升大但不显著 → 样本量不足,考虑扩大实验")
else:
interpretation.append("❌ 不显著且提升小 → 不建议上线")
return {
8. 论文来源
未自动抽取;请查看原始 Skill 卡片。