A/B Test Result Interpretation and Practical Significance

Skill-AB-Test-Result-Interpretation · 02-A_B实验

experiment其他WF-G Listing内容优化

年化 ROI10万

实现难度⭐☆☆☆☆

业务优先级⭐⭐⭐⭐⭐

业务视角

适用角色运营负责人 / 产品经理 · 广告优化师 · 选品负责人

适用平台Amazon Listing · TikTok 广告素材 · DTC 落地页

什么情况下用改了主图/标题/价格，不确定销量变化是改动导致的还是流量波动；两个方案团队各持己见，需要数据裁决

成功是什么样的每次改动都有 ≥95% 置信度的数据结论，好的改动快速全量，坏的及时止损

业务痛点

改了主图感觉好多了但不确定小范围测试结果好全量后没效果测试周期短结论不可靠

1. 解决的问题

Power Analysis告诉你"测多少"，实验跑完后，如何正确解读结果？

2. 核心算法逻辑

核心问题：Power Analysis告诉你"测多少"，实验跑完后，如何正确解读结果？很多团队会犯这些错误：

3. 业务应用场景

实验结果： - 对照组转化率：2.00% - 实验组转化率：2.12% - 相对提升：+6.0% - P值：0.03 - 95% CI：[0.02%, 0.22%]

解读流程： 1. 统计显著？ P=0.03 < 0.05 → ✅ 统计显著 2. 效应量？绝对提升0.12个百分点，相对提升6% → 中小效应 3. 业务显著？日均50,000 UV，提升0.12% = 每天多60单，月增1,800单 → ✅ 业务显著 4. 置信区间？ [0.02%, 0.22%] → 真实提升至少0.02%，值得上线 5. 分段分析？美国站+8%，德国站+3%，英国站-1% → 考虑分国家上线 6. Guardrail？客单价无显著变化，退货率无显著变化 → ✅ 安全

结论：建议在美国站和德国站上线，英国站不推。

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

ROI：避免"统计显著但业务无价值"的错误上线，每次避免损失 > 10万
难度：⭐☆☆☆☆（1/5）— 概念简单，但团队常犯错
优先级：⭐⭐⭐⭐⭐（5/5）— 每个实验后的必做分析，成本极低但价值极高

7. 代码模板

代码块数量：1 · 路径：未检测到

"""
A/B Test Result Interpretation — A/B实验结果解读
支持：效应量计算、置信区间、分段分析、多重比较校正
"""

import numpy as np
from scipy import stats


def ab_test_summary(control_conversions, control_total,
                    treatment_conversions, treatment_total,
                    confidence=0.95):
    """
    A/B测试结果全面解读

    Args:
        control_conversions: 对照组转化数
        control_total: 对照组样本量
        treatment_conversions: 实验组转化数
        treatment_total: 实验组样本量
    """
    # 转化率
    p_c = control_conversions / control_total
    p_t = treatment_conversions / treatment_total

    # 绝对和相对提升
    abs_lift = p_t - p_c
    rel_lift = abs_lift / p_c if p_c > 0 else 0

    # Z检验
    p_pooled = (control_conversions + treatment_conversions) / (control_total + treatment_total)
    se = np.sqrt(p_pooled * (1 - p_pooled) * (1/control_total + 1/treatment_total))
    z = abs_lift / se if se > 0 else 0
    p_value = 2 * (1 - stats.norm.cdf(abs(z)))

    # 置信区间
    alpha = 1 - confidence
    z_crit = stats.norm.ppf(1 - alpha / 2)
    se_diff = np.sqrt(p_c * (1 - p_c) / control_total + p_t * (1 - p_t) / treatment_total)
    ci_lower = abs_lift - z_crit * se_diff
    ci_upper = abs_lift + z_crit * se_diff

    # Cohen's h（比例差异的效应量）
    cohens_h = 2 * (np.arcsin(np.sqrt(p_t)) - np.arcsin(np.sqrt(p_c)))

    # 业务解读
    is_stat_sig = p_value < alpha
    is_practical = abs(rel_lift) >= 0.05  # 假设5%相对提升为业务显著阈值

    interpretation = []
    if is_stat_sig and is_practical:
        interpretation.append("✅ 统计显著 + 业务显著 → 建议上线")
    elif is_stat_sig and not is_practical:
        interpretation.append("⚠️ 统计显著但提升太小 → 评估ROI后决定")
    elif not is_stat_sig and is_practical:
        interpretation.append("📊 业务提升大但不显著 → 样本量不足，考虑扩大实验")
    else:
        interpretation.append("❌ 不显著且提升小 → 不建议上线")

    return {

8. 论文来源

未自动抽取；请查看原始 Skill 卡片。