paper2skills Playbook

02-A_B实验

A/B testing, multi-armed bandits, sequential testing

Skill: A/B 实验设计基础

02-A_B实验

A/B 测试的统计严谨性建立在样本量规划、功效保证和方差控制三大支柱上。本技能基于 Zhou et al. (2023) 的系统性综述,将学术界的最佳实践封装为可直接调用的 Python 工具包,解决电商实验中最常见的四类问题

causalexperimentforecastingoptimizationrecommendationpricing供应链与补货推荐与搜索定价与利润

Agentic AB Testing — AI Agent 驱动 A/B 实验:假设→设计→解读→决策

02-A_B实验

传统 A/B 测试有三大痛点:① 依赖统计专业知识(功效分析、多重检验校正),② 分析耗时(从数据到决策通常需要 2-3 周),③ 假设生成靠人工经验(容易受认知偏差影响)。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationmulti_agent推荐与搜索数据采集与治理MAS与智能体工程

预算约束因果Bandit - 新渠道从Day1开始的转化率估计

02-A_B实验

传统Uplift模型遵循两阶段离线流程——先收集历史数据估计异质性处理效应(HTE),再求解预算约束优化问题。这在数据丰富时效果良好,但在冷启动场景(新渠道、新市场、新用户群)中完全失效。

⭐⭐⭐⭐⭐⭐⭐⭐☆☆
causalexperimentoptimization广告与投放

CUPED Variance Reduction(方差缩减)

02-A_B实验

CUPED (Controlled-experiment Using Pre-Experiment Data) 用实验前数据作为协变量,减少实验组间方差,使同样的样本量能检测到更小的效应量。核心公式:$Y_{cuped} = \bar{Y} - \theta(\bar{X} - \mu_X)$,其中 $X$ 是实验前同一用户的指标值,$\theta = \text{Cov}(Y,X)/\text{Var}(X)$。方差缩减率 $\approx 1 - \rho^2_{Y,X}$。若实验前购买金额

加速实验迭代,隐性价值
causalexperiment其他

Multi-Armed Bandit (多臂老虎机)

02-A_B实验

在探索(exploration)和利用(exploitation)之间取得平衡。

⭐⭐☆☆☆
experimentforecastingoptimizationrecommendation广告与投放推荐与搜索

Network Effect Experiments(网络效应实验)

02-A_B实验

标准 A/B 假设 SUTVA(用户间无干扰),但社交电商(分享/推荐/UGC)违反此假设——A 组用户的行为会影响 B 组用户。解决方案:Cluster Randomization(按社交簇随机分组)或 Two-Stage Randomization(先随机簇,簇内再随机个体)。

确保社交功能实验正确性,隐性
causalexperimentrecommendation推荐与搜索

Sequential AB Testing(序列化 A/B 检验)

02-A_B实验

传统固定样本量 A/B 需要等到收集满 N 个样本才分析。Sequential Testing 允许在实验过程中多次中期分析,一旦检测到显著差异即可提前停止(节省时间和样本)。用 $\alpha$-spending function 控制整体 Type I error:每次中期分析消耗一部分 $\alpha$ 预算。

15-30 万元⭐⭐☆☆☆
experimentforecasting供应链与补货

Switchback 实验设计 - 数据驱动的双边市场实验

02-A_B实验

同一海外仓为 Shopify/Amazon/TikTok Shop 多渠道发货,测试"AI 波次合并算法"是否降低拣货时长

1500 万/年⭐⭐⭐⭐☆
causalexperimentoptimizationpricing广告与投放供应链与补货定价与利润

Thompson Sampling for Multi-Armed Bandit

02-A_B实验

Thompson Sampling是一种基于贝叶斯后验采样的在线决策算法,用于解决探索-利用权衡(Exploration-Exploitation Tradeoff)问题。算法的核心洞见是:按照每个动作是最优动作的概率来选择动作,而非简单地选择当前估计奖励最高的动作。

experimentoptimizationrecommendation广告与投放推荐与搜索