智能预测 - 双重稳健估计 (Doubly Robust Estimation)

Skill-Intelligent-Prediction-Doubly-Robust · 03-时间序列

causalforecastingoptimizationrecommendationmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润WF-A 智能补货WF-F 动态定价WF-H 复购增长

年化 ROI30-50 万

实现难度⭐⭐⭐☆☆

业务优先级⭐⭐⭐☆☆

业务视角

适用角色供应链负责人 / 采购负责人 · 运营负责人 · 财务负责人

适用平台Amazon FBA · 海外仓 · 多市场多仓

什么情况下用大促前备货总是不是多了就是少了；新品上线第一个月断货，再补又积压；年底预算不知道各月目标怎么定

成功是什么样的提前 4-8 周准确预判各 SKU 需求峰值，库存积压减少 30%，断货率降低 50%

业务痛点

备货总是压货或断货旺季淡季波动太大预测不准补货周期 30 天但预测只看 7 天

1. 解决的问题

我们计划在北美市场投放吸奶器季节性促销活动（如母亲节、黑五）

2. 核心算法逻辑

Doubly Robust Estimation（双重稳健估计）是一种鲁棒的因果推断方法，它结合了倾向评分（Propensity Score）和结果回归（Outcome Regression）两种估计量。其核心优势在于：只要两种模型中有一种被正确设定，估计量就是一致的。这使其成为预测任务中对抗模型误设风险的利器。

3. 业务应用场景

业务问题：我们计划在北美市场投放吸奶器季节性促销活动（如母亲节、黑五）。传统的销量预测只基于历史数据，无法回答"如果我们不促销，销量会是多少"这个反事实问题。我们需要双重稳健的促销效果预测，来决策是否值得投入促销预算。

数据要求： - 历史特征：过去 6 个月销量、库存水平、竞品价格 - 用户特征：新老客户比例、平均客单价、复购率 - 干预数据：历史促销活动记录（是否促销、促销力度） - 外部特征：节假日标识、季节性指数、市场趋势 - 标签：销量、销售额 - 数据量：建议至少 2 年日度数据（730+ 样本）

预期产出： - 促销效果估计：促销带来的增量销量（而非促销后的总销量） - 置信区间：效果估计的不确定性量化 - 稳健性诊断：倾向评分和结果模型哪个更可靠 - 决策建议： - 增量销量 > 成本 → 推荐促销 - 增量销量不显著 → 建议不促销或调整策略

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

数据要求：需要历史干预数据，样本量中等（500+）
技术门槛：中高，需理解因果推断和机器学习结合
工程复杂度：中，有成熟开源实现（EconML）
维护成本：中，需定期重新训练模型
业务价值极高：促销和上新决策是电商核心场景
方法稳健：双重稳健性提供决策信心

7. 代码模板

代码块数量：1 · 路径：未检测到

"""
智能预测 - 双重稳健估计 (Doubly Robust Estimation)
用于母婴出海电商促销效果预测和新产品上架时机决策
支持交叉拟合和 Neyman 正交化
"""

import numpy as np
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression, Ridge
import warnings
warnings.filterwarnings('ignore')


class DoublyRobustEstimator:
    """
    双重稳健估计器
    支持交叉拟合和多种机器学习模型
    """

    def __init__(self, outcome_model=None, propensity_model=None, n_folds=5):
        """
        初始化双重稳健估计器

        Args:
            outcome_model: 结果回归模型（默认 GradientBoosting）
            propensity_model: 倾向评分模型（默认 GradientBoosting）
            n_folds: 交叉拟合折数
        """
        self.outcome_model = outcome_model or GradientBoostingRegressor(
            n_estimators=100, max_depth=3, random_state=42
        )
        self.propensity_model = propensity_model or GradientBoostingClassifier(
            n_estimators=100, max_depth=3, random_state=42
        )
        self.n_folds = n_folds
        self.ate_estimate = None
        self.ate_std = None

    def fit(self, X, treatment, outcome):
        """
        使用交叉拟合估计 ATE

        Args:
            X: 特征矩阵
            treatment: 干预标志 (1=干预组, 0=对照组)
            outcome: 结果变量

        Returns:
            self
        """
        n = len(X)
        X = np.array(X) if not isinstance(X, np.ndarray) else X
        treatment = np.array(treatment)
        outcome = np.array(outcome)

        # 存储交叉拟合的估计量
        scores = []

8. 论文来源

2406.00853
2411.02771