DINER — 因果去偏的方面级情感分析

Skill-Causal-Sentiment-Attribution · 01-因果推断

causalexperimentforecastingmulti_agentpricing广告与投放客服与VOC数据采集与治理MAS与智能体工程定价与利润WF-B 广告优化WF-C 客服分诊WF-D 选品扫描WF-E Review监控WF-F 动态定价WF-I 智能体工程

收录于全渠道归因统一手册用户增长决策手册

年化 ROI70-240 万元

实现难度⭐⭐⭐⭐☆

业务优先级⭐⭐⭐☆☆

业务视角

适用角色增长负责人 / CMO · 数据分析师 · 广告优化师

适用平台Amazon · TikTok Shop · Meta Ads · DTC 独立站

什么情况下用广告预算花了，但不确定哪个渠道真的带来新客；做了大促，不知道销量增长是促销效果还是季节规律

成功是什么样的能区分「真实增量」和「自然购买」，砍掉虚假归因渠道后同等预算 ROI 提升 20-40%

业务痛点

钱花出去了不知道有没有用各渠道报告都说自己贡献最大怎么向老板证明这笔钱值得花

1. 解决的问题

母婴产品运营面临差评方向归因失真困境——DINER 多变量因果推断（Backdoor Adjustment + TDE 反事实）消除价格/物流等方面词的标注偏置，将方面情感归因准确率提升约30%，避免1-3次错误产品迭代决策，年化规避成本50-200万元

2. 核心算法逻辑

普通 ABSA（方面级情感分析）存在两类混淆偏差，导致在跨境电商评论中频繁误判：

3. 业务应用场景

业务问题：某母婴品牌吸奶器在 Amazon US 积累 2,400 条评论，整体 3.6 星。运营初步用朴素 ABSA 分析，发现"价格"方面负面率高达 72%，计划降价 15%。但商品定价本已低于竞品，降价后利润空间不足 8%。

问题根源：朴素 ABSA 的"价格"高负面率实际是标注偏置——差评评论中"价格"一词和负面标签高度共现，与实际情感无关（用户抱怨的是续航或噪音，顺带提到"这个价位理应更好"）。

1. 对"价格"方面的评论运行 DINER 的 TDE 分类 2. 对比 TDE 结果 vs 朴素预测结果 3. 过滤掉"价格直接偏置"贡献的伪负面

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

ROI 预估：
差评方向归因准确率提升 ~30%（避免 1-3 次错误产品迭代，每次成本 50-200 万元）
选品竞品分析效率提升 5×，年化节省调研人力 20-40 万元
综合年化 ROI：70-240 万元（中位 ~150 万元）
实施难度：⭐⭐⭐⭐☆（需要 RoBERTa 级别编码器 + 方面偏置先验估算，有一定工程门槛）
优先级：⭐⭐⭐☆☆（适合已有 ABSA 基础的团队作为精度升级；新团队建议先跑 Skill-VOC-Aspect-Sentiment-Extraction）

7. 代码模板

代码块数量：2 · 路径：未检测到

"""
DINER 简化版因果 ABSA — 母婴评论方面情感因果去偏
依赖: transformers >= 4.35, torch >= 2.0, numpy
pip install transformers torch numpy
"""
import numpy as np
from typing import Dict, List, Tuple


# ──────────────────────────────────────────────
# 1. 轻量因果 ABSA 推理器（不依赖 GPU 的 mock 版，用于演示逻辑）
# ──────────────────────────────────────────────
class CausalABSAInference:
    """
    简化版 DINER 因果推理器
    原理：TDE = P(Y|review, aspect) - P(Y|review, [MASK_aspect])
    通过对比"有方面"和"无方面"的情感得分，消除方面词的直接偏置
    """

    def __init__(self, bias_prior: Dict[str, float] = None):
        """
        bias_prior: 已知方面词的标注偏置先验
        格式: {方面词: 直接偏置强度}，范围 [-1, 1]
        负值=偏向负面，正值=偏向正面
        通常通过在验证集上统计 label 分布估算
        """
        self.bias_prior = bias_prior or {
            "price": -0.35,    # 价格词倾向于触发负面偏置
            "价格": -0.35,
            "shipping": -0.25,
            "物流": -0.25,
            "quality": 0.10,   # 质量词轻微正偏（"high quality" 更常见）
            "safety": 0.20,    # 安全词倾向于触发正面偏置
            "安全": 0.20,
        }

    def _naive_sentiment_score(self, text: str, aspect: str) -> np.ndarray:
        """
        模拟朴素 ABSA 模型输出 logits
        真实场景替换为 RoBERTa / InstructABSA 的实际推理
        返回 shape=(3,) 的 softmax 概率: [负面, 中性, 正面]
        """
        # 简化规则：基于关键词模拟
        neg_words = ["bad", "terrible", "broken", "loud", "weak", "slow",
                     "expensive", "overpriced", "noisy", "poor", "awful",
                     "差", "贵", "噪音", "弱", "慢", "漏", "不好"]
        pos_words = ["good", "great", "excellent", "love", "quiet", "strong",
                     "safe", "comfortable", "perfect", "recommend", "amazing",
                     "好", "棒", "安全", "舒适", "推荐", "满意", "强"]

        text_lower = text.lower()
        neg_count = sum(1 for w in neg_words if w in text_lower)
        pos_count = sum(1 for w in pos_words if w in text_lower)

        # 基础得分
        base_neg = 0.2 + neg_count * 0.15
        base_pos = 0.2 + pos_count * 0.15
        base_neu = max(0.1, 1.0 - base_neg - base_pos)

        # 方面词直接偏置（朴素模型受此影响）

8. 论文来源

2403.01166