NLP Sentiment ML Pipeline — 评论情感→ML 特征工程桥梁：将 VOC 转化为可训练信号

Skill-NLP-Sentiment-ML-Pipeline · 07-NLP-VOC

causalexperimentforecastingrecommendationdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规WF-B 广告优化WF-C 客服分诊WF-D 选品扫描WF-E Review监控WF-F 动态定价WF-K 全域风险防御

收录于大促备货决策手册竞品情报→产品迭代加速器

年化 ROI¥15-40 万

实现难度⭐⭐☆☆☆

业务视角

适用角色产品运营负责人 / 选品负责人 · 客服负责人 · 品牌负责人

适用平台Amazon Reviews / Q&A · TikTok 评论区 · Reddit 母婴社区

什么情况下用每月几千条差评和 Q&A 没有人力一条条看，但痛点都在里面；新品开发不知道做什么功能、改什么问题

成功是什么样的自动提取 Top 10 高频痛点，新品开发有用户数据背书，每月出竞品用户洞察报告

业务痛点

差评太多看不过来不知道用户真正在意什么竞品评论没有系统分析过新品开发靠拍脑袋

1. 解决的问题

NLP提取了丰富评论情感信号但ML预测模型从未使用这些领先指标——评论情感特征工程标准化管道将情感信号转化为ML可用特征矩阵，需求预测精度提升8-15%补全图谱唯一剩余NLP-VOC↔ML基础断链

2. 核心算法逻辑

NLP→ML 的典型工程管道：

3. 业务应用场景

业务问题：吸奶器的需求预测模型只用了历史销量、价格、促销日历，但"recommend 词频上升"通常比销量上升早 2 周出现（口碑传播周期）。把这个领先信号加入 Prophet/LSTM 模型，可以提前感知需求拐点。

数据要求： - 近 12 个月 ASIN 评论（含文本和日期） - 同期每日销量数据（用于训练） - 目标：构建可输入预测模型的情感特征矩阵

预期产出： - 周度情感特征矩阵（情感分×趋势×词频） - 情感特征与销量的 Granger 因果检验结果（验证领先关系） - 特征重要性分析（哪个情感维度对预测贡献最大）

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

ROI 预估：
需求预测模型加入情感领先特征：精度提升 8-15%，减少备货失误 ¥5-15 万/年
价格弹性模型加入情感特征：弹性估算更准确，定价决策 ROI 提升 10%
合规风险模型加入情感特征：召回风险预测更早，避损 ¥10-50 万
年化综合 ROI：¥15-40 万
实施难度：⭐⭐☆☆☆（情感提取已有成熟工具；特征工程标准化约 1-2 周；主要工作是数据管道对接）

7. 代码模板

代码块数量：2 · 路径：未检测到

"""
NLP Sentiment ML Pipeline
评论情感信号 → 结构化 ML 特征 （NLP-VOC ↔ ML基础 桥梁）
"""
import re
import numpy as np
from collections import defaultdict
from datetime import datetime, timedelta


# 情感词典（复用 VOC Skill 的分析结果）
POSITIVE_KEYWORDS = {
    'recommend': 1.0, 'love': 0.9, 'great': 0.8, 'excellent': 0.8,
    'perfect': 0.7, 'worth': 0.7, 'satisfied': 0.8, '推荐': 1.0, '好': 0.8,
}
NEGATIVE_KEYWORDS = {
    'disappointed': -0.9, 'broke': -0.8, 'loud': -0.7, 'expensive': -0.6,
    'waste': -0.9, 'return': -0.7, 'poor': -0.8, '差': -0.8, '贵': -0.6,
}

ASPECT_KEYWORDS = {
    'noise': ['quiet', 'silent', 'loud', 'noise', 'noisy', '噪音', '安静'],
    'suction': ['suction', 'powerful', 'strong', 'weak', '吸力'],
    'price': ['expensive', 'cheap', 'price', 'worth', '贵', '便宜', '值'],
    'quality': ['quality', 'durable', 'broke', 'sturdy', '质量', '耐用'],
    'recommend': ['recommend', 'gift', 'share', '推荐', '送礼'],
}


def extract_review_signals(reviews: list) -> dict:
    """从评论列表提取情感信号（按日期聚合）"""
    daily_signals = defaultdict(lambda: {'pos': 0, 'neg': 0, 'count': 0, 'aspects': defaultdict(list)})

    for r in reviews:
        date_str = r.get('date', '2025-01-01')
        text = r.get('text', '').lower()
        rating = r.get('rating', 3)

        # 总体情感
        pos = sum(v for kw, v in POSITIVE_KEYWORDS.items() if kw in text)
        neg = sum(abs(v) for kw, v in NEGATIVE_KEYWORDS.items() if kw in text)
        sentiment = (pos - neg) / max(pos + neg, 1e-8)

        daily_signals[date_str]['pos'] += pos
        daily_signals[date_str]['neg'] += neg
        daily_signals[date_str]['count'] += 1
        daily_signals[date_str]['star_sum'] = daily_signals[date_str].get('star_sum', 0) + rating

        # 方面情感
        for aspect, keywords in ASPECT_KEYWORDS.items():
            for kw in keywords:
                if kw in text:
                    # 简单判断方向
                    aspect_sentiment = sentiment if pos >= neg else -sentiment
                    daily_signals[date_str]['aspects'][aspect].append(aspect_sentiment)
                    break

    return daily_signals

8. 论文来源

2406.15234

Skill Relations

前置组合延伸

前置技能

Causal-ML-Feature-Engineering]]（组合
Demand-Forecasting-Supply-Chain]]（组合
Skill-Causal-ML-Feature-Engineering
Skill-Demand-Forecasting-Supply-Chain
Skill-Feature-Engineering
Skill-Time-Series-Foundation-Model
Skill-VOC-Aspect-Sentiment-Extraction
Skill-VOC-Trend-Signal-Forecasting
前置（prerequisite）
可组合（combinable）
延伸（extends）

延伸技能

Causal-ML-Feature-Engineering]]（组合
Demand-Forecasting-Supply-Chain]]（组合
Skill-Causal-ML-Feature-Engineering
Skill-Demand-Forecasting-Supply-Chain
Skill-Time-Series-Foundation-Model
Skill-VOC-Trend-Signal-Forecasting
可组合（combinable）
延伸（extends）

可组合技能

Causal-ML-Feature-Engineering]]（组合
Demand-Forecasting-Supply-Chain]]（组合
Skill-Causal-ML-Feature-Engineering
Skill-Demand-Forecasting-Supply-Chain
可组合（combinable）