P paper2skillsPlaybook
AI 路线图 →

VOC Compliance Signal Mining — 评论合规信号挖掘:NLP-VOC×合规决策桥梁

Skill-VOC-Compliance-Signal-Mining · 07-NLP-VOC

causalexperimentrecommendationragmulti_agentdata_collectionfraud_detection广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规WF-B 广告优化WF-C 客服分诊WF-D 选品扫描WF-E Review监控WF-G Listing内容优化WF-I 智能体工程WF-K 全域风险防御
年化 ROI¥50-200 万(以避损为主)
实现难度⭐⭐☆☆☆
业务视角
适用角色产品运营负责人 / 选品负责人 · 客服负责人 · 品牌负责人
适用平台Amazon Reviews / Q&A · TikTok 评论区 · Reddit 母婴社区
什么情况下用每月几千条差评和 Q&A 没有人力一条条看,但痛点都在里面;新品开发不知道做什么功能、改什么问题
成功是什么样的自动提取 Top 10 高频痛点,新品开发有用户数据背书,每月出竞品用户洞察报告
业务痛点
差评太多看不过来不知道用户真正在意什么竞品评论没有系统分析过新品开发靠拍脑袋

1. 解决的问题

婴儿推车收到5条「夹扣突然断裂」评论但卖家不知道是否触发CPSC召回门槛——评论合规信号挖掘自动分类安全事故/宣传违规/化学风险并实时预警,提前4-8周发现召回风险避免损失100-500万元

2. 核心算法逻辑

用户评论是产品安全风险的早期预警系统——消费者在亚马逊评论里描述的产品缺陷、安全事故、法规疑问往往比官方投诉早 28 周出现。从评论中自动挖掘合规信号:

3. 业务应用场景

业务问题:某款婴儿推车的安全带夹扣收到5条评论提到"buckle broke suddenly while walking"。卖家不知道这是偶发还是系统性问题,更不知道是否触发 CPSC 召回门槛(15件投诉)。

数据要求: - 产品全部评论(来自 Seller Central 评论报告或 Jungle Scout) - 评论分类关键词库(安全/材料/宣传三类) - CPSC/FDA 合规阈值配置(可配置化)

预期产出: - 安全信号趋势图:安全事故类评论的周频率变化 - 风险等级预警:当频率超过阈值(如 0.5%)时自动告警 - 合规预警报告:可发送给产品/法务团队的结构化报告

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • ROI 预估
  • 提前发现安全事故信号并处理:避免 CPSC 召回损失 ¥100-500 万/次
  • 主动发现宣传违规并修正:避免 Amazon 下架损失 ¥30-200 万
  • 监控竞品违规词举报:潜在市场份额提升
  • 年化综合 ROI:¥50-200 万(以避损为主)
  • 实施难度:⭐⭐☆☆☆(关键词规则版本 1 周可实现;ML 分类器版本约 2-3 周;需要评论 API 接入)

7. 代码模板

代码块数量:3 · 路径:未检测到

"""
VOC Compliance Signal Mining
从用户评论自动挖掘产品合规风险信号
"""
import re
from collections import Counter, defaultdict


# 合规信号词典(母婴品类)
COMPLIANCE_SIGNALS = {
    'safety_incident': {
        'critical': ['choke', 'choking', 'swallow', 'swallowed', 'burn', 'shock', 'electric shock',
                     'break off', 'broke off', 'sharp edge', 'cut', 'injury', 'hospitalize', 'ER'],
        'warning':  ['dangerous', 'unsafe', 'hazard', 'hurt', 'pain', 'scratch', 'crack', 'broke'],
    },
    'marketing_violation': {
        'critical': ['cure', 'treat', 'heals', 'clinically proven', 'fda approved', 'medical grade',
                     'guaranteed to increase', 'scientifically proven to boost'],
        'warning':  ['proven to', 'doctors recommend', 'clinically tested', 'pharmaceutical grade'],
    },
    'chemical_risk': {
        'critical': ['bpa', 'phthalate', 'formaldehyde', 'lead', 'toxic', 'chemical smell',
                     'chemical taste', 'smells like plastic', 'prop 65'],
        'warning':  ['smell', 'odor', 'taste', 'material concern', 'plastic smell'],
    },
    'physical_defect': {
        'critical': ['piece broke off', 'part fell off', 'broken after', 'cracked', 'shattered',
                     'came apart', 'fell apart', 'broke in half'],
        'warning':  ['loose', 'wobbly', 'flimsy', 'cheap material', 'poorly made'],
    },
}


def classify_review_compliance(text):
    """对单条评论进行合规信号分类"""
    text_lower = text.lower()
    signals = {}
    for category, levels in COMPLIANCE_SIGNALS.items():
        for level, keywords in levels.items():
            for kw in keywords:
                if kw in text_lower:
                    if category not in signals or level == 'critical':
                        signals[category] = level
                    break
    return signals


def analyze_product_reviews(reviews, threshold_pct=0.005):
    """
    分析产品全量评论的合规风险
    threshold_pct: 触发预警的信号频率阈值(默认0.5%)
    """
    total = len(reviews)
    signal_counts = defaultdict(lambda: defaultdict(int))
    flagged_reviews = []

    for rev in reviews:
        signals = classify_review_compliance(rev['text'])
        if signals:
            flagged_reviews.append({**rev, 'signals': signals})

8. 论文来源

  • 2312.11642