P paper2skillsPlaybook
AI 路线图 →

Compliance ML Risk Scoring — 合规 ML 风险评分:用机器学习量化违规概率

Skill-Compliance-ML-Risk-Scoring · 21-合规决策

causalexperimentforecastingrecommendationfraud_detection推荐与搜索风控与合规WF-G Listing内容优化WF-K 全域风险防御WF-L 内容营销增长
年化 ROI¥30-120 万(以避损为主)
实现难度⭐⭐⭐☆☆
业务视角
适用角色合规负责人 / 选品负责人 · CEO · 供应链负责人
适用平台美国 CPSC/ASTM · 欧盟 CE/EN71 · Amazon 类目合规要求 · 德国/英国/中东市场
什么情况下用新品上架前不确定在美国/欧盟是否需要认证,怕因合规问题被下架;产品被平台下架但不清楚哪里出了问题
成功是什么样的上架前自动完成合规预扫描,0 合规下架事故,新市场合规准备时间从 3 个月缩短到 2 周
业务痛点
产品被下架说是合规问题不知道目标市场需要什么认证EU/US 合规要求不一样怎么处理母婴产品安全标准太严怕踩雷

1. 解决的问题

35个SKU每月合规审查人力有限不知道应该先审查哪些——ML风险评分输出每个SKU的违规概率将人工审查效率提升3-5倍,主动发现新违规模式避损年化30-120万元

2. 核心算法逻辑

规则引擎 vs ML 评分的区别:

3. 业务应用场景

业务问题:35个SKU每月需要合规审查,但人力有限,每次只能仔细审查8-10个。不知道应该先审查哪些,导致风险最高的SKU被遗漏。

数据要求: - 历史违规记录(被下架/警告的 SKU 及其 Listing 文本) - 当前所有 SKU 的 Listing 草稿 - 账号历史合规行为

预期产出: - 所有 SKU 的违规概率评分(0-1) - 风险排行榜:前 10 个高风险 SKU 优先处理 - 具体高风险特征解释(SHAP 值)

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • ROI 预估
  • 批量风险排序:有限合规人力聚焦最高风险 SKU,效率提升 3-5x
  • 主动发现规则引擎未覆盖的新违规模式:避损 ¥20-100 万/次
  • 减少被动处理违规(下架后才发现):每次下架损失 ¥5-50 万
  • 年化综合 ROI:¥30-120 万(以避损为主)
  • 实施难度:⭐⭐⭐☆☆(需要历史违规数据标注训练集;规则加权版 1 周,XGBoost 版约 3-4 周)

7. 代码模板

代码块数量:3 · 路径:未检测到

"""
Compliance ML Risk Scoring
机器学习合规风险评分模型
"""
import re
import numpy as np
from dataclasses import dataclass


@dataclass
class ListingData:
    sku_id: str
    title: str
    bullets: str
    description: str
    category: str
    account_age_days: int = 365
    account_violation_count: int = 0


# 合规风险词典
HIGH_RISK_WORDS = [
    'clinically proven', 'fda approved', 'medical grade', 'cure', 'treat',
    'guaranteed', 'scientifically proven', '#1', 'best ever',
    'clinically tested', 'doctor recommended', 'hospital grade',
]
MODERATE_RISK_WORDS = [
    'proven', 'certified', 'clinical', 'medical', 'professional grade',
    'recommended by', 'laboratory tested', 'dermatologist',
]
SUPERLATIVE_WORDS = [
    'best', 'perfect', 'amazing', 'incredible', 'unbeatable',
    'superior', 'ultimate', 'revolutionary', 'breakthrough',
]
COMPARATIVE_WORDS = [
    'better than', 'superior to', 'compared to', 'unlike other',
    'outperforms', 'more effective than',
]
HIGH_RISK_CATEGORIES = ['health', 'baby', 'infant', 'medical', 'beauty', 'nutrition']


def extract_compliance_features(listing: ListingData) -> np.ndarray:
    """提取合规风险特征向量"""
    full_text = f"{listing.title} {listing.bullets} {listing.description}".lower()
    word_count = max(len(full_text.split()), 1)

    # L1: 内容特征
    high_risk_hits = sum(1 for w in HIGH_RISK_WORDS if w in full_text)
    moderate_risk_hits = sum(1 for w in MODERATE_RISK_WORDS if w in full_text)
    superlative_density = sum(1 for w in SUPERLATIVE_WORDS if w in full_text) / word_count * 100
    comparative_hits = sum(1 for w in COMPARATIVE_WORDS if w in full_text)
    # 数字声明密度(含%的)
    num_claims = len(re.findall(r'\d+\s*%|\d+x\s+', full_text))
    # 文本长度(过短可能信息不充分)
    text_length_score = min(1.0, len(full_text) / 500)

    # L2: 账号历史特征
    account_age_norm = min(1.0, listing.account_age_days / 730)  # 2年内标准化
    violation_rate = listing.account_violation_count / max(1, listing.account_age_days / 30)

8. 论文来源

  • 2406.08921