① 问题 ② 算法 ③ 场景 ④ 代码 ⑤ 关联 ⑥ 价值

Compliance ML Risk Scoring — 合规 ML 风险评分：用机器学习量化违规概率

Skill-Compliance-ML-Risk-Scoring · 21-合规决策

causalexperimentforecastingrecommendationfraud_detection推荐与搜索风控与合规WF-G Listing内容优化WF-K 全域风险防御WF-L 内容营销增长

收录于跨境合规全链路新品冷启动手册

年化 ROI¥30-120 万（以避损为主）

实现难度⭐⭐⭐☆☆

业务视角

适用角色合规负责人 / 选品负责人 · CEO · 供应链负责人

适用平台美国 CPSC/ASTM · 欧盟 CE/EN71 · Amazon 类目合规要求 · 德国/英国/中东市场

什么情况下用新品上架前不确定在美国/欧盟是否需要认证，怕因合规问题被下架；产品被平台下架但不清楚哪里出了问题

成功是什么样的上架前自动完成合规预扫描，0 合规下架事故，新市场合规准备时间从 3 个月缩短到 2 周

业务痛点

产品被下架说是合规问题不知道目标市场需要什么认证EU/US 合规要求不一样怎么处理母婴产品安全标准太严怕踩雷

1. 解决的问题

35个SKU每月合规审查人力有限不知道应该先审查哪些——ML风险评分输出每个SKU的违规概率将人工审查效率提升3-5倍，主动发现新违规模式避损年化30-120万元

2. 核心算法逻辑

规则引擎 vs ML 评分的区别：

3. 业务应用场景

业务问题：35个SKU每月需要合规审查，但人力有限，每次只能仔细审查8-10个。不知道应该先审查哪些，导致风险最高的SKU被遗漏。

数据要求： - 历史违规记录（被下架/警告的 SKU 及其 Listing 文本） - 当前所有 SKU 的 Listing 草稿 - 账号历史合规行为

预期产出： - 所有 SKU 的违规概率评分（0-1） - 风险排行榜：前 10 个高风险 SKU 优先处理 - 具体高风险特征解释（SHAP 值）

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

ROI 预估：
批量风险排序：有限合规人力聚焦最高风险 SKU，效率提升 3-5x
主动发现规则引擎未覆盖的新违规模式：避损 ¥20-100 万/次
减少被动处理违规（下架后才发现）：每次下架损失 ¥5-50 万
年化综合 ROI：¥30-120 万（以避损为主）
实施难度：⭐⭐⭐☆☆（需要历史违规数据标注训练集；规则加权版 1 周，XGBoost 版约 3-4 周）

7. 代码模板

代码块数量：3 · 路径：未检测到

"""
Compliance ML Risk Scoring
机器学习合规风险评分模型
"""
import re
import numpy as np
from dataclasses import dataclass


@dataclass
class ListingData:
    sku_id: str
    title: str
    bullets: str
    description: str
    category: str
    account_age_days: int = 365
    account_violation_count: int = 0


# 合规风险词典
HIGH_RISK_WORDS = [
    'clinically proven', 'fda approved', 'medical grade', 'cure', 'treat',
    'guaranteed', 'scientifically proven', '#1', 'best ever',
    'clinically tested', 'doctor recommended', 'hospital grade',
]
MODERATE_RISK_WORDS = [
    'proven', 'certified', 'clinical', 'medical', 'professional grade',
    'recommended by', 'laboratory tested', 'dermatologist',
]
SUPERLATIVE_WORDS = [
    'best', 'perfect', 'amazing', 'incredible', 'unbeatable',
    'superior', 'ultimate', 'revolutionary', 'breakthrough',
]
COMPARATIVE_WORDS = [
    'better than', 'superior to', 'compared to', 'unlike other',
    'outperforms', 'more effective than',
]
HIGH_RISK_CATEGORIES = ['health', 'baby', 'infant', 'medical', 'beauty', 'nutrition']


def extract_compliance_features(listing: ListingData) -> np.ndarray:
    """提取合规风险特征向量"""
    full_text = f"{listing.title} {listing.bullets} {listing.description}".lower()
    word_count = max(len(full_text.split()), 1)

    # L1: 内容特征
    high_risk_hits = sum(1 for w in HIGH_RISK_WORDS if w in full_text)
    moderate_risk_hits = sum(1 for w in MODERATE_RISK_WORDS if w in full_text)
    superlative_density = sum(1 for w in SUPERLATIVE_WORDS if w in full_text) / word_count * 100
    comparative_hits = sum(1 for w in COMPARATIVE_WORDS if w in full_text)
    # 数字声明密度（含%的）
    num_claims = len(re.findall(r'\d+\s*%|\d+x\s+', full_text))
    # 文本长度（过短可能信息不充分）
    text_length_score = min(1.0, len(full_text) / 500)

    # L2: 账号历史特征
    account_age_norm = min(1.0, listing.account_age_days / 730)  # 2年内标准化
    violation_rate = listing.account_violation_count / max(1, listing.account_age_days / 30)

8. 论文来源

2406.08921

Skill Relations

前置组合延伸

前置技能

Last-Mile-Delivery-Prediction]]（组合
Skill-Category-Compliance-Prescan
Skill-Consumer-Complaint-Recall-Prediction
Skill-Feature-Engineering
Skill-Last-Mile-Delivery-Prediction
Skill-Regulatory-Graph-Compliance-Monitor
Skill-Supply-Chain-Due-Diligence
Supply-Chain-Due-Diligence]]（组合
前置（prerequisite）
可组合（combinable）
延伸（extends）

延伸技能

Last-Mile-Delivery-Prediction]]（组合
Skill-Consumer-Complaint-Recall-Prediction
Skill-Last-Mile-Delivery-Prediction
Skill-Regulatory-Graph-Compliance-Monitor
Skill-Supply-Chain-Due-Diligence
Supply-Chain-Due-Diligence]]（组合
可组合（combinable）
延伸（extends）

可组合技能

Last-Mile-Delivery-Prediction]]（组合
Skill-Last-Mile-Delivery-Prediction
Skill-Supply-Chain-Due-Diligence
Supply-Chain-Due-Diligence]]（组合
可组合（combinable）