NuggetIndex原子知识单元管理 — 最小事实粒度+时效区间+生命周期状态的可维护RAG

Skill-NuggetIndex-Atomic-Knowledge-Management · 08-知识图谱

causalexperimentragknowledge_graphmulti_agentpricing推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规WF-F 动态定价WF-G Listing内容优化WF-H 复购增长WF-I 智能体工程WF-K 全域风险防御WF-L 内容营销增长

年化 ROI5-10万

实现难度⭐⭐⭐☆☆

业务优先级⭐⭐⭐⭐⭐

业务视角

适用角色选品负责人 / 运营负责人 · 数据分析师 · 供应链负责人

适用平台Amazon 品类体系 · 竞品 ASIN 网络分析

什么情况下用品类很多，不清楚品类间的关联，没法做系统性类目扩张规划；竞品矩阵太复杂，品牌/SKU/渠道理不清

成功是什么样的建立品类知识图谱，清晰看到哪些是入口品/引流品/利润品，指导下一步选品扩张方向

业务痛点

品类太多不知道先做哪个竞品关系理不清楚不知道用户买了奶瓶还会买什么类目扩张没有逻辑

1. 解决的问题

段落级RAG中一个事实过期整个段落都变得不可信——NuggetIndex将知识分解为原子事实单元并附带时效区间，Nugget Recall提升42%，冲突率降低55%，生成器输入减少64%（2026 arXiv:2604.27306）

2. 核心算法逻辑

反直觉洞察：传统RAG系统存储的是"段落"（Passage）或"文档块"（Chunk），这有一个根本性缺陷：一个段落可能同时包含多个事实，其中一个事实过期了，整个段落就变成"部分有效"——很难处理。NuggetIndex的反直觉方案：将知识分解到最小原子事实单元（nugget），每个nugget只包含一个不可再分的事实，并附带时效区间和生命周期状态。这样过期的是单个事实，而非整个段落。

3. 业务应用场景

- 传统段落RAG的问题：一个段落包含"FBA标准费率$8.50/件，旺季仓储费$2.40/月，返利政策为..."，当FBA费率在2025年调整后，整段都需要重新处理，而且可能有部分信息仍然准确 - NuggetIndex方案： - Nugget-001: "FBA标准尺寸吸奶器费率$8.50/件" [valid_from=2024-10] - Nugget-002: "FBA旺季仓储费$2.40/立方英尺/月" [valid_from=2024-10] - 2025年费率调整时：Nugget-001 → Deprecated；新建 Nugget-201: "$8.70/件" [valid_f

- **业务问题**：Amazon每年更新1-3次儿童产品合规要求，每次变动涉及某几个具体条款，其他条款不变；传统系统需要人工判断"哪些内容变了哪些没变"，耗时且容易遗漏 - **NuggetIndex方案**：每条合规要求独立为nugget，附带"有效期间"（对应规则版本）；新规则发布时只更新涉及的具体nuggets，其他保持Active；Agent检索时自动获得当前有效的合规规则集合 - **预期产出**：合规信息过期错误率从18%降至2%，更新工作量减少75%

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

ROI 预估：传统段落RAG在合规知识库中过期信息率18%，NuggetIndex降至2%；知识更新工作量降低75%（只更新变化的原子事实）；检索质量提升42%（Nugget Recall）；综合年化价值$5-10万（减少错误决策+减少维护成本）；系统成本$5万，ROI≈200%
实施难度：⭐⭐⭐☆☆（原子事实提取需要LLM辅助，有一定工程量；主要挑战是为现有段落知识库做nugget化改造）
优先级：⭐⭐⭐⭐⭐（解决了RAG系统的根本矛盾：评估粒度是事实级，但检索粒度是段落级；NuggetIndex对齐两者，是RAG质量提升的核心基础设施）
适用规模：任何需要精确知识维护的知识库（特别是频繁更新的政策/规则/价格类）
数据依赖：需要高质量的文档来源，以及时效信息（文档发布时间/有效期标注）

7. 代码模板

代码块数量：3 · 路径：未检测到

"""
NuggetIndex原子知识单元管理系统
功能：原子事实提取 + 生命周期管理 + 时效过滤 + 新鲜度回退
基于 arXiv:2604.27306 (2026)
"""
import re
import uuid
from dataclasses import dataclass, field
from typing import List, Dict, Optional, Tuple
from datetime import datetime
from enum import Enum
import warnings
warnings.filterwarnings('ignore')


class LifecycleState(Enum):
    ACTIVE = "Active"           # 当前共识，正常使用
    DEPRECATED = "Deprecated"   # 已被取代，降权检索
    CONTESTED = "Contested"     # 有分歧，附加警告


@dataclass
class Nugget:
    """原子知识单元"""
    nugget_id: str
    content: str                    # 单一不可分原子事实
    valid_from: datetime
    valid_to: Optional[datetime]    # None = 持续有效
    lifecycle_state: LifecycleState
    sources: List[str] = field(default_factory=list)
    confidence: float = 1.0
    domain: str = ""
    superseded_by: Optional[str] = None  # Deprecated时指向新nugget

    @property
    def is_valid_at(self) -> bool:
        """当前时间是否有效"""
        now = datetime.now()
        if self.valid_from > now:
            return False
        if self.valid_to and self.valid_to < now:
            return False
        return self.lifecycle_state == LifecycleState.ACTIVE

    @property
    def token_count(self) -> int:
        return max(len(self.content) // 4, 1)


class NuggetExtractor:
    """
    从文本中提取原子事实Nuggets
    生产版本：使用LLM提取，此处用规则近似
    """

    # 常见事实句式（简化检测）
    FACT_PATTERNS = [
        r'(?:^|\n).*(?:\$[\d,.]+|[\d]+%|\d+件|\d+天|\d+月).*(?:\。|$)',
        r'.*(?:必须|需要|要求|禁止|允许|不得).*(?:[认证|合规|标准|规定]).*',
        r'.*(?:fee|cost|rate|price|penalty).*\$[\d,.]+.*',

8. 论文来源

2604.27306