paper2skills Playbook

Agent SLO Manager — 三层 SLI 体系:服务/任务/判断质量

Skill-Agent-SLO-Manager · 16-智能体工程

experimentrecommendationmulti_agent广告与投放供应链与补货推荐与搜索数据采集与治理MAS与智能体工程风控与合规WF-A 智能补货WF-B 广告优化WF-D 选品扫描WF-E Review监控
实现难度⭐⭐☆☆☆
业务优先级⭐⭐⭐⭐⭐
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补

2. 核心算法逻辑

传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补:

3. 业务应用场景

场景一:WF-A 供应链 MAS 上线前评估

新版补货 Agent 上线前需三层 SLI 全部达标。Canary 阶段(10% 流量,30 天观察窗口):Service SLI ≥99.5%、Task SLI ≥99.9%、Judgment SLI ≥92%(人工抽查 5% 补货单,协议率>90%)。只有 SLO 状态持续 HEALTHY 满 30 天,才解锁推全量。若任意 SLI 触发 WARNING,观察窗口重置;触发 CRITICAL 则自动回滚旧版。

场景二:WF-B 广告 Agent 持续监控

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • ROI:生产 Agent 质量可量化可告警,防止"可用但错误"的生产事故(如错误补货决策导致的资金损失);三层 SLI 缺一不可,Judgment SLI 是核心差异化护城河
  • 难度:⭐⭐☆☆☆ | 优先级:⭐⭐⭐⭐⭐(P0,autoresearch 进化的度量基础)

7. 代码模板

代码块数量:1 · 路径:paper2skills-code/llm_agent_engineering/agent_slo_manager

"""
Agent SLO Manager — 三层 SLI 体系实现
来源:Microsoft agent-governance-toolkit + agent-sre 2026
"""
import time
import math
from enum import Enum
from dataclasses import dataclass, field
from typing import List, Optional, Dict


class SLIType(Enum):
    SERVICE = "service"                    # 服务层:可用性/延迟
    TASK_COMPLETION = "task_completion"    # 任务完成率
    JUDGMENT_QUALITY = "judgment_quality"  # 判断质量(AI 决策)


class SLOStatus(Enum):
    HEALTHY = "healthy"
    WARNING = "warning"
    CRITICAL = "critical"
    EXHAUSTED = "exhausted"
    UNKNOWN = "unknown"


class ExhaustionAction(Enum):
    ALERT = "alert"
    THROTTLE = "throttle"
    FREEZE_DEPLOYMENTS = "freeze_deployments"
    CIRCUIT_BREAK = "circuit_break"


@dataclass
class SLIMetric:
    metric_name: str
    sli_type: SLIType
    target: float           # 目标值,如 0.995
    current_value: float    # 当前值
    window_seconds: int     # 观察窗口(秒)
    sample_count: int = 0   # 样本数量

    @property
    def is_meeting_target(self) -> bool:
        return self.current_value >= self.target

    @property
    def error_rate(self) -> float:
        return max(0.0, 1.0 - self.current_value)


@dataclass
class ErrorBudget:
    sli_type: SLIType
    target: float
    window_seconds: int
    total_events: int = 0
    failed_events: int = 0
    _alerts: List[str] = field(default_factory=list)

    @property

8. 论文来源

未自动抽取;请查看原始 Skill 卡片。