paper2skills Playbook

ReliabilityBench — Agent 生产可靠性三维评估:pass@1 高估 20-40%

Skill-ReliabilityBench-Agent-Reliability · 16-智能体工程

causalexperimentrecommendationmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润WF-A 智能补货WF-D 选品扫描WF-F 动态定价
实现难度⭐⭐☆☆☆
业务优先级⭐⭐⭐⭐⭐
业务视角
适用角色CTO / 技术负责人 · 产品经理 · 数据工程师
适用平台跨境运营 AI Agent 工程落地 · Amazon SP API + LLM 集成 · 多平台数据采集 Agent
什么情况下用想把 AI 集成到业务系统,但 LLM 稳定性差、幻觉问题、成本控制都是挑战;Agent 任务失败了不知道哪步出了问题
成功是什么样的AI Agent 在生产环境稳定运行,失败可追踪,成本可控,复杂任务完成率 >85%
业务痛点
LLM 返回结果不稳定不可靠AI 幻觉导致业务决策错误Agent 任务失败了不知道哪步出问题AI 调用成本控制不住

1. 解决的问题

ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架(arXiv 2601.06112,2026年1月)。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面

2. 核心算法逻辑

ReliabilityBench 是首个系统性评估 LLM Agent 在生产级压力条件下可靠性的基准框架(arXiv 2601.06112,2026年1月)。它的核心贡献是把单维"能不能完成任务"扩展为三维 R(k, ε, λ) 可靠性曲面:

3. 业务应用场景

母婴跨境供应链 MAS(Multi-Agent System)在 staging 环境测试通过率达 95%,运营团队想上线,但历史经验表明生产环境与测试差距很大。需要一个量化上线决策的评估框架。

| 维度 | 供应链场景具体含义 | 阈值设定 | |------|-------------------|----------| | k=5 | 补货计算任务连续执行 5 次(周一至周五)的通过率 | pass@5 ≥ 0.85 才上线 | | ε=0.15 | 订单描述措辞变化("补货 100 件" vs "请求追加库存 100 unit") | 性能下降 ≤ 10% | | λ=rate_limit | ERP API 限流(早高峰期间调用频繁) | 降级后仍完成核心任务 |

- pass@5 = 0.91,ε=0.15 下性能保持 92%,rate_limit 故障下完成率 87% → ✅ 可上线 - 若 rate_limit 下降至 70% → ❌ 需先实现降级策略

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • ✅ 供应链 MAS 上线前可靠性 Gate-check
  • ✅ 选品 Agent A/B 对比时的鲁棒性维度
  • ✅ 客服 Agent 模型切换时的一致性验证
  • ❌ 不适用于实验性探索阶段(过早引入会拖慢迭代)
  • 实现难度:⭐⭐☆☆☆(框架简洁,核心逻辑清晰)
  • 业务优先级:⭐⭐⭐⭐⭐(Agent 上线决策的必备工具,缺失会导致生产事故)

7. 代码模板

代码块数量:3 · 路径:未检测到

"""
ReliabilityBench: Agent 生产可靠性三维评估框架
参考: arXiv 2601.06112 | ReliabilityBench (2026)

R(k, ε, λ) 可靠性曲面: 一致性 × 鲁棒性 × 故障容忍
"""

from __future__ import annotations

import random
import time
from dataclasses import dataclass, field
from typing import Callable, Any
from enum import Enum


# ──────────────────────────────────────────────
# 数据类:配置与结果
# ──────────────────────────────────────────────

@dataclass
class ReliabilityConfig:
    """三维可靠性评估的超参配置"""
    k_trials: int = 5                              # 一致性维度:重复执行次数
    epsilon_levels: list[float] = field(
        default_factory=lambda: [0.0, 0.1, 0.2]   # 鲁棒性维度:扰动幅度列表
    )
    lambda_levels: list[str] = field(
        default_factory=lambda: ["none", "timeout", "rate_limit", "partial_response"]  # 故障等级
    )
    pass_threshold: float = 0.85                   # 通过率阈值
    timeout_prob: float = 0.3                      # 超时注入概率
    rate_limit_prob: float = 0.4                   # 限流注入概率
    partial_response_prob: float = 0.2             # 部分响应注入概率


@dataclass
class EpisodeResult:
    """单次 Episode 执行结果"""
    task: str
    output: Any
    success: bool
    latency_ms: float
    error: str | None = None


@dataclass
class ReliabilitySurface:
    """R(k, ε, λ) 三维可靠性曲面"""
    consistency_score: float          # pass@k 一致性分数
    robustness_scores: dict[float, float]   # ε → 鲁棒性分数
    fault_tolerance_scores: dict[str, float]  # λ → 故障容忍分数
    overall_reliability: float        # 综合可靠性得分

    def to_report(self) -> str:
        lines = [
            "=== ReliabilityBench 可靠性曲面报告 ===",
            f"一致性 (pass@k):         {self.consistency_score:.3f}",
            "",
            "鲁棒性 (ε-perturbations):",

8. 论文来源

  • 2601.06112