paper2skills Playbook

DeepAnalyze — 自主数据科学Agent

Skill-DeepAnalyze-Autonomous-Data-Science-Agent · 09-DataAgent-LLM

causalexperimentoptimizationmulti_agent广告与投放客服与VOCMAS与智能体工程WF-B 广告优化WF-C 客服分诊WF-G Listing内容优化
年化 ROI20万
业务视角
适用角色数据分析师 / 运营负责人 · CEO · 供应链负责人
适用平台Amazon SP API · Shopify · TikTok Ads API · 多平台数据整合
什么情况下用数据需求太多,数据团队排期 2 周;非技术人员(采购/客服/运营)有数据问题但不会 SQL;重复报表占用大量时间
成功是什么样的业务方用自然语言自助查数据,常规报表自动化,数据驱动决策响应速度从「天」变「分钟」
业务痛点
数据需求排期太长不会 SQL 只能等数据团队老板临时要数据没法马上出分析师时间都花在取数上

1. 解决的问题

背景:母婴品牌在Amazon、Shopify、SHEIN等多个平台销售,运营团队每周需要汇总各平台数据生成分析报告,耗时4-6小时/周

2. 核心算法逻辑

DeepAnalyze 的核心思想是让LLM像人类数据科学家一样工作——不是按预定义工作流执行固定步骤,而是自主决定下一步该做什么。

3. 业务应用场景

背景:母婴品牌在Amazon、Shopify、SHEIN等多个平台销售,运营团队每周需要汇总各平台数据生成分析报告,耗时4-6小时/周。

Agent工作流: 1. Understand:读取各平台CSV导出文件,识别字段(SKU、销量、销售额、退货、广告 spend) 2. Analyze:规划分析方向——平台对比、时间趋势、TOP SKU、退货率异常 3. Code → Execute: - 数据清洗(处理缺失值、统一货币单位) - 计算各平台GMV、ROI、退货率 - 生成趋势图(折线图)和对比图(柱状图) 4. Analyze:基于执行结果反思——发现Shopify退货率异常升高 5. Code → Execute:深挖退货原因(按SKU、按时间维度) 6. Answer:生成结构化报告,包含关键发现、数据可视化、可执行建

预期效果:从4-6小时/周压缩至5分钟,报告质量标准化。

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • 假设运营团队5人,每人每周数据分析耗时4小时
  • 人力成本按¥200/小时计算
  • 使用Agent后:5人 x 4小时 x ¥200 = ¥4000/周 → ¥200/周(API成本)
  • 年节省:约 ¥20万

7. 代码模板

代码块数量:4 · 路径:未检测到

"""
DeepAnalyze-inspired Autonomous Data Science Agent
基于五动作编排架构的简化版实现

⚠️ 安全警告:本原型使用 exec() 执行LLM生成的代码。
生产环境必须:
1. 使用 Docker 沙箱或 RestrictedPython 限制执行环境
2. 仅暴露白名单API(禁止文件系统写操作、网络访问)
3. 设置执行超时(如30秒)
4. 禁用危险内置函数(__import__, open, eval, exec)
"""

import os
import re
import io
import contextlib
from typing import Optional, List, Dict, Any
from dataclasses import dataclass, field
from enum import Enum

import pandas as pd
import numpy as np
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
from openai import OpenAI


class ActionType(Enum):
    ANALYZE = "analyze"
    UNDERSTAND = "understand"
    CODE = "code"
    EXECUTE = "execute"
    ANSWER = "answer"


@dataclass
class Action:
    type: ActionType
    content: str
    result: Optional[str] = None
    error: Optional[str] = None


@dataclass
class AgentState:
    instruction: str
    data_sources: List[str] = field(default_factory=list)
    dataframes: Dict[str, pd.DataFrame] = field(default_factory=dict)
    actions: List[Action] = field(default_factory=list)
    environment_context: str = ""
    final_answer: str = ""


class DataScienceAgent:
    """
    自主数据科学Agent

    基于DeepAnalyze五动作架构的简化实现:
    - 使用外部LLM API(OpenAI/DeepSeek等)

8. 论文来源

  • 2510.16872