paper2skills Playbook

Visual Data Collection — 电商图文视频数据采集与 AI 视频生成素材库构建

Skill-Visual-Data-Collection · 20-AI视频生成

experimentknowledge_graphdata_collectionvisual_generation广告与投放知识图谱与RAG数据采集与治理视觉内容生成WF-B 广告优化WF-D 选品扫描WF-E Review监控WF-G Listing内容优化
年化 ROI380 万
实现难度⭐⭐⭐☆☆
业务视角
适用角色内容运营 / 品牌负责人 · 社媒运营 · CMO
适用平台TikTok Shop LIVE · Instagram Reels · 多语言虚拟主播(英/西/阿/日)
什么情况下用TikTok/Reels 需要大量视频,拍摄成本高周期长产能跟不上;想做直播带货但真人主播成本高语言是障碍
成功是什么样的视频内容产能提升 5-10 倍,单条视频成本降低 80%,多语言市场内容本地化快速覆盖
业务痛点
视频内容来不及做拍视频成本太高主播太贵或不稳定多语言内容没有人拍TikTok 更新频率要求太高

1. 解决的问题

- 多模态异构性:图片(JPEG/PNG/WebP)+ 视频(MP4/MOV)+ 产品页截图

2. 核心算法逻辑

AI 视频生成的质量上限由训练/推理时使用的视觉素材库质量决定。母婴电商品牌的视频生成场景(产品展示、使用场景、开箱体验)需要:

3. 业务应用场景

业务背景:某品牌新品上架时,产品摄影成本 ¥15,000/次(6-8 张主图),且周期长达 2 周。目标是通过采集竞品高质量图片,构建素材库供 AI 视频生成工具参考(风格学习,不直接使用版权图片)。

ROI 量化: - 素材库构建成本:¥2,400(API+带宽),节省传统摄影 ¥15,000/轮 - AI 生成 20 秒展示视频:¥800/条(vs 传统拍摄 ¥8,000/条) - 首年节省 ¥12,600/次 × 4 次新品上架 = ¥50,400

业务背景:运营团队需要了解"竞品在小红书/TikTok 上哪类视频素材效果最好",提取高互动视频的视觉特征,作为自有内容创作的参考。

4. 输入数据要求

  • `quality_threshold=0.65`(主图库,严格)
  • `quality_threshold=0.40`(参考素材库,宽松)

5. 输出结果

  • `quality_threshold=0.65`(主图库,严格)
  • `quality_threshold=0.40`(参考素材库,宽松)

6. 业务价值 / ROI

380 万

7. 代码模板

代码块数量:6 · 路径:未检测到

"""
Visual Data Collection Pipeline
整合 VisualCrawl (CLIP过滤) + EcomVisQA (质量评估) + VideoMetaGen (语义标注)
使用 mock 数据,可直接运行(无需 GPU/真实模型)
"""

import re
import random
import math
import numpy as np
from dataclasses import dataclass, field
from typing import Dict, List, Optional, Tuple
from datetime import datetime
from pathlib import Path


# ── 数据结构 ────────────────────────────────────────────────────────────

@dataclass
class VisualAsset:
    """视觉素材记录"""
    asset_id: str
    asset_type: str       # image / video
    url: str
    source: str           # amazon / xiaohongshu / tiktok / 1688
    width: int
    height: int
    file_size_kb: float
    has_watermark: bool
    raw_metadata: Dict    # 原始采集 metadata


@dataclass
class QualityScore:
    """图片质量评分"""
    asset_id: str
    resolution: float     # 0-1
    sharpness: float      # 0-1
    composition: float    # 0-1
    aesthetics: float     # 0-1
    clutter: float        # 0-1
    overall: float        # 加权综合分
    grade: str            # HIGH / MEDIUM / LOW


@dataclass
class VisualMetadata:
    """语义标注结果"""
    asset_id: str
    asset_type: str
    visual_desc: str
    objects: List[str]
    scene_type: str       # white_bg / product_usage / lifestyle / unboxing
    dominant_hue: float   # HSV 色调主值
    aspect_ratio: str     # 16:9 / 9:16 / 1:1
    aesthetic_score: float
    is_usable: bool       # 综合判断是否可用


# ── VisualCrawl:CLIP 相关性过滤(Mock) ────────────────────────────────

8. 论文来源

  • 2409.11203
  • 2411.08821
  • 2502.13447