Visual Data Collection — 电商图文视频数据采集与 AI 视频生成素材库构建
Skill-Visual-Data-Collection · 20-AI视频生成
experimentknowledge_graphdata_collectionvisual_generation广告与投放知识图谱与RAG数据采集与治理视觉内容生成WF-B 广告优化WF-D 选品扫描WF-E Review监控WF-G Listing内容优化
收录于AI 内容工厂手册
年化 ROI380 万
实现难度⭐⭐⭐☆☆
业务视角
适用角色内容运营 / 品牌负责人 · 社媒运营 · CMO
适用平台TikTok Shop LIVE · Instagram Reels · 多语言虚拟主播(英/西/阿/日)
什么情况下用TikTok/Reels 需要大量视频,拍摄成本高周期长产能跟不上;想做直播带货但真人主播成本高语言是障碍
成功是什么样的视频内容产能提升 5-10 倍,单条视频成本降低 80%,多语言市场内容本地化快速覆盖
业务痛点
1. 解决的问题
- 多模态异构性:图片(JPEG/PNG/WebP)+ 视频(MP4/MOV)+ 产品页截图
2. 核心算法逻辑
AI 视频生成的质量上限由训练/推理时使用的视觉素材库质量决定。母婴电商品牌的视频生成场景(产品展示、使用场景、开箱体验)需要:
3. 业务应用场景
业务背景:某品牌新品上架时,产品摄影成本 ¥15,000/次(6-8 张主图),且周期长达 2 周。目标是通过采集竞品高质量图片,构建素材库供 AI 视频生成工具参考(风格学习,不直接使用版权图片)。
ROI 量化: - 素材库构建成本:¥2,400(API+带宽),节省传统摄影 ¥15,000/轮 - AI 生成 20 秒展示视频:¥800/条(vs 传统拍摄 ¥8,000/条) - 首年节省 ¥12,600/次 × 4 次新品上架 = ¥50,400
业务背景:运营团队需要了解"竞品在小红书/TikTok 上哪类视频素材效果最好",提取高互动视频的视觉特征,作为自有内容创作的参考。
4. 输入数据要求
- `quality_threshold=0.65`(主图库,严格)
- `quality_threshold=0.40`(参考素材库,宽松)
5. 输出结果
- `quality_threshold=0.65`(主图库,严格)
- `quality_threshold=0.40`(参考素材库,宽松)
6. 业务价值 / ROI
380 万
7. 代码模板
代码块数量:6 · 路径:未检测到
"""
Visual Data Collection Pipeline
整合 VisualCrawl (CLIP过滤) + EcomVisQA (质量评估) + VideoMetaGen (语义标注)
使用 mock 数据,可直接运行(无需 GPU/真实模型)
"""
import re
import random
import math
import numpy as np
from dataclasses import dataclass, field
from typing import Dict, List, Optional, Tuple
from datetime import datetime
from pathlib import Path
# ── 数据结构 ────────────────────────────────────────────────────────────
@dataclass
class VisualAsset:
"""视觉素材记录"""
asset_id: str
asset_type: str # image / video
url: str
source: str # amazon / xiaohongshu / tiktok / 1688
width: int
height: int
file_size_kb: float
has_watermark: bool
raw_metadata: Dict # 原始采集 metadata
@dataclass
class QualityScore:
"""图片质量评分"""
asset_id: str
resolution: float # 0-1
sharpness: float # 0-1
composition: float # 0-1
aesthetics: float # 0-1
clutter: float # 0-1
overall: float # 加权综合分
grade: str # HIGH / MEDIUM / LOW
@dataclass
class VisualMetadata:
"""语义标注结果"""
asset_id: str
asset_type: str
visual_desc: str
objects: List[str]
scene_type: str # white_bg / product_usage / lifestyle / unboxing
dominant_hue: float # HSV 色调主值
aspect_ratio: str # 16:9 / 9:16 / 1:1
aesthetic_score: float
is_usable: bool # 综合判断是否可用
# ── VisualCrawl:CLIP 相关性过滤(Mock) ────────────────────────────────
8. 论文来源
- 2409.11203
- 2411.08821
- 2502.13447