paper2skills Playbook

22-数据采集工程

新领域 (2026-06-05): Document intelligence, identity resolution, fake review detection, federated collection, web crawling

Document Intelligence Parsing — LLM 驱动的文档智能解析:图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF,工厂产能表是 Excel 截图,海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR(Tesseract)只能识别文字,无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成

Review Dedup & Quality Filter — 多平台评论在线去重与质量排序

22-数据采集工程

从 Amazon、TikTok Shop、独立站同时采集的评论中,30-40% 是重复或低质量内容(同一用户多平台发布、机器生成水评、极短无意义评论)。直接用于 VOC 分析会严重扭曲洞察结论。

10-50 万元⭐⭐☆☆☆
causalexperimentforecastingoptimizationdata_collection广告与投放客服与VOC数据采集与治理