22-数据采集工程

新领域 (2026-06-05): Document intelligence, identity resolution, fake review detection, federated collection, web crawling

Adaptive Crawl Scheduling — 自适应爬取调度：Sleeping Bandit + 神经质量优先级

22-数据采集工程

论文：SB-CLASSIFIER [2602.11874, EDBT 2026] + Neural Prioritisation [2506.16146]

⭐⭐⭐☆☆

causalexperimentoptimizationdata_collection数据采集与治理

Clickstream Persona Pipeline — 点击流用户画像：VQ-VAE 离散 Persona + 多层行为 KG

22-数据采集工程

母婴跨境电商应用：独立站/APP 原始点击流 → 离散 persona token，驱动个性化推荐和 A/B 实验

837 万⭐⭐⭐☆☆

experimentrecommendationknowledge_graphdata_collection客服与VOC推荐与搜索知识图谱与RAG数据采集与治理

Data Collection Causal Debiasing — 采集偏差因果修正：爬虫选择性采集对因果分析的去污染

22-数据采集工程

某母婴品牌通过爬虫采集 Amazon 评论，分析"打折 coupon 是否提升复购率"

180 万⭐⭐☆☆☆

causalexperimentdata_collectionpricing客服与VOC数据采集与治理定价与利润

Data Provenance & Lineage — 数据血缘追踪：LLM 训练数据溯源与 AI 法规合规

22-数据采集工程

论文：Tracing Roots [2604.10480] + DEBUGLM [2603.17884]

⭐⭐⭐☆☆

experimentrecommendationmulti_agentdata_collection推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Document Intelligence Parsing — LLM 驱动的文档智能解析：图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF，工厂产能表是 Excel 截图，海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR（Tesseract）只能识别文字，无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成

E-commerce Data Quality Assessment — 电商数据质量评估：错误检测与缺失模态补全

22-数据采集工程

论文：MESReduce [2603.08612] + MMPCBench [2601.19750]

⭐⭐☆☆☆

experimentrecommendationdata_collection推荐与搜索数据采集与治理

Fake Review Detection — 假评论检测：图神经网络+LLM 可解释欺诈识别

22-数据采集工程

论文：JARVIS [2602.12941] + DS-DGA-GCN [2603.08332] + CAMERA [2605.20032]

⭐⭐⭐☆☆

experimentmulti_agentdata_collection客服与VOC数据采集与治理MAS与智能体工程风控与合规

LLM-Focused Web Crawling — LLM/MLLM 引导的主题爬取：KG 驱动发现与动态 JS 页面抽取

22-数据采集工程

1. 广度优先爬取浪费资源：爬 100 个页面才找到 5 个有价值的竞品信息

⭐⭐⭐☆☆

experimentknowledge_graphmulti_agentdata_collectionpricing广告与投放供应链与补货客服与VOC知识图谱与RAG数据采集与治理MAS与智能体工程定价与利润

Market Signal Realtime Collection — 实时市场信号采集：事件驱动感知与趋势冷启动检测

22-数据采集工程

母婴爆品的"起飞时刻"通常在搜索量还很低的阶段。

⭐⭐☆☆☆

causalexperimentforecastingoptimizationdata_collectionpricing广告与投放供应链与补货数据采集与治理定价与利润

Privacy-Preserving Federated Collection — 隐私保护联邦采集：差分隐私预算与联邦推荐

22-数据采集工程

论文：SF-UBM [2604.14833] + MFG-RegretNet [2603.28329]

⭐⭐⭐⭐☆

causalexperimentrecommendationdata_collection广告与投放推荐与搜索数据采集与治理风控与合规

Privacy-Safe Identity Resolution — 隐私合规跨平台 ID 解析：多方对齐与差分隐私

22-数据采集工程

论文：Sherpa.ai [2604.19219] + Cross-Domain SID [2606.01396]

⭐⭐⭐⭐☆

causalexperimentragknowledge_graphdata_collection广告与投放知识图谱与RAG数据采集与治理风控与合规

Procurement Email Extraction — 采购邮件结构化提取：合同条款解析与 MILP 合规验证

22-数据采集工程

论文：Contract2Plan [2601.06164] + ProUIE [2604.10633]

⭐⭐⭐☆☆

experimentoptimizationmulti_agentdata_collectionpricing数据采集与治理MAS与智能体工程定价与利润风控与合规

Realtime Feature Collection — 流式特征采集与在线特征仓库：推荐系统实时个性化的数据基础设施

22-数据采集工程

后果：用户浏览了某款婴儿车 → 系统还在推荐她上周看过的奶粉 → CTR 下降，转化率损失。

100 万元⭐⭐⭐☆☆

causalexperimentoptimizationrecommendationdata_collectionpricing推荐与搜索数据采集与治理定价与利润

Review Dedup & Quality Filter — 多平台评论在线去重与质量排序

22-数据采集工程

从 Amazon、TikTok Shop、独立站同时采集的评论中，30-40% 是重复或低质量内容（同一用户多平台发布、机器生成水评、极短无意义评论）。直接用于 VOC 分析会严重扭曲洞察结论。

10-50 万元⭐⭐☆☆☆

causalexperimentforecastingoptimizationdata_collection广告与投放客服与VOC数据采集与治理

Synthetic Data for E-commerce — 电商合成数据生成：解决新品冷启动与长尾数据稀缺

22-数据采集工程

论文：SIGIR'26 [2602.23620] + ICML'26 [2602.07298] + SCALR [2606.00282]

⭐⭐⭐☆☆

experimentforecastingrecommendationdata_collection供应链与补货推荐与搜索数据采集与治理

Web Page Change Detection — 网页变化检测：VLM 视觉差异识别与 DOM 原子性保护

22-数据采集工程

论文：DiffSpot [2605.29615] + DOM Atomicity [2603.00476]

⭐⭐⭐☆☆

causalexperimentoptimizationdata_collectionpricing供应链与补货数据采集与治理定价与利润