paper2skills Playbook

风控与合规

Conformal Risk Assessment — 共形预测业务风险量化:覆盖率保证的区间估计

01-因果推断

共形预测的核心保证:共形预测(Conformal Prediction, CP)在无需分布假设的条件下,为任意黑盒预测模型提供覆盖率理论保证。对于置信水平 1-α(如 90%),输出的预测区间 `[lower, upper]` 在有限样本下满足:`P(y ∈ [lower, upper]) ≥ 1-α`。这一保证来自数据可交换性(exchangeability),而非 Gaussian 分布假设。

⭐⭐☆☆☆
causalexperimentforecastingmulti_agentfraud_detection广告与投放供应链与补货MAS与智能体工程风控与合规

FSDA-DRL 快慢双智能体动态定价与补货联合优化

04-供应链

FSDA-DRL(Fast-Slow Dual-Agent Deep Reinforcement Learning)用两个独立的 RL 智能体,在不同时间频率上分别解决"定价"(快决策)和"补货"(慢决策)问题,并通过共享环境状态让它们协作而非博弈。

5000 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationmulti_agentfraud_detectionpricing广告与投放供应链与补货MAS与智能体工程定价与利润风控与合规

Gen-QOT 提前期分布建模 - 动态安全库存防海运延误

04-供应链

母婴跨境海运提前期(Lead Time, LT)在 25-50 天剧烈波动(苏伊士事件/港口拥堵). 传统安全库存假设 LT 固定,实际服务水平远低于设定值(设 95% 实际只有 85%). Gen-QOT 用深度自回归生成模型对 LT 进行分布式建模(不假设参数分布),并把"订单整批到货"扩展为分批随机到达(QOT, Quantity-Over-Time),精确建模拼箱拆批到港行为. 动态安全库存自适应季节性 + 港口拥堵期.

200-500 万/年⭐⭐⭐⭐☆
causalexperimentforecastingfraud_detection供应链与补货风控与合规

Multi-Channel Inventory Pooling(多渠道库存池化)

04-供应链

吸奶器在 Amazon FBA 仓缺货(销量超预期),但独立站海外仓还有 200 件积压,TikTok Shop 也在慢速消化——三渠道信息不互通,总库存 800 件却出现"某渠道缺货 + 某渠道积压"

200-400 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationfraud_detection广告与投放供应链与补货推荐与搜索风控与合规

Multilevel Facility Location Optimization (多级设施选址优化)

04-供应链

在一个从工厂到终端消费者的多层级供应链网络中,决定在哪里建哪类设施、各层级之间如何连通,使全链路固定成本和运输成本之和最小。

1000 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationfraud_detection广告与投放供应链与补货推荐与搜索风控与合规

NEO-LRP(Neural Embedded Optimization for Location-Routing)

04-供应链

核心思想:把"建哪些仓"和"怎么配送"这两个原本耦合的 NP-hard 问题解耦——用一个预训练好的图神经网络(GNN)充当配送路径成本的快速估计器,把估计值直接嵌进选址的混合整数规划(MIP)里,从而让 MIP 求解器只需要做高层选址-分配决策,而不必在求解过程中展开庞大的车辆路径(VRP)变量。

91 万元⭐⭐⭐☆☆
causalforecastingoptimizationfraud_detection广告与投放供应链与补货客服与VOCMAS与智能体工程风控与合规

PASTA - 离线悲观选品框架

04-供应链

如何仅凭历史离线日志(无需在线试错),找出使总期望收益最大化的商品展示组合。

15-30 万元⭐⭐⭐☆☆
causalexperimentforecastingoptimizationrecommendationragfraud_detectionpricing供应链与补货推荐与搜索知识图谱与RAG定价与利润风控与合规

PPO-swap(图上设施选址强化学习)

04-供应链

PPO-swap 解决的是在真实道路网络(加权图)上,如何快速决定把哪个仓库/站点搬去哪里,使全局配送成本最低。传统 Gurobi 在大图上算不动(千节点场景需数小时),贪心启发式又容易陷入局部最优。PPO-swap 以"从初始布局出发、反复微调"取代"从零开始构建",每一步只做一次交换(Swap):关掉一个现有设施,在另一个节点重开,直到整体成本无法再降。

70-100 万元
causalforecastingoptimizationmulti_agentfraud_detection供应链与补货MAS与智能体工程风控与合规

MAS Collaborative Recommendation — 多智能体协同个性化推荐:LLM Agent 异构协作框架

05-推荐系统

传统推荐系统是单一模型的端到端优化,难以整合多维用户意图(价格敏感、品牌偏好、安全认证关注)。MAS Collaborative Recommendation 将推荐任务分解为多个专业化 LLM Agent 的协作问题

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationrecommendationragmulti_agentpricing广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

Cross-Border Cold-Start Forecast(跨境冷启动需求预测)

06-增长模型

跨境电商的致命问题:70-80% 商品在目标市场无历史数据,15-25% 上架后零销量,但传统预测模型会给出"看起来合理"的正数预测→导致库存积压。ZODIAC 用双域 LSTM + 双头架构同时解决"零销量预测"和"过预测"两个核心痛点。

60-120 万元⭐⭐⭐☆☆
causalexperimentforecastingrecommendationfraud_detectionpricing供应链与补货客服与VOC推荐与搜索定价与利润风控与合规

Customer Churn Prediction (用户流失预测)

06-增长模型

识别哪些用户即将停止使用产品/服务,从而提前采取挽留措施。

1.5-3 万⭐⭐☆☆☆
causalexperimentforecastingfraud_detection客服与VOC风控与合规

Skill: Deep Learning for Customer Churn Prediction

06-增长模型

母婴订阅盒服务(如每月奶粉+尿布套餐)面临用户流失风险

100 万⭐⭐⭐☆☆
causalexperimentforecastingoptimizationfraud_detection客服与VOC风控与合规

Supplier Evaluation Model(供应商评估模型)

06-增长模型

多准则决策(MCDM)——TOPSIS 方法评估供应商。综合质量、价格、交期、合规、沟通五个维度。

15-25 万元⭐⭐☆☆☆
pricing数据采集与治理定价与利润风控与合规

UCB-LDP Dynamic Pricing(上下文动态定价)

06-增长模型

独立站每天面对来自北美高净值用户(iPhone + 5分钟停留)和东南亚价格敏感用户(安卓 + 10秒跳出)的混合流量

500万⭐⭐☆☆☆
causalexperimentforecastingoptimizationpricing广告与投放供应链与补货客服与VOC定价与利润风控与合规

AgentRouter — 知识图谱引导的多智能体路由器

08-知识图谱

大促高峰期每日 5 万条跨领域工单,正确路由率从 61% → 82%,每天减少约 10,500 条二次转单 - 单条转单处理成本约 5 元,节约运营成本 5.25 万元/天;年化 1900 万元 - 用户 CSAT 评分从 3.8 → 4.3(满分 5),复购意愿提升可观

1900 万元⭐⭐⭐☆☆
causalrecommendationragknowledge_graphmulti_agentfraud_detectionpricing广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

CausalRAG — 因果图增强检索:语义相似 + 因果链路双轨 RAG

08-知识图谱

传统 RAG 将文档切分为固定长度的 chunk,导致原本有完整因果逻辑的段落被割裂。例如"产品A未通过认证 → 被召回 → 触发贸易禁令"这一因果链横跨多个 chunk,单个 chunk 无法表达完整逻辑。

⭐⭐⭐☆☆
causalexperimentragknowledge_graph推荐与搜索知识图谱与RAG风控与合规

CausalRAG - 因果图驱动的检索增强生成

08-知识图谱

用户反馈"机器转了两圈突然停下并闪红灯",传统 FAQ 机器人把所有带"红灯"的内容(充电时亮红灯/故障码等)全部返回,答非所问,最终用户申请退货

120-200 万元
causalrecommendationragknowledge_graphmulti_agentfraud_detection供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

层级商品知识图谱自动构建(图片→KG)

08-知识图谱

零样本下用商品图片自动构建跨语种属性知识图谱:Schema 先行 → VLM 多轮萃取 → LLM 约束推理 → 层级扩展 → 程序化去重。建库成本与 SKU 数量线性解耦,无需人工标注模板。

0 万元⭐⭐⭐☆☆
causalexperimentforecastingknowledge_graphvisual_generation知识图谱与RAG风控与合规视觉内容生成

RAPTOR - 递归抽象树型分层检索

08-知识图谱

RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval) 将长文档转化为一棵"抽象树"

causalexperimentrecommendationragknowledge_graph广告与投放客服与VOC推荐与搜索知识图谱与RAG风控与合规

客服对话决策树 - 从日志中自学策略

09-DataAgent-LLM

母婴出海电商客服 70% 工单是"退换货咨询"(尺码错、漏发、过敏等),人工处理成本高,响应慢

600 万元⭐⭐⭐☆☆
experimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

ProRCA — 因果图路径溯源根因分析

09-DataAgent-LLM

当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。

100 万⭐⭐☆☆☆
causalexperimentforecastingmulti_agentfraud_detectionpricingvisual_generation广告与投放供应链与补货客服与VOCMAS与智能体工程定价与利润风控与合规视觉内容生成

Agent Q-Mix — MARL 学习最优 MAS 通信拓扑(QMIX 值分解)

10-MAS

Agent Q-Mix 将多 Agent 系统的通信拓扑选择建模为多智能体强化学习(MARL)问题:每个 Agent 在每个时间步从 6 种通信动作中选择一个,整个系统通过 QMIX 值分解联合优化,学习"哪些 Agent 需要相互通信、何时通信、用何种方式通信"。

5-10 万⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agent供应链与补货MAS与智能体工程风控与合规

Agent Registry & Discovery — 动态 Agent 能力注册与路由

10-MAS

静态工具注册(配置文件写死 Agent 列表)无法应对 MAS 三大动态性:① Agent 数量动态扩缩;② 能力随版本演化;③ 健康状态实时变化(宕机/过载/SLO 降级)。

⭐⭐⭐☆☆
causalexperimentforecastingmulti_agentpricing供应链与补货MAS与智能体工程定价与利润风控与合规

Dynamic DAG Orchestration — 运行时动态调整工作流 DAG

10-MAS

静态 DAG 的局限:传统工作流引擎(Airflow、Prefect 等)要求在运行前确定完整的 DAG 拓扑。一旦启动,节点集合与依赖边均固定,无法根据中间执行结果裁剪冗余分支或插入新必要节点。当业务逻辑含有"发现 A 就不需要 B"或"发现 C 就需要新增 D"的条件语义时,静态 DAG 只能用 stub 节点 + 空操作变通,徒增图复杂度。

⭐⭐⭐☆☆
causalexperimentforecastingoptimizationmulti_agent供应链与补货MAS与智能体工程定价与利润风控与合规

EvoSC — 对比反思 + 自我巩固:Agent 从失败轨迹进化

10-MAS

EvoSC(Self-Consolidation for Self-Evolving Agents,arXiv 2602.01966,2026年2月)解决了现有 Agent 自我进化框架的两个根本缺陷

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

G²CP — 图结构 MAS 通信协议:消除级联幻觉

10-MAS

传统 LLM Multi-Agent System(MAS)中,Agent 之间通过自然语言传递信息。

⭐⭐⭐☆☆
causalexperimentforecastingmulti_agentvisual_generation供应链与补货MAS与智能体工程风控与合规视觉内容生成

Helicase — 不确定性感知供应链知识图谱:多 Agent 自主构建

10-MAS

Helicase 是一个自主多 Agent LLM 系统,将高层供应链查询(如"某奶粉品牌的原料来源")分解为可执行调查计划,通过专业 Agent 协作增量构建带不确定性标注的知识图谱。名字来源于生物学的螺旋酶——螺旋式展开 DNA,隐喻系统通过迭代循环逐层揭示知识。

⭐⭐⭐☆☆
causalexperimentragknowledge_graphmulti_agent供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

MAS Consensus Mechanism — 多智能体共识协议:分布式一致性与拜占庭容错

10-MAS

`Skill-Multi-Agent-Debate` 解决的是"如何让多个 Agent 通过辩论收敛到更好的答案"——这是非正式共识。MAS 共识机制解决的是更严格的问题:在部分 Agent 可能失败或说谎(Byzantine 容错)的情况下,如何保证整个系统仍能达成一致且正确的决策,并有数学证明?

200-500 万⭐⭐☆☆☆
causalexperimentmulti_agent广告与投放供应链与补货MAS与智能体工程风控与合规

MAS Dynamic KG Collaboration — 多智能体动态知识图谱协同:实时构建、冲突解决、协同进化

10-MAS

`Skill-Helicase-Supply-Chain-KG-MAS` 解决的是"如何让 MAS 构建一个静态知识图谱"——一次性构建,然后查询。动态 KG 协同解决的是更难的问题:知识在持续演变,多个 Agent 同时读写 KG,如何保持 KG 的一致性、处理冲突、并让 KG 与 Agent 共同进化?

⭐⭐⭐☆☆
causalexperimentragknowledge_graphmulti_agentfraud_detectionpricing广告与投放知识图谱与RAGMAS与智能体工程定价与利润风控与合规

MAS Dynamic Trust — 多智能体动态信任图:抵御 Sleeper Agent 与历史感知可信聚合

10-MAS

MAS 中 Agent 之间传递消息,但消息的可信度并不相同——某个 Agent 可能已被攻击者控制(Sleeper Agent),在积累足够信任后才触发恶意行为。动态信任管理解决的问题是:在没有可信第三方的情况下,每个 Agent 如何评估其他 Agent 发来消息的可信度,并据此决定接受或拒绝。

5-30 万元⭐⭐☆☆☆
experimentforecastingmulti_agentpricing供应链与补货推荐与搜索MAS与智能体工程定价与利润风控与合规

MAS Resource Scheduling — OS 调度原语驱动的多智能体资源管理

10-MAS

MAS 生产化最常见的失败不来自 Agent 逻辑,而来自资源竞争:多个 Agent 并行调用同一个限速 API,导致连接重置、HTTP 502、上下文泄漏、Zombie Agent 挂起。这些问题在操作系统领域早已有成熟解法——HiveMind 和 AgentRM 把 OS 调度理论直接搬到 MAS 层。

12 万元⭐⭐☆☆☆
causalexperimentforecastingoptimizationknowledge_graphmulti_agentpricing供应链与补货知识图谱与RAGMAS与智能体工程定价与利润风控与合规

MAS Testing & Verification — 多智能体系统测试验证:覆盖制导 Fuzzing + 跨框架可观测性

10-MAS

MAS 的失败模式与单体软件完全不同:Agent 之间的交互是非确定性的,工具调用可能失败,Agent 可能陷入死循环,而这些问题用传统单元测试根本无法发现。MAS 专用测试体系需要解决三个独特问题

causalexperimentragmulti_agent广告与投放供应链与补货客服与VOC知识图谱与RAGMAS与智能体工程风控与合规

ParaManager — 小模型主编排:Agent-as-Tool 并行子任务分解

10-MAS

Agent-as-Tool 协议统一:ParaManager 将传统系统中异构的 Agent(具有内部状态、多轮推理能力)和 Tool(无状态函数调用)统一为标准化的 `AgentAsTool` 接口。每个动作单元暴露相同的 `invoke(input) -> result` 接口,同时携带显式状态反馈(`status`, `progress`, `output`),让编排器无需了解底层实现差异即可统一调度。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationknowledge_graphmulti_agentpricingvisual_generation广告与投放供应链与补货推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规视觉内容生成

AI Consumer Wellbeing Ethics — 消费者福祉与 AI 伦理:母婴场景

11-AI人文

AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求:AI 客服首条消息必须声明身份;AI 生成内容必须标注。母婴场景额外要求:当 AI 给出健康/营养建议时,必须附注"请咨询儿科医生"。

⭐⭐☆☆☆
experimentrecommendationmulti_agent广告与投放供应链与补货客服与VOC推荐与搜索MAS与智能体工程风控与合规

AI Explainability for Consumer Trust — AI 推荐可解释性:消费者信任构建

11-AI人文

母婴高风险购买决策(奶粉品牌、安全座椅、辅食选择)的特点是:消费者需要理由才能信任推荐。研究表明,在高风险品类中,"不知道为什么推荐"比"不推荐"更会降低购买意愿。黑盒 AI 推荐的三个信任障碍

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agentfraud_detectionpricing广告与投放推荐与搜索MAS与智能体工程定价与利润风控与合规

Amazon ToS Compliance Guardrail(亚马逊合规护栏)

13-广告分析

LLM 在生成商品文案、广告文案、客服回复时可能无意间违反平台规则(医疗声明、安全认证、受限品类)。Compliance Guardrail 在 LLM 输出端建立三层过滤——从确定性规则匹配到风险评分到人工升级——确保所有面向亚马逊的内容合规。

5-10 万⭐⭐☆☆☆
causalexperimentrecommendationragmulti_agentfraud_detectionpricing广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程定价与利润风控与合规

层次图神经网络跨设备用户匹配 - 无ID的跨端行为拼接

13-广告分析

将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图

⭐⭐⭐⭐☆⭐⭐⭐☆☆
causalexperimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规视觉内容生成

Identity Fragmentation Debiasing(身份碎片化纠偏)

13-广告分析

核心思想:用户在多设备间切换(手机看广告、电脑下单)导致底层 Cookie/IDFA 无法跨端串联,同一真实用户被拆分为多个"碎片化身份"。这使得广告平台看到的 ROAS 严重失真——有的记录"只有曝光没有购买",有的记录"只有购买没有广告"。算法通过 Stratified Aggregation(分层聚合) 在 Cohort 层面重建真实曝光与购买的对应关系,无需跨设备图谱,还原因果 ROI。

⭐⭐☆☆☆
causalexperimentoptimizationrag广告与投放知识图谱与RAG风控与合规

Amazon Listing 文案 AI 生成(标题+Bullet+描述全套)

13-广告分析

某母婴品牌每月新品 8-12 个 SKU,人工撰写一套完整 Listing(标题+5条Bullet+描述+后台ST)需要 2-3 小时/SKU,月均耗时 20-30 小时

18-192 万元⭐⭐☆☆☆
causalexperimentforecastingoptimization广告与投放客服与VOC数据采集与治理风控与合规

Skill-Listing-Quality-Scoring

13-广告分析

核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。

⭐⭐☆☆☆
experimentforecastingoptimizationrecommendationpricingvisual_generation广告与投放客服与VOC推荐与搜索数据采集与治理定价与利润风控与合规视觉内容生成

CDA — 隐私保护因果渠道归因:无用户数据的多触点归因

15-营销投放分析

传统多触点归因(Multi-Touch Attribution, MTA)依赖用户级点击路径数据:追踪每个用户从广告曝光→点击→转化的完整旅程,才能判断各渠道贡献。

⭐⭐⭐☆☆
causalexperimentforecastingoptimization广告与投放风控与合规

GenAI Advertising — 无 Cookie 生成式受众定向 & LLM 原生广告拍卖

15-营销投放分析

匿名访客(未授权追踪)向 AI 助手提问穿搭,传统推荐因无 Cookie 完全失效,品牌白白流失高意图实时流量 - 数据要求:用户自然语言查询文本 + SKU 库(含品类、场景标签、图片描述)+ 广告主实时出价 - GenAI 方案: - 用户问:"我下周去海边参加婚礼,梨形身材,有什么建议

15 万⭐⭐☆☆☆
causalexperimentforecastingoptimizationrecommendationmulti_agentfraud_detectionpricing广告与投放供应链与补货客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Marketing Data Pipeline — 营销归因多渠道数据采集管道

15-营销投放分析

营销归因的核心难题是数据孤岛:广告平台(Meta/Google/TikTok)、CRM(Salesforce/HubSpot)、电商平台(Amazon/Shopify)、社交媒体各持一方数据,无法直接关联。数据管道需要解决

12 万⭐⭐⭐⭐☆
causalexperimentdata_collection广告与投放数据采集与治理风控与合规

仿生粘菌主动上下文剪枝 — Focus Agent 自主压缩架构

16-智能体工程

Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式

⭐⭐⭐☆☆
causalexperimentmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

AgeMem — LTM+STM 统一 Agent 记忆:RL 自适应管理跨会话知识

16-智能体工程

AgeMem 是首个将 LTM(长期记忆)和 STM(短期记忆)统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块,由外置 Memory Manager 或启发式 trigger 决策,导致组合效果差、部署成本高(需要额外 expert LLM)。AgeMem 的突破在于:记忆操作本身就是 action,由同一个 LLM policy 通过 RL 学习"何时调什么"。

10 万⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agentpricing广告与投放客服与VOC推荐与搜索MAS与智能体工程定价与利润风控与合规

Agent SLO Manager — 三层 SLI 体系:服务/任务/判断质量

16-智能体工程

传统 pass@1 仅衡量"至少一次成功",无法反映 Agent 在生产环境的持续可靠性。Agent 可靠性需要三层 SLI 互补

⭐⭐☆☆☆
experimentrecommendationmulti_agent广告与投放供应链与补货推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Agent Safety Guardrails(Agent 安全对抗护栏)

16-智能体工程

LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护:(1) 输入过滤——检测注入模式;(2) 工具调用前置验证——参数白名单+范围检查;(3) 输出审计——敏感信息脱敏。

10-30 万元⭐⭐☆☆☆
experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

AgentTrust — 运行时安全拦截:95% 准确率,< 1ms,MCP 集成

16-智能体工程

为什么基础设施沙箱不足:容器/seccomp 工作在系统调用层,不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法,但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作,理解"操作意图"而非仅检查"操作权限"。

20-60 万元⭐⭐☆☆☆
causalexperimentmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

Subterranean Agent — 将工作流 SOP 编译进 LLM 权重

16-智能体工程

每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天

$150/天 → 约 $0.5–1.2/天(按 128–462× 节省比例)
causalexperimentoptimizationmulti_agentvisual_generation广告与投放客服与VOCMAS与智能体工程风控与合规视觉内容生成

Cultural Adaptation Agent — 跨文化适应:母婴跨境的本地化 AI 策略

16-智能体工程

语言翻译是跨境电商的最低门槛,真正影响转化的是文化适配:同一款婴儿奶粉,美国妈妈关注"科学配方/AAP认证",德国妈妈关注"有机/欧盟标准",日本妈妈关注"安心品质/无添加"——这些差异不是语言问题,而是深层文化价值观差异。

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agentdata_collectionpricing广告与投放客服与VOC推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

TDP — DAG 任务解耦规划:82% Token 节省 + 错误隔离

16-智能体工程

传统 LLM Agent 在执行复杂任务时,把所有历史消息塞入 context window("full history" 模式),导致两个问题

⭐⭐☆☆☆
causalexperimentforecastingmulti_agentvisual_generation广告与投放供应链与补货推荐与搜索MAS与智能体工程风控与合规视觉内容生成

KLong — 超长时域 Agent 训练:轨迹分割 SFT + 渐进 RL

16-智能体工程

训练 LLM Agent 执行超长时域任务(50+ 步)面临两大瓶颈

⭐⭐⭐⭐☆
causalexperimentforecastingoptimizationmulti_agentdata_collectionpricing供应链与补货推荐与搜索数据采集与治理MAS与智能体工程定价与利润风控与合规

LMM-Searcher — 长链多模态 Agent:UID 占位符按需加载图片

16-智能体工程

LMM-Searcher 解决长链多模态 Agent 的上下文爆炸问题:在 100 轮搜索会话中,若每张图片直接嵌入为 base64(约 1,000-3,000 tokens),50 张图片就会占用 50,000-150,000 tokens,远超实用预算。

⭐⭐☆☆☆
causalexperimentmulti_agentvisual_generation推荐与搜索MAS与智能体工程风控与合规视觉内容生成

MCP + A2A 双协议栈 — Orchestrated Multi-Agent 企业架构

16-智能体工程

The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议

⭐⭐⭐⭐☆
experimentragmulti_agentvisual_generation广告与投放客服与VOC推荐与搜索知识图谱与RAG数据采集与治理MAS与智能体工程风控与合规视觉内容生成

MCP Tool Use 评估基准 — TFS/TEFS 双指标与干扰测试

16-智能体工程

MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

MUZZLE — Web Agent 间接 Prompt Injection 红队框架

16-智能体工程

间接 Prompt Injection(IPI) 的核心机制:攻击者无法直接访问 Agent 的系统提示,但可通过控制 Agent 抓取的外部内容(商品描述、用户评论、网页正文)向 Agent 上下文注入恶意指令,使 Agent 偏离原始任务目标执行攻击者意图。

⭐⭐☆☆☆
causalexperimentrecommendationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

开源 Tool Use 基座模型选型 — Hermes 4 混合推理家族

16-智能体工程

Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。

⭐⭐⭐☆☆
experimentoptimizationmulti_agent客服与VOC推荐与搜索MAS与智能体工程风控与合规

编排轨迹驱动的强化学习 — MAS RL 三维设计框架

16-智能体工程

随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。

⭐⭐⭐⭐⭐
causalexperimentoptimizationmulti_agent客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Progent — 最小权限 Agent 框架:SMT 验证 + 单调约束性

16-智能体工程

最小权限原则在 Agent 中的实现:传统应用最小权限通过 OS/IAM 静态配置实现,但 LLM Agent 的工具调用集合在运行时动态变化,需要动态感知策略。Progent 用符号规则表示权限策略:`{tool: "purchase_order.create", constraints: {"amount": {"max": 1000}}}`,支持在任务执行中实时评估。

30-80 万元⭐⭐⭐☆☆
causalexperimentoptimizationmulti_agent广告与投放供应链与补货MAS与智能体工程风控与合规

SLM Tool Calling 成本优化 — 350M 参数击败 LLM

16-智能体工程

AWS 2026 年的实证研究证明:通过领域特定 SFT,仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation,导致"参数稀释"。

⭐⭐☆☆☆
causalexperimentoptimizationmulti_agent供应链与补货客服与VOCMAS与智能体工程风控与合规

任务自适应拓扑路由 — AdaptOrch 动态多智能体编排

16-智能体工程

AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超 模型选择 的贡献,成为系统性能的主变量。

⭐⭐⭐⭐☆
causalexperimentforecastingrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Tool Call Decision Framework — 必要性/效用/可负担性三维工具调用决策

16-智能体工程

LLM 工具调用存在系统性错位:模型既会过度调用(把可推理的问题交给工具),也会遗漏调用(低估工具对复杂查询的价值)。根本原因在于模型自感知与任务实际需求之间存在认知盲区——模型过度自信于自身知识覆盖,却对边界外的未知盲区无感知。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationmulti_agentpricing客服与VOCMAS与智能体工程定价与利润风控与合规

MCP Tool 描述质量审核 — 六维 Smell 扫描与动态路由

16-智能体工程

Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。

⭐⭐⭐☆☆
causalexperimentoptimizationrecommendationragmulti_agent供应链与补货客服与VOC推荐与搜索知识图谱与RAGMAS与智能体工程风控与合规

VLM E-commerce Adaptation — 大规模视觉语言模型电商适配

16-智能体工程

通用 VLM(如 GPT-4V、LLaVA 等)在电商场景表现欠佳,根本原因是三大领域偏差:同款多图(同一产品的主图/侧面图/背面图/细节图共享同一 listing,模型需跨图聚合)、属性中心化(电商问答 90% 是围绕结构化属性如"材质/尺寸/颜色",与图片描述类任务截然不同)、噪声图片(用户上传的低质量/遮挡/非标图占比极高)。

1.6 万元⭐⭐⭐☆☆
causalexperimentmulti_agentvisual_generation数据采集与治理MAS与智能体工程风控与合规视觉内容生成

Competitive Price Monitoring(竞品价格监测与响应)

17-价格优化

竞品价格监测不只是"看别人卖多少钱",而是建立价格-转化率的因果响应模型,在竞品降价时量化"不跟降会损失多少"和"跟降能获得多少",做出有数据支撑的响应决策。

5-60 万元⭐⭐☆☆☆
causalexperimentoptimizationpricing广告与投放定价与利润风控与合规

AR Logistics Visualization — 增强现实包裹可视化追踪:跨境物流透明化与客服AI视频答复

18-物流履约

跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合

12.7 万⭐⭐⭐☆☆
causalexperimentforecastingfraud_detectionvisual_generation广告与投放供应链与补货客服与VOC风控与合规视觉内容生成

Cross-Border Logistics Routing(跨境物流路径优化)

18-物流履约

跨境物流的核心是多式联运路径优化——海陆空铁四种运输方式在不同路段的成本/时效组合中找最优。最短路径 Dijkstra 扩展为多目标(成本、时效、碳排放)Pareto 最优路径。

30-50 万元⭐⭐☆☆☆
causalforecastingoptimizationfraud_detection供应链与补货风控与合规

Returns Reverse Logistics(退货逆向物流)

18-物流履约

预测退货概率 + 优化退货处理路径。退货概率用 XGBoost 建模(产品类别、价格、用户历史退货率、配送时长),退货处理用规则+成本优化——退货到 FBA vs 第三方仓 vs 弃置。

6-10 万元⭐⭐☆☆☆
causalforecastingoptimizationfraud_detectionpricing供应链与补货客服与VOC定价与利润风控与合规

Click Fraud Detection(广告刷量检测)

19-风控反欺诈

检测广告点击中的无效流量(IVT)——Bot 点击、竞品恶意点击、重复点击。用时间序列异常 + 行为模式识别。

6-15 万元⭐⭐☆☆☆
causalexperimentoptimizationdata_collectionfraud_detection广告与投放客服与VOC数据采集与治理风控与合规

DS-DGA-GCN — 动态图假评论群组检测:冷启动新品防刷评

19-风控反欺诈

核心思想:在"产品 → 评论 → 评论者"三方动态异构图上检测刷评团伙群组。不看单条评论文本质量,而是看评论者之间的网络行为模式——真实用户构成稀疏随机网络,刷评团伙则共现密集、行为高度同步。

⭐⭐⭐☆☆
causalexperimentknowledge_graphfraud_detection客服与VOC知识图谱与RAG风控与合规

FraudSquad — LLM 生成虚假评论检测:LM 嵌入 + 门控图变换器

19-风控反欺诈

核心思想:LLM 生成的虚假评论文本质量极高(语法流畅、情感真实),传统文本特征工程(词频/情感/长度)已失效。FraudSquad 转变思路——不只看"单条评论写得怎样",而是看"这个评论者在评论图中的行为模式是否异常"。

⭐⭐⭐☆☆
causalexperimentfraud_detection广告与投放客服与VOC推荐与搜索风控与合规

Identity Fraud Detection — 多维账号欺诈检测:设备+行为+网络三重验证

19-风控反欺诈

核心思想:三维欺诈信号融合检测账号欺诈——设备指纹相似度(识别同一设备多账号)+ 行为序列异常(购买/浏览模式偏差)+ 账号关联网络社区(图社区发现)。三维信号通过加权融合输出欺诈概率,任一维度异常均触发预警。

⭐⭐☆☆☆
experimentforecastingmulti_agentfraud_detection供应链与补货客服与VOCMAS与智能体工程风控与合规

Review Fraud Detection(虚假评论检测)

19-风控反欺诈

GNN 图神经网络检测虚假评论——不是看单条评论文本,而是看评论者-产品-评分之间的关系图。虚假评论团通常呈现异常图模式:同批次账号、评分极端(1 或 5 星)、评论时间集中、文本相似度高。

5-15 万元⭐⭐⭐☆☆
causalknowledge_graphmulti_agentfraud_detection客服与VOC知识图谱与RAGMAS与智能体工程风控与合规

Transaction Anomaly Detection(异常交易检测)

19-风控反欺诈

Isolation Forest + 动态阈值检测异常交易模式。特征:订单金额、支付方式、IP 国家 vs 收货国家、下单到支付间隔、同一 IP 下单频率、地址变更次数。

3-8 万元⭐⭐☆☆☆
experimentoptimizationfraud_detection广告与投放客服与VOC风控与合规

Skill-Category-Compliance-Prescan

21-合规决策

核心思想:在决定进入新品类之前,用 NLP + 向量聚类对历史召回数据库(CPSC/RAPEX)做自动扫描,计算该品类的「召回风险密度」和「危害类型分布」,输出风险等级(低/中/高)+ 合规成本估算,作为 WF-D 选品扫描的进入前否决门。

⭐⭐☆☆☆
causalexperimentdata_collectionfraud_detection广告与投放数据采集与治理风控与合规

Compliance-Scored Guardrail Orchestration — 合规评分 Best-of-N 守护编排

21-合规决策

核心思想:把 LLM 自动生成的合规风险控制从“生成后人工看一眼”升级为同步的加权评分系统。系统并行生成多个候选输出,对每个候选运行 PII、内容安全、schema、领域规则和证据引用检查,计算合规得分;一旦最佳候选超过阈值就提前返回,否则进入人工复核。

⭐⭐⭐☆☆
causalexperimentrecommendationmulti_agent广告与投放客服与VOC推荐与搜索MAS与智能体工程风控与合规

Consumer Complaint Recall Prediction — 消费者投诉驱动的召回风险预测

21-合规决策

核心思想:从 CPSC/NHTSA 非结构化消费者投诉文本出发,通过半参数主题模型(Hierarchical Dirichlet Process Pitman-Yor, HDPYP)自动提取缺陷主题,预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比,预测准确率提升约 14%(p<0.05),提前约 1 年预警召回事件。

⭐⭐☆☆☆
causalexperimentforecastingrecommendationmulti_agentdata_collectionfraud_detection供应链与补货客服与VOC推荐与搜索数据采集与治理MAS与智能体工程风控与合规

Cross-Border Compliance Framework — 跨境电商多辖区合规自动映射

21-合规决策

核心思想:构建多辖区合规矩阵(产品类别 × 目标市场 × 监管要求),自动将产品映射到所有相关监管要求,输出国家专项合规清单。通过规则引擎实现合规优先级自动排序,解决多市场同步上架的合规复杂度问题。

⭐⭐☆☆☆
causalexperimentmulti_agent广告与投放数据采集与治理MAS与智能体工程风控与合规

Supply Chain Due Diligence — 供应链合规尽职调查:劳工+环境+产品三维

21-合规决策

2023 年起德国《供应链尽职调查法》(LkSG)生效,要求年营业额 >4.5 亿欧元的企业对整条供应链的合规负责。母婴出海品牌虽暂无直接法律义务,但头部零售商(Walmart/Target/亚马逊)已要求供应商提供 ESG 合规证明

⭐⭐☆☆☆
experimentfraud_detection供应链与补货风控与合规

Document Intelligence Parsing — LLM 驱动的文档智能解析:图文统一 OCR、跨页表格恢复、布局感知推理

22-数据采集工程

供应商发来的报价单是 PDF,工厂产能表是 Excel 截图,海关 HS 编码文件是扫描件——这些"已有但不可用"的数据是母婴跨境电商最大的数据孤岛。传统 OCR(Tesseract)只能识别文字,无法理解表格结构、跨页截断、图文混排。

⭐⭐☆☆☆
causalexperimentforecastingoptimizationragdata_collectionpricingvisual_generation推荐与搜索知识图谱与RAG数据采集与治理定价与利润风控与合规视觉内容生成