Causal Cohort Analysis — 因果队列分析:促销干预的长期用户行为效应
01-因果推断
传统队列分析(Cohort Analysis)追踪同一时期加入的用户群体的行为轨迹,但无法剥离选择偏差:高价值用户本来就会复购,促销只是"锦上添花"而非真正驱动因素。直接比较"接受促销的队列 vs 未接受促销的队列",会高估促销效果 30-60%。
01-因果推断
传统队列分析(Cohort Analysis)追踪同一时期加入的用户群体的行为轨迹,但无法剥离选择偏差:高价值用户本来就会复购,促销只是"锦上添花"而非真正驱动因素。直接比较"接受促销的队列 vs 未接受促销的队列",会高估促销效果 30-60%。
01-因果推断
合成控制法(Synthetic Control, SC)通过为目标单元"合成"一个反事实来估计因果效应,是评估地区级/城市级无法做 A/B 的大型干预(如区域广告投放、城市政策)的黄金标准。
01-因果推断
平台对所有新妈妈用户统一发放"新生儿满减券",ROI 整体回归到 1.2-1.5x,猜测某些群体响应强、某些群体弱,但不知如何切分 - 数据要求:用户注册时填写宝宝生日 + 高维行为日志(2000 维:RFM、品类偏好、渠道、地理) - DML 配置: - 第一阶段:XGBoost 拟合 $E[Y|X]$,LightGBM 拟合 $E[D|X]$ - PCA 降维至 10 维,K-mea
01-因果推断
当前做法是向所有"高流失风险"用户统一发"免费延长30天"优惠券,ROI 极低——很多用户即使不发券也会续订
01-因果推断
核心思想:中介分析回答"为什么"——一个干预(如推荐算法更新)通过什么机制影响了结果(如转化率)。它将总效应分解为
04-供应链
核心思想:把"建哪些仓"和"怎么配送"这两个原本耦合的 NP-hard 问题解耦——用一个预训练好的图神经网络(GNN)充当配送路径成本的快速估计器,把估计值直接嵌进选址的混合整数规划(MIP)里,从而让 MIP 求解器只需要做高层选址-分配决策,而不必在求解过程中展开庞大的车辆路径(VRP)变量。
04-供应链
多级库存优化(Multi-Echelon Inventory Optimization, MEIO)解决的是供应链中多个节点(工厂、仓库、门店)的联合库存决策问题。相比传统的单点库存管理,DRL方法将供应链建模为马尔可夫决策过程(MDP),智能体(Agent)学习在每个时间步决定"生产多少、发往哪里",以最大化长期累积利润。
05-推荐系统
传统推荐系统用无序的one-hot ID或量化向量表示商品,丢失了语义信息。
06-增长模型
监测到竞品 Momcozy 密集上线 5 个"Silicon Flange"(硅胶法兰)新 SKU,且上线 2 周内均进入 BSR Top 5000
06-增长模型
跨境电商的致命问题:70-80% 商品在目标市场无历史数据,15-25% 上架后零销量,但传统预测模型会给出"看起来合理"的正数预测→导致库存积压。ZODIAC 用双域 LSTM + 双头架构同时解决"零销量预测"和"过预测"两个核心痛点。
06-增长模型
识别哪些用户即将停止使用产品/服务,从而提前采取挽留措施。
06-增长模型
业务问题 母婴用户跨越App、小程序、线下门店、Web多个渠道,每个渠道的转化效率不同
06-增长模型
传统购买预测模型将问题视为静态分类任务。DQN-inspired方法引入强化学习思维:将用户会话视为状态,营销干预视为动作,转化/流失视为奖励。通过经验回放和Epsilon-Greedy探索,模型学会识别高价值干预时机。
06-增长模型
母婴订阅盒服务(如每月奶粉+尿布套餐)面临用户流失风险
06-增长模型
某母婴 DTC 独立站准备从纯打折升级为"付费会员制(年费 $49 免邮 + 专属抢购)"
06-增长模型
光算出每个用户的增量效应(CATE)还不够——真实业务有预算上限、有高净值用户保护、有每天不能无限制打扰用户的体验红线。Guardrailed CATE-NBA 打通了"预测→决策"的最后一公里:三层漏斗把因果估算的结果直接转化为带约束的最优行动名单。
06-增长模型
我们通过 Facebook/TikTok 广告获取了大量北美新客,但并非所有新客都有长期价值
06-增长模型
在新商品上市前预测其成功概率,从而优化选品决策和资源配置。
06-增长模型
核心思想:把一个 SKU 或品类的销量时间序列,分解为趋势+季节+残差三层信号,通过微分分析(斜率变化率)自动定位「成长→成熟→衰退」的阶段边界,并用年龄-销量矩(AVM)作为阶段状态的低成本代理特征,最终输出四阶段标签(引入/成长/成熟/衰退)+ 进入时机决策建议。
06-增长模型
R (Recency):最近一次购买距今多少天。越近越可能再次购买。
06-增长模型
独立站每天面对来自北美高净值用户(iPhone + 5分钟停留)和东南亚价格敏感用户(安卓 + 10秒跳出)的混合流量
06-增长模型
识别哪些用户会因为干预(如优惠券、客服电话)而降低流失概率。
06-增长模型
业务问题 母婴出海电商用户决策周期长(孕期到育儿多阶段),不同阶段用户需求差异巨大
08-知识图谱
大促高峰期每日 5 万条跨领域工单,正确路由率从 61% → 82%,每天减少约 10,500 条二次转单 - 单条转单处理成本约 5 元,节约运营成本 5.25 万元/天;年化 1900 万元 - 用户 CSAT 评分从 3.8 → 4.3(满分 5),复购意愿提升可观
08-知识图谱
用户反馈"机器转了两圈突然停下并闪红灯",传统 FAQ 机器人把所有带"红灯"的内容(充电时亮红灯/故障码等)全部返回,答非所问,最终用户申请退货
08-知识图谱
传统电商搜索基于 BM25/TF-IDF 关键词匹配,无法理解语义。例如用户搜"缓解涨奶 pain",关键词系统只能匹配包含"pain"或"涨奶"字样的商品,无法召回"吸奶器"、"冷敷贴"等语义相关但关键词不匹配的商品。
08-知识图谱
GraphRAG(Graph Retrieval-Augmented Generation) 将传统 RAG(检索增强生成)中的文本块检索升级为知识图谱结构化检索,通过图遍历获取与查询相关的实体、关系和子图,显著提升复杂推理场景的答案准确性和可解释性。
08-知识图谱
母婴出海电商的搜索场景高度两极化:部分用户输入精确型号("Spectra S1 Plus"、"B07X4X5GXD"),纯向量检索因 OOV 问题召回率低;另一部分用户输入模糊语义查询("适合背奶妈妈的静音吸奶器"),纯 BM25 只能匹配字面词汇,无法理解意图
08-知识图谱
传统知识图谱构建依赖人工定义 Schema 和编写抽取规则,成本高、扩展性差。AI Agent 驱动的 KG 自动构建 将全流程拆解为三个由 LLM Agent 协作完成的阶段,从非结构化产品描述中自动产出结构化知识图谱,无需预定义 Schema 或人工规则。
08-知识图谱
母婴跨境电商竞品分析需要整合来自 Amazon、Walmart、品牌官网、用户评论等多源异构数据,构建统一的产品属性知识图谱。
08-知识图谱
电商知识图谱的数据不是静态的——新品上架、价格调整、用户评论新增、竞品关系变化,每天都有大量三元组需要更新。若每次变更都触发全量 KG 重建,计算成本极高(百万节点 KG 重建需 4-8 小时)。增量更新(Incremental Update) 只处理变更的局部子图,将更新耗时压缩至秒级到分钟级。
08-知识图谱
传统协同过滤仅依赖 user-item 矩阵,缺乏对产品语义的理解,导致跨品类推荐能力弱。KG-Powered User Profiling 通过异构图融合将产品知识图谱(属性/认证/成分/适用年龄段)与用户行为图(购买/浏览/评价)结合,构建知识增强的用户偏好向量。
08-知识图谱
构建了产品知识图谱后,如何让非技术人员(运营、客服、业务方)用自然语言查询它?
08-知识图谱
母婴出海电商的用户评论、客服对话、社交媒体内容涉及多语言(英语、德语、法语、西班牙语、日语等)。
08-知识图谱
Multimodal RAG(多模态检索增强生成) 将 RAG 系统从纯文本扩展到图文混合模态,实现
08-知识图谱
知识图谱的 Schema(本体 / Ontology)是整个 KG 的"地图"——它定义了有哪些实体类型、有哪些关系、每个属性的值域和约束。Schema 质量直接决定下游 KGQA 的检索上限和 GraphRAG 的推理深度。母婴电商领域 Ontology 设计需要平衡覆盖率(覆盖所有业务场景)与可管理性(避免过度细化导致维护失控)。
08-知识图谱
RAG 管道的检索阶段(BM25/向量检索)优先保证召回率,会返回大量候选文档(top-50~100)。但这些候选文档与查询的相关性排序往往不准——召回阶段的 Bi-encoder 是独立编码查询和文档,无法捕捉两者间的细粒度交互。
08-知识图谱
RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval) 将长文档转化为一棵"抽象树"
08-知识图谱
母婴出海电商的 Amazon Listing 商品详情页通常包含多个话题段落:产品特性(Safety Features)、使用说明(How to Use)、注意事项(Warnings)、规格参数(Specifications)
09-DataAgent-LLM
Argos 解决的核心矛盾是:LLM能生成异常检测规则,但无法同时保证可解释性、可复现性和准确率。
09-DataAgent-LLM
母婴出海电商客服 70% 工单是"退换货咨询"(尺码错、漏发、过敏等),人工处理成本高,响应慢
09-DataAgent-LLM
传统数据采集依赖人工编写爬虫脚本,每个数据源需要单独维护。
09-DataAgent-LLM
Data-to-Dashboard 的核心思想是模拟商业分析师的工作流——不是让 LLM 直接生成图表,而是先理解数据背后的业务洞察,再基于洞察选择最合适的可视化表达方式。
09-DataAgent-LLM
背景:母婴品牌在Amazon、Shopify、SHEIN等多个平台销售,运营团队每周需要汇总各平台数据生成分析报告,耗时4-6小时/周
09-DataAgent-LLM
WF-C 客服分诊的核心是"意图细分"——母婴 Case 复杂(退款/换货/咨询/投诉/物流/产品使用/安全升级),嵌入距离无法区分字面相似但意图截然不同的对话片段(如"宝宝用了这个奶粉一直哭" 可能是质量投诉或产品适配咨询). Dial-In LLM 用 LoRA 微调小型 LLM 作为聚类"工具人"(Qwen2.5-7B / ChatGLM3-6B):① 连贯性评估器 判断簇语义一致性 ② 意图命名器 生成"动作-目标"标签 ③ 迭代搜索自动发现最优簇数,无需预设 K.
09-DataAgent-LLM
当 GMV 暴跌时,传统监控会同时弹出几百个警报——流量跌、加购跌、结账跌、支付跌……却不告诉你哪个是起因,哪个是被牵连的。
09-DataAgent-LLM
业务团队(运营、市场、产品)需要数据但不懂SQL。
10-MAS
MemGPT 将操作系统的虚拟内存管理思想引入 LLM Agent 的记忆系统。核心洞察:LLM 的上下文窗口就像物理 RAM——容量有限且昂贵,而 Agent 需要处理的任务往往远超这个容量。解决方案是构建一个分层记忆体系,让 LLM 主动管理自己的记忆。
10-MAS
AutoGen 是一个通用的多智能体对话框架,核心洞察:将复杂的 LLM 应用开发简化为多 agent 之间的对话编排。不同于传统的单 agent 链式调用,AutoGen 允许多个具备不同能力的 agent 通过自然语言对话协作完成复杂任务。
10-MAS
CAMEL (Communicative Agents for "Mind" Exploration of Large Language Model Society) 提出了一种基于角色扮演(Role-Playing)的多 Agent 自主协作范式。核心洞察:当两个互补角色的 Agent(指令发出者 vs 执行者)在结构化协议约束下对话时,可以自主完成复杂任务,无需人工逐步干预。
10-MAS
EvoSC(Self-Consolidation for Self-Evolving Agents,arXiv 2602.01966,2026年2月)解决了现有 Agent 自我进化框架的两个根本缺陷
10-MAS
母婴品牌在亚马逊/独立站同时运营,SKU 达 500+,跨境仓(海外仓 + 国内直发)补货涉及 DHL/UPS 运输周期(15-30 天)、海关清关(3-7 天)、Amazon FBA 入仓(1-5 天),任何一环延误都导致断货(Lost Buy Box,单 SKU 日损失 2,000-8,000 元)
10-MAS
MAS Orchestrator 是多 Agent 系统的"中枢神经系统",负责协调多个子 Agent 的执行顺序、数据流转、状态同步和错误恢复。核心洞察:分解后的子任务需要一个可靠的调度器来管理它们的生命周期——启动、监控、通信、容错、收尾。
10-MAS
1. 性能坍塌问题:新 Agent 加入时,系统路由还不了解其能力,导致任务分配混乱、性能下降
10-MAS
MAS 的失败模式与单体软件完全不同:Agent 之间的交互是非确定性的,工具调用可能失败,Agent 可能陷入死循环,而这些问题用传统单元测试根本无法发现。MAS 专用测试体系需要解决三个独特问题
10-MAS
MetaGPT 将人类组织中的 Standardized Operating Procedures(SOP,标准作业程序) 引入多 agent 协作。核心洞察:复杂任务失败的主要原因是 agent 间缺乏标准化协作规范和结构化信息传递。通过模拟软件公司的角色分工(PM → Architect → Engineer → QA)和文档驱动的工作流,MetaGPT 显著减少了多 agent 协作中的幻觉和级联错误。
10-MAS
- LLM 生成初始答案后,即使答案错误,也会在后续反思中"维护"这个答案
10-MAS
ReAct (Reasoning + Acting) 提出了一种推理与行动交织的范式。核心洞察:纯推理(Chain-of-Thought)容易幻觉,纯行动(Tool Use)缺乏规划——只有把两者交替进行,才能既保持思维连贯性又确保信息准确性。
10-MAS
Reflexion 提出了一种言语强化学习(Verbal Reinforcement Learning)机制。核心洞察:传统 RL 需要更新模型权重,成本高且难以解释;而 LLM 可以通过自然语言形式的"自我反思"来改进策略,无需任何权重更新。
10-MAS
Self-Refine 是一种让 Agent 对自身输出进行批评和改进的迭代机制。核心洞察:语言模型不仅能生成内容,也能评估和改进内容——利用同一模型的双重能力,实现无需外部监督的自我进化。
10-MAS
Skill Registry 是 MAS 工作流的核心基础设施,负责管理所有可用技能的元数据、依赖关系和运行时状态。核心洞察:一个可扩展的多 Agent 系统必须能动态发现、加载和组合技能,而不是硬编码固定流程。
10-MAS
Subagent Decomposer 负责将复杂的 Task Blueprint 分解为可独立执行的子任务,并分配给专门的子 Agent。核心洞察:复杂任务(如"生成全品类 VOC 周报")无法由单个 Agent 高效完成,必须分解为并行/串行的子任务,每个子任务由最优技能的子 Agent 执行。
10-MAS
Tree of Thoughts (ToT) 将 LLM 的推理过程从线性链式思维(Chain-of-Thought)扩展为树状搜索。核心洞察:人类解决复杂问题时会探索多条路径、评估中间进展、在死胡同回溯——LLM 也应该具备这种"深思熟虑"的能力。
11-AI人文
钩子(Hook) → 冲突(Conflict) → 解决(Resolution) → 行动召唤(CTA)
11-AI人文
AI 系统必须在用户可感知的层面说明"你在和一个 AI 交互"。FTC 2023 年指南明确要求:AI 客服首条消息必须声明身份;AI 生成内容必须标注。母婴场景额外要求:当 AI 给出健康/营养建议时,必须附注"请咨询儿科医生"。
11-AI人文
AI 生成文本与人类写作在统计层面存在系统性差异,可通过以下三类特征加以量化鉴别
11-AI人文
文化语境的不可迁移性——相同语义在不同文化中承载截然不同的消费偏好信号。
11-AI人文
情绪识别:通过关键词匹配(域内词典)+ 句式特征(连续感叹号、全大写)识别用户情绪状态,将其分级为 CALM / ANXIOUS / FRUSTRATED / ANGRY / FRIGHTENED 五档。母婴高压场景(安全召回、产品危害)优先触发 FRIGHTENED 级别,绕过普通情绪判断逻辑。
12-ML基础
核心思想:生产 ML 模型上线后,输入数据的分布会随时间偏移(用户行为变化、季节性、竞品冲击),导致模型悄然失效。数据漂移检测通过持续监控特征分布(统计漂移)和预测误差(性能漂移)两条并行轨道,在模型失效前触发告警和重训——区别于异常检测,漂移检测关注的是系统性、持续性的分布偏移,而非偶发性异常点。
12-ML基础
核心问题:模型效果的上限由特征质量决定。同样的算法,好的特征 vs 差的特征,效果可能差3-5倍。特征工程是"把领域知识注入模型的艺术"。
12-ML基础
我们从多个数据源(CRM、广告平台、网站分析、客服系统)汇总了 200+ 特征
13-广告分析
LLM 在生成商品文案、广告文案、客服回复时可能无意间违反平台规则(医疗声明、安全认证、受限品类)。Compliance Guardrail 在 LLM 输出端建立三层过滤——从确定性规则匹配到风险评分到人工升级——确保所有面向亚马逊的内容合规。
13-广告分析
将每台设备的 URL 访问序列 $\mathcal{S}_v = \{s_1, s_2, \ldots, s_n\}$ 构建为层次异构图
13-广告分析
某母婴品牌每月新品 8-12 个 SKU,人工撰写一套完整 Listing(标题+5条Bullet+描述+后台ST)需要 2-3 小时/SKU,月均耗时 20-30 小时
13-广告分析
核心思想:把 Amazon Listing 的「吸引力」分解为文本质量 + 图像质量两个可量化维度,用神经网络预测每个内容位置(标题/主图/描述/bullet points)对转化成功率的贡献,并反向输出"改哪里能提升最多"的可操作建议。
14-用户分析
传统 LLM 摘要"无约束自由生成"产生幻觉(摘要包含评论中不存在的属性). AGRS 把摘要任务结构化:ABSA 提取 aspect-sentiment → canonical 归一化 → 代表性评论加权采样 → 结构化 prompt 引导 LLM 生成. 100% 基于真实评论,根本规避幻觉. 4 阶段 pipeline 端到端可扩展到百万产品.
14-用户分析
用户购买行为包含丰富的人群信号,但直接为百万用户调用 LLM 标注成本极高。GPLR 解决这个矛盾:用少量 LLM 标注 + 图结构传播覆盖全量用户。三步流程:① Diversity-Uncertainty(DU)采样选出最有代表性的"原型用户"做 LLM 标注;② LLM 基于购买历史为原型用户赋予 Persona 标签;③ 在用户-产品交互图上随机游走,将标签从有标注用户传播至全量未标注用户。
14-用户分析
Momcozy 在德/法/西市场每月接收 5000+ 母语客服工单(如德语 "Die Verpackung ist sehr schwer zu öffnen"). 传统做法用 Google Translate 翻译成英文后跑英文 ABSA,翻译会丢失 aspect 对齐("Verpackung" → "package" 时 BIO 边界错位 30%+). 跨境品牌每月因机翻错误导致工单
14-用户分析
Momcozy M5 吸奶器在美国/德国/中国三市场销售,各市场用户痛点完全不同(美国关注续航便携、德国关注静音认证、中国关注清洗方便). 现有运营复盘只产出"差评列表",无法直接驱动产品改进决策——产品经理拿到差评列表还要花 1-2 周二次提炼 - 数据要求:三市场 Amazon Review API + market 标签 - MAA 配置: - 按市场分别聚类(K=5,每市场 5
14-用户分析
母婴出海电商的客服场景中,买家使用西班牙语、德语、日语等多语言发起售后投诉,直接机器翻译存在两大失真
14-用户分析
Momcozy 在 Amazon US 的 S9/S12 系列累积数万条评论,但产品团队只能依赖人工抽查了解用户诉求,无法识别"职场背奶妈妈"与"新手妈妈"在痛点上的差异,导致广告文案和详情页对所有人说同样的话,转化率损耗严重 - 数据要求: - Amazon Review 数据(user_id、product_id、评论文本、评分、时间戳),CSV 格式 - 数量:每 SKU ≥ 50
14-用户分析
1. Cannibalization(自相残杀):把折扣发给"本来就会买"的高意愿用户,白白损失利润
14-用户分析
想进入"电动吸奶器"品类,但已有 Momcozy/Medela/Spectra 等强竞品
14-用户分析
现有电商推荐系统多依赖商品标题、价格等表层属性推断用户意图,且只关注单次购买或单会话内的短期偏好变化。SessionIntentBench 的核心创新在于:提出意图树(Intention Tree)概念,通过跨会话建模用户意图的时序演化,构建大规模多模态意图基准。
14-用户分析
传统矩阵补全(如 SoftImpute、ALS)假设"大部分条目可观测",但电商session的页面转移矩阵天然稀疏——每个用户session只有3-5次页面跳转,导致采样概率 `p = C/d`(C≈2-5, d=页面类型数),绝大多数转移对从未被同一用户触发。
14-用户分析
Momcozy 暖奶器在 Amazon US/DE 各 5000+ 评论,差评包含细碎复合表达(如"加热慢又不均匀,温控也不准"). 传统 ABSA 把整句标注为"加热问题",丢失了 3 个独立改进点;直接用 LLM 总结容易生成评论中不存在的属性(如"接口设计差") - 数据要求:Amazon Review API 双市场评论 - StaR 配置: - Step 1 Candidate
14-用户分析
传统序列推荐模型只看单会话内的商品点击序列,TRACE 的创新在于:把整个用户的多会话页面浏览历史(包括首页、搜索页、详情页、购物车、结账等各类页面,跨越数天甚至数周)打包成一条有序序列,送入轻量级 Transformer Encoder 学习全局用户状态嵌入。
14-用户分析
母婴电商需要桑基图展示用户从首页→搜索→PDP→加购→支付的流量宽度
14-用户分析
用户上月购买了 Stage 1 奶粉,系统推断宝宝约 2-3 月龄
15-营销投放分析
Facebook 月预算从 $5 万加到 $8 万后,ROAS 从 3.2 掉到 2.1
15-营销投放分析
匿名访客(未授权追踪)向 AI 助手提问穿搭,传统推荐因无 Cookie 完全失效,品牌白白流失高意图实时流量 - 数据要求:用户自然语言查询文本 + SKU 库(含品类、场景标签、图片描述)+ 广告主实时出价 - GenAI 方案: - 用户问:"我下周去海边参加婚礼,梨形身材,有什么建议
16-智能体工程
传统持续学习依赖反向传播更新模型权重,存在三个根本缺陷:必须离线批量训练(无法在服务中实时更新)、灾难性遗忘(新任务覆盖旧能力)、部署 Agent 无法自改(推理阶段参数冻结)。ATLAS 的突破在于:将"学习"从参数空间迁移到系统编排层,通过持久学习记忆(Persistent Learning Memory, PLM)存储经验蒸馏后的指导性知识,无需触碰模型权重。
16-智能体工程
Focus 借鉴 Physarum polycephalum(多头绒泡菌,俗称粘菌)的探索-收缩策略,把 LLM agent 从被动 "append-only" 模式升级为主动 "explore → compress → withdraw" 模式
16-智能体工程
AgeMem 是首个将 LTM(长期记忆)和 STM(短期记忆)统一到 Agent Policy 的端到端框架。传统方案把两种记忆当作独立模块,由外置 Memory Manager 或启发式 trigger 决策,导致组合效果差、部署成本高(需要额外 expert LLM)。AgeMem 的突破在于:记忆操作本身就是 action,由同一个 LLM policy 通过 RL 学习"何时调什么"。
16-智能体工程
传统 SRE 错误预算是单向消耗品:违反 SLO 就消耗预算,预算耗尽就停止发布,恢复后窗口重置。Agent 双向错误预算在此基础上引入自主权预算(Autonomy Budget):好行为可以赢回预算,自主权随可靠性动态升降。
16-智能体工程
WF-D 选品扫描工作流中,AI 导购 Agent 根据母婴产品描述为用户推荐商品
16-智能体工程
LLM Agent 面临 Prompt Injection、Jailbreak、工具误用等安全风险。三层防护:(1) 输入过滤——检测注入模式;(2) 工具调用前置验证——参数白名单+范围检查;(3) 输出审计——敏感信息脱敏。
16-智能体工程
EComStage 解决现有 e-commerce benchmark 只看"最终任务是否成功"的盲点。它把 LLM Agent 的推理过程分解为三阶段评估,并首次同时覆盖 customer-oriented 和 merchant-oriented 两类视角
16-智能体工程
AgentTrace 的核心洞察是:多 Agent 系统(MAS)的故障传播是确定性的因果链,而非需要 LLM 进行语义推理的模糊问题。
16-智能体工程
为什么基础设施沙箱不足:容器/seccomp 工作在系统调用层,不理解语义。例如 `rm -rf /tmp/orders/` 在文件系统层完全合法,但在补货 Agent 上下文中是灾难性操作。AgentTrust 在工具调用层工作,理解"操作意图"而非仅检查"操作权限"。
16-智能体工程
AgeMem(Agentic Memory) 颠覆了传统 LTM/STM 分离架构,把记忆管理整合到 Agent 的 policy 本身。现有方法把 LTM 与 STM 当作两个独立模块,要么用 trigger-based 启发式,要么外挂 Memory Manager,导致
16-智能体工程
每日需要上架数百个 SKU,每个 SKU 经过「标题优化→图片描述生成→合规检查→关键词填写」4 步 SOP,当前用 LangGraph 编排,frontier 模型成本约 $0.15/SKU × 1000 SKU = $150/天
16-智能体工程
母婴出海跨境客服 1 单可能涉及 10+ 国家、5+ 平台(Shopify/Amazon/TikTok Shop/独立站)、30+ 产品类目,人工写 SOP 速度跟不上业务扩张
16-智能体工程
RAG 的局限:被动检索,只能复用已显式存入的知识,无法从对话轨迹中自动归纳模式;Fine-tuning 的局限:参数固化后无法增量更新,每次新能力都需全量重训,知识以黑盒形式埋在权重里,不可审计不可编辑。
16-智能体工程
部署时学习(Deployment-Time Learning, DTL) 是 CASCADE 提出的第三个 LLM 生命周期阶段:预训练(Pre-training)→ 微调(Fine-tuning)→ 部署时学习。现有方案只在前两个阶段学习,部署后模型冻结,无法从实际使用中积累经验。
16-智能体工程
EvoSkills 解决 LLM Agent 多文件 Skill 包自动生成的两个根本挑战
16-智能体工程
跨境母婴客服 1 次对话经常 10-30+ 轮,Agent 在执行 RCA(Root Cause Analysis)、生成回复、生成报告时需要历史完整对话 + 多次 API 返回(订单详情、物流数据、产品规格)
16-智能体工程
不是所有 Agent 任务都需要 GPT-4——简单分类任务用 SLM(Small LM),复杂推理用 LLM。成本感知调度根据任务复杂度动态路由到最优模型。
16-智能体工程
语言翻译是跨境电商的最低门槛,真正影响转化的是文化适配:同一款婴儿奶粉,美国妈妈关注"科学配方/AAP认证",德国妈妈关注"有机/欧盟标准",日本妈妈关注"安心品质/无添加"——这些差异不是语言问题,而是深层文化价值观差异。
16-智能体工程
Google A2A 和 Anthropic MCP 这两大主流 Agent 通信协议存在共同缺陷:不暴露模型级属性。
16-智能体工程
Shopping Companion 解决两个长期被忽视的问题:(1) 缺少能评估跨 session 偏好记忆的端到端购物 benchmark;(2) 现有方法把"偏好识别"和"购物执行"当作独立模块,没有端到端联合优化。它把购物 Agent 形式化为 POMDP,并提出两阶段统一框架 + 双奖励 RL 训练。
16-智能体工程
The Orchestration of Multi-Agent Systems 把 LLM Agent 系统的演化分三阶段:单 Agent → 松耦合多 Agent → orchestrated 多 Agent。论文的核心贡献是把"orchestration"形式化为四层架构 + 两类协议
16-智能体工程
MCPAgentBench (北京大学 + ZTE, 2026) 是首个专注于工具选择与执行效率的 MCP 评估基准。现有基准 (MCP-Universe, MCP-RADAR) 主要测正确性,忽略了一个关键问题:模型能完成任务,但效率极低 —— 该并行时串行、该串行时并行、传过多参数、反复试错。
16-智能体工程
间接 Prompt Injection(IPI) 的核心机制:攻击者无法直接访问 Agent 的系统提示,但可通过控制 Agent 抓取的外部内容(商品描述、用户评论、网页正文)向 Agent 上下文注入恶意指令,使 Agent 偏离原始任务目标执行攻击者意图。
16-智能体工程
Hermes 4 是 Nous Research 发布的开源权重混合推理模型家族,核心贡献是证明开源模型可以通过系统性后训练(pipeline)达到接近闭源前沿模型的 tool use 和推理能力。
16-智能体工程
随着 LLM agent 从单 agent 工具调用进化为协调团队(coordinated teams),RL 的优化对象不再是个体 action,而是编排轨迹(orchestration trace) —— 一个包含 spawn(生成)、delegate(委派)、communicate(通信)、aggregate(聚合)、stop(停止)决策的时序交互图。
16-智能体工程
AWS 2026 年的实证研究证明:通过领域特定 SFT,仅 350M 参数的小型语言模型 (SLM) 可以在 tool calling 任务上超越 175B+ 参数的 LLM。核心洞察是参数效率 > 参数规模——通用 LLM 的绝大多数参数被优化用于通用语言理解而非 tool manipulation,导致"参数稀释"。
16-智能体工程
SoK Agentic Skills(Systematization of Knowledge)是 Agent Skill 领域第一篇综合 survey,把分散在 Voyager / CodeAct / Reflexion / Claude Skills / GPT Store / MCP 等系统中的"Skill 概念"统一为一个理论框架。它解决三个根本问题
16-智能体工程
AdaptOrch 针对 LLM 能力收敛趋势(2026 年前沿模型 MMLU/HumanEval 差距 <5%)提出一个关键洞察:当个体模型能力趋同时,编排拓扑(拓扑选择) 的方差贡献远超 模型选择 的贡献,成为系统性能的主变量。
16-智能体工程
LLM 工具调用存在系统性错位:模型既会过度调用(把可推理的问题交给工具),也会遗漏调用(低估工具对复杂查询的价值)。根本原因在于模型自感知与任务实际需求之间存在认知盲区——模型过度自信于自身知识覆盖,却对边界外的未知盲区无感知。
16-智能体工程
Queen's University 2026 年的大规模实证研究揭示:97.1% 的 MCP tool 描述至少含有一个 smell,这些描述缺陷直接导致 FM 选错工具、传错参数或产生不必要的交互步骤。论文提出六维评分 rubric + 动态组件路由,在提升 agent 准确率 (+5.85pp) 的同时控制 token 开销 (+67.46% steps 的 trade-off)。
16-智能体工程
XSkill 解决的是 AI Agent 的"每次从零开始"问题——传统 Agent 缺乏跨任务的知识积累机制,执行 100 次类似任务的性能与第 1 次几乎相同。XSkill 通过双流架构实现持续自进化
17-价格优化
业务痛点:吸奶器年度销量呈强季节性(Q3-Q4 旺季 GMV 占全年 65%),且 Momcozy 经常在大促前一周大幅降价抢占位次
18-物流履约
跨境母婴电商的物流追踪长期依赖纯文本状态更新("已揽收"、"在途中"、"清关中"),消费者对包裹实际位置和预期到达时间高度不确定,导致客服咨询量激增。AR Logistics Visualization 将三个技术栈融合
18-物流履约
预测从"到达目的国仓库"到"用户签收"的时长。用生存分析(Cox PH 或 AFT 模型)建模配送时长分布,考虑承运商、目的地邮编区、包裹体积、节假日等协变量。
18-物流履约
预测退货概率 + 优化退货处理路径。退货概率用 XGBoost 建模(产品类别、价格、用户历史退货率、配送时长),退货处理用规则+成本优化——退货到 FBA vs 第三方仓 vs 弃置。
19-风控反欺诈
检测广告点击中的无效流量(IVT)——Bot 点击、竞品恶意点击、重复点击。用时间序列异常 + 行为模式识别。
19-风控反欺诈
核心思想:在"产品 → 评论 → 评论者"三方动态异构图上检测刷评团伙群组。不看单条评论文本质量,而是看评论者之间的网络行为模式——真实用户构成稀疏随机网络,刷评团伙则共现密集、行为高度同步。
19-风控反欺诈
欺诈检测系统的核心上限由欺诈信号采集的覆盖度和质量决定。母婴电商面临的三类典型欺诈
19-风控反欺诈
核心思想:LLM 生成的虚假评论文本质量极高(语法流畅、情感真实),传统文本特征工程(词频/情感/长度)已失效。FraudSquad 转变思路——不只看"单条评论写得怎样",而是看"这个评论者在评论图中的行为模式是否异常"。
19-风控反欺诈
核心思想:三维欺诈信号融合检测账号欺诈——设备指纹相似度(识别同一设备多账号)+ 行为序列异常(购买/浏览模式偏差)+ 账号关联网络社区(图社区发现)。三维信号通过加权融合输出欺诈概率,任一维度异常均触发预警。
19-风控反欺诈
GNN 图神经网络检测虚假评论——不是看单条评论文本,而是看评论者-产品-评分之间的关系图。虚假评论团通常呈现异常图模式:同批次账号、评分极端(1 或 5 星)、评论时间集中、文本相似度高。
19-风控反欺诈
Isolation Forest + 动态阈值检测异常交易模式。特征:订单金额、支付方式、IP 国家 vs 收货国家、下单到支付间隔、同一 IP 下单频率、地址变更次数。
20-AI视频生成
首个基于 Diffusion 的非自回归 (Non-Autoregressive, NAR) talking head 生成方案。自回归方法逐帧生成 → 误差累积 → 30 秒后嘴歪眼斜。DAWN 一次性生成全序列,无误差累积,支持 30-60 秒长视频稳定输出——这正是 UGC review 视频需要的长度。
20-AI视频生成
唯一电商域专用 Benchmark。通用 T2V 评测用 UCF-101/MSR-VTT(自然场景),但电商视频核心要求完全不同——商品颜色/纹理/Logo 不能有任何失真。E-CommerceVideo 建立电商专属评测体系。
20-AI视频生成
端到端广告视频生成:输入产品信息 + 自然语言编辑需求 + 视频素材片段 → 输出 JSON 剪辑草稿(镜头序列 + 配音脚本 + 装饰标签)。
20-AI视频生成
完整多语言短视频生成系统:角色图像 → 空间变形+特征解码器 → 对口型 talking avatar → 多语言 TTS(百余语言)→ 特效渲染。
21-合规决策
核心思想:把 LLM 自动生成的合规风险控制从“生成后人工看一眼”升级为同步的加权评分系统。系统并行生成多个候选输出,对每个候选运行 PII、内容安全、schema、领域规则和证据引用检查,计算合规得分;一旦最佳候选超过阈值就提前返回,否则进入人工复核。
21-合规决策
核心思想:从 CPSC/NHTSA 非结构化消费者投诉文本出发,通过半参数主题模型(Hierarchical Dirichlet Process Pitman-Yor, HDPYP)自动提取缺陷主题,预测产品召回发生概率和召回组件类别。与传统 XGBoost/RF 相比,预测准确率提升约 14%(p<0.05),提前约 1 年预警召回事件。
22-数据采集工程
母婴跨境电商应用:独立站/APP 原始点击流 → 离散 persona token,驱动个性化推荐和 A/B 实验
22-数据采集工程
某母婴品牌通过爬虫采集 Amazon 评论,分析"打折 coupon 是否提升复购率"
22-数据采集工程
论文:JARVIS [2602.12941] + DS-DGA-GCN [2603.08332] + CAMERA [2605.20032]
22-数据采集工程
1. 广度优先爬取浪费资源:爬 100 个页面才找到 5 个有价值的竞品信息
22-数据采集工程
从 Amazon、TikTok Shop、独立站同时采集的评论中,30-40% 是重复或低质量内容(同一用户多平台发布、机器生成水评、极短无意义评论)。直接用于 VOC 分析会严重扭曲洞察结论。