Reflexion — 言语强化学习与自我反思

Skill-Reflexion-Self-Improvement · 10-MAS

causalexperimentoptimizationmulti_agentpricing供应链与补货客服与VOCMAS与智能体工程定价与利润WF-A 智能补货WF-C 客服分诊WF-F 动态定价

实现难度⭐⭐⭐⭐☆

业务优先级⭐⭐⭐⭐☆

业务视角

适用角色运营负责人 / CTO · 产品经理 · CEO

适用平台Amazon PPC + 库存 + 定价多 Agent 协作 · TikTok 内容运营流水线

什么情况下用运营任务太碎，选品/定价/广告/客服同时跑，人手严重不足；重复性运营动作需要 7×24 响应但没有足够人力

成功是什么样的多个 AI Agent 协作自动完成跨系统运营任务，运营团队人效提升 3-5 倍，7×24 无人值守运营

业务痛点

运营人手不够任务太多价格变化没有及时响应重复性工作占据太多时间想做 7×24 监控但没人盯

1. 解决的问题

Reflexion 提出了一种言语强化学习（Verbal Reinforcement Learning）机制。核心洞察：传统 RL 需要更新模型权重，成本高且难以解释；而 LLM 可以通过自然语言形式的"自我反思"来改进策略，无需任何权重更新。

LLM 打标新类型评论时容易出错（如新品类、新品牌、新表达方式）。传统方式是人工审核后修正，效率低。需要 Agent 能自动识别错误、总结规律、避免再犯。

- 历史打标结果 - 人工审核后的修正记录 - 评估标准（标签准确率、覆盖率、一致性）

业务价值： - 错误率逐次下降，无需重新训练模型 - 反思经验可跨任务复用 - 人工审核聚焦在高价值案例上

请查看原始代码模板获取输入规格。

请查看原始代码模板获取输出规格。

代码块数量：4 · 路径：未检测到

cd paper2skills-code/mas/reflexion_self_reflect
python reflexion_agent.py