paper2skills Playbook

Reflexion — 言语强化学习与自我反思

Skill-Reflexion-Self-Improvement · 10-MAS

causalexperimentoptimizationmulti_agentpricing供应链与补货客服与VOCMAS与智能体工程定价与利润WF-A 智能补货WF-C 客服分诊WF-F 动态定价
实现难度⭐⭐⭐⭐☆
业务优先级⭐⭐⭐⭐☆
业务视角
适用角色运营负责人 / CTO · 产品经理 · CEO
适用平台Amazon PPC + 库存 + 定价 多 Agent 协作 · TikTok 内容运营流水线
什么情况下用运营任务太碎,选品/定价/广告/客服同时跑,人手严重不足;重复性运营动作需要 7×24 响应但没有足够人力
成功是什么样的多个 AI Agent 协作自动完成跨系统运营任务,运营团队人效提升 3-5 倍,7×24 无人值守运营
业务痛点
运营人手不够任务太多价格变化没有及时响应重复性工作占据太多时间想做 7×24 监控但没人盯

1. 解决的问题

Reflexion 提出了一种言语强化学习(Verbal Reinforcement Learning)机制。核心洞察:传统 RL 需要更新模型权重,成本高且难以解释;而 LLM 可以通过自然语言形式的"自我反思"来改进策略,无需任何权重更新。

2. 核心算法逻辑

Reflexion 提出了一种言语强化学习(Verbal Reinforcement Learning)机制。核心洞察:传统 RL 需要更新模型权重,成本高且难以解释;而 LLM 可以通过自然语言形式的"自我反思"来改进策略,无需任何权重更新。

3. 业务应用场景

LLM 打标新类型评论时容易出错(如新品类、新品牌、新表达方式)。传统方式是人工审核后修正,效率低。需要 Agent 能自动识别错误、总结规律、避免再犯。

- 历史打标结果 - 人工审核后的修正记录 - 评估标准(标签准确率、覆盖率、一致性)

业务价值: - 错误率逐次下降,无需重新训练模型 - 反思经验可跨任务复用 - 人工审核聚焦在高价值案例上

4. 输入数据要求

请查看原始代码模板获取输入规格。

5. 输出结果

请查看原始代码模板获取输出规格。

6. 业务价值 / ROI

  • 数据要求:中,需要评估信号和 ground truth
  • 技术门槛:中高,需要理解记忆检索和反思生成机制
  • 工程复杂度:中高,涉及多组件协调
  • 维护成本:中,记忆库需要管理
  • 无需重训:最大的优势,零模型训练成本
  • 可解释性强:反思是自然语言,人类可读可审核

7. 代码模板

代码块数量:4 · 路径:未检测到

cd paper2skills-code/mas/reflexion_self_reflect
python reflexion_agent.py

8. 论文来源

  • 2303.11366