谷歌发布 ReasoningBank:智能体如何从成败经验中持续学习

谷歌研究院推出智能体记忆框架 ReasoningBank,让大模型驱动的智能体在部署后持续学习。核心思路是:将过往任务的成功与失败经验提炼为通用的推理策略,存入记忆库,下次遇到类似任务时先检索再执行。

现有方案的缺陷

  • Synapse:记录完整行动轨迹,粒度太细,难以迁移。
  • Agent Workflow Memory:仅从成功案例提炼工作流,忽略失败教训。

ReasoningBank 两大创新

  1. 存储对象升级:从“动作序列”改为“推理模式”。每条记忆包含标题、描述、内容三段结构化字段。
  2. 纳入失败经验:模型调用另一个大模型对执行轨迹自评,失败经验被拆解为防踩坑规则。例如:
    • 错误做法:“看见 Load More 按钮就点”
    • 升级规则:“先核对当前页面标识,避免陷入无限滚动,再点击加载更多”

MaTTS:记忆感知的测试时扩展

论文另提出 Memory-aware Test-time Scaling(MaTTS),在推理时投入更多算力反复尝试,并将探索过程存入记忆库:

  • 并行扩展:对同一任务跑多条不同轨迹,通过自对比提炼稳健策略。
  • 顺序扩展:在单条轨迹内反复精修,将中间推理记入记忆库。

性能表现

WebArena(浏览器任务)和 SWE-Bench-Verified(代码任务)两个基准上,用 Gemini 2.5 Flash 做 ReAct 智能体:

方案 WebArena 成功率提升 SWE-Bench-Verified 成功率提升 步数节省
ReasoningBank +8.3% +4.6% 平均少走约 3 步
叠加 MaTTS(k=5) +11.3% - 再少 0.4 步

代码已开源,论文被 ICLR 接收。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化