谷歌发布 ReasoningBank:智能体如何从成败经验中持续学习
谷歌研究院推出智能体记忆框架 ReasoningBank,让大模型驱动的智能体在部署后持续学习。核心思路是:将过往任务的成功与失败经验提炼为通用的推理策略,存入记忆库,下次遇到类似任务时先检索再执行。
现有方案的缺陷
- Synapse:记录完整行动轨迹,粒度太细,难以迁移。
- Agent Workflow Memory:仅从成功案例提炼工作流,忽略失败教训。
ReasoningBank 两大创新
- 存储对象升级:从“动作序列”改为“推理模式”。每条记忆包含标题、描述、内容三段结构化字段。
- 纳入失败经验:模型调用另一个大模型对执行轨迹自评,失败经验被拆解为防踩坑规则。例如:
- 错误做法:“看见 Load More 按钮就点”
- 升级规则:“先核对当前页面标识,避免陷入无限滚动,再点击加载更多”
MaTTS:记忆感知的测试时扩展
论文另提出 Memory-aware Test-time Scaling(MaTTS),在推理时投入更多算力反复尝试,并将探索过程存入记忆库:
- 并行扩展:对同一任务跑多条不同轨迹,通过自对比提炼稳健策略。
- 顺序扩展:在单条轨迹内反复精修,将中间推理记入记忆库。
性能表现
在 WebArena(浏览器任务)和 SWE-Bench-Verified(代码任务)两个基准上,用 Gemini 2.5 Flash 做 ReAct 智能体:
| 方案 | WebArena 成功率提升 | SWE-Bench-Verified 成功率提升 | 步数节省 |
|---|---|---|---|
| ReasoningBank | +8.3% | +4.6% | 平均少走约 3 步 |
| 叠加 MaTTS(k=5) | +11.3% | - | 再少 0.4 步 |
代码已开源,论文被 ICLR 接收。