Perplexity研究团队公开了其网页搜索Agent的后训练流程。该方法基于开源模型Qwen3.5,采用两阶段优化方案,旨在提升搜索准确率并控制成本。
核心训练流程
- 第一阶段:监督微调(SFT)
使用Qwen3.5-122B-A10B和Qwen3.5-397B-A17B模型,建立指令遵循、语言一致性等部署必需的基础行为。 - 第二阶段:在线策略强化学习(RL)
采用GRPO算法,进一步优化搜索准确率和工具使用效率。
训练数据与奖励设计
- 数据构成:训练数据包含自研合成的多跳可验证问答数据集,以及基于评分标准的通用对话数据。
- 关键机制:采用门控聚合奖励设计,仅在基线答案正确时计算偏好得分,防止高偏好信号掩盖事实错误。
- 效率控制:通过组内锚定方式,对超额的工具调用和生成长度施加平滑惩罚。
性能与成本评估
经后训练的Qwen3.5-397B-SFT-RL模型在多个搜索基准上表现领先:
- 准确率:在FRAMES基准测试中,单次工具调用准确率达57.3%,超越GPT-5.4(51.6%)和Sonnet 4.6(52.6%)。
- 成本效益:在中等预算(4次工具调用)下,准确率达73.9%,每查询成本仅为2.0美分。相比之下,GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。