Perplexity研究团队公开了其网页搜索Agent的后训练流程。该方法基于开源模型Qwen3.5,采用两阶段优化方案,旨在提升搜索准确率并控制成本。

核心训练流程

  • 第一阶段:监督微调(SFT)
    使用Qwen3.5-122B-A10B和Qwen3.5-397B-A17B模型,建立指令遵循、语言一致性等部署必需的基础行为。
  • 第二阶段:在线策略强化学习(RL)
    采用GRPO算法,进一步优化搜索准确率和工具使用效率。

训练数据与奖励设计

  • 数据构成:训练数据包含自研合成的多跳可验证问答数据集,以及基于评分标准的通用对话数据。
  • 关键机制:采用门控聚合奖励设计,仅在基线答案正确时计算偏好得分,防止高偏好信号掩盖事实错误。
  • 效率控制:通过组内锚定方式,对超额的工具调用和生成长度施加平滑惩罚。

性能与成本评估
经后训练的Qwen3.5-397B-SFT-RL模型在多个搜索基准上表现领先:

  • 准确率:在FRAMES基准测试中,单次工具调用准确率达57.3%,超越GPT-5.4(51.6%)和Sonnet 4.6(52.6%)。
  • 成本效益:在中等预算(4次工具调用)下,准确率达73.9%,每查询成本仅为2.0美分。相比之下,GPT-5.4为67.8% / 8.5美分,Sonnet 4.6为62.4% / 15.3美分。

🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化