Perplexity公开搜索Agent后训练方法，Qwen3.5模型在准确率与成本上超越GPT-5.4

Perplexity研究团队公开了其网页搜索Agent的后训练流程。该方法基于开源模型Qwen3.5，采用两阶段优化方案，旨在提升搜索准确率并控制成本。

核心训练流程

第一阶段：监督微调（SFT）
使用Qwen3.5-122B-A10B和Qwen3.5-397B-A17B模型，建立指令遵循、语言一致性等部署必需的基础行为。
第二阶段：在线策略强化学习（RL）
采用GRPO算法，进一步优化搜索准确率和工具使用效率。

训练数据与奖励设计

性能与成本评估
经后训练的Qwen3.5-397B-SFT-RL模型在多个搜索基准上表现领先：

准确率：在FRAMES基准测试中，单次工具调用准确率达57.3%，超越GPT-5.4（51.6%）和Sonnet 4.6（52.6%）。
成本效益：在中等预算（4次工具调用）下，准确率达73.9%，每查询成本仅为2.0美分。相比之下，GPT-5.4为67.8% / 8.5美分，Sonnet 4.6为62.4% / 15.3美分。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站