AI编程代理在处理同一任务时,多次运行会产生不同解法。传统方法(LLM-as-a-Judge)通过模型打分来挑选最佳方案,但评分粒度粗,常出现无法区分高下的平局。

斯坦福与伯克利的研究团队提出了LLM-as-a-Verifier方法,对此进行了关键改进:

  • 精细化评估:不再依赖单一分数,而是分析模型在每个评分等级上的概率分布,计算出一个连续的奖励值。
  • 多维度验证:将评估拆分为三个独立维度:任务要求满足度、输出格式正确性、错误信号存在性。
  • 重复与平均:通过多次评判取平均,以消除偶然偏差。

实验效果
使用Gemini 2.5 Flash作为验证器:

  • 单次验证准确率达74.7%,传统Judge方法仅为57.0%。
  • 重复16次后,Verifier准确率提升至77.4%,Judge为70.2%。
  • 传统Judge有26.5%的对比结果为平局,而Verifier在所有配置下的平局率均为0%。

基准测试表现

  • 在Terminal-Bench 2上,GPT-5.4运行5次同一任务,随机选择的成功率为81.8%,使用Verifier挑选后提升至86.4%
  • 在SWE-Bench Verified上,从多个顶级模型中各取一条解法,使用Verifier挑选后,成功率从76.1%提升至77.8%

该方法在发布时(4月9日)同时登顶Terminal-Bench和SWE-Bench榜单,相关框架已开源。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化