AI编程代理在处理同一任务时,多次运行会产生不同解法。传统方法(LLM-as-a-Judge)通过模型打分来挑选最佳方案,但评分粒度粗,常出现无法区分高下的平局。
斯坦福与伯克利的研究团队提出了LLM-as-a-Verifier方法,对此进行了关键改进:
- 精细化评估:不再依赖单一分数,而是分析模型在每个评分等级上的概率分布,计算出一个连续的奖励值。
- 多维度验证:将评估拆分为三个独立维度:任务要求满足度、输出格式正确性、错误信号存在性。
- 重复与平均:通过多次评判取平均,以消除偶然偏差。
实验效果
使用Gemini 2.5 Flash作为验证器:
- 单次验证准确率达74.7%,传统Judge方法仅为57.0%。
- 重复16次后,Verifier准确率提升至77.4%,Judge为70.2%。
- 传统Judge有26.5%的对比结果为平局,而Verifier在所有配置下的平局率均为0%。
基准测试表现
- 在Terminal-Bench 2上,GPT-5.4运行5次同一任务,随机选择的成功率为81.8%,使用Verifier挑选后提升至86.4%。
- 在SWE-Bench Verified上,从多个顶级模型中各取一条解法,使用Verifier挑选后,成功率从76.1%提升至77.8%。
该方法在发布时(4月9日)同时登顶Terminal-Bench和SWE-Bench榜单,相关框架已开源。