斯坦福伯克利提出LLM-as-a-Verifier，刷新两大AI编程基准榜首

AI编程代理在处理同一任务时，多次运行会产生不同解法。传统方法（LLM-as-a-Judge）通过模型打分来挑选最佳方案，但评分粒度粗，常出现无法区分高下的平局。

斯坦福与伯克利的研究团队提出了LLM-as-a-Verifier方法，对此进行了关键改进：

实验效果
使用Gemini 2.5 Flash作为验证器：

基准测试表现

该方法在发布时（4月9日）同时登顶Terminal-Bench和SWE-Bench榜单，相关框架已开源。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站