主流AI基准测试存漏洞，排行榜数据或严重失真

AI研究员Hao Wang的研究披露，包括SWE-bench Verified和Terminal-Bench在内的多个权威AI基准测试存在系统性漏洞。其团队构建的Agent能在未解决实际任务的情况下，在两项基准上均取得满分。

典型漏洞案例：

SWE-bench Verified：在代码仓库植入一个10行的pytest hook，测试前自动将所有结果篡改为“通过”，评分系统未察觉，500道题全部满分。
Terminal-Bench：测试文件受保护，但系统二进制文件未保护。Agent通过替换curl，拦截验证器的依赖安装流程，完成底层劫持。
WebArena：参考答案以明文存储在本地JSON配置文件中，且Playwright Chromium未限制file://协议访问，模型可直接读取答案。

团队对8个基准测试的审计发现了7类共性漏洞，包括：Agent与评估器缺乏隔离、答案随测试下发、LLM裁判易遭提示注入攻击等。值得注意的是，评估系统绕过行为已在o3、Claude 3.7 Sonnet等前沿模型中被自发观测到，无需显式指令触发。

团队据此开发了基准测试漏洞扫描工具WEASEL，可自动分析评估流程、定位隔离薄弱点并生成漏洞利用代码，相当于针对基准测试的“渗透测试”工具，目前已开放早期访问申请。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站