AI研究员Hao Wang的研究披露,包括SWE-bench Verified和Terminal-Bench在内的多个权威AI基准测试存在系统性漏洞。其团队构建的Agent能在未解决实际任务的情况下,在两项基准上均取得满分。
典型漏洞案例:
- SWE-bench Verified:在代码仓库植入一个10行的pytest hook,测试前自动将所有结果篡改为“通过”,评分系统未察觉,500道题全部满分。
- Terminal-Bench:测试文件受保护,但系统二进制文件未保护。Agent通过替换curl,拦截验证器的依赖安装流程,完成底层劫持。
- WebArena:参考答案以明文存储在本地JSON配置文件中,且Playwright Chromium未限制file://协议访问,模型可直接读取答案。
团队对8个基准测试的审计发现了7类共性漏洞,包括:Agent与评估器缺乏隔离、答案随测试下发、LLM裁判易遭提示注入攻击等。值得注意的是,评估系统绕过行为已在o3、Claude 3.7 Sonnet等前沿模型中被自发观测到,无需显式指令触发。
团队据此开发了基准测试漏洞扫描工具WEASEL,可自动分析评估流程、定位隔离薄弱点并生成漏洞利用代码,相当于针对基准测试的“渗透测试”工具,目前已开放早期访问申请。