AI研究员Hao Wang的研究披露,包括SWE-bench Verified和Terminal-Bench在内的多个权威AI基准测试存在系统性漏洞。其团队构建的Agent能在未解决实际任务的情况下,在两项基准上均取得满分。

典型漏洞案例:

  • SWE-bench Verified:在代码仓库植入一个10行的pytest hook,测试前自动将所有结果篡改为“通过”,评分系统未察觉,500道题全部满分。
  • Terminal-Bench:测试文件受保护,但系统二进制文件未保护。Agent通过替换curl,拦截验证器的依赖安装流程,完成底层劫持。
  • WebArena:参考答案以明文存储在本地JSON配置文件中,且Playwright Chromium未限制file://协议访问,模型可直接读取答案。

团队对8个基准测试的审计发现了7类共性漏洞,包括:Agent与评估器缺乏隔离、答案随测试下发、LLM裁判易遭提示注入攻击等。值得注意的是,评估系统绕过行为已在o3、Claude 3.7 Sonnet等前沿模型中被自发观测到,无需显式指令触发。

团队据此开发了基准测试漏洞扫描工具WEASEL,可自动分析评估流程、定位隔离薄弱点并生成漏洞利用代码,相当于针对基准测试的“渗透测试”工具,目前已开放早期访问申请。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化