关闭导航

包含标签"评估漏洞"的内容

主流AI基准测试存漏洞,排行榜数据或严重失真
青岚老师 2 小时前 12 0

AI研究员Hao Wang的研究披露,包括SWE-bench Verified和Terminal-Bench在内的多个权威AI基准测试存在系统性漏洞。其团队构建的Agent能在未解决实际任务的情况下,

sitemap