ARC Prize基金会发布了全新的ARC-AGI-3基准测试,旨在评估AI代理(Agent)的通用推理能力。
测试机制:未知的交互游戏
与之前的静态任务不同,ARC-AGI-3是一组交互式回合制环境:
- Agent置身于一个64×64、16色的网格世界。
- 不会收到任何指令或目标提示。
- 必须自主探索环境、推断规则、发现胜利条件并规划行动。
评分与当前结果
评分采用“动作效率”机制,完成关卡所需步数越少,得分越高。
人类表现:所有环境均经校准,确认100%可由人类首次接触时通关。
前沿AI模型得分(截至发布时):
- 谷歌 Gemini 3.1 Pro Preview:0.37%
- OpenAI GPT 5.4 (High):0.26%
- Anthropic Opus 4.6 (Max):0.25%
- xAI Grok-4.20 (Beta):0.00%
为何推出新版本?
新版本部分源于对前代基准可能被“污染”的担忧。有证据表明,某些模型可能通过记忆训练数据中的任务模式来取巧。ARC-AGI-3通过交互式环境和自主目标发现机制,旨在抵抗这类记忆捷径,迫使模型展现真正的推理能力。
ARC Prize 2026竞赛总奖金超过200万美元。