ARC Prize基金会发布了全新的ARC-AGI-3基准测试,旨在评估AI代理(Agent)的通用推理能力。

测试机制:未知的交互游戏

与之前的静态任务不同,ARC-AGI-3是一组交互式回合制环境

  • Agent置身于一个64×64、16色的网格世界。
  • 不会收到任何指令或目标提示
  • 必须自主探索环境、推断规则、发现胜利条件并规划行动

评分与当前结果

评分采用“动作效率”机制,完成关卡所需步数越少,得分越高。

人类表现:所有环境均经校准,确认100%可由人类首次接触时通关。
前沿AI模型得分(截至发布时)

  • 谷歌 Gemini 3.1 Pro Preview:0.37%
  • OpenAI GPT 5.4 (High):0.26%
  • Anthropic Opus 4.6 (Max):0.25%
  • xAI Grok-4.20 (Beta):0.00%

为何推出新版本?

新版本部分源于对前代基准可能被“污染”的担忧。有证据表明,某些模型可能通过记忆训练数据中的任务模式来取巧。ARC-AGI-3通过交互式环境和自主目标发现机制,旨在抵抗这类记忆捷径,迫使模型展现真正的推理能力。

ARC Prize 2026竞赛总奖金超过200万美元。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化