OpenClaw创始人Peter Steinberger分享了由第三方机构PinchBench进行的基准测试结果。该测试评估了各大语言模型在执行OpenClaw代理任务时的表现。

核心测试结果如下:

  • Gemini 3 Flash:任务成功率达 95.1%,排名第一。
  • minimax-m2.1:成功率为 93.6%,位列第二。
  • kimi-k2.5:成功率为 93.4%,排名第三。
  • Claude Sonnet 4.5:成功率为 92.7%
  • GPT-4o:成功率为 85.2%

🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化