OpenClaw创始人Peter Steinberger分享了由第三方机构PinchBench进行的基准测试结果。该测试评估了各大语言模型在执行OpenClaw代理任务时的表现。
核心测试结果如下:
- Gemini 3 Flash:任务成功率达 95.1%,排名第一。
- minimax-m2.1:成功率为 93.6%,位列第二。
- kimi-k2.5:成功率为 93.4%,排名第三。
- Claude Sonnet 4.5:成功率为 92.7%。
- GPT-4o:成功率为 85.2%。
OpenClaw创始人Peter Steinberger分享了由第三方机构PinchBench进行的基准测试结果。该测试评估了各大语言模型在执行OpenClaw代理任务时的表现。
核心测试结果如下: