据技术报告,DeepSeek V4-Pro-Max(最高推理力度模式)与闭源旗舰对比,不含 Opus 4.7 与 GPT-5.5。

编码性能

  • Codeforces 得分 3206,刷新基准纪录,超越 GPT-5.4(3168)与 Gemini 3.1 Pro(3052)。
  • LiveCodeBench 93.5 全场最高。
  • SWE Verified 80.6,仅以 0.2 个百分点低于 Opus 4.6 的 80.8。

长上下文(1M基准)

  • CorpusQA 1M 得分 62.0,排第二,落后 Opus 4.6(71.7),领先 Gemini 3.1 Pro(53.8)。
  • MRCR 1M 得分 83.5,Opus 4.6 以 92.9 领先近 10 个百分点。

Agent 任务

  • MCPAtlas Public 73.6,接近 Opus 4.6 的 73.8。
  • Terminal-Bench 2.0 得分 67.9,低于 GPT-5.4(75.1)与 Gemini 3.1 Pro(68.5)。

知识与推理

  • GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4),差距明显。

作为开源模型,V4-Pro-Max 在多项编码与长上下文基准上首次追平甚至超过闭源旗舰,但知识密集型评测仍落后 Gemini 3.1 Pro。与最新闭源模型的差距有待第三方验证。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化