DeepSeek开源V4系列预览版(MIT许可),权重已上线Hugging Face与ModelScope。系列包含两款MoE模型:

  • V4-Pro:总参数1.6T,每token激活49B
  • V4-Flash:总参数284B,激活13B

均支持1M token上下文。

架构三大升级

  • 混合注意力机制:压缩稀疏注意力(CSA)+重度压缩注意力(HCA),1M上下文下V4-Pro推理FLOPs仅为V3.2的27%,KV缓存占用降至V3.2的10%。
  • 流形约束超连接(mHC):替代传统残差连接,增强跨层信号传播稳定性。
  • Muon优化器:加速训练收敛,预训练数据超32T token。

后训练策略

先以SFT与GRPO强化学习分别训练各领域专家,再通过在线蒸馏合并为统一模型。V4-Pro-Max自称当前最强开源模型,编码基准达顶级,推理与Agent任务显著缩小与闭源差距。V4-Flash-Max在充分思考预算下推理表现接近Pro,但纯知识与复杂Agent任务受参数规模限制。权重采用FP4+FP8混合精度存储。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化