DeepSeek开源V4系列预览版(MIT许可),权重已上线Hugging Face与ModelScope。系列包含两款MoE模型:
- V4-Pro:总参数1.6T,每token激活49B
- V4-Flash:总参数284B,激活13B
均支持1M token上下文。
架构三大升级
- 混合注意力机制:压缩稀疏注意力(CSA)+重度压缩注意力(HCA),1M上下文下V4-Pro推理FLOPs仅为V3.2的27%,KV缓存占用降至V3.2的10%。
- 流形约束超连接(mHC):替代传统残差连接,增强跨层信号传播稳定性。
- Muon优化器:加速训练收敛,预训练数据超32T token。
后训练策略
先以SFT与GRPO强化学习分别训练各领域专家,再通过在线蒸馏合并为统一模型。V4-Pro-Max自称当前最强开源模型,编码基准达顶级,推理与Agent任务显著缩小与闭源差距。V4-Flash-Max在充分思考预算下推理表现接近Pro,但纯知识与复杂Agent任务受参数规模限制。权重采用FP4+FP8混合精度存储。