DeepSeek V4发布：1.6万亿参数+MIT许可，长文本显存暴降90%

DeepSeek开源V4系列预览版（MIT许可），权重已上线Hugging Face与ModelScope。系列包含两款MoE模型：

V4-Pro：总参数1.6T，每token激活49B
V4-Flash：总参数284B，激活13B

均支持1M token上下文。

架构三大升级

混合注意力机制：压缩稀疏注意力（CSA）+重度压缩注意力（HCA），1M上下文下V4-Pro推理FLOPs仅为V3.2的27%，KV缓存占用降至V3.2的10%。
流形约束超连接（mHC）：替代传统残差连接，增强跨层信号传播稳定性。
Muon优化器：加速训练收敛，预训练数据超32T token。

后训练策略

先以SFT与GRPO强化学习分别训练各领域专家，再通过在线蒸馏合并为统一模型。V4-Pro-Max自称当前最强开源模型，编码基准达顶级，推理与Agent任务显著缩小与闭源差距。V4-Flash-Max在充分思考预算下推理表现接近Pro，但纯知识与复杂Agent任务受参数规模限制。权重采用FP4+FP8混合精度存储。

🔥 实时行情点位，群内抢先看！

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

DeepSeek V4发布：1.6万亿参数+MIT许可，长文本显存暴降90%

分类推荐

相关内容

📢 TPV 实战信号站

青岚AI简报（TPV交易系统）

查看更多币种价格>>

更多链上数据指标

币圈专题

新手必读

交易技术

标签

搜索

您还没有登录

DeepSeek V4发布：1.6万亿参数+MIT许可，长文本显存暴降90%

架构三大升级

后训练策略

分类推荐

相关内容

📢 TPV 实战信号站

青岚AI简报 （TPV交易系统）

查看更多币种价格>>

更多链上数据指标

币圈专题

新手必读

交易技术

标签

搜 索

感谢您的打赏

分享文章

青岚AI简报（TPV交易系统）

搜索