DeepSeek发布了其开源GPU算子库DeepGEMM的重大版本更新。此次更新将其从一个专注于FP8矩阵乘法的库,扩展为覆盖大模型推理关键环节的完整算子库。

核心更新:Mega MoE

  • 功能:将MoE(混合专家)架构推理所需的五个独立步骤(EP分发、第一层线性变换、SwiGLU激活、第二层线性变换、EP合并)融合为单个内核。
  • 优势:避免了传统多内核调用间的等待和数据搬运,实现了NVLink通信与Tensor Core计算的并行。目前支持FP8×FP4精度组合,需PyTorch 2.9及以上版本。

其他新增与优化

  • FP8×FP4混合精度矩阵乘法。
  • 支持更大MTP的FP4注意力评分算子(Indexer)。
  • 程序化依赖启动(PDL),以降低内核启动延迟。
  • 更快的JIT编译速度。
  • 多项针对MoE矩阵运算的优化。
  • 适配了DeepEPv2的MoE数据布局。

团队表示性能对比数据将稍后公布,并注明本次发布仅与DeepGEMM开发相关。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化