DeepSeek发布了其开源GPU算子库DeepGEMM的重大版本更新。此次更新将其从一个专注于FP8矩阵乘法的库,扩展为覆盖大模型推理关键环节的完整算子库。
核心更新:Mega MoE
- 功能:将MoE(混合专家)架构推理所需的五个独立步骤(EP分发、第一层线性变换、SwiGLU激活、第二层线性变换、EP合并)融合为单个内核。
- 优势:避免了传统多内核调用间的等待和数据搬运,实现了NVLink通信与Tensor Core计算的并行。目前支持FP8×FP4精度组合,需PyTorch 2.9及以上版本。
其他新增与优化
- FP8×FP4混合精度矩阵乘法。
- 支持更大MTP的FP4注意力评分算子(Indexer)。
- 程序化依赖启动(PDL),以降低内核启动延迟。
- 更快的JIT编译速度。
- 多项针对MoE矩阵运算的优化。
- 适配了DeepEPv2的MoE数据布局。
团队表示性能对比数据将稍后公布,并注明本次发布仅与DeepGEMM开发相关。