DeepSeek发布DeepGEMM大更新，新增Mega MoE融合算子

DeepSeek发布了其开源GPU算子库DeepGEMM的重大版本更新。此次更新将其从一个专注于FP8矩阵乘法的库，扩展为覆盖大模型推理关键环节的完整算子库。

核心更新：Mega MoE

功能：将MoE（混合专家）架构推理所需的五个独立步骤（EP分发、第一层线性变换、SwiGLU激活、第二层线性变换、EP合并）融合为单个内核。
优势：避免了传统多内核调用间的等待和数据搬运，实现了NVLink通信与Tensor Core计算的并行。目前支持FP8×FP4精度组合，需PyTorch 2.9及以上版本。

其他新增与优化

团队表示性能对比数据将稍后公布，并注明本次发布仅与DeepGEMM开发相关。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站