-
社区传闻称 DeepSeek V4 因从英伟达迁移至华为昇腾平台而推迟上线,但技术报告数据已直接驳斥这一说法。
-
V4采用细粒度专家分区方案(Fine-Grained EP Scheme),已在 NVIDIA GPU 和 华为昇腾 NPU 双平台完成部署验证。
-
常规推理负载加速 1.50至1.73倍,而在RL rollout和高速Agent服务等延迟敏感场景,最高加速 1.96倍。
-
团队已将CUDA版本内核 MegaMoE 作为DeepGEMM的一部分开源,证明跨平台适配未造成性能折损。