寒武纪在DeepSeek-V4发布当天完成285B和1.6T两款模型的适配,基于vLLM推理框架,代码已开源至GitHub。
适配依赖两点:寒武纪NeuWare软件栈原生支持PyTorch、vLLM,模型快速迁移;芯片原生支持主流低精度格式,无需额外转换。针对V4新结构,寒武纪通过自研Torch-MLU-Ops算子库对Compressor、mHC等模块专项加速,并用BangC编写稀疏/压缩Attention、GroupGemm等热点算子。
推理框架方面,vLLM支持TP/PP/SP/DP/EP五维混合并行、通信计算并行、低精度量化和PD分离部署。V4技术报告仅提及NVIDIA GPU和华为昇腾NPU,此次适配由寒武纪自主完成。受此影响,A股国产芯片板块走强,寒武纪盘中直线拉升。