寒武纪在DeepSeek-V4发布当天完成285B和1.6T两款模型的适配,基于vLLM推理框架,代码已开源至GitHub。

适配依赖两点:寒武纪NeuWare软件栈原生支持PyTorch、vLLM,模型快速迁移;芯片原生支持主流低精度格式,无需额外转换。针对V4新结构,寒武纪通过自研Torch-MLU-Ops算子库对Compressor、mHC等模块专项加速,并用BangC编写稀疏/压缩Attention、GroupGemm等热点算子。

推理框架方面,vLLM支持TP/PP/SP/DP/EP五维混合并行、通信计算并行、低精度量化和PD分离部署。V4技术报告仅提及NVIDIA GPU和华为昇腾NPU,此次适配由寒武纪自主完成。受此影响,A股国产芯片板块走强,寒武纪盘中直线拉升。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化