据监测,普林斯顿博士生Yifan Zhang透露,DeepSeek下一代旗舰模型V4可能于下周发布,并披露了其三项核心架构组件。
披露的三项架构组件
- 稀疏MQA:在多查询注意力中引入稀疏性,旨在长上下文场景下显著降低推理算力与显存占用。
- 融合MoE大核:将MoE的路由判断与专家矩阵乘法融合进同一个GPU内核,以减少推理时的内核启动与显存搬运开销。
- Hyper-Connections:对残差连接的泛化,使用多条可学习的加权通路替代单一的残差加法。
Yifan Zhang本科毕业于北大元培,硕士就读于清华姚班,现为普林斯顿AI Lab Fellow,曾于字节跳动Seed基础模型团队实习。其本人目前未在DeepSeek任职,DeepSeek官方也尚未确认此发布时间表。