据监测,普林斯顿博士生Yifan Zhang透露,DeepSeek下一代旗舰模型V4可能于下周发布,并披露了其三项核心架构组件。

披露的三项架构组件

  • 稀疏MQA:在多查询注意力中引入稀疏性,旨在长上下文场景下显著降低推理算力与显存占用。
  • 融合MoE大核:将MoE的路由判断与专家矩阵乘法融合进同一个GPU内核,以减少推理时的内核启动与显存搬运开销。
  • Hyper-Connections:对残差连接的泛化,使用多条可学习的加权通路替代单一的残差加法。

Yifan Zhang本科毕业于北大元培,硕士就读于清华姚班,现为普林斯顿AI Lab Fellow,曾于字节跳动Seed基础模型团队实习。其本人目前未在DeepSeek任职,DeepSeek官方也尚未确认此发布时间表。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化