昨日从 DeepSeek 开源 TileKernels 内核库推测 V4 架构,今日模型卡发布,逐项验证如下:
- mHC(流形约束超连接):命中。推测 V4 未使用原始 HyperConnection,而是改进版 mHC,模型卡确认使用 Manifold-Constrained Hyper-Connections。
- MoE 架构与 Top-k 路由:命中。TileKernels 包含完整 MoE 分发与收集内核,模型卡确认 V4 为 MoE 模型。
- FP4+FP8 混合精度:命中。库内含 FP4、FP8 量化内核,模型卡确认权重采用 FP4+FP8 混合存储。
唯一未中为 Engram(条件记忆模块)。昨日 Yifan Zhang 披露的规格未提 Engram,模型卡亦未提及。
模型卡还揭示新组件:混合注意力机制(CSA + HCA)实现长上下文效率飞跃,1M 上下文下推理 FLOPs 仅为 V3.2 的 27%、KV 缓存仅 10%;训练改用 Muon 优化器。