DeepSeek V4技术报告显示,V4-Flash与V4-Pro分别在32T和33T tokens上预训练,相较V3的15T tokens翻倍。报告指出训练过程中遭遇显著不稳定,loss spike反复出现,根源在于MoE层异常值,路由机制本身加剧问题,简单回滚无法解决。
DeepSeek提出两个方案并已应用:Anticipatory Routing(预见性路由),将路由计算与主干网络更新解耦,仅在检测到loss spike时触发,额外开销约20%;SwiGLU Clamping,将激活值钳位到固定范围压制异常值。方案虽有效,但底层原理尚未完全理解。
谷歌DeepMind研究员Susan Zhang(前Meta AI、OpenAI)评论称,数据翻倍引发的不稳定性解释了延期,将方案形容为“创口贴”,同时肯定DeepSeek的技术透明度。