DeepSeek V4技术报告显示,V4-Flash与V4-Pro分别在32T和33T tokens上预训练,相较V3的15T tokens翻倍。报告指出训练过程中遭遇显著不稳定,loss spike反复出现,根源在于MoE层异常值,路由机制本身加剧问题,简单回滚无法解决。

DeepSeek提出两个方案并已应用:Anticipatory Routing(预见性路由),将路由计算与主干网络更新解耦,仅在检测到loss spike时触发,额外开销约20%;SwiGLU Clamping,将激活值钳位到固定范围压制异常值。方案虽有效,但底层原理尚未完全理解。

谷歌DeepMind研究员Susan Zhang(前Meta AI、OpenAI)评论称,数据翻倍引发的不稳定性解释了延期,将方案形容为“创口贴”,同时肯定DeepSeek的技术透明度。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化