DeepSeek V4延期内幕：33T数据训练遭遇异常挑战

DeepSeek V4技术报告显示，V4-Flash与V4-Pro分别在32T和33T tokens上预训练，相较V3的15T tokens翻倍。报告指出训练过程中遭遇显著不稳定，loss spike反复出现，根源在于MoE层异常值，路由机制本身加剧问题，简单回滚无法解决。

DeepSeek提出两个方案并已应用：Anticipatory Routing（预见性路由），将路由计算与主干网络更新解耦，仅在检测到loss spike时触发，额外开销约20%；SwiGLU Clamping，将激活值钳位到固定范围压制异常值。方案虽有效，但底层原理尚未完全理解。

谷歌DeepMind研究员Susan Zhang（前Meta AI、OpenAI）评论称，数据翻倍引发的不稳定性解释了延期，将方案形容为“创口贴”，同时肯定DeepSeek的技术透明度。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站