DeepSeek V4后训练革新：OPD替代混合RL，多专家模型蒸馏合一

DeepSeek V4后训练方法发生重大变化：V3.2的混合RL阶段被On-Policy Distillation（OPD，在线策略蒸馏）完全替代。

新流程分两步：

专家模型训练：针对数学、代码、Agent、指令跟随等领域，在V3.2流水线基础上分别训练领域专家模型。每个专家先做微调，再用GRPO进行强化学习。
多教师OPD蒸馏：将十余个专家的能力蒸馏进一个统一模型。学生在自身生成的轨迹上，对每个教师做reverse KL散度的全词表logit蒸馏。通过logits级别的对齐，将多个专家权重合并到统一参数空间，避免传统weight merging和mixed RL常见的能力冲突。

此外，报告提出Generative Reward Model（GRM，生成式奖励模型）：对于难以用规则验证的任务，不再训练传统标量奖励模型，而是用rubric引导的RL数据训练GRM。actor网络同时承担生成和评判能力，用少量多样化人工标注即可泛化到复杂任务。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站