DeepSeek V4后训练方法发生重大变化:V3.2的混合RL阶段被On-Policy Distillation(OPD,在线策略蒸馏)完全替代。

新流程分两步:

  1. 专家模型训练:针对数学、代码、Agent、指令跟随等领域,在V3.2流水线基础上分别训练领域专家模型。每个专家先做微调,再用GRPO进行强化学习。
  2. 多教师OPD蒸馏:将十余个专家的能力蒸馏进一个统一模型。学生在自身生成的轨迹上,对每个教师做reverse KL散度的全词表logit蒸馏。通过logits级别的对齐,将多个专家权重合并到统一参数空间,避免传统weight merging和mixed RL常见的能力冲突。

此外,报告提出Generative Reward Model(GRM,生成式奖励模型):对于难以用规则验证的任务,不再训练传统标量奖励模型,而是用rubric引导的RL数据训练GRM。actor网络同时承担生成和评判能力,用少量多样化人工标注即可泛化到复杂任务。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化