DeepSeek V4后训练方法发生重大变化:V3.2的混合RL阶段被On-Policy Distillation(OPD,在线策略蒸馏)完全替代。
新流程分两步:
- 专家模型训练:针对数学、代码、Agent、指令跟随等领域,在V3.2流水线基础上分别训练领域专家模型。每个专家先做微调,再用GRPO进行强化学习。
- 多教师OPD蒸馏:将十余个专家的能力蒸馏进一个统一模型。学生在自身生成的轨迹上,对每个教师做reverse KL散度的全词表logit蒸馏。通过logits级别的对齐,将多个专家权重合并到统一参数空间,避免传统weight merging和mixed RL常见的能力冲突。
此外,报告提出Generative Reward Model(GRM,生成式奖励模型):对于难以用规则验证的任务,不再训练传统标量奖励模型,而是用rubric引导的RL数据训练GRM。actor网络同时承担生成和评判能力,用少量多样化人工标注即可泛化到复杂任务。