小米大模型团队负责人罗福莉在深度访谈中披露,MiMo-V2-Pro 模型基座总参数量达 1T,动用数千张 GPU 训练。
- 技术层面:Pro 版将全局注意力与滑动窗口注意力比例推至 7:1,控制长文本推理成本。沿用 MTP 架构,利用富余算力加速推理。
- 管理层面:百人团队中仅三四十人投入核心迭代,不设职级、无小组划分和交付 deadline。遇到 loss 跳变等不稳定问题时,直接停训排查,哪怕停机一两周、耗费数百万算力成本。
她认为,1T 规模是目前达到接近 Claude Opus 4.6 水平、拿到下阶段 Agent 竞争入场券的底线。