小米大模型团队负责人罗福莉在深度访谈中披露,MiMo-V2-Pro 模型基座总参数量达 1T,动用数千张 GPU 训练。

  • 技术层面:Pro 版将全局注意力与滑动窗口注意力比例推至 7:1,控制长文本推理成本。沿用 MTP 架构,利用富余算力加速推理。
  • 管理层面:百人团队中仅三四十人投入核心迭代,不设职级、无小组划分和交付 deadline。遇到 loss 跳变等不稳定问题时,直接停训排查,哪怕停机一两周、耗费数百万算力成本。

她认为,1T 规模是目前达到接近 Claude Opus 4.6 水平、拿到下阶段 Agent 竞争入场券的底线。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化