核心特性:从“适配画面”到“精准控制” 小米大模型团队开源视频音效生成框架 ControlFoley,重点解决以往AI配音“无法精确控制声音风格”的痛点。模型支持三种输入方式: 画面驱动:根据视频内
小米大模型负责人罗福莉在X平台透露,MiMo-V2.5系列大幅降价并非亏本竞争,而是源于结构性降本策略。 核心降本机制 混合注意力架构:模型采用1:7的层间稀疏比,即每层全局注意力(GA)搭配7层滑
DeepSeek V4 与小米 MiMo-V2.5 系列 API 价格全面对齐,旗舰型号输入缓存命中价同为每百万 tokens 0.0036 美元,未命中 0.435 美元,输出 0.87 美元。此举
小米AI实验室开源OmniVoice,一款支持646种语言的零样本语音克隆TTS模型。仅需几秒参考音频即可克隆音色,并支持跨语言转换(如中文录音生成日语语音)。 架构上,OmniVoice采用极简设计
小米大模型团队负责人罗福莉在深度访谈中披露,MiMo-V2-Pro 模型基座总参数量达 1T,动用数千张 GPU 训练。 技术层面:Pro 版将全局注意力与滑动窗口注意力比例推至 7:1,控制长文本