AI音乐公司ACE Studio与阶跃星辰联合发布了开源音乐生成模型ACE-Step 1.5 XL。官方评测显示,其在歌曲完整性、音乐性、自然度等9项指标上全面超越Suno v5和Udio v1.5等闭源产品,并以商用许可开源。
核心架构:双模块独立工作
- 语言模型(LM)规划器:用户输入简单描述(如“一首忧伤的民谣”),模型通过思维链推理自动生成包含曲风、结构、歌词的完整歌曲蓝图。
- 扩散Transformer(DiT)解码器:接收蓝图后生成最终音频波形。两个模块参数量独立,可自由搭配组合。
模型版本与性能
此次发布的XL系列采用40亿参数的DiT解码器,提供三个变体:
- Base版:50步推理,质量高,支持音频提取、续写等全部任务。
- SFT版:50步推理,经微调后生成质量最高。
- Turbo版:蒸馏压缩至8步推理,在A100上不到2秒、RTX 3090上不到10秒即可生成一首完整歌曲。
LM规划器提供6亿、17亿和40亿参数三种规模,可与DiT解码器自由组合。最小配置仅需4GB显存(搭配量化和CPU卸载),20GB以上显存可流畅运行完整版。
主要功能与数据
- 支持生成短循环到10分钟的完整作品,涵盖50余种语言的歌词对齐。
- 具备翻唱生成、局部重绘、人声转伴奏等编辑能力。
- 支持使用少量歌曲训练LoRA适配器,以捕捉个人风格。
- 训练数据由授权音乐、免版税作品和MIDI合成数据组成,生成内容可直接商用。