AI视频公司Luma Labs发布了图像生成模型Uni-1,其技术路线与主流扩散模型(如Midjourney、Stable Diffusion)完全不同。
技术亮点
- 架构创新:采用自回归Transformer架构,在单一模型内同时完成推理和像素生成。
- 一体化流程:无需“先理解再绘制”的两段式流程,而是在生成过程中持续进行推理、分解指令、解析约束并规划构图。
基准测试表现
- RISEBench(推理能力):Uni-1总分0.51,超越谷歌Nano Banana 2(0.50)和OpenAI GPT Image 1.5(0.46)。
- 空间推理:得分0.58,领先Nano Banana 2的0.47。
- 逻辑推理:得分0.32,是GPT Image 1.5(0.15)的两倍以上。
- ODinW-13(目标检测):得分46.2 mAP,几乎追平谷歌Gemini 3 Pro(46.3)。
- 人类偏好(Elo评分):在总体质量、风格编辑和参考图生成三项排名第一。
定价与可用性
- 2K分辨率文本生图约0.09美元/张,低于部分竞品。
- 模型已在官网免费开放试用,API接入通过候补名单逐步开放。
背景信息
Luma Labs团队约150人,此前以视频生成工具Dream Machine知名。其CEO透露,基于Uni-1的创意平台已与多家知名品牌合作,能大幅压缩广告项目的成本与时间。