美团龙猫团队开源了LongCat-Next模型。这是一个基于MoE架构、激活参数为3B的原生多模态模型,在单一自回归框架下统一了以下五种能力:
- 文本处理
- 视觉理解
- 图像生成
- 语音理解
- 语音合成
模型及配套分词器以MIT许可证开源,权重已上线HuggingFace。
核心设计:DiNA范式
LongCat-Next采用DiNA(离散原生自回归)范式,通过为每种模态设计配对的分词器和解码器,将视觉和音频信号转化为离散token,与文本共享同一嵌入空间,并用统一的next-token prediction完成所有任务。
视觉组件:dNaViT
视觉侧的关键组件dNaViT(离散原生分辨率Vision Transformer)将图像特征提取为“视觉词”,支持动态分词和解码,在28倍压缩比下仍保持较强的图像生成质量,尤其在文字渲染方面表现突出。
主要基准表现
在同等激活参数量级(A3B)的模型对比中,LongCat-Next表现如下:
- 视觉理解:MMMU-Pro 60.3,MathVista 83.1,MathVision 64.7(领先所有对比模型),DocVQA 94.2
- 图像生成:GenEval 84.44,LongText-EN 93.15
- 编程:SWE-Bench 43.0
- Agent工具调用:Tau2-Retail 73.68,Tau2-Telecom 62.06
在理解与生成统一模型的横向对比中,LongCat-Next的MMMU得分70.6领先于其他方案,其SWE-Bench和Tau2系列基准的表现也表明该多模态统一架构并未牺牲纯文本和Agent能力。