美团开源LongCat-Next：3B参数统一视觉理解生成与语音

美团龙猫团队开源了LongCat-Next模型。这是一个基于MoE架构、激活参数为3B的原生多模态模型，在单一自回归框架下统一了以下五种能力：

模型及配套分词器以MIT许可证开源，权重已上线HuggingFace。

核心设计：DiNA范式
LongCat-Next采用DiNA（离散原生自回归）范式，通过为每种模态设计配对的分词器和解码器，将视觉和音频信号转化为离散token，与文本共享同一嵌入空间，并用统一的next-token prediction完成所有任务。

视觉组件：dNaViT
视觉侧的关键组件dNaViT（离散原生分辨率Vision Transformer）将图像特征提取为“视觉词”，支持动态分词和解码，在28倍压缩比下仍保持较强的图像生成质量，尤其在文字渲染方面表现突出。

主要基准表现
在同等激活参数量级（A3B）的模型对比中，LongCat-Next表现如下：

在理解与生成统一模型的横向对比中，LongCat-Next的MMMU得分70.6领先于其他方案，其SWE-Bench和Tau2系列基准的表现也表明该多模态统一架构并未牺牲纯文本和Agent能力。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

青岚AI简报（TPV交易系统）