阿里千问于3月30日正式推出全模态大模型Qwen3.5-Omni。
核心版本
该系列包含 Plus、Flash、Light 三种尺寸的Instruct版本。
关键特性
- 多模态支持:原生支持文本、视觉、音频、视频的感知与生成。
- 超长上下文:支持256K长上下文处理。
- 强大输入能力:支持超过10小时的音频输入,以及超过400秒的720P(1FPS)音视频输入。
- 多语言增强:相比前代,语音识别支持113种语种和方言,语音生成支持36种。
技术基础
模型在海量文本、视觉及超1亿小时的音视频数据上进行原生多模态预训练。