通义实验室发布全模态模型Qwen3.5-Omni,支持文本、图像、音频及音视频输入,并能生成带时间戳的细粒度音视频描述。
核心能力
- 性能表现:官方称Qwen3.5-Omni-Plus在音频与音视频分析、推理、对话等任务上取得215项SOTA,相关能力超越Gemini-3.1-Pro。
- Vibe Coding:模型未专门训练,即可根据音视频指令直接生成可运行代码,此为自然涌现的核心能力。
- 技术规格:支持256K上下文、113种语言识别,可处理长达10小时音频或1小时视频,原生集成WebSearch与复杂Function Call。
- 架构与版本:延续Thinker-Talker分工架构,升级为Hybrid-Attention MoE。已通过阿里云百炼提供Plus、Flash、Light三种尺寸及实时版本。