通义实验室发布全模态模型Qwen3.5-Omni,支持文本、图像、音频及音视频输入,并能生成带时间戳的细粒度音视频描述。

核心能力

  • 性能表现:官方称Qwen3.5-Omni-Plus在音频与音视频分析、推理、对话等任务上取得215项SOTA,相关能力超越Gemini-3.1-Pro。
  • Vibe Coding:模型未专门训练,即可根据音视频指令直接生成可运行代码,此为自然涌现的核心能力。
  • 技术规格:支持256K上下文、113种语言识别,可处理长达10小时音频或1小时视频,原生集成WebSearch与复杂Function Call。
  • 架构与版本:延续Thinker-Talker分工架构,升级为Hybrid-Attention MoE。已通过阿里云百炼提供Plus、Flash、Light三种尺寸及实时版本。

🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化