每日微信报
人物专访监管
制造芯片
6G 运营
大数据物联网
移动互联网量子
云计算互联网
报告卫星

阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro

2026年3月31日 09:27新浪科技

3月31日上午消息，阿里发布千问新一代全模态大模型Qwen3.5-Omni，宣布在音视频理解、识别、交互等215项任务中取得SOTA（性能最佳），超越Gemini-3.1 Pro，成为目前全球最强的全模态大模型之一。

据悉，该模型拥有极强的音视频理解与实时交互能力，能够对音视频内容生成详细且可控的结构化描述，可识别语言和方言数量多达113种，还涌现出了音视频Vibe Coding能力，用户对着镜头阐述需求，就能让模型自主生成App、网页、游戏等复杂产品代码。目前，阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API，可广泛应用于短视频/直播平台、游戏、自媒体等行业。

Qwen3.5-Omni采用混合注意力MoE架构，在海量文本、视觉以及超过1亿小时的音视频数据上进行了原生多模态预训练，可实现图片、视频、语音、文字等全模态内容的输入与输出。新模型在音视频理解、跨模态推理、Agent方面实现了性能飞跃，在音视频理解、语音识别、多语种翻译、对话等215项第三方性能测试任务中取得SOTA。

例如，在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中，Qwen3.5-Omni得分领先Gemini-3.1 Pro；在检测嘈杂环境抗干扰能力的WenetSpeech测试中，Qwen3.5-Omni错误率远低于Gemini，识别准确率极高；在考察多语言语音生成质量的Multi-Lingual （30lang）测试中，Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。

此外，与纯文本或图片驱动的Vibe Coding不同，千问还可以实现音视频编程：打开摄像头，用户对着草图口述需求，哪怕是包括复杂产品逻辑的描述，模型也能直接生成带有复杂UI的产品原型界面，真正实现“动动嘴即可编程”。这一能力并非刻意设计，而是模型在原生多模态能力持续扩展过程中自然涌现出的结果。

目前，普通用户也可前往Qwen Chat免费体验，开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型，每百万Tokens输入不到0.8元，比Gemini-3.1 Pro的1/10还低。

编辑：路金娣

飞象网版权及免责声明:
1.本网刊载内容，凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有，未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载，请必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和飞象网来源。
2.凡注明“来源：XXXX”的作品，均转载自其它媒体，在于传播更多行业信息，并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题，请在相关作品刊发之日起30日内与本网联系，我们将第一时间予以处理。
本站联系电话为86-010-87765777，邮件后缀为cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。