每日微信报
人物专访监管
制造芯片
6G 运营
大数据物联网
移动互联网量子
云计算互联网
报告卫星

阿里通义千问再放大招多模态大模型迭代加速改写AGI时间表

2025年8月20日 07:3721世纪经济报道

阿里通义千问更新，再为多模态大模型赛道添了一把火。

8月19日，通义团队推出Qwen-Image-Edit，基于20B参数的Qwen-Image，专注于语义和外观编辑，支持双语文本修改、风格迁移及物体旋转，进一步拓展了生成式AI在专业内容创作中的应用。

短短半年内，阿里连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型，而阿里之外，智谱、阶跃星辰等大模型厂商也在密集布局，从视觉理解到全模态交互，多模态大模型在2025年明显迭代加速。

业内普遍认为，当前大模型的发展已经从单一的语言模型迈向了多模态融合的新阶段，这是通向AGI的必经之路。

谷歌研究报告显示，预计至2025年，全球多模态AI市场规模将飙升至24亿美元，而到2037年底，这一数字更是预计将达到惊人的989亿美元。

商汤科技联合创始人、执行董事、首席科学家林达华在此前接受21世纪经济报道记者采访时表示，未来的多模态模型甚至能在纯语言任务上超越单一语言模型，而国内厂商也在加速布局，2025年下半年或将迎来多模态模型的全面普及。

国内厂商密集布局

2023年12月，谷歌原生多模态Gemini 1.0模型正式上线，一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。

人类的日常任务活动，天然涉及对文本、图像、视频、网页等多模态信息的处理。从生产力工具到生产力，关键就在于多模态信息的输入、处理与输出能力。在大模型越来越强调落地应用的当下，多模态能力和低成本、强智能等特征一样，成为了大模型的核心竞争点。

而大厂也早已开始了相关布局，阿里推出的Qwen2.5系列就在逐步强化多模态能力。

2025年，阿里开源升级版视觉理解模型Qwen2.5-VL，72B版本在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3.5；同期还发布了首个端到端全模态大模型Qwen2.5-Omni，支持文本、图像、音频、视频的实时交互，可部署于手机等终端智能硬件。

8月，阿里又开源全新的文生图模型Qwen-Image，当天即登上AI开源社区Hugging Face的模型榜单首位，成为全球热度最高的开源模型。

此次发布的Qwen-Image-Edit是基于20B的Qwen-Image模型进一步训练，将Qwen-Image的文本渲染能力延展至图像编辑领域，实现了对图片中文字的精准编辑。

此外，Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL（实现视觉语义控制）和VAE Encoder（实现视觉外观控制），从而兼具语义与外观的双重编辑能力。

业内评价称，Qwen-Image-Edit在中文图像编辑领域树立了新标杆，尤其适合需要高精度文本修改和创意设计的场景，可以进一步降低专业图像创作门槛。

积极布局多模态能力的厂商不只一家，近期模型迭代的速度也越来越快。

世界人工智能大会前夕，阶跃星辰发布了新一代基础大模型Step 3，原生支持多模态推理，具备视觉感知和复杂推理能力。阶跃星辰Step系列基座模型矩阵中，多模态模型的占比达7成。此外，阶跃星辰还连续开源语音、视频生成、图像编辑等多个多模态大模型。

同样是在人工智能大会上，商汤发布了日日新V6.5大模型，进行了模型架构改进和成本优化，多模态推理与交互性能大幅提升。商汤从日日新6.0开始，就没有语言模型单独的存在，全部都是多模态模型。

8月，智谱也宣布推出开源视觉推理模型GLM-4.5V，并同步在魔搭社区与Hugging Face开源，涵盖图像、视频、文档理解以及GUIAgent等常见任务。

8月11日至15日，昆仑万维(36.860, -0.28, -0.75%)（维权）则在一周内连续发布了六款多模态模型，覆盖了数字人(15.250, 0.17, 1.13%)生成、世界模拟、统一多模态理解等核心场景。

这些全方位的开源攻势明显旨在快速占领开发者心智，建立各自产品在多模态领域的全面影响力。在当下这个节点，多模态的竞争还不算太晚。

仍处于发展初期

如果想要构建通用人工智能（AGI）和强大的AI系统，多模态的能力必不可少。

“从智能的本质来说，需要对各种模态的信息进行跨模态的关联。”林达华向21世纪经济报道记者表示。

在这方面，中国科技公司速度很快。一个显著的变化是，中国企业在多模态领域的集体崛起已经改变了长期以来由OpenAI、Google等西方巨头主导的AI创新叙事，在视觉推理、视频生成等多个细分领域排在权威榜单的前列。

技术推进加速落地应用。2025年被业内人士普遍视为“AI应用商业化元年”，而多模态技术正是这一趋势的核心驱动力(10.170, 0.15, 1.50%)，数字人直播、医疗诊断、金融分析等等场景已经有多模态大模型应用其中。

但从技术的角度来看，多模态领域还有很大的发展空间，尤其是对比文本领域。

“当前文本领域已从GPT范式的1.0走到了强化学习范式下的2.0，部分研究者已开始探索下一代范式如自主学习。相比之下，多模态领域仍处于发展初期，诸多基础性问题尚未解决。”阶跃星辰创始人、CEO姜大昕向21世纪经济报道记者表示，“这些挑战不仅存在于国内研究，国际领先模型同样未能攻克。”

多模态技术面临的瓶颈，其复杂性远超自然语言处理。首先，在表征复杂度方面，文本作为离散符号系统，其表征空间通常仅为数万维度，这对计算机处理而言属于低维问题。而视觉数据以1024×1024分辨率的图像为例，其表征空间即达到百万维度的连续空间，两者在表征难度上存在本质差异。

其次，在语义闭环性方面，文本系统具有天然的语义自闭环特性，其语义表达与表征空间完全统一。相比之下，视觉数据作为自然存在的物理空间表征，其本身并不包含语义信息。要实现视觉与文本语义空间的对齐，必须建立跨模态的映射关系，而这一映射缺乏天然的标注数据支持。

“这些导致了多模态领域的发展还是面临非常大的挑战，还是需要几次像ChatGPT、强化学习范式这样的大技术变迁才能解决。”姜大昕向记者表示。

此外，虽然很多模型已经在具体场景中实现落地应用，但距离真正实现AGI还有较为漫长的路要走。

主流的多模态模型通过视觉编码器与语言模型的前后结合，但是后续的思考推理过程还是主要依赖纯语言的推理，因此，当前多模态模型对于图形和空间结构的推理能力还很薄弱。林达华向记者举例称，国际顶尖多模态模型，在面对诸如积木拼接等简单空间问题时，也无法准确判断积木的组成数量以及各部分之间的连接关系，而这些问题对于几岁的儿童来说却是轻而易举的。

“这表明当前多模态模型的思维方式主要依赖于逻辑推理，缺乏较强的空间感知能力。若这一问题得不到突破，未来将成为具身智能落地的重要障碍。”林达华向记者表示。

随着技术不断成熟和生态持续完善，多模态能力将成为AI系统的标配，而如何将这种能力转化为实际生产力和社会价值，将是产业界下一步需要重点探索的方向。

（作者：董静怡编辑：包芳鸣）

编辑：章芳

飞象网版权及免责声明:
1.本网刊载内容，凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有，未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载，请必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和飞象网来源。
2.凡注明“来源：XXXX”的作品，均转载自其它媒体，在于传播更多行业信息，并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题，请在相关作品刊发之日起30日内与本网联系，我们将第一时间予以处理。
本站联系电话为86-010-87765777，邮件后缀为cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。