腾讯开拓智能体大模型落地路径,谷歌/微美全息引领AI协同多模态应用开启新篇 -- 飞象网

获悉，在近日举行的2025腾讯AI产业应用峰会上，腾讯（TCEHY.US）深入探讨在打造智能体（Agent）产品过程中的技术细节与设计逻辑，揭示了腾讯在这一新兴领域进行布局。

腾讯指出，在智能体产品的开发中，特别注重用户的实际体验，强化了智能体中的问答对功能。企业可以对这些问答对进行审核、校验，确保准确性后再发布，从而提高了智能体在企业应用中的可靠性。

谷歌重磅发布多模态新模型

与此同时，谷歌（GOOG.US）日前刚举行年度I/O开发者大会，带来了预期中的海量AI应用更新，重磅推出AI智能体、Gemini 2.5 Pro深度思考模型，Veo 3视频模型首次实现音画同步，搜索业务全面接入AI，全家桶套餐强势来袭——科技巨头正以颠覆性创新重塑行业格局！

在AI智能体方面，谷歌正在将智能代理能力整合到全线产品中，包括Chrome浏览器、搜索引擎和Gemini应用等。皮查伊表示，谷歌的代理工具Project Mariner现可同时监管多达10项任务，包括网络搜索等项目。

实时多模态AI搜索方面，在AI综述的基础上，谷歌在搜索引擎中正式推出由Gemini 2.5 Pro 深度思考模型驱动的AI模式。由于AI的特性，用户可以向搜索引擎提出更复杂、更难的问题。

另外，在视频这块，Veo 3模型不仅生成质量更高、理解提示词更准确，还能同步生成视频和音频，包括不同角色的对话。此前，Veo 2将增加相机控制和对象移除等工具，Imagen 4在生成图片时也能准确生成真实文本。

可以说，近段时间来，多模态大语言模型在处理图像、音频、视频等多种输入模态方面取得了显著进展。并且，多模态大模型作为 AI 产业中的模型层的重要产品，得益于政策的支持，有良好的政策发展环境。

微美全息突出AI多模态应用导向

资料显示，AI视觉领先企业微美全息（WIMI.US）正大力发展AI与新一代信息技术，加快培育一批先进适用的人工智能大模型产品，实施基础设施共联、产业体系共建、创新能力共育等生态，切实推动大模型技术与特色优势行业深度融合，将为多模态AI大模型带来全新的发展机遇与动能。

截止目前，微美全息聚焦文本生成视频、图像生成视频等场景，支持跨模态内容创作。例如，其开发的短视频工具可通过图生视频技术实现低门槛创作，技术框架适配开源工具链。同时，微美全息通过多模态技术重构影视、广告等内容生产流程，并与金融、汽车、教育等行业合作定制解决方案，提升企业效率。

结语

ChatGPT 横空出世三年，如今进入 2025 以来始终备受关注。随着 AI 大模型行业应用场景逐渐丰富，产业配套日益完善，多数企业纷纷开展 AI 大模型发展，加上相关文件中规划地方产业蓝图，大力支持AI模型发展。

不过，需要把握的一点是，多模态大模型从技术走向产业化落地，需要产学研形成“铁三角”协同体系，通过资源整合、场景共创、标准共建，需打通从技术研发到规模应用的“最后一公里”。