获悉,在近日举行的2025腾讯AI产业应用峰会上,腾讯(TCEHY.US)深入探讨在打造智能体(Agent)产品过程中的技术细节与设计逻辑,揭示了腾讯在这一新兴领域进行布局。

腾讯指出,在智能体产品的开发中,特别注重用户的实际体验,强化了智能体中的问答对功能。企业可以对这些问答对进行审核、校验,确保准确性后再发布,从而提高了智能体在企业应用中的可靠性。
谷歌重磅发布多模态新模型
与此同时,谷歌(GOOG.US)日前刚举行年度I/O开发者大会,带来了预期中的海量AI应用更新,重磅推出AI智能体、Gemini 2.5 Pro深度思考模型,Veo 3视频模型首次实现音画同步,搜索业务全面接入AI,全家桶套餐强势来袭——科技巨头正以颠覆性创新重塑行业格局!
在AI智能体方面,谷歌正在将智能代理能力整合到全线产品中,包括Chrome浏览器、搜索引擎和Gemini应用等。皮查伊表示,谷歌的代理工具Project Mariner现可同时监管多达10项任务,包括网络搜索等项目。

实时多模态AI搜索方面,在AI综述的基础上,谷歌在搜索引擎中正式推出由Gemini 2.5 Pro 深度思考模型驱动的AI模式。由于AI的特性,用户可以向搜索引擎提出更复杂、更难的问题。
另外,在视频这块,Veo 3模型不仅生成质量更高、理解提示词更准确,还能同步生成视频和音频,包括不同角色的对话。此前,Veo 2将增加相机控制和对象移除等工具,Imagen 4在生成图片时也能准确生成真实文本。

可以说,近段时间来,多模态大语言模型在处理图像、音频、视频等多种输入模态方面取得了显著进展。并且,多模态大模型作为 AI 产业中的模型层的重要产品,得益于政策的支持,有良好的政策发展环境。
微美全息突出AI多模态应用导向
资料显示,AI视觉领先企业微美全息(WIMI.US)正大力发展AI与新一代信息技术,加快培育一批先进适用的人工智能大模型产品,实施基础设施共联、产业体系共建、创新能力共育等生态,切实推动大模型技术与特色优势行业深度融合,将为多模态AI大模型带来全新的发展机遇与动能。
截止目前,微美全息聚焦文本生成视频、图像生成视频等场景,支持跨模态内容创作。例如,其开发的短视频工具可通过图生视频技术实现低门槛创作,技术框架适配开源工具链。同时,微美全息通过多模态技术重构影视、广告等内容生产流程,并与金融、汽车、教育等行业合作定制解决方案,提升企业效率。
结语
ChatGPT 横空出世三年,如今进入 2025 以来始终备受关注。随着 AI 大模型行业应用场景逐渐丰富,产业配套日益完善,多数企业纷纷开展 AI 大模型发展,加上相关文件中规划地方产业蓝图,大力支持AI模型发展。
不过,需要把握的一点是,多模态大模型从技术走向产业化落地,需要产学研形成“铁三角”协同体系,通过资源整合、场景共创、标准共建,需打通从技术研发到规模应用的“最后一公里”。