
8月12日晚间消息,在2025金融AI推理应用落地与发展论坛上,中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。
周跃峰在论坛上强调:“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来”。为保障流畅的推理体验,企业需持续加大算力投入,但如何在推理效率与成本之间找到最佳平衡点,成为了全行业亟待解决的重要课题。
为此,华为推出UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。
在与中国银联的联合创新技术试点中,UCM的技术价值得到验证。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。
论坛现场,华为正式公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。