移动赛场上的新“10号”，AI引擎将如何策动智能新体验 -- 飞象网

飞象网讯（魏德龄/文）“10号”这一足球场上代表了球队核心的号码，随着战术理念的变化，其所属球员的定义也正在发生改变，从原来的传统组织核心，转变为倾向于全能中场的设定，要求球员在拥有聪明的头脑之上，既能在关键时刻爆发能量、组织发起攻势，还要有更高体能的耐力要求，与球队达到共同施压的效果。

随着生成式AI在移动终端上的初露端倪，对于如何策动智能新体验，也在硬件能力上有了全新要求，就移动赛场上的新“10号”而言，同样少不了如同全能型中场一样的上述三样关键能力，并能够实现有效协同。

生成式AI时代的全能中场

聪明的头脑确保了瞬间反应能力，如在球场上敏锐地发现空档，或快速进行拦截。在智能终端上则代表了由用户发出的按需型用例，并立即进行响应。例如图片或视频的拍摄、在PC上生成会议摘要，或在开车时用语音查询最近的加油站。

爆发能量组织发起攻势则需要在一段时间内进行高强度的带动串联。对于智能终端而言，则对应了运行时间较长的持续型用例，如语音识别、游戏和视频的超级分辨率、视频通话的音视频处理及实时翻译。

持续的跑动让新10号能够时刻能够对整体阵型与战术作出贡献，好比是智能终端上的泛在型用例，包括始终开启的预测性AI助手、基于情景感知的AI个性化和高级文本自动填充。

从上述三项能力要求中不难发现，如同对于全能型中场的要求，终端上的移动平台其实存在着如在“性能爆发与持久续航”之间的矛盾点，这就需要利用内部不同的处理器来进行不同的任务，CPU擅长于顺序控制和即时性，GPU适合并行数据流处理，NPU擅长标量、向量和张量数学运算，可用于核心AI工作负载。

也就是说，通过使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，赋能全新增强的生成式AI体验。让跑不累的新“10号”，还能有细腻的脚法与关键时刻的爆发力。

于是，不妨就来具体看看这名新“10号”的具体各项能力如何，以及它将如何进行灵活运用，来实现在AI上的全面表现。

高效组织的AI引擎

从上文中不难发现，移动平台中的众多单元其实都参与了AI用例的运算工作。在高通技术公司刚刚发布的最新白皮书《通过NPU和异构计算开启终端侧生成式AI》中将高通AI引擎定义为包括Hexagon NPU、Adreno GPU、高通Kryo或Oryon CPU、高通传感器中枢和内存子系统，能够支持按需型用例、持续型用例和泛在型用例，为生成式AI提供业界领先的异构计算解决方案。

对于新“10号”，“球商”高不高无疑决定了上限将能够达到何种水平。其中Hexagon NPU在近年来可谓迎来了巨大升级，在2020年高通Hexagon NPU实现了标量、向量和张量加速器的架构融合，打造了专用大共享内存，为未来的进一步升级奠定了基础。2022年的第二代骁龙8中引入了微切片推理能力，可将神经网络分割成多个能够独立执行的微切片，可最大化利用NPU中的加速器并降低功耗。2023年发布的第三代骁龙8，为持续AI推理带来了98%的性能提升和40%能效提升，Hexagon NPU成为了面向终端侧生成式AI大模型推理的领先处理器。

Adreno GPU可用于以高精度格式进行AI并行处理，支持32位浮点、16位浮点和8位正数运算。在第三代骁龙8中，基于Adreno GPU，Llama 2-7B每秒可生成超过13个tokens。

高通Oryon CPU在骁龙X Elite计算平台上可谓实现了一鸣惊人，在功耗仅为竞品三分之一的情况下，可提供高达竞品两倍的CPU性能，非常擅长时延敏感型的低计算量AI工作负载。

同时，在整体架构上，高通进一步提升了AI引擎的运行能力。例如作为大语言模型token生成瓶颈的内存带宽，一方面移动平台上的共享内存机制带来了天生的优势，另一方面高通还为第三代骁龙8配置了最快的内存之一：4.8GHz LPDDR5x，支持77GB/s带宽。

异构计算也带来在运行生成式AI工作负载时的最佳解决方案，可充分利用所有处理器的能力，包括跨处理器和处理器内核扩展生成式AI处理，以及将生成式AI模型和用例映射至一个或多个处理器及内核。

高通技术公司产品管理高级副总裁Ziad Asghar就举例表示：当应用使用小模型时，CPU通常是正确的选择。而当模型变大时，GPU和NPU往往更合适。电池续航和能效对于持续和泛在型用例至关重要，因此NPU是最佳选择。

当新“10号”AI引擎具备了全面的能力，移动赛场的新体验升级也将开始策动，下面不妨来看看当下这个最为经典的本地AI案例背后，新10号带来了什么样的临场表现。

策动智能新体验

AI个人助手恰好是一个充分体现AI引擎如何通过不同的处理器来完成工作负载的案例。

当用户与AI助手进行交谈时，通过高通传感器中枢上运行的OpenAI自动语音识别生成式AI模型Whisper，可将语音转化为文本。随即在通过NPU上运行的大语言模型Llama 2-7B生成文本回复。CPU再通过运行开源TTS模型将文本转化为语音。整个过程中，NPU还负责实现虚拟化身与语音的输出同步，再借助音频创建融合变形动画，为嘴形和面部表情带来合适的动画效果。GPU还会在最后完成虚拟化身的渲染。

综上不难发现，整个过程尽可能的实现了本地完成。只有当遇到如机票预定这类联网问题时，才会通过云端的插件来完成操作。最大限度的确保了用户隐私安全，同时也大大减轻了云端的功耗压力。

大语言模型落地至端侧的案例背后，其实也预言了生成式AI对于电子终端在交互方式上的变革。当用户只需通过简单的对话就能获得想要的结果，调用开启相关功能，甚至是直接完成机票、商品的消费时，就意味着电子终端将在交互上打破如今在不同应用间的隔阂，用户不用反复跳转，就能在单一入口下达成所需。就像如今很多人开始通过具备联网能力的生成式AI，来替代传统搜索引擎。

策动这场智能新一轮体验变革的核心，无疑正是AI引擎。移动赛场上正在迎来的战术与理念变化，同样也需要对于核心的重新定义，已经展现出全能属性的新“10号”正在跃跃欲试。