我们知道 CPU 遵循传统的存储-控制-运算的冯·诺依曼架构,核心是存储程序/数据,串行顺序执行。CPU 的架构需要大量的空间去放置高速缓存单元和控制单元,现代 CPU 在分支预测和乱序执行上的要求更高,不断新增的长指令集更进一步强化了复杂的逻辑控制单元,相比之下 CPU 计算单元只占据了很小的一部分。大规模并行计算方面,CPU 天然的效率很低,更适合处理复杂的逻辑控制和通用计算。
CPU、GPU、NPU 架构区别如下图,CPU 最为均衡,可以处理多种类型的任务,各种组件比例适中;GPU 则减少了控制逻辑的存在但大量增加了 ALU 计算单元,提供给我们以高计算并行度;而 NPU 则是拥有大量 AI Core,这可以让我们高效完成针对性的 AI 计算任务。
GPU 相比 CPU 有更多的并行计算核心
NPU 相比 CPU 和 GPU,有大量专门进行大矩阵乘法和卷积运算的 AICore
ASIC 思想下的 AI 芯片作为一种专用处理器,通过在硬件层面优化深度学习算法所需的大矩阵乘法、张量运算、卷积运算等关键运算,可以显著加速 AI 应用的执行速度,降低功耗。与在通用 CPU 上用软件模拟这些运算相比,AI 芯片能带来数量级的性能提升。因此,AI 芯片已成为如今大模型训练和推理的关键载体。
在推理阶段,AI 芯片需要在功耗、成本和实时性等方面进行优化,以满足不同应用场景的需求。云端推理通常对性能和吞吐量要求较高,因此需要使用高性能的AI 芯片,边缘和端侧推理对功耗和成本更加敏感,因此需要使用低功耗、低成本的 AI 芯片,如专门为桌面、移动和嵌入式设备设计的 NPU等。
英特尔最新的酷睿 Ultra 旗舰处理器,基于 x86 平台的异构AI计算,集成的 GPU 和 NPU 性能越来越高。高通和 MediaTek 最新的高端移动处理器,针对不同任务的 AI 计算加速,整个 SoC 微架构上,NPU 的重要性也越来越突出。
相较于训练芯片在云端成为某种“基础设施”,端侧的推理芯片则站在了 AI 应用的前沿。将训练好的模型为现实世界提供智能服务,特别是目前已经成为“个人信息Hub”的手机终端,某种意义上已经成为了普通人新生长出来的器官,当大模型与手机融合,不依赖网络和云端算力就能让手机具备大模型能力,AI Phone 的商业想象力巨大。
高通 VS MediaTek ,最新的移动旗舰芯片
大模型推理正在向手机、PC、智能汽车等终端渗透。但是,在终端部署 AI 大模型时,仍面临着多模态模型压缩、存储与计算瓶颈、数据传输带宽限制、模型 always-on 设备功耗和发热、软硬件联合调优等多重挑战。
以高通最新的骁龙旗舰芯片为例,“为了实现更快的 AI 推理性能,高通提升了所有(AI计算)加速器内核的吞吐量,还为标量和向量加速器增加了更多内核,满足增长的生成式AI运算需求,尤其是面向大语言模型(LLM)和大视觉模型(LVM)用例,以在处理过程中支持更长的上下文。至于大众关心的能耗,高通这次将每瓦特性能提高 45%。终端更加高效,不需要大量消耗电池续航。”