通信人家园

标题: 英伟达竞品AI芯片来了？AMD三箭齐发，全线围攻AI服务器市场 [查看完整版帖子] [打印本页]

时间: 2024-10-11 17:04

作者: tayun 标题: 英伟达竞品AI芯片来了？AMD三箭齐发，全线围攻AI服务器市场

美国时间10月10日，AMD在旧金山召开了Advancing AI发布会。这是老对手英伟达2024 AI Summit 结束后的第三天。

与英伟达大会的不同之处在于，英伟达专注于软件方面的更新，而AMD主打“硬”牌。

这一次，他们带来了三款核心硬件产品：新版Instinct MI325X 、第五代EPYC 服务器和最新的第三代 DPU Pensando系列。

一天之内，服务器GPU、CPU、DPU三箭齐发。AMD董事会主席及首席执行官苏姿丰似乎决心重现她在AMD的前十年里，以EPYC服务器为基石，带领AMD反超Intel的奇迹。

在开场词中，苏姿丰表示预计到2028年，AI加速器市场规模将达到5000亿美元。

这一次，我们认为她的目标更为宏大：通过打通服务器的各个节点，瞄准规模数千亿美元的AI服务器市场，成为领头羊。

苏姿丰还表示：对于AMD来讲，AI平台意味着四件核心事项：作为训练和推理的最强计算引擎、开放的软件解决方案、建立深度共同创新的AI生态系统以及在集群水平上的系统设计。

本次发布会的三支箭正落在集群水平上的系统设计这一靶心。

野心已有，但最终还是要看三支箭是否足够“锋利”，能刺破英伟达构筑的AI服务器铁桶阵。

1 第一支箭：新一代EPYC服务器发布，CPU也要助力AI
苏姿丰执掌AMD，十年磨两剑：一是Ryzen芯片，另一个就是EPYC CPU服务器。

从2018年开始，EPYC服务器从市占率接近0%，经过四代升级达到了2024年H1的34%。生生从英特尔手里夺走了CPU服务器市场的1/3份额。这也是苏姿丰最得意的一场仗。

为了形成一体化的AI服务器阵列，今年，EPYC迎来了它的第五代升级——EPYC 9005系列。

AMD 第五代 EPYC 处理器（代号"Turin"）采用了台积电 3/4nm 制程和 Zen 5 架构，最高配置拥有16个 Zen5的 CCD核心，内含 192 核心和 384 线程。时钟频率可达 5GHz。这款处理器支持 AVX512 指令集，提供完整的 512 位数据路径，并实现了 17% 的 IPC 性能提升。它使用 SP5 平台，兼容前代"Genoa"处理器。内存方面，它引入了DDR5支持，带宽提升至6400 MT/s；I/O能力上，它支持PCIe Gen5和更多的PCIe通道；安全性方面增加了硬件级别的根信任和可信I/O功能。

Turin处理器的性能领先相当明显，相比于上一代英特尔Xeon服务器，Turin在SPEC CPU测试中性能提升2.7倍，企业性能最高提升4.0倍，HPC(高性能计算)性能最高提升3.9倍。在不同的工作中虽然表现不一，但整体相较上一代EPYC服务器，Turin的提升也很大。

特别值得注意的是Turin在AI方面的能力提升和对GPU节点控制的优化：它基于CPU的AI性能最高提升3.8倍，作为GPU主机节点时性能最高提升1.2倍。

对于这些提升，AMD做了一个形象的展示。如果你用Turin服务器替代上一代Xeon服务器的话，131个Turin就足够达成1000个Xeon服务器的效果。

AMD还对Turin的AI适用性加强做了更深入的阐述。因为在AI时代，越来越少的人会把服务器专用于一般用途，多少都得和AI结合上，而在这种情况下，对AI有更好支持的Turin就是最好的选择。

AMD也非常在意Turin作为GPU主机节点带来的GPU算力提升。AMD优化了CPU在AI工作流程中的关键动作，包括数据预处理、内存复制、内核启动和任务协调等。这些优化使得CPU在处理GPU协调任务时更高效，比前代产品快28%。

AMD和Xeon 8592做了一下对比，Turin让MI300X的推理性能提升了8%，训练性能提升了20%。

针对英伟达H100，Turin更是使GPU集群的推理性能提升了高达20%，训练提升了15%。比自家的MI300X都强。

第五代EPYC的表现和侧重，一方面显示了AI战略在AMD当下战略中的重要性。另一方面也是对英特尔近两代Xeon服务器都大力强调AI能力的回应——就算上了AI，AMD的CPU服务器还是遥遥领先。

2 第二支箭：MI325X登场，下一代GPU剑指B200
发布会上，苏姿丰放出的第二支箭是MI300系列的第二代产品MI325X。它曾在2024 ComputerX上被简短介绍过，但其技术细节从未被公布。作为目前最有望打破英伟达垄断的GPU加速器产品，MI300系列的下一代产品备受关注。

此刻，答案终于揭晓：MI325X性能上超越了H200。

MI325X加速器采用了 AMD CDNA 3 GPU 架构，配备 256GB 下一代 HBM3E 高带宽内存。内置 1530 亿个晶体管。它提供了 6TB/s 的内存带宽，在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。

与英伟达上一代的旗舰GPU 加速器H200相比，MI325X的内存容量更大（256Gvs141G），内存带宽也更高（6TB/s vs 4.8TB/s）。在算力方面，虽然英伟达官方宣称H200的FP16 算力可达1.9 PF，但经semianalysis实测，其实际算力约为1 PF，与H100持平，比MI325X低了30%。

因此AMD MI325X在推理方面的表现平均超越H200 30%，与其算力比提升相符。保持了上一代的领先优势。

由MI325X核心集成的GPU平台包含 8 个 MI325X。该平台总共提供 2TB HBM3E 高带宽内存，FP8 精度下的理论峰值性能达到 20.8 PF，FP16 精度下达到 10.4 PF。系统配备 AMD Infinity Fabric 互连技术，带宽高达 896 GB/s，总内存带宽达到了 48 TB/s。

相比于H200的集成平台H200 HGX，MI325X平台提供1.8倍的内存量，1.3倍的内存带宽和1.3倍的算力水平。

在推理方面能相较H200 HGX提升至多1.4倍的表现水平。

AMD版GPU软件系统ROCm在过去一年内和主流AI开发平台的适配性一直在磨合期，这导致其训练效果有待提升。但这一年来AMD一方面加强升级ROCm，一方面与AI开发平台深度合作，总算是让它有了一倍左右的提升。

这一提升的结果是，针对Meta Llama-2这种主流模型，MI325X的单GPU训练效率终于超越了H200。而在集群中，其训练效率仍和H200 HGX相当。

MI325X预计将于 2024 年第四季度开始出货，与H200的大规模交付相差仅一个季度。鉴于目前英伟达遇到了B200和B100的封装瓶颈，规模发货被延迟，交付给OpenAI的也仅仅是工程样机。如果MI325X的发货规模能快速爬升，那理论上的代差就会被实际的出货情况抹平，MI325X在市场上的实际对手就是H200，而它还比H200性能稍高。

现在就看AMD能否抓住这个窗口期，保证供应链，趁机扩大市场了。

除了MI325X外，AMD还详细介绍了更下一代MI300系列的GPU加速器MI350系列。

它采用了 AMD 的 CDNA 4 架构，使用先进的 3nm 制程工艺，配备高达 288GB 的 HBM3E 高带宽内存。MI350 系列的一个重要创新是新增了 FP4 和 FP6 数据类型支持，这可能会在保持计算精度的同时进一步提高 AI 训练和推理性能。

据AMD表示，MI355X的在FP16数据格式下的算力可达到2.3PF，比MI325X提升1.8倍，与B200的算力持平。而在FP6和FP4格式下，其算力可达9.2PF，比B200在FP6格式下算力提升近一倍，而与其在FP4格式下算力持平。

因此MI355X可以被视为AMD真正剑指B200的GPU芯片。

而MI355X的集成平台则配备了 2.3TB HBM3E 高带宽内存，内存带宽高达 64 TB/s。在计算性能方面，MI355X 在 FP16 精度下可达 18.5 PF，FP8 精度下达到 37 PF。在新增的 FP6 和 FP4 数据类型下，它能达到 74 PF 的理论峰值性能。

不过这一产品需要等到2025年下半年才能发售。

AMD还在发布会上公布了其路线图，除了以上的产品外，2026年AMD预计会发售基于新架构的MI400系列GPU芯片。

除了硬件，AMD也提了一下自己在软件栈上的进展。近一年来，AMD打通了所有主要AI开发平台。获取了PyTorch的零日更新（可以在软件升级当天使用其新功能）支持及Triton的AMD 硬件兼容。

在模型层面，AMD加强了与Huggingface和Meta的合作，对于超过100万种主流模型都能做到开箱即用。Meta的Llama模型还能做到零日支持（可以在模型升级当天使用其新功能）。

在这一系列合作的加持下，ROCm 的最新版本6.2，相较于旧版在推理和训练上都有了超过2倍的提升。

在2024年第二季度的财报中，MI300在单季度内就实现了超过10亿美元的销售额，这一成绩远超市场预期。虽然服务器业务综合销售额仅为英伟达同期的13%。但就目前的形势来看，MI325X很有可能扩大MI300带来的市场占有率。

至于价格，AMD表示从性价比上讲，MI325X将相对竞争对手保持优势。

3 第三支箭：用新DPU解决AI数据传输瓶颈
对于大多数公司来讲，数据传输可能才是他们模型训练中最大的拦路虎。

想要构建一个好的数据服务器集群，除了算力扎实以外，核心任务是实现高效的数据传输，确保能够快速处理和分发海量的训练数据，从而最大化GPU利用率。

与此同时，支持大规模GPU并行计算也成为了一项关键能力，服务器需要能够协调大量GPU的同时运作，并在扩展过程中保持近乎线性的性能提升。

很多基础模型公司甚至将它作为AI工程的核心。Meta在训练Llama 3.1时就专门搭建了一个相当复杂的集群，力图增加并联GPU数量和数据效率，并选择了RoCE v2传输协议解决网络问题。经过多次分路和调整数据包的大小实验，Meta的工程团队才成功达成了一个相对高效的数据传输水平和稳定性。

（Meta的相关论文）

但这种工程能力并非所有开发模型的公司都有，数据传输往往会成为计算集群的核心卡点，使得GPU的算力无法得到满载发挥。

AMD这次推出的第三代可编程 P4引擎就旨在解决这一问题。它的传输速度可以达到400GB/s，与英伟达最新的DPU BlueField-3持平。而且它支持120M每秒的可编程数据包，和5M每秒的并发服务速度。

这一芯片的核心特性就是在处理并联GPU的后端网络优化，它能针对高负载数据进行负载均衡和拥塞管理，可以避免同一数据通路上产生数据包阻塞，还能在丢包时仅重发丢失的包，而非一口气把所有数据重发一遍；它还支持快速故障恢复，可以绕过出现错误的GPU所在的数据通路，避免整个集群直接瘫痪，并试图自动修复该处的数据包故障。

AMD为前端网络提供的解决方案是Pensando Salina 400 DPU，它采用 400G PCIe Gen 5 接口，配备 232 P4 多服务MPU，双通道 DDR5 内存（带宽高达 102GB/s，最大容量 128GB），以及 16 个 N1 ARM 核心。该产品支持软件定义网络、有状态防火墙、加密、负载均衡、网络地址转换和存储卸载等功能。其核心数量与BlueField-3持平，但内存和带宽都有提升（BlueField-3仅有32G DDR5内存）。

简单来说，这一DPU从硬件基础上比英伟达的同类产品BlueField-3拥有更多的吞吐内存，在网络调节中也更自由。

而后端网络的网卡则为Pensando Pollara 400，这是业界首款支持 Ultra Ethernet Consortium 标准的 AI 网络接口卡（NIC）。该产品具有可编程硬件管道，性能提升最高达 6 倍，支持 400Gbps 的网络速度。它采用开放生态系统设计，支持 UEC Ready RDMA 技术，可缩短作业完成时间，并提供高可用性。Pollara 400 的主要特性包括可编程 RDMA 传输、可编程拥塞控制和通信库加速。

因此，通过AMD的DPU产品，其对于AI服务器网络的利用率可以达到95%，而一般未优化数据网络仅能做到不到50%。

这些提升背后的秘密武器是UEC（超级以太网联盟）协议，据AMD宣称，其相比于Meta训练时使用的传统的RoCE v2协议，服务器中信息传输速度能提高 6 倍，集群间信息传输速度提高了5倍。而且之前的智能分路等多种功能也都是内嵌于UEC协议之中的。

目前AMD的新款DPU是唯一支持UEC协议的数据网络传输产品。英伟达的BlueField-3目前仅支持EoCE v2协议，而且它想要转换协议并非易事，除了需要面对AMD的专利瓶颈外，硬件兼容性也需要一个较长的过程才能完成。

虽然AMD在2022年就收购了Pansando公司，并推出了两代DPU产品。但它都没能打破英伟达由BlueField系列构建的DPU霸权。毕竟据英伟达官方介绍，搭配BlueField，英伟达的GPU集群表现可以提升1.7倍。

但如果UEC被实际证明确实高效，AMD就至少成功抢占了在DPU上的先发优势。

4 结语
在苏姿丰的带领下，AMD花了十年时间重新回到了芯片的核心赛圈。

而下一个十年，也是AI蓬勃发展的黄金十年。苏姿丰瞄准这一方向冲刺，她在采访中曾说：“AI正在推动一场革命，并迅速重塑科技行业的方方面面，从数据中心到AI PC和边缘计算。”

在新的十年的开始之际，AMD通过这次发布会准备在AI领域进行全线布局，让服务器的三大支柱都ALL IN AI。

不过，AMD是否还能继续攻城略地，成功逆袭，目前尚未可知。这次苏姿丰面对对手毕竟与当初不同。

来源：36kr

通信人家园 (https://www.txrjy.com/)