Photonwalker 光学小豆芽
GTC 2025大会刚刚落下帷幕,Nvidia一口气发布了三款硅光CPO交换机,其中Quantum-X Photonics交换机将于今年下半年出货,Spectrum-X Photonics交换机计划2026年下半年上市。虽然大会前期已经有很多小道消息,但是看到最终的产品与技术方案,小豆芽还是受到了很大的震撼。这篇笔记主要分析下一些技术细节,方便大家参考。如果有不准确的地方,希望大家不吝指出!
Start with why,为什么英伟达需要做CPO交换机?老黄现场做了一个简单的计算,对于三层网络架构,一个GPU需要配置6个光模块,每个传统光模块的功耗假设是30W,能效比为18.75pJ/bit, 对于含100万张GPU的智算中心,需要600万个光模块,光模块的总功耗将达到180MW。而采用CPO方案后,单个port的功耗降低到9W, 对应的能效比为5.63pJ/bit, 光引擎部分的功耗则降低到54MW,降低了30%,如下图所示。功耗降低的百分比,与此前Broadcom CPO公布的数据接近。而单颗B200芯片的功耗为1KW,节省下来的数据互联功耗可给12.6万张B200芯片供电。
CPO的出发点是将switch芯片与光引擎放置在同一个封装内,两者的距离拉近了,降低了链路损耗,不再需要DSP对高速信号进行补偿,从而减小功耗和成本。传统方案中电信号在链路上的损耗为22dB,而CPO方案中链路损耗只有4dB,信号完整性优化了18dB(63倍)。
Nvidia CPO交换机内部涉及到的技术细节,如下图所示,包括EIC、PIC、3D封装、光耦合、可插拔光连接器、光学模组、外置激光器模块、激光器芯片封装、interposer等。
技术细节上,Nvidia的硅光芯片采用了单波长的微环调制器(micro ring modulator, 简称MRM),信号速率为200Gbps,对应此前TSMC发布的63GHz MRM。每个光引擎含8个通道,总速率为1.6Tbps。每三个光引擎组合成一个模组,单颗switch芯片配置6个模组,如下图所示,总带宽为28.8Tbps(1.6*3*6)。单个小模组先放置在一个interposer上,再与switch芯片放置在同一个基板上。交换机中含有四颗switch芯片,总带宽115.2Tbps。交换机内部采用了液冷的方式。
对于单个switch,含有324个光学连接,其中36个为激光器端口,288个为光信号接口。简单计算下,通道数为28.8/0.2=144。单个激光器驱动四个通道,与当前MZM方案类似。对于整个CPO交换机来说,共需要144个激光器。Nvidia采用了外置可插拔的激光器模组,每个模组中含有8颗激光器芯片,面板上方有18个接口为激光器模组使用。Nvidia采用了MPO-12连接器的接口,面板上还有144个插口。每个MPO连接器中使用8路光纤,总的光纤数目为1152。CPO交换机背面插满激光器和光纤的形貌,如下图所示。如此多的光纤数目,光纤在CPO交换机内部的走线与管理,也是一个需要解决的问题。
对于微环方案,一个很自然的问题,为何Nvidia没有采用多波长方案?主要原因应该是高radix应用场景的需求。高radix的交换机,可以部署更大的网络,进而降低成本。后续Nvidia是否会推出类似Broadcom的多波长版本CPO交换机?这可能也取决于市场的需求。当前推出的三款CPO交换机均采用的是单波长方案,如下图所示。
对于微环调制器,此前主要是Ayar Labs、Ranovusd等创业公司在推动其商业落地,Intel也在持续做一些demo。以下是对于基于MRM的单个光引擎,Nvidia与这三家公司MRM方案的技术指标对比,能效上Nvidia还有进一步优化的空间。
电芯片方面,采用TSMC 6nm工艺,包含2.2亿个晶体管,EIC减薄后hybrid-bonding到PIC上,PIC去除掉硅衬底,并在芯片内加工出小的金属TDV(through dielectric via), 用于进行垂直方向的电信号互联, 如下图所示。由于bonding后的EIC-PIC厚度比较薄,在最上层还增加了一层比较厚的silicon。Silicon上可以加工微透镜,用于光学耦合。
关于光耦合方案,老黄的ppt里只展示了一张图片,并标注了"COUPE ulens with surface coupling"。图片中可以看到一个明显的棱镜的4度反射斜面和FA插座,棱镜将PIC中垂直出射的光偏转到左侧水平方向的FA中,基本上能与此前TSMC报道的方案对上,在光电芯片上加工出微透镜,并通过TMR将光偏转到光纤中。对于可插拔光连接器部分,图片中看不太清楚,似乎没有像博通那样做一个非常精巧的设计。
以下是Broadcom与Nvidia CPO交换机的对比,两者的主要区别是调制器的方案与是否采用多波长。Broadcom采用的是相对传统的MZM方案,其尺寸较大。由于采用了多波长方案,博通的光纤总数目远小于英伟达。比较有意思的是,博通最近发布了Bidi光模块的白皮书,针对AI互联的场景,将波长数目减小为2,使用1270和1310nm波长进行双向传输。小豆芽的这篇笔记(AI互联下的带宽扩展: 更多波长还是更多光纤?)曾讨论过是AI互联采取更多波长还是更多光纤,看起来大厂们纷纷选择了后者。激光器都是1拖4的方式,相同通道数的前提下,两家的激光器数目是一样的。Nvidia CPO交换机内部有四颗小的switch芯片,不知道这样设计的原因是为何,可能是出于CPO良率的考虑。两家都开发了可插拔光连接器,便于CPO的维护。能效上,Nvidia略优于Broadcom,降低了1.4pJ/bit。相信在Nvidia的进一步优化下,这个能效差异还可以进一步变大。
Nvidia官网给出了其CPO交换机的合作公司,如下图所示,都是行业内的龙头公司。其中Browave是一家台湾光器件公司,主要提供FAU;Coherent与Lumentum提供高功率激光器,Corning提供光缆,Fabrinet与富士康负责整个交换机的组装与生产,Senko主要负责光纤连接器, SPIL公司(日月光子公司)负责晶圆级的封测,TFC(天孚)作为唯一入选的大陆公司,负责光引擎模组的组装与生产,Sumitomo(住友)负责提供FAU组件。TSMC压轴,负责3D光引擎芯片与switch芯片的加工与先进封装。
Nvidia首先推出用于IB switch的CPO产品,应该也是出于商务考虑,没有一下子进入以太网交换机市场。Broadcom的CPO交换机商务推广上不是很顺利,涉及到的利益方比较多,阻力比较大。对于CPO交换机的可靠性与可维护性,一直存在质疑,而最近两年比较火热的LPO模块,也可以通过去除DSP的方式来降低功耗与成本,因此受到了各方的青睐。而对于Infiniband交换机市场,Nvidia是唯一的玩家,商业推广起来会更加方便。对于其明年将要发布的以太网CPO交换机,能否得到市场认可,还要让子弹飞一会。
微环方案虽然尺寸小、功耗低、带宽密度高,但由于微环对工艺和温度敏感,需要对共振长波长进行锁定追踪,工程难度较大。对于MRM调制器可否商业化,实现量产,产业界一直心存质疑。Nvidia给出了一个肯定的回答,而且上来就开大,直接把速度提高到单通道200Gbps,打消了大家的疑虑。硅光也由此进入了单通道200Gbps时代。
去年OFC, 小豆芽曾写过一篇笔记(OFC2024: CPO时代来临了吗?), 讨论CPO时代是否来临。时隔一年,Nvidia CPO交换机的推出给出了一个肯定的回答。对于CPO交换机和微环调制器,这两项技术都不是最新的idea, 但它们的组合带来的能效提升,降低了AI集群中在网络连接上的功耗与成本。这也是Nvidia大力推动该技术落地的初衷。Nvidia在2019年收购Mellanox以后,于2020年在开始规划微环调制器的研发,最初的架构如下图所示。如今slides的右半部分已经变成了产品,左半部分还在努力中。Nvidia招揽了很多该领域的优秀人才,尤其是许多来自Intel 的MRM研发工程师,包括Intel的fellow Liao Ling, 她从2007年便开始在Intel开始MRM的研发。
去年GTC大会上,老黄说"Use Cooper where you can, Use Optics if you must",引起了广泛的讨论。对于机柜内的GPU互联,Nvidia选择了性价比更高的铜缆方案,而对于更远距离的GPU互联,Nvidia选择了低能耗的光学方案。此前关于铜缆和光的争论,可以尘埃落定了。在可以预见的一段时间内,铜缆将继续坚守在较短距离的高速互连上(不同距离下的信号互联)。
最后借用下老黄在演讲中的自夸,Just a tenology Marvel ! CPO不仅仅是光电芯片设计,涉及到先进封装、激光器、光封装、结构设计、散热等多个技术难点,Nvidia利用其一流的供应链,整合了多方技术力量,最终实现了基于MRM的CPO交换机量产,开启了CPO时代!!!
|