Photonwalker 光学小豆芽
接着上篇笔记对Nvidia CPO交换机的介绍,这篇笔记再梳理下Broadcom交换机2024年以来的动态,方便大家参考。
Broadcom从2021年开始布局CPO,如下图所示,经过4年多的研发,在2024年实现了第二代51.2T CPO交换机Baily的demo, 并相继与腾讯、字节等多家公司展开合作,在其数据中心内部署CPO交换机。
针对AI智算中心互联的需求,Broadcom将其CPO的应用领域分为两个方向,分别针对scale-out网络和scale-up网络的互联,如下图所示。两者的主要区别是中间的电芯片,分别为switch芯片和GPU芯片。
(图片来自文献1)
对于scale-out网络互联的需求,Broadcom的第二代CPO交换机总带宽达到51.2Tbps,系统中含有8个光引擎,分布在交换机芯片的四个方向。每个光引擎内包含64路Tx/Rx,单个通道的带宽为100Gbps, 边缘带宽密度为500Gbps/mm。博通采用的是TWMZM方案,没有像Nvidia那样直接采用MRM方案(Nvidia与Broadcom CPO方案的对比,可以参看CPO时代来临——Nvidia公司CPO交换机的一点分析)。PIC和EIC都是单颗芯片内包含64个通道,PIC内集成了Mux/deMux。EIC芯片采用CMOS 7nm工艺。
在新一代的CPO交换机中,封装方案由TSV-last替换为FOWLP方案,如下图所示。Broadcom与ASE合作,开发了针对硅光芯片的FOWLP方案,将多颗EIC芯片首先重新构成一个wafer,再将PIC芯片flip-chip在EIC wafer上,如下图所示。来自基板的信号通过TMV(through mold via)传递到RDL层,再通过RDL层将信号传递给PIC与EIC。EIC采用face-up的形式,而PIC则是face-down。相较于TSV-last方案,FOWLP方案更加成熟,良率更高,从而降低成本。为了更好地对PIC芯片进行边缘耦合,PIC芯片尺寸会凸出EIC一部分。
(图片来自文献1)
对于TH5-Baily CPO交换机,博通展示了非常细节的功耗对比,如下表所示。对于传统可插拔光模块方案,128个400G光模块的功耗约为1024W, 能效比为20.0pJ/bit。而采用LPO方案,相应的OE部分功耗为630W, 能效比为12.3pJ/bit。LPO的这个能效比数据比一些文献报道的数据略高。而Baily CPO的OE部分功耗为359W, 能效比降低到7.0pJ/bit。和传统方案相比,OE部分的功耗降低了65%,整个系统的功耗则降低了约33%。后续单通道速率提高到200G/lane, 能效比有望进一步提升。
(图片来自文献1)
整个CPO交换机512个通道的TDECQ都在2dB以下,pre-FEC BER数据如下图所示,满足协议的要求,灵敏度约为-6dBm。
(图片来自)
针对scale-up互联的场景, Broadcom推出了6.4Tbps光引擎chiplet与GPU封装在一起的demo, GPU、HBM等芯片先放置在silicon interposor上,然后再与OE chiple合封在同一个大的基板上,如下图所示。该方案的一个优势是,OE光引擎部分可以先筛选出Known Good Die, 再与GPU芯片进行合封,另外OE光引擎部分距离GPU稍远,可以避免GPU散热带来的影响。Broadcom计划在beachfront这条边上放置更多的光引擎,进一步提升带宽。
(图片来自文献1)
针对上述的CPO GPU attch,Broadcom提出了下图所示的scale-up网络架构,512个GPU分布在8个rack上,通过64个CPO switch,实现512颗GPU之间的all-to-all互联。
(图片来自文献1)
如果直接使用以太网交换机Baily部署AI cluster,集群的规模会受到一定的限制。假设每个GPU的单向互联带宽为12.8Tbps, 单通道速率为200Gbps, 对于采用DR方案的102.4T交换机,radix为512,通过64个DR交换机,即可实现512颗GPU之间的all-to-all互联,如下图所示。
而对于采用FR方案的交换机,由于单根光纤传输的数据量变大,交换机的radix数会变小,同样的102.4T交换机,radix数变为128,此时网络架构上只能通过16个交换机,实现128颗GPU之间的全互联,网络规模降低了,如下图所示。FR方案的交换机,单根光纤的带宽密度比DR方案高,更加适合scale-out网络。
对于scale-up网络,DR方案似乎是更好的选择,但是DR方案的光纤数目是FR方案的4倍,随着CPO交换机的带宽持续增长,光纤的管理将面临很大的挑战。针对这一问题,Broadcom在去年发布了CPO-BiDi的白皮书,计划推出针对scale-up场景的单纤双向CPO交换机。
对于单个12.8T光引擎来说,光纤可分为两组,对于下图中的红色与蓝色。Group A中,Tx波长为1310nm, Rx波长为1270nm,Group B中,Tx波长为1270nm, Rx波长为1310nm。同一个光纤中,会有两个方向的信号传输。由于采用的是1270/1310nm这两个波长,PIC内部仍需要集成mux/demux器件,只不过设计难度会适当降低,另外对应的激光器成本不会有太大的变化。
对于BiDi交换机来说,光纤单方向的信号速率不变,radix数目不受影响,仍然是512,依然可以通过64个交换机实现512颗GPU芯片的全互联,如下图所示。与DR方案相比,光纤需要分成Group A和B来处理,发端Group A的接口需要与收端Group B的接口相连接。
Broadcom对比了DR方案与BiDi方案,光纤数目可以减半,相应的连接器数目也减半,激光器数目不变,即使考虑双波长激光器约10%成本的提升,整体成本会降低约15%。需要注意的是,采用BiDi方案后,交换机测与GPU测都必须使用BiDi方案,这在部署上会带来一定的限制。
在去年的OCP summit, Broadcom与字节一起给了一个报告"AI Clusters Enabled by a 51.2T CPO Switch",字节在使用Baily交换机部署AI集群。报告中提及了CPO交换机在latency方面的优势,相比于使用DSP的可插拔光模块,对于双层网络,CPO方案可以节省360-600ns的时延。而对于三层网络,则可以节省600-1000ns的时延。字节部署了8000卡的xPU网络,在spine/core层使用了CPO交换机,如下图所示。
(图片来自文献2)
以上是对Broadcom CPO交换机最新动态的简单介绍。整体上有两个趋势,CPO单通道的速率在向单波200G演进,由此带来总带宽的提升和能效比的进一步降低,Broadcom下一步应该会推出102.4T CPO交换机;scale-up网络对于高radix交换机的需求,Broadcom为此推出了BiDi CPO方案。AIGC对于低功耗、高带宽、低延迟网络连接的需求,是CPO交换机落地的主要动力。比较有趣的是,在ECOC 2023大会上,Broadcom的报告题目为"Will you need CPO in 5 years", 2024年则变成"Will you need CPO in 3 years?"。 不知道今年的标题会不会变成"We need CPO now! "。看起来,随着Nvidia、Broadcom这些巨头们在CPO交换机的布局与推进,CPO交换机的到来与应用已经是必然趋势。OFC 2025召开在即,期待巨头们开始针对CPO的华山论剑。
参考文献:
1. M. Mehta, et.al., "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures", Hotchips 2024
2. R. Pancholy, P. Huo, "AI Clusters Enabled by a 51.2T CPO Switch", OCP summit 2024.
|