通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  三级通信军士

注册:2017-8-14184
跳转到指定楼层
1#
发表于 2025-3-27 10:33:30 |只看该作者 |倒序浏览
Photonwalker 光学小豆芽

接着上篇笔记对Nvidia CPO交换机的介绍,这篇笔记再梳理下Broadcom交换机2024年以来的动态,方便大家参考。

Broadcom从2021年开始布局CPO,如下图所示,经过4年多的研发,在2024年实现了第二代51.2T CPO交换机Baily的demo, 并相继与腾讯、字节等多家公司展开合作,在其数据中心内部署CPO交换机。

640?wx_fmt=jpeg&from=appmsg

针对AI智算中心互联的需求,Broadcom将其CPO的应用领域分为两个方向,分别针对scale-out网络和scale-up网络的互联,如下图所示。两者的主要区别是中间的电芯片,分别为switch芯片和GPU芯片。

640?wx_fmt=png&from=appmsg
(图片来自文献1)

对于scale-out网络互联的需求,Broadcom的第二代CPO交换机总带宽达到51.2Tbps,系统中含有8个光引擎,分布在交换机芯片的四个方向。每个光引擎内包含64路Tx/Rx,单个通道的带宽为100Gbps, 边缘带宽密度为500Gbps/mm。博通采用的是TWMZM方案,没有像Nvidia那样直接采用MRM方案(Nvidia与Broadcom CPO方案的对比,可以参看CPO时代来临——Nvidia公司CPO交换机的一点分析)。PIC和EIC都是单颗芯片内包含64个通道,PIC内集成了Mux/deMux。EIC芯片采用CMOS 7nm工艺。

640?wx_fmt=png&from=appmsg
在新一代的CPO交换机中,封装方案由TSV-last替换为FOWLP方案,如下图所示。Broadcom与ASE合作,开发了针对硅光芯片的FOWLP方案,将多颗EIC芯片首先重新构成一个wafer,再将PIC芯片flip-chip在EIC wafer上,如下图所示。来自基板的信号通过TMV(through mold via)传递到RDL层,再通过RDL层将信号传递给PIC与EIC。EIC采用face-up的形式,而PIC则是face-down。相较于TSV-last方案,FOWLP方案更加成熟,良率更高,从而降低成本。为了更好地对PIC芯片进行边缘耦合,PIC芯片尺寸会凸出EIC一部分。

640?wx_fmt=png&from=appmsg
(图片来自文献1)

对于TH5-Baily CPO交换机,博通展示了非常细节的功耗对比,如下表所示。对于传统可插拔光模块方案,128个400G光模块的功耗约为1024W, 能效比为20.0pJ/bit。而采用LPO方案,相应的OE部分功耗为630W, 能效比为12.3pJ/bit。LPO的这个能效比数据比一些文献报道的数据略高。而Baily CPO的OE部分功耗为359W, 能效比降低到7.0pJ/bit。和传统方案相比,OE部分的功耗降低了65%,整个系统的功耗则降低了约33%。后续单通道速率提高到200G/lane, 能效比有望进一步提升。

640?wx_fmt=png&from=appmsg
(图片来自文献1)

整个CPO交换机512个通道的TDECQ都在2dB以下,pre-FEC BER数据如下图所示,满足协议的要求,灵敏度约为-6dBm。

640?wx_fmt=png&from=appmsg
(图片来自)

针对scale-up互联的场景, Broadcom推出了6.4Tbps光引擎chiplet与GPU封装在一起的demo, GPU、HBM等芯片先放置在silicon interposor上,然后再与OE chiple合封在同一个大的基板上,如下图所示。该方案的一个优势是,OE光引擎部分可以先筛选出Known Good Die, 再与GPU芯片进行合封,另外OE光引擎部分距离GPU稍远,可以避免GPU散热带来的影响。Broadcom计划在beachfront这条边上放置更多的光引擎,进一步提升带宽。

640?wx_fmt=png&from=appmsg
(图片来自文献1)
针对上述的CPO GPU attch,Broadcom提出了下图所示的scale-up网络架构,512个GPU分布在8个rack上,通过64个CPO switch,实现512颗GPU之间的all-to-all互联。

640?wx_fmt=png&from=appmsg (图片来自文献1)
如果直接使用以太网交换机Baily部署AI cluster,集群的规模会受到一定的限制。假设每个GPU的单向互联带宽为12.8Tbps, 单通道速率为200Gbps, 对于采用DR方案的102.4T交换机,radix为512,通过64个DR交换机,即可实现512颗GPU之间的all-to-all互联,如下图所示。

640?wx_fmt=png&from=appmsg
而对于采用FR方案的交换机,由于单根光纤传输的数据量变大,交换机的radix数会变小,同样的102.4T交换机,radix数变为128,此时网络架构上只能通过16个交换机,实现128颗GPU之间的全互联,网络规模降低了,如下图所示。FR方案的交换机,单根光纤的带宽密度比DR方案高,更加适合scale-out网络。

640?wx_fmt=png&from=appmsg
对于scale-up网络,DR方案似乎是更好的选择,但是DR方案的光纤数目是FR方案的4倍,随着CPO交换机的带宽持续增长,光纤的管理将面临很大的挑战。针对这一问题,Broadcom在去年发布了CPO-BiDi的白皮书,计划推出针对scale-up场景的单纤双向CPO交换机。

对于单个12.8T光引擎来说,光纤可分为两组,对于下图中的红色与蓝色。Group A中,Tx波长为1310nm, Rx波长为1270nm,Group B中,Tx波长为1270nm, Rx波长为1310nm。同一个光纤中,会有两个方向的信号传输。由于采用的是1270/1310nm这两个波长,PIC内部仍需要集成mux/demux器件,只不过设计难度会适当降低,另外对应的激光器成本不会有太大的变化。

640?wx_fmt=png&from=appmsg
对于BiDi交换机来说,光纤单方向的信号速率不变,radix数目不受影响,仍然是512,依然可以通过64个交换机实现512颗GPU芯片的全互联,如下图所示。与DR方案相比,光纤需要分成Group A和B来处理,发端Group A的接口需要与收端Group B的接口相连接。

640?wx_fmt=png&from=appmsg
Broadcom对比了DR方案与BiDi方案,光纤数目可以减半,相应的连接器数目也减半,激光器数目不变,即使考虑双波长激光器约10%成本的提升,整体成本会降低约15%。需要注意的是,采用BiDi方案后,交换机测与GPU测都必须使用BiDi方案,这在部署上会带来一定的限制。

640?wx_fmt=png&from=appmsg
在去年的OCP summit, Broadcom与字节一起给了一个报告"AI Clusters Enabled by a 51.2T CPO Switch",字节在使用Baily交换机部署AI集群。报告中提及了CPO交换机在latency方面的优势,相比于使用DSP的可插拔光模块,对于双层网络,CPO方案可以节省360-600ns的时延。而对于三层网络,则可以节省600-1000ns的时延。字节部署了8000卡的xPU网络,在spine/core层使用了CPO交换机,如下图所示。

640?wx_fmt=png&from=appmsg
(图片来自文献2)

以上是对Broadcom CPO交换机最新动态的简单介绍。整体上有两个趋势,CPO单通道的速率在向单波200G演进,由此带来总带宽的提升和能效比的进一步降低,Broadcom下一步应该会推出102.4T CPO交换机;scale-up网络对于高radix交换机的需求,Broadcom为此推出了BiDi CPO方案。AIGC对于低功耗、高带宽、低延迟网络连接的需求,是CPO交换机落地的主要动力。比较有趣的是,在ECOC 2023大会上,Broadcom的报告题目为"Will you need CPO in 5 years", 2024年则变成"Will you need CPO in 3 years?"。 不知道今年的标题会不会变成"We need CPO now! "。看起来,随着Nvidia、Broadcom这些巨头们在CPO交换机的布局与推进,CPO交换机的到来与应用已经是必然趋势。OFC 2025召开在即,期待巨头们开始针对CPO的华山论剑。

参考文献:

1. M. Mehta, et.al., "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures", Hotchips 2024

2. R. Pancholy, P. Huo, "AI Clusters Enabled by a 51.2T CPO Switch", OCP summit 2024.

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-4-2 05:32 , Processed in 0.183727 second(s), 19 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部