通信人家园

标题: 关于AI网络的光交换,Meta尝试了新玩艺儿!  [查看完整版帖子] [打印本页]

时间:  2024-2-29 09:07
作者: PH值     标题: 关于AI网络的光交换,Meta尝试了新玩艺儿!

P4君 云深知网络

众所周知

谷歌走在了光交换的前列OCS已经成为独门秘制的杀手锏谷歌Apollo:DCN网络游戏规则改变者


640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1

随着AI的火爆

Meta也盯上了光交换

OCS的问题是价格太贵端口太少

所以Meta另辟蹊径联合业界小伙伴尝试使用可重新配置的光交换机和配线架成果发表于20届USENIX网络系统设计与实现

640?wx_fmt=jpeg&from=appmsg

我们提出了用于深度神经网络(DNN)训练的新型直连交换结构 TOPOOPT。它结合计算、通信和网络拓扑三个维度共同优化分布式训练过程。我们演示了 AllReduce 流量的可变性,并利用此属性为 DNN 训练作业构建高效的网络拓扑。然后,TOPOOPT 使用交替优化技术和名为 TotientPerms 的群论启发算法,结合并行化策略,找到最佳网络拓扑和路由计划。我们建立了一个功能齐全的 12 节点直连原型,它具有 100 Gbps 的RDMA转发功能。在真实分布式训练模型上进行的大规模仿真表明,与成本相近的胖树互联相比,TOPOOPT 可将 DNN 训练时间缩短 3.4 倍。


和所有校企联合都一样



Meta提供了生产集群的数据麻省理工和卡内基梅隆的劳力提供算法然后核心的光交换设备来自Telescent公司



640?wx_fmt=jpeg&from=appmsg

从原理看
Telescent配线架
重新配置延迟很明显要远超OCS
估计这也是未能大规模应用的主要原因
想在数据中心部署需要结合计算提前规划路径

Telescent 公司的配线架,通过 "机械臂抓取传输侧的光纤并将其连接到接收侧的光纤 "来重新配置网络。机械臂由软件控制,可以上下移动,将发射光纤与系统中任意位置的接收光纤连接起来。这为快速重新配置网络提供了所需的灵活性和弹性。

2015年Telescent公司还在中国申请了上述专利

640?wx_fmt=jpeg&from=appmsg

Meta对开源生态是真爱,在网络探索上也是不遗余力。

第一波:Meta 最新网络架构研究可将大型语言模型训练网络成本降低 75%

第二波:Meta TOPOOPT对分布式训练的网络拓扑和并行化策略的协同优化





附件: 640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 (2024-2-29 09:07, 399.96 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIxNTIxfDExM2RiZmNmfDE3MTc3MDk3ODN8MHww

附件: 640?wx_fmt=jpeg&from=appmsg (2024-2-29 09:07, 57 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIxNTIyfDhjYjg2N2QxfDE3MTc3MDk3ODN8MHww

附件: 640?wx_fmt=jpeg&from=appmsg (2024-2-29 09:07, 102.86 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIxNTIzfDViOTIwOTIwfDE3MTc3MDk3ODN8MHww

附件: 640?wx_fmt=jpeg&from=appmsg (2024-2-29 09:07, 98.32 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIxNTI0fGEzZTYzNDQ4fDE3MTc3MDk3ODN8MHww
时间:  2024-2-29 09:33
作者: laozhu

光交换
时间:  2024-2-29 09:35
作者: joey21

不错




通信人家园 (https://www.txrjy.com/) Powered by C114