通信人家园
标题: 联通厉害了:基于800G实现大模型协同训练 [查看完整版帖子] [打印本页]
时间: 2025-1-6 11:30
作者: 无名小足
标题: 联通厉害了:基于800G实现大模型协同训练
近日,联通官微发了一则消息,透露了800G的最新进展:
在中国联通临港智算中心成功完成AI大模型300公里分布式协同训练技术验证。通过智算、网络多项创新技术的综合运用,实现了300公里跨域分布式训练等效算力达到单集群的95%以上,跨域带宽收敛比大于16:1。充分验证了跨DC协同训练技术的商用可行性,为AI大模型训练模式提供了全新的解决方案。
本次AI大模型300km跨DC分布式协同训练试点测试包含两大亮点:
第一、创新运用了新一代智算网关设备、精准流控技术和并行方式优化技术,实现广域收敛比不低于16:1。在跨300km协同训练场景下,针对不同广域收敛比对大模型训练效率的验证,通过现网实测数据结果分析,针对广域收敛比为4:1、8:1、16:1的场景,可实现百亿大模型300km分布式训练性能均达到单智算中心训练性能的95%以上,使其具备真正意义上的商用可行性。
第二、采用单波800G实现300km的传输,并验证其超高可靠的能力。本次跨DC拉远通过业界领先的800G光传送解决方案实现超大带宽和300km距离的传输,并进行了多项可靠性功能测试,验证结果表明智算互联需要抗多次故障带宽不下降能力。
消息显示,基于单波800G实现300km的传输。此次应用于分布式训练,也是为800G应用场景提供了参考。
目前400G网络已经进入规模商用部署阶段,各家运营商也在积极探索800G的试验、应用。在800G应用于协同训练场景,中国联通走在了行业前列!
附件: 1.png (2025-1-6 11:29, 63.51 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjY4MjA5fGRlM2Q0ZWJjfDE3Mzg3ODc5ODd8MHww
时间: 2025-1-6 11:35
作者: youx
需求点 在哪?
时间: 2025-1-6 11:41
作者: xhy133
时间: 2025-1-6 11:48
作者: 愤怒的拳头
怪不得现在GPU租赁业务好的不行
时间: 2025-1-6 19:24
作者: 不吹不黑
点赞点赞!
时间: 2025-1-9 19:51
作者: 愤怒的拳头
厉害厉害
时间: 2025-1-9 20:05
作者: 马云的云
800G远远不够,NVLink最大支持的带宽都上T(当然是DC内部)
通信人家园 (https://www.txrjy.com/) |
Powered by C114 |