通信人家园
标题:
分布式训练
[查看完整版帖子]
[打印本页]
时间:
2024-9-25 14:35
作者:
c897919487
标题:
分布式训练
DP:完整模型,部分数据
MP:部分模型,完整数据
PP:模型分阶段,数据分小批次,形成流水线
TP:张量级并行,处理单个大型操作
DP + MP:
设备内:传输MP所需的中间激活值和梯度
设备间:传输DP所需的梯度和更新后的模型参数
DP + PP:
流水线内:传输PP所需的中间激活值、梯度和微批次元数据
流水线间:传输DP所需的梯度和更新后的模型参数
DP + TP:
TP组内:传输分片张量和同步信息
TP组间:传输DP所需的梯度和更新后的模型参数
总结:
DP主要传输完整的梯度和模型参数
MP传输层间的中间结果和梯度
PP传输阶段间的中间结果、梯度和控制信息
TP
传输分布式操作的部分结果和同步信息
时间:
2024-9-25 14:47
作者:
为别人打工的人
时间:
2024-9-25 14:48
作者:
为别人打工的人
鼓励一下
时间:
2024-9-25 15:36
作者:
laozhu
学习了,谢谢
通信人家园 (https://www.txrjy.com/)
Powered by C114