通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索
查看: 1014|回复: 3
打印

分布式训练 [复制链接]

军衔等级:

  新兵

注册:2017-7-10
跳转到指定楼层
1#
发表于 2024-9-25 14:35:51 |只看该作者 |倒序浏览
  • DP:完整模型,部分数据
  • MP:部分模型,完整数据
  • PP:模型分阶段,数据分小批次,形成流水线
  • TP:张量级并行,处理单个大型操作

DP + MP:
  • 设备内:传输MP所需的中间激活值和梯度
  • 设备间:传输DP所需的梯度和更新后的模型参数
DP + PP:
  • 流水线内:传输PP所需的中间激活值、梯度和微批次元数据
  • 流水线间:传输DP所需的梯度和更新后的模型参数
DP + TP:
  • TP组内:传输分片张量和同步信息
  • TP组间:传输DP所需的梯度和更新后的模型参数
总结:
  • DP主要传输完整的梯度和模型参数
  • MP传输层间的中间结果和梯度
  • PP传输阶段间的中间结果、梯度和控制信息
  • TP传输分布式操作的部分结果和同步信息

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-27 13:03 , Processed in 0.087287 second(s), 15 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部