目录
张量并行和流水线并行在Transformer中的具体部位
一、张量并行
二、流水线并行
张量并行和流水线并行在Transformer中的具体部位
张量并行和流水线并行是Transformer模型中用于提高训练效率的两种并行策略。它们分别作用于模型的不同部位,以下是对这两种并行的具体说明及举例:
一、张量并行
- 定义:
- 张量并行主要涉及张量的切分,即将大型张量(如权重矩阵、输入矩阵等)分割成较小的张量,并分配到不同的计算设备上进行并行计算。
- 作用部位:
- 张量并行主要作用于Transformer模型中的矩阵乘法操作,如Embedding层、Attention组件和MLP组件中的矩阵乘法