目录
大模型并行:TP, PP, DP,MP
张量并行(TP)
数据并行(DP)
模型并行(MP)
流水线并行(PP)
TP:张量模型并行
一、定义与基本原理
二、切分方式
三、主要优势与挑战
优势
挑战
四、应用场景
五、注意事项
大模型并行:TP, PP, DP,MP
数据并行(Data Parallelism, DP)、模型并行(Model Parallelism, MP)和流水线并行(Pipeline Parallelism, PP)是并行计算中三种常见的策略,它们各自具有独特的特点和适用场景。
张量并行(TP)
解决内存墙的问题。模型的权重矩阵被分割成多个部分,每个部分由不同的设备负责计算。TP的通信主要发生在前向和后向传播过程中,设备之间需要交换分割后的中间结果。由于需要在每次前向和后向传播时进行通信,TP的通信量也相当大。需要进行concat操作。
数据并行(DP)
数据并行是一种将数据集划分为多个部分,并