一、Transformer结构图 从上图可以看到: Transformer结构主要由编码和解码两大部分组成: (1)输入- position embedding - patch embedding (2)编码器 多头注意力机制 Add & NormMLP Add & Norm (3)输出(迭代右移)- position embedding - patch embedding (4)解码器 掩码多头注意力机制 Add & Norm多头注意力机制 Add & NormMLP Add & Norm (5)输出概率 LinearSoftmax 二、代码实现 to becontinue…