Transormer块主要由四个部分组成,注意力层、位置感知前馈神经网络、残差连接和层归一化。
1、注意力层(Multi-Head Attention)
使用多头注意力机制整合上下文语义,它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构,从而更好的解决长文本依赖关系。
Transformer详解(3)-多头自注意力机制
2、位置感知前馈神经网络(Feed Forward)
通过全连接层对输入文本序列中的每个单词表示进行更复杂的变换。
3、残差连接(Add)
残差连接是一条分别作用在上述两个子层中的直连通路,被用于连接两个子层的输入与输出,使信息流动更高效,有利于模型的优化。
4、层归一化(Norm)
层归一化作用于上述两个子层的输出表示序列,对表示序列进行层归一化操作,同样起到稳定优化的作用。
参考
attention is all you need