ChatGPT底层架构Transformer技术及源码实现(二)
Gavin大咖微信:NLP_Matrix_Space
3.2 图解Transformer精髓之架构设计、数据训练时候全生命周期、数据在推理中的全生命周期、矩阵运算、多头注意力机制可视化等
如图3-14所示,是Transformer编解码的示意图,中间有个关键内容是状态(State),输入的数据会被编码器(Encoder)编码成状态或者是上下文(Context),解码器(Decoder)会使用这个上下文,和所有的词汇进行向量和矩阵的乘法操作,得出一个结果。
图3- 14编码器、解码器示意图
如图3-15所示,具体来看左侧是输入(Inputs)信息,形成了输入嵌入词向量(Input Embedding),使用向量的方式来表达,其中有一个非常关键的地方是多头注意力(Multi-Head Attention),通过这种方式能够捕获更多的信息,表达更多精细的信息。还有一个前馈神经网络(Feed Forward),图中的N_×表明有很多层,然后把数据传给解码器(Decoder)。
图3- 15 Transf