ChatGPT底层架构Transformer技术及源码实现(四)
以智能对话机器人为例阐述Transformer的自编码autoencoding和自回归autoregressive语言模型内幕机制
Gavin大咖微信:NLP_Matrix_Space
如图3-33所示,是自编码语言模型,可以根据上下文的注意力进行填充,神经网络背后是向量,隐向量填充有一个程度的问题,多大程度的正确与否,这是一个自编码的过程,像做填空题一样,在填空题对一些关键信息进行挖空,自编码语言模型根据上下注意力来填入相应的内容,再跟实际的内容进行对比,根据实际的结果来校正神经网络,然后自编码语言网络就能够理解数据左侧的部分。
图3- 33 编码器、解码器
如图3-34所示,图中左侧的部分是自编码的过程或者是双向注意力机制,图中右侧的部分是自回归的过程。自回归的过程相当于和对话机器人对话,在跟对话机器人交互的过程中,用户给对话机器人输入一句话,对话机器人会根据历史对话信息、知识库、推荐系统、用户画像的内容构建下句话或者下一个动作的内容。
图3- 34 自编码、自回归模型
在Transformer架构中,Transformer左侧是自编码的过程,Transformer右侧是自回归的过程,左侧是以BERT(Bidirectional Encoder