ChatGPT底层架构Transformer技术及源码实现(三)
贝叶斯Bayesian Transformer数学推导论证过程全生命周期详解及底层神经网络物理机制剖析
Gavin大咖微信:NLP_Matrix_Space
从数学的角度来讲,线性转换
其中函数g联合了所有头的操作结果,每个头的产生是采用一个f_att的函数,x是输入的数据,θ_i是第i个头(Head)的模型参数,如果有8个头就有8个θ_i,理论上讲它们是不一样的,而且我们期待它不一样。在式(3-17)中,x是数据,θ_i是参数,用数据更新模型,其实是后验概率MAP的过程,回到贝叶斯公式本身
对于多头注意力机制而言,数据是同样的数据,用这一个数据来更新不同的头和不同的模型,如图3-30所示,下标从0到7一共8个头,包括8个θ_i的内容(θ_0~θ_7),分子是P(D|θ)P(θ),分母P(D) 是所有模型的表现方式,这是Bayesian的精华。
图3- 30 8个注意力头