注意力机制分类
包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention)。
- 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播计算。
- 软注意力机制指在选择信息的时候,计算N个输入信息的加权平均,再输入到神经网络中计算,可以直接利用梯度方向传播进行计算;
注意力机制的计算
-
计算注意力得分(attention score)
注意力打分模型,常见有:
其中W、U和v是可学习的网络参数,d是输入信息的维度。 -
计算注意力分布
利用softmax对注意力得分进行转换到0-1;
-
计算注意力值
采用加权求和的方式对输入信息进行汇总,得到注意力值: