通过已有数据来训练注意力机制
假设时间步长为6,预测第7天,注意力打分步骤如下:
1.使用已有数据第7天的隐藏状态ht(ht来自第6天隐藏状态乘以Whh(权重参数))和前6天的隐藏状态之间分别通过点积计算相关度值,再通过softmax映射成为概率值
2.然后将前6天的隐藏状态矩阵和概率做加权求和Ct
3.然后将Ct+ht共同作为第7天的输入数据=第7天的预测值。
4.经过如此训练使得损失值变得最小,通过大量的训练那么隐含的固定给时间步内每个时刻(每天)分配了不同的注意权重(换句话说,注意力权重值是假设出来的,具体值要等到模型达到最优,才能得出),才能使得损失函数的数值达到最小,模型最优。
5.有新的预测数据,模型自然会根据经验给每个时间步分配最合适的注意力权重,以达到最好的预测效果。
6.所有初始参数矩阵都是假设的,那么注意力权重自然也是假设的值,这些矩阵都是开始人为设置的,后面通过模型不断地训练,得出最优的参数矩阵,包括注意力权重。
总结注意权重是训练得出的参数值
attention机制详解视频参考:https://www.bilibili.com/video/BV1cv411G7M6/?p=134&vd_source=26e80390f500a7ceea611e29c7bcea38