一:什么是注意力机制,以及产生背景?
(1):RNN模型[RNN模型]的缺点:下图是例如RNN模型解决机器翻译的例子,从这个例子可以看到Encoder最后一个向量(eos)送给了Decoder端,因为Decoder端要输出一个完整的正确的句子,这就要求Encoder端的最后一个向量(eos)表示要包含这个句子的完整信息。但是这样一个向量能够表达句子中所有信息吗,答案是否定的,由于向量容量的限制,向量包含的信息是有限的。会显著限制RNN模型Encoder端的信息表达,这就是RNN有信息瓶颈的问题。
(2):其实RNN模型中每一个位置的隐向量,都包含有丰富的信息,而最后一个向量(eos)其实就是Encoder端和Deocder端的信息瓶颈。而本节将要介绍的注意力机制就是为了解决信息瓶颈而提出的。
(3):注意力机制的核心思想就是就是在Decoder的每一步都把Encoder端的所有的向量都提供给Decoder模型,这样Decoder根据自己当前状态来自主选择所需要的向量。这样就可以解决信息瓶颈的问题。
二:注意力机制详细描述: