1. 注意力分数 好处:k q v的长度都可以不一样。 2. 代码 3. QA 1 画出注意力权重,对任何一行query,给每一对key-value多少注意力【哪对key-value更重要】 2 语义上的区别 3 是的。一元版本换成向量版本 4 通常用相似度做注意力分数,看谁跟我相近,谁就更重要一点。 5 不是把分数低的过滤掉。允许告诉只有前面四个是有意义的,后面的是无意义的填充内容,将无意义填充的部分全部设置为0