目录
LLM的原理理解1-5
1、词向量
2、词的意义取决于上下文
3、将词向量转化为词预测
4、注意力机制
5、一个真实世界的例子
移动头(Name Mover Head)
主语抑制头
举例说明
假设我们有一个简单的句子:“我喜欢编程”,并希望计算“我”这个词对于句子中其他词的注意力权重。
-
生成QKV:
- 将句子中的每个词通过嵌入矩阵转化为嵌入向量。
- 对每个嵌入向量应用Query、Key、Value变换,得到Q、K、V向量。
-
计算相似度:
- 计算“我”这个词的Q向量与句子中所有词的K向量之间的点积,得到一个相似度向量。
-
归一化处理:
- 对相似度向量应用Softmax函数,得到注意力权重向量。
-
加权求和:
- 使用注意力权重向量与V向量矩阵相乘,得到“我”这个词的新表示(上下文表示)。
在这个例子中,“我”的上下文表示将融合了句子中其他词的信息,其中与“我”最相关的词(如“喜欢