Google BERT入门(3)Transformer的自注意力机制的理解(下)

文章目录

  • 4.自注意力机制的理解
    • 步骤 4


4.自注意力机制的理解

步骤 4

我们计算了查询矩阵和键矩阵之间的点积,得到了分数,然后使用softmax函数对分数进行了归一化。现在,自注意力机制的最后一步是计算注意力矩阵Z。

注意力矩阵包含句子中每个单词的注意力值。我们可以通过将分数矩阵softmax(QK/sqrt(dk))乘以值矩阵 V来计算注意力矩阵Z,如下图所示:

在这里插入图片描述

图1.16 - 计算注意力矩阵

假设我们有以下结果:

在这里插入图片描述

图1.17 - 注意力矩阵的结果

注意力矩阵Z是通过将值向量乘以分数并求和来计算的。让我们逐行理解这一点。首先,让我们看看第一行z1,单词“I”的自注意力是如何计算的:

在这里插入图片描述

图1.18 - 单词“I”的自注意力

从前面的图中,我们可以理解,单词“I”的自注意力z1是通过将值向量乘以分数并求和来计算的。因此,z1的值将包含来自值向量v1(I)的90%的值,来自值向量v2(love)的7%的值,以及来自值向量v3(learning)的3%的值。

但这有什么用呢?为了回答这个问题,让我们回到前面提到的例子句子: “The little girl fell asleep in her mother’s arms because she was tired.”这里,单词“she”指的是“girl”。要计算单词“she”的自注意力,我们遵循前面相同的步骤。假设我们有以下结果:

在这里插入图片描述

图1.19 - 单词“she”的自注意力

从前面的图中,我们可以理解单词“she”的自注意力值包含了来自值向量(girl)的100%的值。这帮助模型理解单词“she”实际上是指“girl”而不是“mother”。因此,通过使用自注意力机制,我们可以理解一个单词如何与句子中的所有其他单词相关。
现在,回到我们的例子,单词“love”的自注意力是通过将值向量乘以分数并求和来计算的,如下所示:

在这里插入图片描述

图1.20 - 单词“love”的自注意力

从前面的图中,我们可以观察到,z2的值将包含来自值向量v1(I)的2.5%的值,来自值向量v2(love)的95%的值,以及来自值向量v3(learning)的2.5%的值。
同样,单词“learning”的自注意力是通过将值向量乘以分数并求和来计算的,如下所示:

在这里插入图片描述

图1.21 - 单词“learning”的自注意力

这意味着z3的值将包含来自值向量 v1 (I) 的21%的值,来自值向量 v2 (love) 的3%的值,以及来自值向量 v3 (learning) 的76%的值。

因此,注意力矩阵 由句子中所有单词的自注意力值组成,计算方式如下:

在这里插入图片描述

为了更好地理解自注意力机制,涉及的步骤总结如下:

(1)首先,我们计算查询矩阵Q和键矩阵K之间的点积Q.KT,得到相似度分数。
(2)接下来,我们将结果Q.KT除以键向量维度的平方根sqrt(dk)。
(3)然后,我们应用softmax()函数对分数进行归一化,得到分数矩阵softmax((Q.KT)/ sqrt(dk))。
(4)最后,我们通过将分数矩阵乘以值矩阵V来计算注意力矩阵Z。

自注意力机制在图形上展示如下:

在这里插入图片描述

图1.22 - 自注意力机制

自注意力机制也被称为缩放点积注意力,因为在这里我们计算的是点积(查询向量和键向量的点积)并缩放值(乘以sqrt(dk))。

现在我们已经理解了自注意力机制是如何工作的,下一节我们将学习多头注意力机制。


感谢您的阅读,欢迎关注!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/486911.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大舍传媒-关于海外媒体宣发的探讨

关于海外媒体宣发的探讨 一、海外媒体宣发的重要性 在当今全球化的时代,海外媒体宣发对于企业、组织和个人来说具有至关重要的意义。通过有效的海外媒体宣发,可以提升品牌知名度,拓展国际市场,增强影响力,吸引更多的潜…

城市基础设施数字化管理:打造安全、智能的城市生命线

随着数字化转型的深入,城市基础设施生命线的安全管理正面临前所未有的机遇与挑战。城市基础设施,包括交通、能源、供水、排水、通信等,是城市运行的“生命线”,其安全治理直接关系到城市的稳定与人民生活的安全。 数字化转型对城…

241207-通过Docker部署Wiki.JS并设置ElasticSearch进行中文搜索

A. 最终效果 B. 配置文件 version: "3" services:wiki:image: ghcr.io/requarks/wiki:2container_name: wikijsports:- "3000:3000"volumes:- /home/lgk/Projects/WikiJS/config:/configenvironment:- DB_TYPEpostgres- DB_HOSTdatabase- DB_PORT5432- DB…

ConcurrentLinkedQueue<>实现生产者-消费者问题理解和简易demo

1.ConcurrentLinkedQueue<> ConcurrentLinkedQueue 是 Java 中的一个线程安全的无界队列实现。它基于无锁&#xff08;lock-free&#xff09;的算法&#xff0c;采用了一个高效的、非阻塞的、可伸缩并发控制机制。这使得在高并发场景下能够实现较高的吞吐量。 无界性质…

LDR6500:音频双C支持,数字与模拟的完美结合

在当今数字化快速发展的时代&#xff0c;音频设备的兼容性和性能成为了用户关注的重点。LDR6500&#xff0c;作为乐得瑞科技精心研发的USB Power Delivery&#xff08;PD&#xff09;协议芯片&#xff0c;凭借其卓越的性能和广泛的应用兼容性&#xff0c;为音频设备领域带来了新…

面试技术点之安卓篇

一、基础 二、高级 三、组件 Android中SurfaceView和TextureView有什么区别&#xff1f; 参考 Android中SurfaceView和TextureView有什么区别&#xff1f; 四、三方框架 五、系统源码 六、性能优化

Mock神器:Easy-Mock 私有化部署及使用介绍

在现代前后端分离的开发模式中&#xff0c;后端接口的数据模拟是一个常见且必要的需求。尤其是在后端接口尚未开发完成时&#xff0c;前端开发需要依赖模拟数据进行开发与测试。Easy-Mock 是一个非常流行的开源工具&#xff08;虽然它已经停止更新好长时间了&#xff09;&#…

React v19稳定版发布12.5

&#x1f916; 作者简介&#xff1a;水煮白菜王 &#xff0c;一位资深前端劝退师 &#x1f47b; &#x1f440; 文章专栏&#xff1a; 前端专栏 &#xff0c;记录一下平时在博客写作中&#xff0c;总结出的一些开发技巧✍。 感谢支持&#x1f495;&#x1f495;&#x1f495; 目…

如何在Ubuntu中利用repo和git地址下载获取imx6ull的BSP

01-设置git的用户名和邮箱 git config --global user.name "suwenhao" git config --global user.email "2487872782qq.com"这里不设置的话后面在第5步的repo配置中还是会要求输入&#xff0c;而且以后进行相关操作都要输入&#xff0c;不妨现在就进行配置…

高德地图3D地图SDK造成ANR问题记录

问题描述&#xff1a; 在新接手的项目中使用到了高德地图的3D的SDK,其依赖导入如下 api com.amap.api:3dmap:latest.integrationapi com.amap.api:search:9.7.0在使用过程中&#xff0c;用到了TileOverlay图层&#xff0c;使用过程中有一下两个问题&#xff1a; 1.在特定的AMAP…

【AI实战项目】基于OpenCV的“颜色识别项目”完整操作过程

OpenCV是一个广受欢迎且极为流行的计算机视觉库&#xff0c;它因其强大的功能、灵活性和开源特性而在开发者和研究者中备受青睐。 学习OpenCV主要就是学习里面的计算机视觉算法。要学习这些算法的原理&#xff0c;知道它们适用于哪些场景&#xff0c;然后通过Python编写代码来…

浅谈网络 | 应用层之云网络隔离GRE/VXLAN

目录 前言GRE 隧道技术VXLANGRE/VXLAN接入云平台 前言 之前提到&#xff0c;为云平台中的租户实现隔离时&#xff0c;常用的策略是基于 VLAN。然而&#xff0c;VLAN 只有 12 位&#xff0c;共支持 4096 个 ID&#xff0c;这在最初设计时看似足够&#xff0c;但随着云计算的快速…

Spark on Yarn安装配置,大数据技能竞赛(容器环境)

Spark on Yarn模式&#xff0c;即把Spark作为一个客户端&#xff0c;将作业提交给Yarn服务&#xff0c;由于在生产环境中&#xff0c;很多时候都要与Hadoop使用同一个集群&#xff0c;因此采用Yarn来管理资源调度&#xff0c;可以有效提高资源利用率。 环境说明&#xff1a; 服…

java+springboot+mysql在线文件管理系统

项目介绍&#xff1a; 使用javaspringbootmysql开发的在线文件管理系统&#xff0c;系统包含管理员、使用员、监察员角色&#xff0c;功能如下&#xff1a; 管理员&#xff1a;使用员管理&#xff1b;监测员管理&#xff1b;留言管理&#xff08;回复&#xff09;&#xff1b…

SD Express 卡漏洞导致笔记本电脑和游戏机遭受内存攻击

Positive Technologies 最近发布的一份报告揭示了一个名为 DaMAgeCard 的新漏洞&#xff0c;攻击者可以利用该漏洞利用 SD Express 内存卡直接访问系统内存。 该漏洞利用了 SD Express 中引入的直接内存访问 (DMA) 功能来加速数据传输速度&#xff0c;但也为对支持该标准的设备…

基于单片机的智能灯光控制系统

摘要 现在的大部分的大学&#xff0c;都是采用了一种“绿色”的教学方式&#xff0c;再加上现在的大学生缺乏环保意识&#xff0c;所以在学校里很多的教室&#xff0c;在白天的时候灯都会打开&#xff0c;这是一种极大的浪费&#xff0c;而且随时都有可能看到&#xff0c;这是…

ros项目dual_arm_pick-place(urdf文件可视化查看)

前言 一直想写一些项目的讲解&#xff0c;今天&#xff08;2024.12.05&#xff09;可以说正式开始了。 dual_arm_pick-place项目&#xff0c;是关于两个机械臂协同传递物品。 正文 这次的话&#xff0c;给大家讲一下里面的urdf文件。 这篇文章主要来看一下项目中的urdf文件…

springSecurity权限控制

权限控制&#xff1a;不同的用户可以使用不同的功能。 我们不能在前端判断用户权限来控制显示哪些按钮&#xff0c;因为这样&#xff0c;有人会获取该功能对应的接口&#xff0c;就不需要通过前端&#xff0c;直接发送请求实现功能了。所以需要在后端进行权限判断。&#xff0…

【C++笔记】map和set的使用

前言 各位读者朋友们大家好&#xff01;上期我们讲完了二叉搜索树这一数据结构&#xff0c;这一期我们来讲STL中的map和set这两大容器。这两个容器的底层是红黑树&#xff0c;红黑树的底层是平衡二叉搜索树。 目录 前言一. 序列式容器和关联式容器二. set系列的使用2.1 set类…

IO进程学习笔记

man手册 普通命令。系统调用的函数。库函数。特殊文件。文件格式。游戏。附加的一些变量 IO介绍 I&#xff1a;input 输入 O&#xff1a;output 输出 对文件的输入和输出 输入-》写文件&#xff0c;将文件中的内容写到内存中去 输出-》读文件&#xff0c;将内存中的内容读取到文…