现代 NLP:详细概述,第 1 部分:transformer


阿比吉特·罗伊
·

一、说明

        近五年来,随着 BERT 和 GPT 等思想的引入,我们在自然语言处理领域取得了巨大的成就。在本文中,我们的目标是逐步深入研究改进的细节,并了解它们带来的演变。

二、关注就是你所需要的

        2017 年,来自 Google Brains 的 Ashish Vaswani 与多伦多大学的同事一起提出了一种用于序列到序列任务(例如神经语言翻译和释义)的想法,该想法不同于现有的按时间步长的单字方法由 LSTM 和 RNN 实现。

        检测到的 RNN 现有架构存在的问题是:

  1. 由于我们一次添加一个单词,在长序列的情况下,很难保留信息。在使用 RNN 和 LSTM 的编码器-解码器结构模型中,隐藏向量从一个时间戳传递到另一个时间戳。然后,在最后一步中,我们将最终的上下文向量传递给解码器。与序列的前几个单词相比,传递给解码器的隐藏上下文向量对最后几个单词的影响更大,因为信息会随着时间的推移而消失。
  2. 为了解决第一点提到的问题,引入了注意力机制。这表明在解码时,我们单独关注输入序列中的单词。输入序列中的每个单词都会获得一个特定的注意力权重向量,然后将该向量乘以单词向量以创建向量的加权和。但问题是,由于我们一次一步地执行此操作,计算时间太长,而且也没有完全消除信息丢失。

2.1 想法

        变形金刚建议使用一种称为自注意力的概念。该模型将一次接收整个句子,然后使用自注意力来决定句子中其他单词在当前单词上下文中的重要性。因此,与常设循环架构相比,它具有以下优点:

  1. 在检测权重时,我们已经拥有了所有单词,因此不存在信息丢失的可能性,而且我们从双方都获得了上下文。也就是说,我们了解所选单词之前的单词和后面的单词,这有助于形成更好的上下文,而不是循环结构(Bi-LSTM 的情况除外)。
  2. 由于我们可以获得完整的句子,并且我们需要找到句子中每个单词的所有其他单词的重要性,因此我们可以对所有单词并行执行此操作。这节省了大量的处理时间并充分利用处理能力。

2.2 自注意力:构建块

        自注意力机制试图找出其他单词对于特定单词的重要性,然后创建一个组合的上下文向量来表示该单词。基本上,这意味着,如果你在句子中选择一个单词,它与句子中其他单词的相关程度有多少?众所周知,单词定义了句子的上下文,而单词的含义往往取决于上下文。这是一种找出句子上下文和相关单词的方法。

单词及其与其他单词的对应重要性

        为了实现这一点,它对句子中的每个输入单词嵌入 (xi) 使用三个向量,即查询 (Qi)、键 (Ki) 和值 (Vi)。根据论文,嵌入向量 x 的长度建议为 512。为了获得这些向量,首先定义三个权重矩阵:Wq、Wv 和 Wk。我们将每个输入词向量 Xi 与相应的权重矩阵相乘,以获得给定词的键、查询和值向量。

Qi = Xi * Wq

Vi = Xi * Wv

Ki = Xi * Wk

        为了找出单词 xi 在单词 xj 的上下文中的重要性,我们需要找到单词 xi 对应的关键向量 Ki 与单词 xj 的查询向量 Qj 的标量点积。然后点积结果除以向量 Ki 维度的平方根,即 8,因为论文中给出的 k 维度为 64。正如论文所建议的,如果我们不除法,点积值就会太大,这会导致 softmax 值变得太陡,从而产生不利于平滑学习的不良梯度。

向量计算:其中Xi是输入词的嵌入,W是权重矩阵。

        一旦我们找出了给定单词的所有单词的重要性,我们就对所有单词的结果使用 softmax。softmax 提供了所有单个单词的最终重要性,使得它们的总和为 1。接下来是单词的值 Vi 向量,我们将向量 Vi 与其相应的重要性相乘。直觉是创建单词表示的值向量,而重要性因素则为主题词的上下文赋予权重。如果一个单词与上下文单词没有关系,它的重要性值将非常非常低,因此最终的乘积向量将非常低,我们可以忽略它对任务的重要性。最后,我们取所有这些加权值向量的总和来创建该特定单词的最终上下文向量,该向量是我们从注意力块接收到的。

一个词的注意力计算

2.3 多头注意力

        我们已经看到了注意力如何工作并为每个单词产生上下文向量。本文的作者使用了多头注意力,以获得无偏的复合上下文向量。他们使用了8个这样的注意力头,为一个单词提供了8个不同的上下文向量。这个想法是,因为每个内部重量矩阵(即WQ,WV和WK)都是随机初始化的,因此每个头部初始化点的变化可能有助于捕获上下文向量中的一系列不同特征。

        最后,对于每个单词,我们都有8个上下文向量,我们将它们串联在一起以获取给定单词的代表性上下文向量。

所有关注的头脑都聚在一起

2.4 自我发挥的障碍:将所有这些结合在一起

        到目前为止,我们讨论过的任何内容都是基于句子中的一个特定单词,但是我们确实需要考虑句子中的所有单词并使系统平行。

        本文建议我们使用长度512的嵌入来表示句子中的每个单词。现在,我们已经知道,对于NLP任务,我们通常需要使用零盖来均衡句子长度。接下来,我们彼此堆叠所有512维词向量,并且由于句子中有固定的单词,我们会得到一个固定的维度2D向量来表示整个句子,这是通过整个注意力发送的。机制。

整体工作

一旦我们获得了所有单词的组合上下文向量,它就会乘以另一个权重矩阵,该矩阵集中学习并降低向量的维度。

三、变压器:体系结构

变压器架构

        变压器还遵循标准编码器架构体系结构。为了简单,更好的学习,单词向量和层的输出的维度都保持在512。模型的学习是以自动回归的方式完成的,即,单词是一个一个人生成的,对于(t+1)单词的预测,我们将t字的输出附加到输入中,然后将其馈送到模型。

        编码器:作者使用了带有2个子层的模块。第一层包含多头注意,我们在上面已经讨论过,第二个子层是完全连接的进料层。前馈层由2个连接的正常神经网络层组成。进料前层的输入和输出为尺寸512,但内部维度为2048,即,内部层中的节点数为2048。完全连接的图层使用Relu激活。作者还使用了加法和归一化层来平滑学习,并避免了我们在几个NLP和计算机视觉案例中看到的信息丢失。

因此,方程变为

output = norm(x + f(x)),其中x是输入,f()是层的转换,可以是前馈或注意块。

编码器块中有6个这样的模块。

        解码器:这与编码器块非常相似。这也有 6 个模块和类似的架构。唯一的区别是,除了已经存在的 2 个子层之外,解码器块还引入了第三个子层,这也是一个注意层,但输入被屏蔽,因此模型无法使用第 (t+1) 个时间戳单词作为输入,同时预测第 t 个单词。没有掩码的多头注意力子层从相应层的编码器获取值。因此,该层接收来自前一个解码器层和相应编码器层的输入。

掩蔽是这样实现的

        据作者称,模型在训练时以 3 种不同的方式使用了注意力层。正如我们所知,我们将所有单词的三个向量(Key、Query 和 Value)输入到注意力块中,作者使用它来更好地训练模型。

        选项 1:在这种情况下,查询来自前一个解码器层,内存键和值来自编码器的输出。这允许解码器中的每个位置关注输入序列中的所有位置。

        选项 2:在这种情况下,值和查询来自编码器中前一层的输出。编码器中的每个位置可以关注编码器上一层中的所有位置。

        选项 3:在这种情况下,值和查询来自解码器中前一层的输出。解码器中的每个位置可以参与解码器前一层中的所有位置。现在,这一点带来了屏蔽多头注意力的重要性,因为模型在 t+1 时看不到单词,所以保留了自回归属性。

最后,作者使用了一个线性变换层,然后是一个 softmax 层。

四、位置编码

        除了模型之外,本文还引入了位置编码的概念。问题是,由于本文没有使用循环网络或卷积网络,也不是基于时间步长的,作者认为应该有一些东西来表示单词的位置,因为它在表达含义中起着重要作用的句子。

        为了解决这个问题,作者提出了两种估计。

        其中 pos 是单词的位置,i 是维度,dmodel = 512,输入维度大小。编码的大小也保持在 512 维,因此可以轻松地将它们添加到词嵌入中。作者选择了这些特定函数,因为这些函数在一定偏移量后给出相同值的倍数,因此可以表示为线性函数。

五、结论

        我们已经了解了变压器的工作原理;接下来,该系列的第二个故事讲述 GPT。我们还将了解其他演变及其实现。

至此,祝您阅读愉快!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224678.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解ibm_t60(945)的板子的保护隔离和ec的待机供电

1.,首先看ec待机条件: 待机供电,32k时钟,复位,适配器检测,开关信号。但是视频居然是找适配器的接口,跟着视频走,所以我先找打了适配器接口j24。vint20为公共点,我查了vint20的所有接线发现没有小…

Django-REST-Framework 如何快速生成Swagger, ReDoc格式的 REST API 文档

1、API 接口文档的几种规范格式 前后端分离项目中,使用规范、便捷的API接口文档工具,可以有效提高团队工作效率。 标准化的API文档的益处: 允许开发人员以交互式的方式查看、测试API接口,以方便使用将所有可暴露的API接口进行分…

Stable Diffusion模型原理

AI 图像生成引人注目,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。Stable Diffusion 作为一款高性能模型,它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,是 AI 图像生成领域的里程碑。…

PPT中加入页码

PPT中加入页码 文章目录 简单版本样式更改 简单版本 PPT中插入页码,基础的就是在“插入”选项卡中单机“幻灯片编号”即可 样式更改 然而,就像我们做幻灯片不满足于白底黑字一样,页码也总不能是默认的样式。 比如,在页码下面…

MyBatis的缓存!!!!

为什么使用缓存? 首次访问时,查询数据库,并将数据存储到内存中;再次访问时直接访问缓存,减少IO、硬盘读写次数、提高效率 Mybatis中的一级缓存和二级缓存? 一级缓存: 它指的是mybatis中的SqlSession对象的…

uni-app pages.json之globalStyle全局页面样式配置

锋哥原创的uni-app视频教程: 2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中...共计23条视频,包括:第1讲 uni…

56.0/DIV+CSS 布局(详细版)

目录 56.1 本章简介 56.2 实例讲解 56.2.1 菜单制作 56.2.2 美化滚动条 56.2.3 DIV+CSS 布局 56.3 综合示例 56.3.1 总体分析 56.3.2 Header 层 56.3.3 最终代码 56.1 本章简介 本章通过几个实例讲解 DIV+CSS 的应用。 采用表格布局的页面内,为了实现设计的布局,制作者往往…

uni-app封装表格组件

组件代码&#xff1a; <template><view><uni-table class"tableBox" border stripe emptyText"暂无更多数据" ><!-- 表头行 --><uni-tr class"tableTr"><uni-th align"center" v-for"item in …

蓝牙物联网通信网络设计方案

随着当前经济的快速发展&#xff0c;社会运行节奏加快&#xff0c;人们更倾向于选择高效的出行方式&#xff0c;而飞机就是其中之一。近年来&#xff0c;全国各地机场的吞吐量不断增长&#xff0c;导致航站楼面积过大&#xff0c;而 GPS全球定位系统在室内感测不到卫星信号无法…

使用tesla gpu 加速大模型,ffmpeg,unity 和 UE等二三维应用

我们知道tesla gpu 没有显示器接口&#xff0c;那么在windows中怎么使用加速unity ue这种三维编辑器呢&#xff0c;答案就是改变注册表来加速相应的三维渲染程序. 1 tesla gpu p40 p100 加速 在windows中使用regedit 来改变 核显配置&#xff0c; 让p100 p40 等等显卡通过核显…

IDEA Maven Helper插件 解决jar冲突

Jar包冲突报错 程序抛出java.lang.ClassNotFoundException异常&#xff1b; 程序抛出java.lang.NoSuchMethodError异常&#xff1b; 程序抛出java.lang.NoClassDefFoundError异常&#xff1b; 程序抛出java.lang.LinkageError异常等&#xff1b;Maven Jar包管理机制 在Maven项…

WWW 指南-万维网联盟(World Wide Web)

WWW - 万维网联盟 WWW通常称为网络。 web是一个世界各地的计算机网络。 电脑在Web上使用标准语言沟通。 万维网联盟&#xff08;W3C&#xff09;制定了Web标准 什么是WWW&#xff1f; WWW 代表 World Wide Web(万维网)万维网常常被称为 网络网络是世界各地的计算机网络网络中…

华清远见作业第十六天

思维导图&#xff1a; 双向循环链表头插入&#xff1a; 代码&#xff1a; Doublelist insert_head(Doublelist head,datatype element) {//创建新节点sDoublelist screate_node();if(NULLs){return head;}s->dataelement;//数据存储//判断链表是否为空if(NULLhead){heads;…

K8S三台服务器一键部署总结

随着互联网、云计算技术的深入发展&#xff0c;为降低企业大规模云应用建设的难度和成本&#xff0c;支持云应用开发、运行与运维一体化的云应用平台软件应运而生。在数通家族中对企业集成套件的云平台开发、部署、管理、运维进行统一管理&#xff0c;实现数据集成和共享的平台…

谷歌 SGE 和生成式 AI 在搜索中:2024 年会发生什么

2024 年&#xff0c;Google 的搜索生成体验将如何影响营销&#xff1f;探索 AI 驱动的搜索趋势、SERP 中的 SGE、自然流量影响等。 最初&#xff0c;Labs 中的 Google 搜索生成体验 &#xff08;SGE&#xff09; 实验预计将于 2023 年 12 月“结束”。但随着谷歌实验室网站的最…

【Skynet 入门实战练习】事件模块 | 批处理模块 | GM 指令 | 模糊搜索

文章目录 前言事件模块批处理模块GM 指令模块模糊搜索最后 前言 本节完善了项目&#xff0c;实现了事件、批处理、模糊搜索模块、GM 指令模块。 事件模块 什么是事件模块&#xff1f;事件模块是用来在各系统之间传递事件消息的。 为什么需要事件模块&#xff1f;主要目的是…

Kafka生产环境问题总结与性能优化实践

Kafka可视化管理工具kafka-manager 安装及基本使用可参考: httos://wwwcnbloas.com/dadonaaa/o/8205302.html 线上环境规划 1. 消息丢失情况: 消

CSRF(Pikachu)

CSRF&#xff08;get&#xff09; 首先我们先登录账号 admin 密码是&#xff1b;123456 点击修改个人信息 用F12或者BP 抓包看看我们的url 那么构成的CSRF攻击payload为http://pikachu.shifa23.com/pikachu/vul/csrf/csrfget/csrf_get_edit.php?sexboy&phonenum”手机…

助力打造清洁环境,基于轻量级YOLOv8开发构建公共场景下垃圾堆放垃圾桶溢出检测识别系统

公共社区环境生活垃圾基本上是我们每个人每天几乎都无法避免的一个问题&#xff0c;公共环境下垃圾投放点都会有固定的值班时间&#xff0c;但是考虑到实际扔垃圾的无规律性&#xff0c;往往会出现在无人值守的时段内垃圾堆放垃圾桶溢出等问题&#xff0c;有些容易扩散的垃圾比…

如何快速删除pdf周围的空白

问题&#xff1a;写论文往往需要pdf格式的图片&#xff0c;但pdf往往四周存在大量空白需要手动截图很麻烦 解决&#xff1a; 打开命令行输入&#xff1a;pdfcrop 图片名.pdf