来自Transformer + Bert + GPT 的灵魂拷问

Transformer

  1. Q:Transformer如何解决梯度消失问题的?
    A:残差连接

  2. Q:为何Transformer中使用Layer Normalization而不用Batch Normalization?
    A:BatchNorm是对一个batch-size样本内的每个特征做归一化,LayerNorm是对每个样本的所有特征做归一化。
    形象点来说,假设有一个二维矩阵。行为batch-size,列为样本特征。那么BN就是竖着归一化,LN就是横着归一化。
    它们的出发点都是让该层参数稳定下来,避免梯度消失或者梯度爆炸,方便后续的学习。但是也有侧重点。
    一般来说,如果你的特征依赖于不同样本间的统计参数,那BN更有效。因为它抹杀了不同特征之间的大小关系,但是保留了不同样本间的大小关系。(CV领域)
    而在NLP领域,LN就更加合适。因为它抹杀了不同样本间的大小关系,但是保留了一个样本内不同特征之间的大小关系。对于NLP或者序列任务来说,一条样本的不同特征,其实就是时序上字符取值的变化,样本内的特征关系是非常紧密的。

  3. Q:Layer Nomalization的作用是什么:
    A:允许使用更大的学习率,加速训练。有一定的抗过拟合作用,使训练过程更加平稳

  4. Q:多头自注意力层中的“多头”如何理解,有什么作用?
    A:有点类似于CNN的多个卷积核。通过三个线性层的映射,不同头中的Q、K、V是不一样的,而这三个线性层的权重是先初始化后续通过学习得到的。不同的权重可以捕捉到序列中不同的相关性。多头保证了transformer可以注意到不同子空间的信息,捕捉到更加丰富的特征信息,匹配到不同的模式。

  5. Q:Transformer是自回归模型还是自编码模型?
    A:自回归模型。所谓自回归,即使用当前自己预测的字符再去预测接下来的信息。Transformer在预测阶段(机器翻译任务)会先预测第一个字,然后在第一个预测的字的基础上接下来再去预测后面的字,是典型的自回归模型。Bert中的Mask任务是典型的自编码模型,即根据上下文字符来预测当前信息。

  6. Q:原论文中Q、K矩阵相乘为什么最后要除以 d k \sqrt{d_k} dk ?
    A:当 d k \sqrt{d_k} dk 特别小的时候,其实除不除无所谓。但是当维度大的时候,其方差为 [公式] 。小了还好说,大的话会使得后续做softmax继续被放大造成梯度消失,不利于梯度反向传播。除以 d k \sqrt{d_k} dk 让方差回归为1。有效减少梯度消失问题的出现。

    原文:在这里插入图片描述

  7. Q: 原论中编码器与解码器的Embedding层的权重为什么要乘以 d m o d e l \sqrt{d_{model}} dmodel ?
    A:为了让embedding层的权重值不至于过小,乘以 d m o d e l \sqrt{d_{model}} dmodel 后与位置编码的值域差不多,可以保护原有向量空间不被破坏。
    在学embedding的时候,多多少少会把每一个向量的L2 long学成相对比较小的,比如1,不管你的维度多大最后都会等于1,维度变大的时候,权重值就会变小,但是只会要加上位置编码的值,而位置编码的值不会随着你的长度变长而把long固定住,所以乘了 d m o d e l \sqrt{d_{model}} dmodel 之后,使得embedding值和position encoding值在数值尺度上差不多

  8. Q:Transformer在训练与验证的时候有什么不同
    A:Transformer在训练的时候是并行的,在验证的时候是串行的。这个问题与Transformer是否是自回归模型考察的是同一个知识点。Transformer在训练、评估时编码器,解码器分别如何工作的?

  9. Q:Transformer模型计算复杂度是多少?
    A: n 2 d n^2d n2d,n是序列长度,d是embedding的长度。Transformer中最大的计算量就是多头自注意力层,这里的计算量主要就是QK相乘再乘上V,即两次矩阵相乘。
    QK相乘是矩阵【n d】乘以【d n】,这个复杂度就是 n 2 d n^2d n2d

  10. Q:Transformer中三个多头自注意力层分别有什么意义与作用?
    A:Transformer中有三个多头自注意力层,编码器中有一个,解码器中有两个。
    编码器中的多头自注意力层的作用是将原始文本序列信息做整合,转换后的文本序列中每个字符都与整个文本序列的信息相关(这也是Transformer中最创新的思想,尽管根据最新的综述研究(MetaFormer is Actually What You Need for Vision)表明,Transformer的效果非常好其实多头自注意力层并不占据绝大贡献)。示意图如下:
    在这里插入图片描述
    解码器的第一个多头自注意力层比较特殊,原论文给其起名叫Masked Multi-Head-Attention。其一方面也有上图介绍的作用,即对输入文本做整合(对与翻译任务来说,编码器的输入是翻译前的文本,解码器的输入是翻译后的文本)。另一个任务是做掩码,防止信息泄露。拓展解释一下就是在做信息整合的时候,第一个字符其实不应该看到后面的字符,第二个字符也只能看到第一个、第二个字符的信息,以此类推。
    解码器的第二个多头自注意力层与编码器的第一个多头自注意力层功能是完全一样的。不过输入需要额外强调下,我们都知道多头自注意力层是通过计算QKV三个矩阵最后完成信息整合的。在这里,Q是解码器整合后的信息KV两个矩阵是编码器整合后的信息,是两个完全相同的矩阵。QKV矩阵相乘后,翻译前与翻译后的文本也做了充分的交互整合。至此最终得到的向量矩阵用来做后续下游工作。

  11. Q:Transformer中的mask机制有什么作用?
    A:对不等长的序列做padding补齐,掩码防止信息泄露,在预测第t个时刻的输出的时候,你不应该看到t时刻以后的那些输入,从而保证训练和预测的行为一致
    具体来说,假设Q和K是等长的,都为n,且在时间上是对应起来的,对于第t时间的 Q t Q_t Qt,在做计算的时候,应该只能看到 K 1 K_1 K1 K t − 1 K_{t-1} Kt1,而不应该去看到 K t K_t Kt t t t 时间之后的东西,因为 K t K_t Kt在当前时刻还没有,但是注意力机制是能一次性看到所有东西的,所以必须加上mask,当然计算还是能算的,只需要加上一些处理,在t时刻之后计算出来的数值,用-inf来代替就可以了,在进入softmax的时候就会变成0,导致在softmax之后出来对应的那些东西权重都会变成0,而只有前面的值生效。

  12. Q:mask机制分别用在了哪里
    A:mask机制的作用1在三个多头自注意力层中都用了,作用2只用在了解码器的第一个多头自注意力层。

  13. Q:Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
    A:使用Q/K/V不相同可以保证在不同空间进行投影,增强了表达能力,提高了泛化能力。

  14. Q:在计算attention score的时候如何对paddingmask操作
    A:padding位置置为负无穷(一般来说-1000就可以)。对于这一点,涉及到batch_size之类的,具体的大家可以看一下抱抱脸实现的源代码,位置在这里:huggingface-bert

  15. Q:为什么transformer中要有position encoding
    A:因为注意力机制是没有时序信息的,它的输出是value的加权和,权重是query和key之间的距离(欧式或cosine距离),是与序列信息无关的。
    给你一句话,把顺序任意打乱后,经过attention出来的结果都是一样的,但是实际上在语义上已经发生了改变,RNN是把上一个时刻的输出作为下一个时刻的输出而处理时序信息,

部分问题及答案摘自: Transformer你问我答

BERT

  1. Q:Bert和Elmo的异同点有哪些?
    A:
相同点不同点BertElmo
都是预训练模型模型结构基于Transformer的Encoder结构基于RNN的结构
都是芝麻街人物的人名特征表示方法基于Fine-tune基于特征
  1. Q:为什么 Bert 的三个 Embedding 可以进行相加?
    A:这是个好问题。虽然在深度神经网络里变得非常复杂,本质上神经网络中每个神经元收到的信号也是“权重”相加得来。具体细节的分析这里就不提了,有兴趣的同学可以自己推一推。这里想说一下宽泛一点的分析(瞎扯)。在实际场景中,叠加是一个更为常态的操作。比如声音、图像等信号。一个时序的波可以用多个不同频率的正弦波叠加来表示。只要叠加的波的频率不同,我们就可以通过傅里叶变换进行逆向转换。一串文本也可以看作是一些时序信号,也可以有很多信号进行叠加,只要频率不同,都可以在后面的复杂神经网络中得到解耦(但也不一定真的要得到解耦)。在BERT这个设定中,token,segment,position明显可以对应三种非常不同的频率。由此可以再深入想一想,在一串文本中,如果每个词的特征都可以用叠加波来表示,整个序列又可以进一步叠加。哪些是低频信号(比如词性?),哪些是高频信号(比如语义?),这些都隐藏在embedding中,也可能已经解耦在不同维度中了。说不定可以是一种新的表示理论:)该解释来自:邱锡鹏老师对此问题的回答

  2. Q:Bert的训练方式?
    A:1.Masked LM, 2.Next Sentence Prediction (NSP)

  3. Q:Bert的mask策略是怎样的?
    A:15%的概率替换成mask,在这15%被选中成为mask的词中,80%概率真的被替换成[mask],10%的概率替换成一个随机的token,10%的概率什么都不干
    原文:
    在这里插入图片描述

  4. Q:Bert的NSP任务是怎么训练的?
    A:有句子a和b,50%的概率b真的在a之后,50%的概率b是随机从别的地方选取出来的句子
    原文:
    在这里插入图片描述

GPT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/58761.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于tkwinter制作的exe小工具

前言 最近事没那么多,然后同事基于tkwinter制作了一款exe造单工具,感觉挺好玩的,然后叫同事分享了一下源码,自己去学习了tkwinter各大组件的相关语法及操作,所以写篇博客分享一下 同事款工具 下面是同事写的小工具&…

【WAX链游】发布一个免费开源的Alien Worlds【外星世界】合约脚本TLM

前言 《链游Farmers World【农民世界】爆火,发布一个免费开源的脚本》 在之前的文章中,我们分享了一个开源的农民世界(Farmers World)脚本 【OpenFarmer】:https://github.com/encoderlee/OpenFarmer 经过这段时间以来的不断学习&#xff…

量子计算机细思极恐,宇宙或许只是一套虚拟程序,科学家:还有一种可能细思极恐!...

原标题:宇宙或许只是一套虚拟程序,科学家:还有一种可能细思极恐! 我不知道你是否有过类似的经历:刚从沉睡中醒来,你周围的世界就有一种奇怪的虚幻和朦胧感,当意识浮出水面,你周围的事物就回到了…

【电力电子技术速通】五、DC-DC变流电路(一)Buck与Boost

一、概述 直流-直流变流电路也称斩波电路,并且斩波这种叫法更多一些。 可以分为直接直流变流电路和间接直流变流电路,最大的区别就是后者是隔离式的,通常用高频变压器隔离,所以也叫直-交-直电路。 斩波电路的三种控制方式&#…

TrickBot和Emotet再夺恶意软件之冠

根据Check Point Software的最新分析,僵尸木马TrickBot和Emotet是10月份最流行的恶意软件,这一趋势将推动勒索软件感染的激增。 Check Point通过ThreatCloud威胁情报系统传输的数据编制了2020年10月的全球威胁指数,据说该系统每天检查超过25亿…

元宇宙,会成为下一代互联网的主场吗?

导语 | 2022 年元宇宙风靡全网,作为过去一年科技界的“当红扛把子”,引多家科技巨头“竞折腰”。近日,《福布斯》双周刊网站在报道中指出,2030 年全球元宇宙的市场规模有望高达 5 万亿美元,2023 年可能是确定其发展方向…

必然还是炒作?从技术发展来看元宇宙

关于元宇宙,已经成为了2021年一个大火的名词,国外的Facebook(现Meta)、微软、英伟达……国内的腾讯、阿里、字节跳动……各大互联网巨头纷纷入局,甚至在11月12日,中国电信也表示将在2022年启动打造元宇宙基…

元宇宙持续火热的背景下,我们普通人如何赚钱

放眼全球,最近几年,能让互联网大厂像扑了蛾子一般向前冲的风口除了区块链、智能电动汽车,就是元宇宙。 尤其那些在区块链上没有吃到什么红利,造车运动又没参与上的互联网企业,对元宇宙似乎有一种执念。 这种执念让一…

即将到来的2023,国内元宇宙开始“割”企业了?

元宇宙爆火一年后,UTONMOS即将成为全球化全部实现ERC-721协议NFT链上垂直游戏价值生态的系统平台,旨在通过利用自身所拥有的各类头部资源和游戏化打造内容层的融合,建立一个元气满满的元宇宙Web3.0平台。 通过数字藏品技术的应用&#xff0c…

元宇宙将如何影响我们的投资、就业和生活方式?

【导读】 3月10日,Roblox在纽交所上市,成为元宇宙概念第一股,首日股价上涨54%,市值超过400亿美元。近日,Facebook创始人兼CEO扎克伯格表示,要在五年左右的时间里,将Facebook从一家社交媒体公司…

元宇宙热潮:缘起、影响与展望

当下科技界和产业界最热的话题非“元宇宙”莫属。2021年3月,“元宇宙第一股”美国网络游戏和社交平台公司Roblox在纽约证券交易所上市。10月,美国互联网巨头Facebook更名为“元”(Meta),宣告其强势进军元宇宙相关产业。…

2023年JDK要升级到多少?看看七家大模型给的答案

前言 在2023年很多公司应该还在用JDK8,目前JDK已经更新到JDK20,JDK21也将在2023年9月发布,那么在2023年如果我们要升级JDK,到底升级到哪个版本比较合适呢?这个问题我们可以交给大模型,看看各家大模型是怎么…

数据分析师的职场晋升

数据分析师怎么晋升?数据分析师的优势在哪?数据分析师的护城河在哪? 以上三个问题我相信很多数据相关的同学都有疑问。对于我(螺丝钉)来说,工作8年,现任数据负责人。分别做过SRE,数据运营和经营分析&#…

行业大洗牌,一大批数据分析师要失业了

数据分析师的尴尬处境 前段时间,我一个前同事离职了——他有4年的数据分析经验,却被强行安排到了运营部做数据日报,心态崩了。 我自己也是老数据分析师了,还是很理解这其中的苦衷。 论业务能力比不过运营,论技术水平比…

数据分析火了,数据分析师失业了

在一次演讲中,马云又爆出金句,说:做数据分析未来会找不到工作,因为未来的数据一定不是用脑子算,而是用机器。 虽然 Teacher 马向来有语不惊人死不休的习惯,但这句话并不是空穴来风—— 随着数据工具越来越先…

科大讯飞语音识别测试

下载官方Java SDK,获取到核心jar包 新建工程,将核心jar包导入项目工程中 将SDK中文件同样复制到项目工程中 核心测试代码: package com.iflytek;import com.iflytek.cloud.speech.*; import com.iflytek.util.JsonParser;/*** program&…

怎么彻底删除聊天记录?几种适合的办法交给你!

微信官方回应称,微信不会储存用户的聊天记录,尊重用户隐私一直是微信最重要的原则之一,没有权限、也没有理由去看用户的聊天内容。而电影里的007电影,传输消息之后,手机或者电脑都会启动自毁程序。防止消息泄露。不过这…

Telegram支持删除双方设备中的聊天记录

以保护隐私而享誉全球的开源即时通讯工具 Telegram(电报)近日增加了一项新功能——允许用户在一对一聊天中删除任何消息,重点是支持从聊天双方的设备中删除。两年前 Telegram 首次引入"unsend"功能时,用户可以删除他们自…

怎么样把聊天记录彻底删除?

怎么样把聊天记录彻底删除?微信中的聊天记录是我们隐私保护的一大隐患,里面的微信记录一旦泄漏后果不堪设想,所以现在很多微信用户都在想办法彻底删除微信中的聊天记录,以此做到隐私安全,可是大家用的删除方法正确吗&a…

LCHub:ChatGPT4和低代码来临,程序员面临下岗?

一个网友吐槽道: “ 建站出来了,你们说程序员会失业。 低代码出来了,你们说程序员会失业。 Copilot出来了,你们说程序员会失业。 Chatgpt出来了,你们说程序员会失业 虽然这只是网友的吐槽,但却引起了小编的好奇。为何程序员那么容易被新技术取代?今天小编打算跟大家…