【学习ChatGPT】1. 复习:Seq2Seq、Transformer、GPT

ref. https://zhuanlan.zhihu.com/p/360932588
https://zhuanlan.zhihu.com/p/611472975

目录

  • 2014年-Seq2Seq模型
  • 2015年-注意力Seq2Seq模型
  • Google2017年-Transformer模型: Attention is all you need
    • 注意力机制
  • OpenAI2018年-GPT
    • 无监督预训练:神经网络语言模型
    • 无监督预训练: 基于Transformer的语言模型
    • 有监督微调
    • 下游任务适配
    • 为什么GPT只用Transformer的右手
    • GPT和Bert的区别是什么

2014年-Seq2Seq模型

Seq2Seq模型是一类端到端(end-to-end)的算法框架,通过encoder-decoder架构来实现。该模型的目标是给定一个长度为 m m m的输入序列 x = { x 1 , . . . x m } x=\left\{x_1,...x_m\right\} x={x1,...xm} ,来生成一个长度为 n n n的目标序列 y = { y 1 , . . . y n } y=\left\{y_1,...y_n\right\} y={y1,...yn}
在这里插入图片描述
编码器和解码器都是RNN(LSTM)结构,编码器实现将输入的任意长度的输入序列映射为固定长度的上下文序列 c c c,c可以通过最后一个隐状态 h m h_m hm获取,也可以通过所有隐状态 h 1 , . . . , h m h_1,...,h_m h1,...,hm获取; 解码器用来将上述固定长度的中间序列 c c c映射为变长度的目标序列作为最终输出,其中输出序列中的每一个元素 y i y_i yi依赖中间序列 c c c以及其之前的隐状态
c = e n c o d e r ( x 1 , . . . , x m ) c = encoder(x_1,...,x_m) c=encoder(x1,...,xm)
y i = d e c o d e ( c , s 1 , . . . , s i − 1 ) y_i = decode(c, s_1,...,s_{i-1}) yi=decode(c,s1,...,si1)
缺点:

  1. 固定长度的上下文序列对较长的输入序列表达能力差
  2. 输入序列的每一个x都对每一个输出序列y有相同的影响

2015年-注意力Seq2Seq模型

注意力模型最大的改进在于其不再要求编码器将输入序列的所有信息都压缩为一个固定长度的上下文序列c中,取而代之的是将输入序列映射为多个下文序列 c 1 , . . . c n c_1,...c_n c1,...cn
在这里插入图片描述

y i = d e c o d e ( c i , s 1 , . . . , s i − 1 ) y_i = decode(c_i, s_1,...,s_{i-1}) yi=decode(ci,s1,...,si1)
c i = ∑ j α i j h j c_i = \sum_{j}\alpha_{ij}h_j ci=jαijhj
其中 α i j \alpha_{ij} αij为注意力权重系数, α i j \alpha_{ij} αij越大,表示第i个输出在第j个输入上分配的注意力越多,即生成i个输出时受到第j个输入的影响也就越大。
如何得到注意力权重系数?在注意力模型中,注意力权重系数是通过构造一个全连接网络,然后再对该网络输出向量进行概率化得到的。全连接网络的训练与整个模型其他部分的训练同时完成(即实现端到端训练)。
在这里插入图片描述
但是,RNN模式是否真的有必要?

Google2017年-Transformer模型: Attention is all you need

Transformer模型采用的也是encoder-decoder架构,但是在该模型中,编码器和解码器不再是 RNN结构,取而代之的是编码器栈(堆叠)和解码器栈
在这里插入图片描述

注意力机制

由QKV组成,简单说就是用Q和K计算出来的权重加权平均V (参考链接里有一个生动的例子)
其中,缩放点击注意力(SDPA):
在这里插入图片描述
多头注意力机制(MHA):
在这里插入图片描述
QVV模式(K=V)和VVV模式(Q=K=V)两种模式应用最为广泛,因为二者蕴含了特征表示中的两个非常重要的问题:QVV模式代表着如何用一个特征集合表示另一个集合,而VVV模式代表了如何用一个特征集合表示自己。

编码器和解码器自注意力模块,都是VVV模式,不同的是,解码器部分添加了掩膜机制,这是由于在解码器中,自注意力模块只被允许处理当前项之前的那些项,这一点与编码器需要“看到”所有项是不同的
在这里插入图片描述
而编码器-解码器注意力模块是QVV模式,其中Q来自于上一个解码器的输出,而V来自于最后一个编码器输出(即也是编码器栈的最终输出)

整体结构如下,注意,normalize是layer normalize不是batch normalize.然后该向量由后续的 softmax 层进行概率化,得到的结果即为每个输入词汇在目标词汇上的概率分布。
在这里插入图片描述

OpenAI2018年-GPT

论文:Improving Language Understanding by Generative Pre-Training
“We explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning. Our goal is to learn a universal representation that transfers with little adaptation to a wide range of tasks.”
手段是半监督训练(自监督的预训练+有监督的微调),目的是构建一个能够快速适配诸多NLP任务的通用语言表示。

难点:如何选择合适的损失函数、如何适配下游的子任务

无监督预训练:神经网络语言模型

GPT首先基于一个庞大的语料库,以无监督的方式训练一个语言模型, 这个语言模型就是用链式词语接龙的方式,最大化条件概率。即给定前i个词,预测第i+1个词出现的概率。条件分布只考虑对前文的依赖关系,因此称之为单向模型。
在这里插入图片描述
nnlm的损失函数就是最大似然估计:
在这里插入图片描述
我们可以仅在一个序列的窗口中考虑问题,即将完全的前文依赖简化为仅对前k个词的依赖(即k阶马尔可夫假设)

无监督预训练: 基于Transformer的语言模型

GPT是Transformer只用解码器部分
在这里插入图片描述
u u u是独热编码,经过word embedding和positional embedding得到u’
U ′ = U W e + W p U' = UW_e+W_p U=UWe+Wp
而解码器的部分对Transformer做了简化,仅保留掩膜多头自注意力(masked mha) 和全连接前馈网络两个模块。因为其根本不存在编码器的输出Q:
在这里插入图片描述

有监督微调

GPT在预训练结束后,会再进行一轮有监督的微调训练,以使得GPT模型的参数能够更好的适配NLP其他下游任务。GPT的监督微调被设定为一个文本分类任务,即根据句子 x = { x 1 , . . . x m } x=\left\{x_1,...x_m\right\} x={x1,...xm}预测标签 l l l.

在这里插入图片描述
GPT还给出了将有监督训练和无监督语言模型训练两个阶段合并的联合训练方法(其中无监督LM训练视为辅助训练),认为这种合并方法具有两个优点:(1)能够改进监督模型的泛化能力;(2)能够加速模型的收敛。
在这里插入图片描述

下游任务适配

在这里插入图片描述

第一类是应用场景是“分类”(classification),将最后一层的输出放入线形层。例如对一段文本进行情感分类,判断其是正面还是负面。

第一个应用场景是“蕴含”(entailment),即判断一段文本是否蕴含某种假设。该应用可以看作是一个三分类问题,需要将两段文本串联成一个长序列,采用特殊的开始符、分隔符和抽取符来区分不同部分。注意,这些特殊标记不能和文本中的其他词重复。

第二个应用场景是“相似”(similarity),即判断两段文本的相似程度。该应用同样采用GPT算法,但需要考虑相似关系的对称性。因此,对于每一对文本,需要构造两个序列,分别将它们放在不同的位置上,并用特殊标记区分不同部分。这些序列将分别输入模型中进行处理,得到最终的输出结果,然后通过一个线性层进行判断,是相似还是不相似。

第三个应用场景是“多选题”(multiple choice),即从多个答案中选择正确的答案。该应用需要构造多个序列,其中每个序列的开头都是同一个问题,而每个答案则依次作为第二个序列进行处理。这些序列将分别输入模型中进行处理,最终通过一个线性投影层输出对应的答案得分,用softmax函数将得分转换为对每个答案的选择概率。在这个应用中,GPT算法同样能够发挥出色的表现。

为什么GPT只用Transformer的右手

GPT主要应用于生成式任务,如文本生成、对话生成等。这些任务需要模型能够根据前面的文本预测下一个单词或句子。因此,GPT只需使用解码器部分,即能够生成文本的部分,而不需要编码器部分,即能够理解文本的部分。总之,GPT只使用解码器部分是为了提高模型的效率和性能,同时适应生成式任务的需求。如果需要进行其他任务,如文本分类、序列标注等,则需要使用编码器和解码器结合的模型,如BERT、RoBERTa等。

GPT和Bert的区别是什么

Bert用的是Transformer的编码器,没有掩码的transformer块
Bert本质上是完形填空,而GPT是预测未来,难度更大,天花板也更大。
在Bert的论文中,Bert base版本和GPT用了相同的模型参数,更多的训练数据集,精度略高于额GPT, 而Bert Large是base的3倍的参数,精度更高。总之,gpt1被Bert用更大的模型、更大的数据集打败。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13210.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT将要创造出来的新职业有哪些?

根据当前趋势和数据分析,基于AI和ChatGPT等技术可能创造出的十个新兴职业以及每个职业的潜在需求评分。满分10分,分数越高表示需求可能性越大。请注意,这些评分和解释是基于目前的技术发展水平和趋势。 AI训练师 - 9分:随着AI系统…

学会ChatGPT模型调参,让你的文章质量飞速提升(提供免费测试网站)

在阐述观点的时候,首先分享一个免费且无需登录即可使用,结合问答与绘图,可调节模型参数的AI(懂的都懂,手动狗头)公益平台: https://shdily.com Temperature和Top_p都是用于控制生成文本的多样性和准确性的…

王国维《人间词话》风格评析七律之冠《登高》-ChatGPT调试

杜甫先生习诗当峥嵘岁月,因禅静福地育天才,故嘉名而扬。其诗风甘露脆玉,让人称道。《登高》一诗,被誉为七言诗之首。本文谦陈顾虑,为诗友愚论。余不执意与常规,不徇情以赞叹,纯生为素志&#xf…

极客故事|AI Hackathon:从每一个微小的时刻开始

上周末,由 SegmentFault 思否和 ONES 主办,SegmentFault AI Hackathon 杭州站暨思否 11 周年特别活动在杭州圆满结束。大赛延续 Hack with AI, Rebuild Everything with AI 的主题,鼓励开发者使用 Generative AI 技术构建创新应用&#xff0c…

前沿分享|ChatGPT对于科研和学业能带来哪些帮助—来自大学生视角

正在上传…重新上传取消 ChatGPT云炬学长 2015年包括Elon Musk、Sam Altman和 Greg Brockman在内的多位工程师和研究人员共同创办了OpenAI, 公司的核心宗旨在于“实现安全的通用人工智能(AGI)”,使其有益于人类。就在2022年11月, OpenAI发布了ChatGPT, 它创建类似…

chat_wordpress:ChatGPT SEO 关键词批量生成内容,批量发布到 WordPress

ChatGPT是一个基于GPT-3.5架构的大型语言模型,由OpenAI训练。它使用深度学习技术,通过学习大量的文本数据,可以生成人类类似的自然语言文本。ChatGPT是一个非常强大的对话引擎,可以进行对话、回答问题、完成任务等。ChatGPT是一个…

百度被曝3月推出自家ChatGPT/ 小米全球副总裁辞职/ 苹果折叠屏iPad有消息了...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好!今天是1月31日! 2023年头个月马上就过完了。(是不是Flag都还没立起来?) 那么,今天科技圈都在关注哪些新鲜事? 一起来看看。 小米全球副总裁、…

佛教生物学(Buddhist Biology):发展现状与发展战略

佛教生物学(Buddhist Biology):发展现状与发展战略 李升伟 1.佛教生物学(Buddhist Biology)的概念(内涵与外延)是什么? 佛教生物学(Buddhist Biology)是一门…

时间基础概念及Linux中的时间函数

时间基础概念及Linux中的时间函数 时间相关概念GMT 时间UTC 时间时区 Time Zone夏令时 DST本地时间 localtime Linux 系统中的时间时钟基础概念系统节拍数 jiffiesLinux系统查看时间及配置时区获取时间函数获取 当前时间 time()获取 当前时间(微秒) gett…

Android Studio||gif/glide/jre包导入失败/动态效果(内含源代码

step by step. 目录 效果: 1.加入依赖 如果jre包导入后没有标红但是还是无法运行: 2.添加ImageVIew 3.效果图: 终于成功了qwq 效果: 1.加入依赖 Android studio 图片加载框架Glide介绍及使用_秀川冈坂的博客-CSDN博客在泰…

腾讯智能识别终端设备获授权;微软将推动必应商业变现;Meta减少数字藏品;高通推出首款5G物联网处理器丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 腾讯智能识别终端设备获授权 3月14日, 腾讯科技(深圳)有限公司申请的“智能识别终端”外观专利获授权。摘要显示,本外观设计产品用于身份核验、交易支付等&#x…

基于反馈的Query改写:你说过的,我才最懂

​一、前言 本文对之前做过一段时间的Query改写(纠错,本文不严格区分这两种叫法)做一些总结,算法原理可以参考亚马逊的这篇论文:Feedback-Based Self-Learning in Large-Scale Conversational AI Agents。 二、方法 …

朋友的身份证被骗子注册了支付宝开通了花呗,消费了三千被催债才知道花呗被盗如何处理?

自己花了就自己花了呗,啥叫被盗了,我有充分的理由怀疑你撒谎。 先来看下花呗是怎么开通的 步骤1:首先要在支付宝进行实名认证,在支付宝手机版个人信息中进行实名认证后,才具备基本的开通花呗的基本资格。 步骤2&…

起底51信用卡:年赚21亿涉暴力催收,子公司给714高炮导流

独角兽51信用卡和他的创始人孙海涛正陷入一场巨大的风波中。这家此前知名度局限在业内和杭州本地的互联网金融公司,正被推向大众视野。 今年9月以来,杭州警方接上级部门线索传递,结合日常工作发现,51信用卡涉及大量各地异常投诉信…

西门子PLC 延时催款程序程序

西门子PLC 延时催款程序程序。 Plc程序代写服务。 西门子1200 PlC编程实例 西门子PlC延时催款程序。 非标行业是一个特殊的行业,面对设备发货到现场后迟迟不肯付款的和找各种理由拒绝搪塞验收的客户,必须的采取非常的手段,其中给设备加密定…

一部手机背后的小镇青年:吃着蜜糖、喝着毒药

吴宵愁这次终于在大年三十前赶回了家。父母见到回家过年的儿子既欢喜又愁闷——1990年出生的吴宵愁目前还没有女朋友。 在吴宵愁的山东农村老家,这个年纪没结婚就是老大不小的困难户,父母出门都觉得脸上无光。更何况,吴宵愁2018年还惹了大麻烦…

这6点解释了罗永浩为什么要卖艺

01 是的,我们的‘老赖又上热搜了。 (ps:还是传统的语法,换了个人而已,味道有点改变) 11 月 3 日下午,罗永浩因锤子科技的 375 万欠款被江苏丹阳法院限制高消费,他不得乘坐飞机头等舱、软卧、高铁…

防骗指南-披着交友恋爱的外衣,诱骗受害者赌博转钱

转自https://zhuanlan.zhihu.com/p/58012607 说来巧,昨天刚看了一篇关于“东南亚杀猪盘”的报道,晚上就有朋友在群里发了几张截图,如下 打开此人的朋友圈,各种家庭和睦,生活小康,还时不时秀秀自己的锥子…

硅谷银行破产!真相更可怕:美国疯狂薅全世界的羊毛

观点| Mr.K 主笔| Wendy.L 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 今天的故事先从一名高富帅开始说起。 这位高富帅出生于1983年,在美国电子工业和计算机业的王国硅谷。 家大业大的他,喜欢为创新科技企业提供金融服务&#xff…

辟谣、催债、倒闭.....2018年后,将再无创业黄金期!

导读 上下游没钱了,信贷机构没钱了,风险投资人也没钱了。中小企业成本和资金压力大,企业违约、到期没法还债,非银行金融机构爆雷、大量出问题,股市非理性下滑,所有人进入新一轮升级性迷茫。由于各项成本的抬…