Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128909400

GPT、GPT-2、GPT-3:Generative Pre-trained Transformer,生成式预训练Transformer

  • Wiki: https://en.wikipedia.org/wiki/GPT-3

  • GPT-3 Demo: https://gpt3demo.com/

时间线:

  1. Transformer, 2017.6, Attention is all you need
  2. GPT, 2018.6, Improving Language Understanding by Generative Pre-Training: 使用Transformer的解码器,在没有标签的文本上,预训练模型
  3. BERT, 2018.10, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding: Bidirectional Encoder Representations from Transformers,Transformer的编码器
  4. GPT-2, 2019.2, Language Models are Unsupervised Multitask Learners: Transformer的解码器,Zero-Shot
  5. GPT-3, 2020.5, Language Models are Few-Shot Learners: 数据和模型都扩大100倍

GPT

Improving Language Understanding by Generative Pre-Training

  • 使用通用预训练,提升语言理解能力

Transformer比RNN的迁移更加稳定

算法框架:

  • Transformer解码器,带有mask进行训练

image-20230203180923529

微调:

image-20230203181524725

Transformer架构和训练目标:

  • 用于微调不同任务的输入转换
  • 我们将所有结构化输入转换为标记序列,以供我们的预训练模型处理,然后是 线性+softmax 层

四大任务:Start、Extract(抽取)、Delim(边界,delimiter)

  1. 分类:Classification,一句话或一段文本,预测一个标签
  2. 蕴含:Entailment,Premise -> Hypothesis,两段文本执行三分类,是否蕴含,即支持假设、不支持假设、既不支持也不反对假设。
  3. 相似:Similarity,对称关系,没有先后关系
  4. 多选:Multiple Choice,多选题,输出3个标量,最后做一个softmax

Transformer的结构是不会修改

image-20230203175955439

数据集:BooksCorpus数据集,BERT Base == GPT的参数,BERT Large (3.4亿参数) 是 BERT Base 的3倍,BERT的数据集是GPT4倍。

GPT-2

GPT2: Language Models are Unsupervised Multitask Learners

  • 语言模型是无监督的多任务学习器

数据集:BooksCorpus -> Wikipedia (BERT) -> WebText

Zero-Shot的设定

模型的泛化性,不好,Multitask Learning

数据构造:开始符(Start)、结束符(Delim)、分割符(Extract),输入形式更像语言

Prompt提示,例如:

  • translate to french, english text, french text
  • answer the question, document, question, answer

训练数据:

  • Common Crawl,公开爬取,信噪比较低
  • Reddit,排名靠前的新闻聚合网页
  • 读过有一定价值,4500个链接,800万个文本,40GB文字

最大15亿参数

image-20230206210101423

GPT-3

GPT3: Language Models are Few Shot Learners

  • 语言模型是少样本学习器

GPT3不做微调,不做梯度更新,可以生成新闻的文章。

image-20230206211312371

不需要更新任何权重,元学习(meta learning),上下文学习(in-context learning)

GPT参数,1750亿个参数

Zero-Shot、One-Shot、Few-Shot

image-20230206211633256

不做梯度更新(Fine-tuning):

  • 任务描述,翻译 => ,即prompt

image-20230206211754618

结构:参考Sparse Transformer

  • Generating long sequences with sparse transformers
  • 参考:NLP论文解读:Generating Long Sequences with Sparse Transformers

小模型用小batch size,大模型用大batch size,各级模型:

image-20230206212757159

Sparse Transformer

image-20230206213004854

Residual Block

image-20230206220427918

数据集:正类WebText2,负类Common Crawl,二分类清洗Common Crawl

image-20230206220155858

采样K个样本作为条件,二分类是True或者False,答案是自由,问答,Beam Search寻找答案。

计算量指数增加,验证loss线性下降

BERT是编码器,GPT是解码器,T5是编码器+解码器

GPT3生成的英文稿、问答。

模型的局限性(Limitations)

GPT3的文本生成比较弱,写一段比较好,GPT3是往前看,不能向后看,每一次预测下一个次,没有告诉哪个词比较重要,哪个词不重要。

只用文本,没有使用其他模态。

样本有效性比较低。

GPT3决策很难,模型解释性差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7097.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大学生用GPT-3写论文遭处罚!ChatGPT或引发学术圈大地震...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>Transformer微信技术交流群 转载自:新智元 | 编辑:Aeneas 【导读】ChatGPT出炉后,引发了学术界的大恐慌,写论文这么溜的AI机…

ChatGPT专业应用:制作AI视频

正文共 856字,阅读大约需要 7分钟 自媒体内容创作者必备技能,您将在7分钟后获得以下超能力: 1.制作AI数字人画像 2.使用AI生产内容视频 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并…

ChatGPT热中的冷思考

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

主机厂的“丈母娘思维”,迫使自动驾驶行业背离了“最优解” | 九章自动驾驶随笔之三...

交流群 | 进“传感器群/滑板底盘群/汽车基础软件群/域控制器群”请扫描文末二维码,添加九章小助手,务必备注交流群名称 真实姓名 公司 职位(不备注无法通过好友验证) 编辑 | 苏清涛 在需要“附庸风雅”、提升逼格的时候&#x…

互联网晚报 | B站将以播放时长代替播放次数;​“交个朋友”辟谣罗永浩已还清债务;苹果传统静音键被爆料将首次被取代...

B站将以播放时长代替播放次数 在B站14周年庆直播中,B站董事长兼CEO陈睿发表题为《很高兴遇见你》演讲。陈睿表示,播放分钟数比播放次数更能体现视频的质量,但是统计播放分钟数技术复杂度更高,成本更高。幸运的是,随着技…

数影周报:免费VPN泄露3.6亿条数据,句子互动获数百万美融资

本周看点:免费VPN泄露3.6亿条用户数据;推特信任与安全主管宣布辞职;宣亚国际宣布推出OrangeGPT;亚马逊日本将在关东地区开设两个新物流中心;句子互动完成数百万美元Pre-A轮融资...... 数据安全那些事 免费VPN泄露3.6亿…

万字报告拆解:Web3 浪潮风靡,NFT 找到新增长点,AIGC 如火如荼

划重点: 回顾2022年的科技圈,Web3浪潮风靡、XR逆势而行、新能源革新升级,AIGC爆发崛起,在这些新兴领域中,技术岗位需求持续增长,风险投资额依然增长强劲。 目前“NFT头像JPEG”成为行业入场者新的造富密码&…

3万字报告拆解:硅谷寒冬,投资人还在哪些赛道烧钱?|我在硅谷看未来

来源:腾讯科技 丨划重点 在全球疫情大考后,资本逐步回归理性,科技公司聚焦在更有价值和前景的领域。腾讯科技联合位于硅谷前线的创作者硅兔赛跑,总结2022年依旧发展火热的赛道,洞察科技的新风向: ①回顾202…

独立部署基于apiKey或accessToken的GPT聊天工具

最近chat-GPT的强大功能让人新潮澎湃,大家都在讨论,都想尝试一下。。。 奈何用不了!自己整整,内附具体步骤,如何用手机验证码注册,如何自己搭一个前端,nodejs后端,可以访问自己的GTP。 先上图: 自己搭的: 官网: 步骤一、用个代理 因为没这个无法访问GPT官网 忍…

怎样下载百度文库文章

百度文库的大部分文章都需要积分才能下载,并且无法复制,那么我们没有积分又想要复制或者下载百度文库的内容怎么办呢? 1.首先我们使用chrome浏览器打开文库地址。 2.然后我们右键选择打印。 然后我们在打印界面复制内容就可以了。

百度文库免费下载方法

百度文库免费下载方法 示例: 1.要下载的文档url地址: https://wenku.baidu.com/view/a1c77749ec3a87c24128c493?fromShare1 2.在url地址的baidu后面添加vvv 三个v http://wenku.baiduvvv.com/d/?urlhttp://wenku.baidu.com/view/a1c77749ec3a87c24128c…

如何下载百度文库的资料?

链接:https://pan.baidu.com/s/1KZ4yrTjNp3Bg1aT1iEyHOg 提取码:yvmj 使用方法 找到软件并打开软件。 将百度文库的文档链接输入到地址框即可,如下图。 下载完成后,在已下载中右击选择打开或者打开文件所在位置。 仅供个人学习…

百度文库下载地址

[1] baiduvvv: http://wenku.baiduvvv.com/doc/[2] V2EX: https://www.v2ex.com/t/552502[3] 文库免费下: http://www.ebuymed.cn/[4] 巴法下载:http://wenku.bemfa.com/[5] blpack: http://www.blpack.com/文章生成器

如何下载百度文库文章

https://wenku.baidu.com/view/30267c4df121dd36a32d82f0.html 在“baidu”后加入“vvv”,变成: https://wenku.baiduvvv.com/view/30267c4df121dd36a32d82f0.html 点击下载即可。

手把手教你下载百度文库原格式版本

百度文库是我们上学时候最早接触的一个网站,那个时候我们更多是在上面找课后答案。 百度文库里面收集了很多的资料,方便我们解锁的时候来下载,但是下载的时候现在动不动就需要会员,对于还是学生的我们,没有那么多的金…

教大家如何下载百度文库文档

百度文库中的大部分文档都需要下载劵,或者开通VIP才能下载,今天教大家如何快速免费的去下载百度文库中的付费文档! 话不多说,直接上干货! 1.首先我们先得找到所需要下载百度文库中的文档,比如想要下载一个…

百度文库 复制文本 下载文档

不说废话 点击进入全屏选中文本 Ctrl cCrtl v 至于下载文档,我们可以通过多次复制的间接方式达到 喜欢或对你有帮助,请点个赞吧 。 我的个人网站 --> 点击访问 。 END

百度豆丁文档免费下载神器

平常我们下载百度收费文档都需要VIP才能下载,这里推荐一款下载神器,下载百度文库文档及豆丁收费文档均可免费下载,分享给有需要的童鞋。(手机不可用)两种方式可任选一种都可使用,功能一样。 一、冰点 百度…

实用的技巧之免费下载百度文库VIP文章

对于百度文库,大家应该都不陌生,我们的好些资料,文献,习题,PPT等文件都可以在百度文库里找到,应有尽有,来自各方人士所发布的各种资料,眼花缭乱!对于应用的部分人来说&am…

帅某---技巧---如何免费下载百度文库、豆丁文库等其他文库的vip或者付费文章(不看后悔)?????

如何免费下载百度文库、豆丁文库等其他文库的vip或者付费文章????? 前些天狂bilibili的一些常识小技巧视频时候发现一个介绍免费试用百度文库、豆丁文库等各种文库各种付费、VIP文章的方法,后来忘记了。今…