GPT系列论文

目录

GPT

无监督预训练

有监督微调

 如何将模型应用于下游任务?

试验结果 

 GPT-2

摘要

Introduction

Approach

数据集&模型

 试验结果

GPT-3

核心点

名词解释

few-shot做法图示 

数据集


GPT

由无监督预训练+有监督微调组成

  • 无监督预训练

  • 有监督微调

  •  如何将模型应用于下游任务?

做法是在Transformer输出层后增加线性层

  • 试验结果 

 GPT-2

论文:Language Models are Unsupervised Multitask Learners

注:标题里的多任务学习是指模型同时在NLP中的多个任务上进行学习

  • 摘要

用了 WebText,有百万级别的文本,最大的 GPT-2 模型有 1.5B 参数。

本文的主要卖点是 zero-shot。

  • Introduction

之前主流任务都是在一个任务上收集一个数据集,然后来训练。这是因为,当前模型的泛化性都不是很好。Bert和GPT提出后,主流是在大的数据集上进行预训练,然后对子任务再 fine-tune。这仍然有两个问题:

  • 在子任务上还是需要重新训练模型
  • 需要针对子任务收集数据集,这导致,模型在扩展到新任务时开销是比较大的。

GPT-2 还是做语言模型,但是在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型

  • Approach

        GPT中,在微调的时候引入了开始符,间隔符等特殊符号,这些是模型在预训练时候没有见到过的(微调的时候会进行学习)。现在 GPT-2 要做的是 zero-shot,模型在做下游任务时不能进行微调,因此不能引入这些特殊符号,否则模型就会很困惑,输入的形式应该更像自然语言,和之前相似。

        这就引入了 prompt(McCann et al 2018年提出),用一些自然语言来充当一些符号的作用。

  • 比如翻译任务,可以写成一个序列:translate to french, english text, french text。这里既有明显的起始,分隔,又是正常的自然语言
  • 比如阅读理解任务,可以写成:answer the question, document, question, answer 。是同样的道理

为什么可以工作(可能):

  • 模型足够强大,能够理解提示符
  • 在文本里面,这样的话可能也很常见
  • 数据集&模型

数据:Common Crawl是一个网页抓取项目,抓取网页供大家下载。但是信噪比低,有些网页可能就是垃圾网页。因此最终使用了 Reddit(算是一些已经过滤好的网页),最后得到4500万个链接,最终的数据集有800w文本,40GB。

因为数据量很大了,因此可以设计更大的模型。一共设计了 4 个。

  •  试验结果

和别的zero-shot方法比,性能是提升的

在NLP的一些任务上还不错,一些任务上差一些。但是随着模型大小的增加,性能还是呈上升的趋势。

GPT-3

论文:Language Models are Few-shot Leaners

  • 核心点

  • 采用few-shot
  • 尽管few-shot会给少量带标签的样本,但GPT-3在预训练之后,不做任何的梯度更新or微调
  • 名词解释

  • meta-learning,元学习:作者取名不是很精确,作者大致意思是训练一个很大的模型,并且泛化性能还不错
  • in-context learning,上下文学习:在推理的时候,即使给一些带标注的样本,也不对模型权重进行更新或者微调。
  • few-shot做法图示 

图中的箭头叫做prompt(提示),告诉模型接下来该你输出了

  • 数据集

Common Crawl数据集量很大,但是大部分文章质量都比较低,因此需要进行处理

1.训练一个二分类模型(逻辑回归),redit数据集作为正例,Crawl数据集作为负例。训练好分类器之后对Common Crawl数据集做预测,如果预测偏正例的话就保留,如果预测偏负例的话就过滤掉。

2.去重,采用lsh算法判断两篇文章(两个集合)的相似性,去除相似度高的

3.增加已知的高质量数据集,比如BERT,GPT, GPT-2采用的所有数据集

 可以看到,虽然Common Crawl数据集tokens非常多,但在训练过程中的采用只占60%,即训练时不是平等对待每一个数据集的

InstructGPT

论文:Training language models to follow instructions with human feedback, 2022.03

训练主要是两大核心技术点

1. Instruct Tuning(指令微调)

2. 基于人工反馈的强化学习(Reinforcement learning from Human Feedback, RLHF)

ChatGPT

只有blog,没有官方论文,官方说和InstructGPT是兄弟模型

  • 训练

基本上分成三大步骤(具体是四步)

 预训练的一个大作用:

在多种语言上做预训练后,只要教某一种语言的某一个任务,大模型会自动学习其他语言的相同任务

四个详细步骤

1.预训练,学习文字接龙

         在推理时候,每一次输出是不同的,因此GPT的直接输出是概率分布,然后从概率分布中进行采样,概率大的词更容易被采样到,但每次并不是取概率最大的词作为输出

2. 人类老师引导文字接龙的方向

        不需要穷举,即不需要标注太多的符合人类理解的语句,每种问题提供一些正确范例就行了,因为在第一阶段预训练大模型其实也已经部分学习到这些了。

 3. 模仿人类老师的喜好

        ChrtGPT 的API之前已经公开,openAI收集了很多人类问题,因为ChatGPT是具有随机性的,因此同一个问题会输出多种答案,然后雇佣人类对每个问题的不同答案进行评分(人类老师不需要提供正确答案,只需要评分)

        接下来训练一个教师模型,来自动对每个问题的每个答案进行评分,从而让教师模型模仿人类的偏好

 4. 用强化学习RL向模仿老师学习

        将问题和chatGPT的回答一起输入到教师模型中,将教师模型输出的分数作为强化学习中的reward,调整chatGPT的参数,从而使得教师模型得到最大的reward。

 模型大小与训练集总结

模型发布日期模型参数大小训练集大小
GPT2018.117M (0.117B)1GB
GPT-220191.5B (1542M)40GB
GPT-32020175B570GB
InstructGPT2022.03
ChatPT2022
GPT-4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36199.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在云服务器上搭建个人版chatGPT及后端Spring Boot集成chat GPT

本文分成两部分,包括【国内服务器上搭建chat GPT】和【后端Spring Boot集成chat GPT】。 无论是在【国内服务器上搭建chat GPT】和【后端Spring Boot集成chat GPT】,两个方式都需要魔法访问,否则是无法正常使用的,即需要具备正常…

【实习生建议】ChatGPT给一名后端实习生的建议

你好呀!我是小易同学,一名普通的不能再普通的学习者。 作为一名大三的学生,我感觉当下国内的就业环境面临较大压力与挑战,于是我对ChatGPT发问,想请ta给我一些建议。 以下是ta给我的建议: 复述如下: 深入学…

将PC端的apk文件通过微信文件分享到手机,后缀名有.1

在PC端下载apk文件,通过微信文件分享传到手机端,在手机微信上可以看到此时传过来的文件后面多了.1的后缀,导致不能安装 怎样在手机文件管理中找到这个文件,并修改其后缀名,每次找路径都要找半天,今天找好了…

教你如何搭建培训机构-招生管理系统,demo可分享

1、简介 1.1、案例简介 本文将介绍,如何搭建培训机构-招生管理。 1.2、应用场景 根据意向信息站的收录信息,可批量导入意向信息,在意向信息站转为意向学员,转为意向学员后可进行报名收费成为正式学员。 2、设置方法 2.1、表单搭建…

教育培训机构如何利用小程序招生?

微信小程序依托微信10亿用户,基于微信强大的社交,开发成本低,营销推广成本低,入口多易推广的天然优势,应用场景也越来越广泛。那么,教育培训机构如何利用小程序实现客源推广,线上选课预约呢&…

基于微信小程序+SSM实现培训机构管理系统

作者主页:编程千纸鹤 作者简介:Java、前端、Pythone开发多年,做过高程,项目经理,架构师 主要内容:Java项目开发、毕业设计开发、面试技术整理、最新技术分享 项目编号:BS-XCX-010 一,项目简介 …

基于微信小程序的培训机构系统

随着社会的发展,社会的方方面面都在利用信息化时代的优势。互联网的优势和普及使得各种系统的开发成为必需。 本文以实际运用为开发背景,运用软件工程原理和开发方法,它主要是采用java语言技术和mysql数据库来完成对系统的设计。整个开发过程…

培训报名小程序实战开发

目录 1 需求描述2 原型绘制2.1 首页2.2 报名列表页2.3 报名页2.4 支付页面2.5 支付成功页面2.6 我的页面2.7 我的报名页面2.8 报名详情页面 3 数据源设计4 数据源开发5 创建模型应用6 录入测试数据7 创建自定义应用8 创建页面总结 经常有人问,低代码学习容易么&…

培训机构微信在线报名

培训机构微信报名系统 进入微信公众号,点击在线报名,进入在线报名的主页: 点击免费课程或是热门课程等,即可打开课程列表,界面如下: 点击对应一门课程,打开课程的详细界面进行报名,界…

微信小程序的培训机构课程报名系统

培训机构小程序的设计基于现有的手机,可以实现首页、个人中心、学员管理、教师管理、课程类型管理、课程信息管理、课程报名管理、课程退订管理、课程成绩管理、课程评价管理、留言板管理、系统管理等功能。方便教师和学员对首页、课程信息、课程资讯、我的等详细的…

北京电台“广播三下乡” 徐德亮演唱传统曲艺

中新网北京1月30日电 29日,北京电台“广播三下乡”活动在延庆刘斌堡村举行,北京电台主持人、相声演员徐德亮等为村民送上了精彩的演出。 徐德亮演出 北京电台供图 一到延庆刘斌堡村,北京电台主持人大帅和艾珂就迫不及待地帮着搬运大米和油&…

《大众摄影》四十年经典作品精选

《炼铁炉旁》   作者:华谷平   选自1958年第9期      《黎明钟声》1942年   作者:江波   选自1958年第10期      《冒雨奋战》1958年   作者:陈勃   选自1959年第1期      《在结婚登记处》195…

微商在微信营销的时候微信封号的原因是什么?

微信号被封可以说是做微信营销的噩梦,现在解封微信的限制比较多,而且流程很是繁琐,很多人因为操作不当造成微信号总是被封,那么究竟原因是什么呢?接下来,马找钱这篇问文章就和大家分享下微信老是被封的原因&#xff0…

Zebec Chain缘何能成为新晋应用链,熊市下又为何值得我们关注?

流支付生态 Zebec 正处于发展的火热阶段,Zebec此前于12月20日举办的为期3天的Web3.0 TechHive Summit 2022 大会,目前已经落幕,此次大会参会项目多达34个囊括了公链、钱包、DID、GameFi等多个主流行业赛道,并围绕行业安全、发展趋…

《ChatGPT:利用最先进的技术支撑多域作战》

来源:专知 本文约2000字,建议阅读5分钟 我们对ChatGPT带来的可能性感到兴奋。 ChatGPT是一个建立在GPT-3大型自然语言模型上的人工智能驱动的聊天机器人,自OpenAI于2022年11月推出以来,已经风靡全球。它是历史上增长最快的消费者应…

腾讯AI Lab绝悟团队夺冠Kaggle足球AI竞赛

感谢阅读腾讯AI Lab微信号第115篇文章。本文将介绍绝悟WeKick版本登顶首届谷歌足球Kaggle竞赛的内容。 Google Research 与英超曼城俱乐部在 Kaggle 平台上联合举办的 11v11 足球 AI 竞赛 Google Football 近日宣布最终结果:腾讯 AI Lab 绝悟 WeKick 版本&#xff0…

ChatGPT挑起的这场AI竞赛,有一个肮脏的秘密

来源:WIRED 作者:Chris Stokel-Walker 编译:库珀 将大型语言模型(LLM)整合到搜索引擎中,或意味着 5 倍的算力增长和巨大的碳排放。 2 月初,微软和谷歌相继宣布对其搜索引擎进行重大改革。 这两家…

NCT全国青少年编程能力等级测试教程(图形化编程、Python语言编程)

图形化编程 Python语言编程 蓝桥杯STEMA测评-python真题讲解6 蓝桥杯STEMA测评-python真题讲解6_哔哩哔哩_bilibili 工橙院大豪猪 工橙院大豪猪的个人空间_哔哩哔哩_Bilibili 蓝桥杯青少组Python竞赛真题讲解 蓝桥杯青少组Python竞赛真题讲解_哔哩哔哩_bilibili 蓝桥杯第13…

Go C画图 CSP-J信息学奥赛 2023.03.02、03 测试题

一、单项选择题 (共10题,每题1.5分,共计15分。每题有且仅有一个正确选项。) 1.在二进制下,1011001 ( ) 1100110。 A.1011 B .1101 …