GPT系列的总结以及GPT4

GPT系列是OpenAI的一系列预训练文章,GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。 最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

2023年3月27日,OpenAI 宣布发布其最新的大型语言模型 GPT-4。该模型是一个大型多模态模型(large multimodal model ),可以接受图像和文本输入并生成文本输出。GPT-4 标志着人工智能领域的一个重要里程碑,尤其是在自然语言处理领域。 

历代GPT的发布时间,参数量以及训练量

模型发布时间层数头数词向量长度参数量预训练数据量
GPT-12018 年 6 月12127681.17 亿约 5GB
GPT-22019 年 2 月48-160015 亿40GB
GPT-32020 年 5 月9696128881,750 亿45TB

InstructGPT

2022 年 3 月---

13亿

-

GPT之前

从 2017 年谷歌的 Transformer开始,当前的自然语言 AI 革命只有在 transformer 模型的发明后才有可能。在此之前,文本生成是通过其他深度学习模型进行的,例如递归神经网络 (RNN) 和长短期 记忆神经网络 (LSTM)。 这些在输出单个单词或短语方面表现良好,但无法生成逼真的较长内容。

2018 GPT-1 

2018 年,OpenAI 发表了一篇论文(Improving Language Understanding by Generative Pre-Training),内容是使用他们的 GPT-1 语言模型进行自然语言理解。 该模型是概念验证,并未公开发布。

GPT 训练方法

以【单字接龙】的方式训练模型,训练的主要目的不是记忆而是学习,学习提问和回答的通用的规律

学到效果就是即使是从没有记忆过的提问,也可以从所学的规律中生成用户所要的回答

聊到GPT1,就不得不提到2019年谷歌团队提出得BERT了。BERT 的变换器方法是一项重大突破,因为它不是一种监督学习技术。 也就是说,它不需要昂贵的注释数据集来训练它。 BERT 被谷歌用于解释自然语言搜索(interpreting natural language searches),但是,它不能从提示中生成文本(generate text from a prompt)。

BERT 于GPT1从模型的角度上对比:

  1. GPT是单向模型,无法利用上下文信息,只能利用上文;而BERT是双向模型。
  2. GPT是基于自回归模型,可以应用在NLU和NLG两大任务,而原生的BERT采用的基于自编码模型,只能完成NLU任务,无法直接应用在文本生成上面。
  3. 同等参数规模下,BERT的效果要好于GPT。
     

NLP有2个核心的任务:分别是【自然语言理解—NLU】和【自然语言生成—NLG】

BERT, GPT 和ELMo模型结构之间比较

Transformer中Encode Self-attention的某层某个attention head的图

2019 GPT-2

次年,OpenAI 发表了另一篇关于他们最新模型 GPT-2 的论文(Language Models are Unsupervised Multitask Learners)。 

GPT-2模型在具有数百万网页的WebText 的新数据集上训练的。模型参数是15亿。此模型证明了在无监督的学习也是可以学习到zero-shot任务的下游任务。并且在8个测试语言建模数据集中的7个上取得了好的的结果,但模型仍然在WebText数据集上表现出欠拟合。

2020 GPT-3 

​2020 年,OpenAI 发表了另一篇关于他们的 GPT-3 模型的论文(Language Models are Few-Shot Learners)。GPT-3 拥有 1750 亿个参数。 该模型的参数是 GPT-2 的 100 倍,并且在更大的文本数据集上进行训练,从而获得更好的模型性能。GPT-3展示了扩大语言模型极大地提高了与任务无关的、多样本(few-shot)的性能,有时甚至可以与先前最先进的微调方法竞争。GPT-3在大多数语言任务中,不需要大型监督数据集来学习,只需要在推理的过程中提供少量的示例。在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解读单词,在 句子,或执行 3 位数算术。在所有的这些任务里,GPT-3没有任何梯度更新或微调,只给模型提供任务本身和多个示例(few-shot)。

论文中提到了Meta-learning,下图中Inner loop和outer loop一起就是元学习。In-context learning实在序列的推理中学习的。

 论文中也提到了多个示例效果比一个示例效果好,一个示例比没有示例要好。一般示例提供的越多越好。

 下图是zero-shot, one-shot,few-shot与传统的Fine-tuning的比较。Fine-tuning是需要训练的,模型要修改参数的。但是In-context learning不需要梯度更新,模型在推理的过程中学习示例中蕴含的逻辑。

GPT-3.5系列

GPT-3.5系列是一系列在2021第4季度之前根据混合文本和代码进行训练的模型。以下型号属于GPT-3.5系列:

  • code-davinci-002是一个基本模型,非常适合纯代码完成任务
  • text-davinci-002是一个基于code-davinci-002的InstructGPT模型
  • text-davinci-003是对text-davici-002的改进
  • gpt-3.5-turbo-0301是text-davinci-003的改进,针对聊天进行了优化

GPT-3.5-turbo*和ChatGPT的模型的关系

InstructGPT models

以 3 种不同方式训练的 InstructGPT 模型变体

SFT 和 PPO(Proximal Policy Optimization.)模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过所有的模型中提取最佳完成度来训练的。 模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPT 是 InstructGPT 的同级模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。 我们使用与 InstructGPT 相同的方法,使用人类反馈强化学习 (RLHF) 训练该模型,但数据收集设置略有不同。 ChatGPT 是从 GPT-3.5 系列中的一个模型微调而来的。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

训练方法

  • 第一步:收集范例数据,并以有监督方法训练。 贴标签者提供了输入提示分布(prompt distribution)上所需行为的范例。 然后,使用有监督学习在该数据集上微调预训练的 GPT-3 模型。
  • 第二步:收集对比数据,训练奖励模型(Reward model)。 收集了多个模型输出之间比较的数据集,贴标记者给同一个输入不同模型输出根据喜欢程度打分,组成一个对比数据集。 然后用这个数据集训练奖励模型。
  • 第三步:使用 PPO 针对奖励模型优化策略。 使用 RM奖励模型的输出作为标量奖励。 使用 PPO 算法微调监督策略以优化此奖励。

步骤2和步骤3可以不断迭代; 收集当前最佳策略的更多比较数据,用于训练新的 RM,然后训练新的策略。 在实践中,大部分比较数据来自监管的学习,也有一些来自PPO学习。

ChatGPT

总结:

  • ChatGPT的实质功能是单字接龙
  • 长文由单字接龙的自回归所生的
  • 通过提前训练才能让它生成人们想要的问答
  • 训练方式是让它按照问答范例来做单字接龙
  • 这样训练是为了让它学会【能举一反三的规律】
  • 缺点是可能混淆记忆,无法直接查看和更新所学,且高度依赖学习材料

ChatGPT 的三个训练阶段

  • “开卷有益”阶段:让ChatGPT对【海量互联网文本】做单字接龙,以扩充模型的词汇量,语言知识,世界的信息与知识。使ChatGPT从“哑巴鹦鹉”变成“脑容量超级大的懂王鹦鹉”。
  • “模版规范”阶段:让ChatGPT对【优质对话范例】做单字接龙,以规范回答的对话模式和对话内容。使ChatGPT变成“懂规矩的博学鹦鹉”。
  • “创意引导”阶段:让ChatGPT根据【人类对它生成答案的好坏评分】来调节模型,以引导它生成人类认可的创意回答。使ChatGPT变成“既懂规矩又会试探的博学鹦鹉”。

 利用优质对话范例再次利用单字接龙训练它。从而矫正不规范的回答。​

为什么一开始不直接用优质的对话范例训练模型呢? 一方面优质的对话数量有限,另一方语言多样性不足,无法学习广泛的语言规律。也无法涉猎到各个领域。还有一方面,优质对话范例都是需要人工专门标注,成本过高。​

 在超大规模中,GPT3展现了“理解”指令,理解例子和思维链。​

GPT-4 有什么新功能?

2023年3月27日,OpenAI 宣布发布其最新的大型语言模型 GPT-4。该模型是一个大型多模态模型(large multimodal model ),可以接受图像和文本输入并生成文本输出。GPT-4 是为了更好的遵循用户意图,更好的理解用户的问题,同时使其更真实并产生更少的冒犯性或危险输出。论文地址是这里。

1.性能改进

如您所料,GPT-4 在答案的事实正确性方面改进了 GPT-3.5 模型。 模型出现事实或推理错误的“幻觉(hallucinations)”数量较少,在 OpenAI 的内部事实性能基准测试中,GPT-4 的得分比 GPT-3.5 高 40%。

它还提高了“可操纵性(steerability)”,即根据用户请求更改其行为的能力。 例如,您可以命令它以不同的风格、语气或声音书写。 尝试以“你是一个喋喋不休的数据专家”或“你是一个简洁的数据专家”来开始提示,并让它向你解释一个数据科学概念。 您可以在此处阅读有关为 GPT 模型设计出色提示的更多信息。

进一步的改进是模型对护栏的依从性(adherence to guardrails)。 如果你要求它做一些非法或令人不快的事情,它最好拒绝这个请求。

2. 在 GPT-4 中使用视觉输入

一个主要变化是 GPT-4 可以使用图像输入(仅限研究预览;尚未向公众开放)和文本。 用户可以通过输入穿插的文本和图像来指定任何视觉或语言任务。

示例展示了 GPT-4 正确解释复杂图像的能力,例如来自学术论文的图表、模因和屏幕截图。

您可以在下面看到视觉输入的示例。

3. GPT-4 的性能基准


OpenAI 通过模拟为人类设计的考试来评估 GPT-4,例如Uniform Bar Examination和 LSAT,以及大学录取的 SAT。 结果表明,GPT-4 在各种专业和学术基准上达到了人类的水平。

OpenAI 还在为机器学习模型设计的传统基准测试中评估了 GPT-4,它优于现有的大型语言模型和大多数最先进的模型,这些模型可能包括特定于基准的制作或额外的训练协议。 这些基准包括 57 个科目的多项选择题、围绕日常事件的常识推理、小学多项选择科学问题等等。

OpenAI 通过使用 Azure Translate 将 MMLU 基准测试(一套涵盖 57 个主题的 14,000 个多项选择题)翻译成各种语言来测试 GPT-4 在其他语言中的能力。 在测试的 26 种语言中的 24 种中,GPT-4 的英语语言性能优于 GPT-3.5 和其他大型语言模型。

总体而言,GPT-4 更加扎实的结果表明 OpenAI 在开发具有越来越先进能力的 AI 模型方面取得了重大进展。

如何访问 GPT-4


OpenAI 正在通过 ChatGPT 发布 GPT-4 的文本输入功能。 ChatGPT Plus 用户目前可以使用它。 GPT-4 API 有一个候补名单。

图像输入功能的公开可用性尚未公布。

OpenAI 拥有开源的 OpenAI Evals,这是一个用于自动评估 AI 模型性能的框架,允许任何人报告其模型中的缺陷并指导进一步改进。

问题

ChatGPT和InstructGPT异同

ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。所以要搞懂ChatGPT,可以先读懂InstructGPT。

ChatGPT不是搜索引擎

ChatGPT在学习的过程中,并不是把学习材料保存在模型中,也不是根据模型和搜索引擎的搭配组成的结果。而是根据训练数据训练出一个通用模型来处理所有问题。生成全新回答。因此Chatgpt也被成为生成模型。

生成模型与搜索引擎对比

生成模型的长处:搜索引擎是没法给出没被数据库记忆的信息。但是生成语言模型可以生成数据即使是全新的信息。

生成模型的短板

1. 能混淆记忆

生成模型的短板是可能混淆记忆但是搜索引擎不会

2. 模型所记住的内容无法直接操作

2.1. 结果缺乏解释性

2,2.更新效率低

不能通过增删改查调整模型,只能通过再次训练来调整模型,但是再次训练后,效果如何?是否是矫枉过正或引入其它问题有的通过多次提问来评估。容易顾此失彼,效率低下。

chatgpt高度依赖数据。想让Chatgpt处理未经情况,必须提供数量多,种类丰富,质量高的材料。

否则它就无法学到通用规律,所学的模型是以偏概全的。

英文缩写名词

缩写名词全称注解
RLHFReinforcement Learning from Human Feedback
GPTGenerative Pre-Trained Transformer
LMsLanaguage Models
SFTSupervised fine-tuning on human demonstrations
PPOproximal policy optimizationProximal Policy Optimization (PPO) is presently considered state-of-the-art in Reinforcement Learning. The algorithm, introduced by OpenAI in 2017
RMreward model

参考资料

https://cdn.openai.com/papers/gpt-4.pdf

What is GPT-4 and Why Does it Matter? | DataCamp

GPT-4

https://arxiv.org/pdf/2203.02155.pdf

Research index

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24995.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【赠书:自己动手做聊天机器人】解析ChatGPT背后的工作原理

赠书方式见文末 作者:Marco Ramponi (选自Assembly AI) 来源:《机器之心》 编译(编辑:王强、蛋酱) 自 ChatGPT 发布以来,已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的…

2023火爆的11门编程语言

2023火爆的11门编程语言 对于我个人来说没有语言偏好,根据不同的应用领域和需求,不同的编程语言都有其独特的优势和适用性。无论使用何种语言只要能更好的实现需求,解决痛点问题,就是好语言。 那么各种语言应用的场景解决了哪些…

Windows运维的学习笔记(Win11)

1. 基本概念 Windows默认文件系统:NTFS 2. 快捷键 KeyDescriptionwinI打开系统设置ctrlshiftS打开截图功能ctrlshiftF在微软拼音输入法中切换简/繁体 Note 在Parsec远程会话中,win无法被发送至客户端,所以使用win的快捷键无法生效。 3. 窗…

R语言提取PDF表格数据#简单!!!

R语言提取PDF表格数据#简单!!! #需要用到pdftables包以及api号,api需要从https://pdftables.com网站注册申请api,一般申请后可以免费转50页pdf install.packages("pdftables") library("pdftables&qu…

uipath发送邮件 —— Send Outlook Mail Message

Send Outlook Mail Message 发送邮件 一、参数说明 1、Body : 需要发送的邮件内容 2、Subject : 需要发送邮件标题 3、MailMessage : 需要转发的邮件信息,此字段只允许类型是MailMessage的对象,若填写该项则上面的Email属性(Body、Subject)不会生效 …

清华大学学生程序设计竞赛暨高校邀请赛(THUPC)2023 - 初赛(待补题)

心得 看题跟榜比较无力,最终5h4题罚坐 M. 世界杯 输出China即可 K. 众数(前缀和) 最优策略是先取最大的数x,设其出现次数为cnt[x], 然后把小于x的数y每个取min(cnt[y],cnt[x]), 下一轮再取剩下的最大…

3月29日!中国AIGC产业峰会最新议程嘉宾名单公布!

组委会 发自 凹非寺量子位 | 公众号 QbitAI 这是信息量爆炸的一周,AIGC相关的新讯息持续涌现,不断冲击我们对人工智能的认知。 ChatGPT、Midjourney、Phenaki等一系列颠覆性的AIGC产品,正在改变我们的日常生活。 人人都在谈论这些新兴的AI产品…

科大讯飞高建清:「底座+能力+应用」是科大讯飞AIGC整体布局的三层架构

明敏 整理自 凹非寺量子位 | 公众号 QbitAI ChatGPT掀起AIGC浪潮后,关于它的影响,成为了行业内外最为热议的话题之一。 宏观的观点已不胜枚举:改变世界、AI的iPhone时刻…… 但如果回归到技术本质,它到底会带来哪些变革&#xff1…

“千模千测”——针对大语言模型认知能力的高效测试方法

©PaperWeekly 原创 作者 | 庄严、宁雨亭 单位 | 中国科学技术大学BASE课题组 论文标题: Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing Perspective 作者: Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Rui Lv, …

【烟雨星河】情绪哲学

目录 【情绪篇】 自信,自强,自我 诫己书 【哲学篇】 生命是什么? 序 时间浩大而渺远, 我站在时川之上 ,涛声滚滚,雨落惊雷。 总感觉在时间浪花里,得留下些什么。 仿佛应该是一些自己奇奇怪…

是在变好吗?

写这篇文章缘起于尹烨在节目中提到了他不喜欢大家说达尔文的学说是“进化论”,而更喜欢叫做“演化论”。 因为进化代表着越来越好,越来越进步;而演化只是在适应新的要求的变化,是合适的,但并不一定是在进步&#xff1b…

在弱肉强食的世界里,人类的美德意识为何能够超越其他物种?

来源:混沌巡洋舰 本文摘编整理自《人性悖论:人类进化中的美德与暴力》 中信出版集团 2022年6月 狭隘利他主义假设,战争可能导致自我牺牲,似乎只适用于其文化效应方面,而不能解释为进化上的选择力量。然而,该…

腾讯技术工程 2019 年十大最受欢迎文章出炉!

马上要过年了,大家是在回家的路上还是已经到家了?祝各位过一个好年,大鱼大肉吃个够,今天我们腾讯技术工程也给大家准备了点「精神食粮」。从 2019 年发布的近 300 篇文章中精挑细选出了十大最受欢迎文章,以供各位闲暇之…

腾讯游戏是如何使用Docker的

转自:http://www.infoq.com/cn/articles/how-tencent-game-use-docker 干货 | 腾讯游戏是如何使用Docker的? 作者 郭蕾 发布于 2015年8月15日 | 讨论 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单 腾…

好家伙,渣男基因被发现了?还能让直男变弯?

导读:“渣男基因被发现了!”这是怎么回事呢? 作者:宛平城外的胖子 来源:大数据DT(ID:hzdashuju) 01 渣男的必要条件:D4DR基因 上世纪末,耶路撒冷的理查德埃布…

2021金蝶全球创见者大会成功举办, 500强企业共话EBC数字战斗力

11月27日,由金蝶主办的“2021全球创见者大会”成功举办。大会以“用数字战斗力,向管理要效益”为主题,求索不确定时代,EBC如何帮助500强及中小企业拥抱数字战斗力,构建企业韧性。 据了解,金蝶全球创见者大…

复旦-华盛顿大学EMBA科创的奥E丨从《生命密码》看生命之趣

复旦大学-华盛顿大学EMBA项目【科创的奥E】读书栏目本期带来《生命密码》。      如果把地球的发展史浓缩到365天,人类的历史几乎可以忽略不计。虽然微生物渺小到要通过高倍显微镜才能窥见一斑,但是说它是地球之王并不过分。地球上的种种都由微生物构…

元账户层是进入Web3元宇宙的传送门

当前的 Web3.0 更像是一个有限集合,可见的元素仅有去中心化金融(DeFi)、去中心化创作者经济(NFT&Gamefi&Metaverse)、去中心化账户与身份(Connect Wallet)。可谓稀少,甚至没…

编程能够带来食物和水吗?

导言: 读完我这篇文章或许能让你颠覆认知,亦或许能让你深受启发,也或者你也有和我一样的想法…… 最近在回顾《黑客帝国》前三部,准备看第四部,你这个问题突然激发了我一些思考,觉得蛮有意思的&#xff0…

[2021年新鲜出炉]K8s工程师资料合辑,书籍推荐,面试题,精选文章,开源项目,PPT,视频,大厂资料

【推荐收藏】68道常见的Kubernetes面试题总结 本内容节选自:https://github.com/0voice/k8s_awesome_document 如果想学习更多关于云原生、K8s的知识,可以点击订阅更新,关注本Github。 跟大厂一起认识K8s Kubernetes 的概述—官方Kubernetes…