从GPT-1到GPT-4看ChatGPT的崛起

整理了一下ChatGPT的发展历程、背后的技术原理,以及它的局限性在哪。(请注意:有部分内容来自于文内的参考资料,如有兴趣还请阅读原文,本文不构成任何投资建议或者对项目的推荐

*转载请扫码添加后台微信二维码,转载请注明来源,且附上本文的所有参考文献链接。

作者 |  阿法兔

ChatGPT是个啥?

*本文3900字左右

fbee8942ce8226f9ad9f68465fe0a8e5.png

ChatGPT是个啥?

近期,OpenAI 发布了 ChatGPT,是一个可以对话的方式进行交互的模型,因为它的智能化,得到了很多用户的欢迎。ChatGPT 也是OpenAI之前发布的 InstructGPT 的亲戚,ChatGPT模型的训练是使用RLHF(Reinforcement learning with human feedback)也许ChatGPT的到来,也是OpenAI 的GPT-4正式推出之前的序章。

什么是GPT?从GPT-1到GPT-3

Generative Pre-trained Transformer (GPT),是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。

2018年,GPT-1诞生,这一年也是NLP(自然语言处理)的预训练模型元年。性能方面,GPT-1有着一定的泛化能力,能够用于和监督任务无关的NLP任务中。其常用任务包括:

  • 自然语言推理:判断两个句子的关系(包含、矛盾、中立)

  • 问答与常识推理:输入文章及若干答案,输出答案的准确率

  • 语义相似度识别:判断两个句子语义是否相关

  • 分类:判断输入文本是指定的哪个类别

虽然GPT-1在未经调试的任务上有一些效果,但其泛化能力远低于经过微调的有监督任务,因此GPT-1只能算得上一个还算不错的语言理解工具而非对话式AI。

GPT-2也于2019年如期而至,不过,GPT-2并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计48层,参数量达15亿,学习目标则使用无监督预训练模型做有监督任务。在性能方面,除了理解能力外,GPT-2在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在“变得更大”之后,GPT-2的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了彼时的最佳性能。


之后,GPT-3出现了,作为一个无监督模型(现在经常被称为自监督模型),几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。而且,该模型在诸多任务上表现卓越,例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平,自动产生的文章几乎让人无法辨别出自人还是机器(仅52%的正确率,与随机猜测相当),更令人惊讶的是在两位数的加减运算任务上达到几乎100%的正确率,甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好,似乎让人们看到了通用人工智能的希望,可能这就是GPT-3影响如此之大的主要原因


GPT-3模型到底是什么?


实际上,GPT-3就是一个简单的统计语言模型。从机器学习的角度,语言模型是对词语序列的概率分布的建模,即利用已经说过的片段作为条件预测下一个时刻不同词语出现的概率分布。语言模型一方面可以衡量一个句子符合语言文法的程度(例如衡量人机对话系统自动产生的回复是否自然流畅),同时也可以用来预测生成新的句子。例如,对于一个片段“中午12点了,我们一起去餐厅”,语言模型可以预测“餐厅”后面可能出现的词语。一般的语言模型会预测下一个词语是“吃饭”,强大的语言模型能够捕捉时间信息并且预测产生符合语境的词语“吃午饭”。

通常,一个语言模型是否强大主要取决于两点:首先看该模型是否能够利用所有的历史上下文信息,上述例子中如果无法捕捉“中午12点”这个远距离的语义信息,语言模型几乎无法预测下一个词语“吃午饭”。其次,还要看是否有足够丰富的历史上下文可供模型学习,也就是说训练语料是否足够丰富。由于语言模型属于自监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无需标注即可作为训练数据。

由于GPT-3更强的性能和明显更多的参数,它包含了更多的主题文本,显然优于前代的GPT-2。作为目前最大的密集型神经网络,GPT-3能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的各位哲学家——预测生命的真谛。且GPT-3不需要微调,在处理语法难题方面,它只需要一些输出类型的样本(少量学习)。可以说GPT-3似乎已经满足了我们对于语言专家的一切想象。

注:上文主要参考以下文章:

1.GPT4发布在即堪比人脑,多位圈内大佬坐不住了!-徐杰承、云昭 -公众号51CTO技术栈- 2022-11-24 18:08

2.一文解答你对GPT-3的好奇!GPT-3是什么?为何说它如此优秀?-张家俊 中国科学院自动化研究所 2020-11-11 17:25 发表于北京

3.The Batch: 329 | InstructGPT,一种更友善、更温和的语言模型-公众号DeeplearningAI-2022-02-07 12:30

GPT-3存在什么问题?

但是 GTP-3 并不完美,当前有人们最担忧人工智能的主要问题之一,就是聊天机器人和文本生成工具等很可能会不分青红皂白和质量好坏,地对网络上的所有文本进行学习,进而生产出错误的、恶意冒犯的、甚至是攻击性的语言输出,这将会充分影响到它们的下一步应用。

OpenAI也曾经提出,会在不久的将来发布更为强大的GPT-4:

7dda4af5826912798ce8c595acaba4ef.jpeg

将 GPT-3 与GPT-4、 人脑进行比较(图片来源:Lex Fridman @youtube)

据说,GPT-4会在明年发布,它能够通过图灵测试,并且能够先进到和人类没有区别,除此之外,企业引进GPT-4的成本也将大规模下降。

db3cdf77867da92cf41f6685bd81a2e7.jpeg

ChatGP与InstructGPT

ChatGPT与InstructGPT

谈到Chatgpt,就要聊聊它的“前身”InstructGPT。

2022年初,OpenAI发布了InstructGPT;在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment research),训练出更真实、更无害,而且更好地遵循用户意图的语言模型 InstructGPT,InstructGPT是一个经过微调的新版本GPT-3,可以将有害的、不真实的和有偏差的输出最小化。

InstructGPT的工作原理是什么?

开发人员通过结合监督学习+从人类反馈中获得的强化学习。来提高GPT-3的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。

训练数据集以创建提示开始,其中一些提示是基于GPT-3用户的输入,比如“给我讲一个关于青蛙的故事”或“用几句话给一个6岁的孩子解释一下登月”。


开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应:

人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的GPT-3,将它变成InstructGPT以生成每个提示的现有响应。

下一步是训练一个模型,使其对更好的响应做出更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。

开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后,语言模型会生成响应,而奖励模型会给予相应奖励。PPO使用奖励来更新语言模型。

本段参考:The Batch: 329 | InstructGPT,一种更友善、更温和的语言模型-公众号DeeplearningAI-2022-02-07 12:30

重要在何处?核心在于——人工智能需要是能够负责任的人工智能

OpenAI的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等,在这些领域,社会偏见、错误信息和毒害信息存在都是比较麻烦的,能够避免这些缺陷的系统才能更具备有用性。

Chatgpt与InstructGPT的训练过程有哪些不同?

总体来说,Chatgpt和上文的InstructGPT一样,是使用 RLHF(从人类反馈中强化学习)训练的。不同之处在于数据是如何设置用于训练(以及收集)的。(这里解释一下:之前的InstructGPT模型,是给一个输入就给一个输出,再跟训练数据对比,对了有奖励不对有惩罚;现在的Chatgpt是一个输入,模型给出多个输出,然后人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式,这种策略叫做supervised learning,本段感谢张子兼博士)

702fb13b1f2befb0b331831e09327ced.jpeg

ChatGPT存在哪些局限性?

如下:

a) 在训练的强化学习 (RL) 阶段,没有真相和问题标准答案的具体来源,来答复你的问题。

b) 训练模型更加谨慎,可能会拒绝回答(以避免提示的误报)。

c) 监督训练可能会误导/偏向模型倾向于知道理想的答案,而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应

注意:ChatGPT 对措辞敏感。,有时模型最终对一个短语没有反应,但对问题/短语稍作调整,它最终会正确回答。训练者更倾向于喜欢更长的答案,因为这些答案可能看起来更全面,导致倾向于更为冗长的回答,以及模型中会过度使用某些短语,如果初始提示或问题含糊不清,则模型不会适当地要求澄清。

ChatGPT’s self-identified limitations are as follows.

Plausible-sounding but incorrect answers:

a) There is no real source of truth to fix this issue during the Reinforcement Learning (RL) phase of training. 

b) Training model to be more cautious can mistakenly decline to answer (false positive of troublesome prompts).

c) Supervised training may mislead / bias the model tends to know the ideal answer rather than the model generating a random set of responses and only human reviewers selecting a good/highly-ranked responseChatGPT is sensitive to phrasing. Sometimes the model ends up with no response for a phrase, but with a slight tweak to the question/phrase, it ends up answering it correctly.

Trainers prefer longer answers that might look more comprehensive, leading to a bias towards verbose responses and overuse of certain phrases.The model is not appropriately asking for clarification if the initial prompt or question is ambiguous.A safety layer to refuse inappropriate requests via Moderation API has been implemented. However, we can still expect false negative and positive responses.

参考文献:

1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9aee81287677

2.https://pub.towardsai.net/openai-debuts-chatgpt-50dd611278a4

3.https://openai.com/blog/chatgpt/

4.GPT4发布在即堪比人脑,多位圈内大佬坐不住了!-徐杰承、云昭 -公众号51CTO技术栈- 2022-11-24 18:08

5.一文解答你对GPT-3的好奇!GPT-3是什么?为何说它如此优秀?-张家俊 中国科学院自动化研究所 2020-11-11 17:25 发表于北京

6.The Batch: 329 | InstructGPT,一种更友善、更温和的语言模型-公众号DeeplearningAI-2022-02-07 12:30

【】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6714.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT常用prompts汇总

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

ChatGPT Prompt Engineering for Developers(面向开发人员的 ChatGPT 提示工程)资源汇总

ChatGPT Prompt Engineering for Developers(面向开发人员的 ChatGPT 提示工程)资源汇总 吴恩达老师上新课了《开发者的ChatGPT提示工程课程》。 官网地址: 链接地址为ChatGPT Prompt Engineering for Developers B站中英文字幕视频 01.…

太太太恐怖了!闲来无事测试了一下chatGPT,感觉人类危机要成真了!

太太太恐怖了!闲来无事测试了一下chatGPT,感觉人类危机要成真了!

留学论文写作中引用ChatGPT创建的内容会被允许吗?

【欧洲时报2月28日编译】在智能聊天机器人ChatGPT在全球掀起热潮之际,国际文凭组织(International Baccalaureate,下称IB)近日表示,学生可以在论文写作中引用ChatGPT创建的内容。 英国《卫报》报道,IB是A-l…

玩转ChatGPT:Transformer分类模型

一、写在前面 之前,我们介绍了Sklearn包以及Boost辈的各种分类模型,这些模型都很经典了,实际上也很强大,比如说Xgboost。 然而,近期随着ChatGPT的大火,其底层框架Transformer也逐渐火了,现在大…

ChatGPT进化的过程简介

Chat GPT可以做什么? 分点列条的回答问题 写代码或SQL 翻译 语法检查 ChatGPT官方还未公开论文,ChatGPT有一个“孪生兄弟”InstructGPT,InstructGPT有论文,可以根据InstructGPT论文推导ChatGPT的训练过程: ChatGPT的…

Chatgpt频繁“something went wrong”需要刷新的解决办法

问题描述: 使用Chatgpt问一两个问题或者过一段时间再提问就会出现下图: 需要频繁刷新,很影响体验。 解决办法: 【2023.4.23更新】 目前亲测可用的方法是在edge浏览器(火狐浏览器貌似也可以,chrome不可以…

【视频文稿】车载Android应用开发与分析 - 走进车载操作系统

本期内容的视频地址:https://www.bilibili.com/video/BV1rR4y1B7Qd/ Hello,各位好,我是一个做车载软件开发的软件工程师,之前在CSDN、稀土掘金这些平台上发表过一些车载应用方面的文章,期间得到了许多朋友的反馈。2023…

Midjourney|文心一格prompt教程[Text Prompt(下篇)]:游戏、实物、人物、风景、动漫、邮票、海报等生成,终极模板教学

Midjourney|文心一格prompt教程[Text Prompt(下篇)]:游戏、实物、人物、风景、动漫、邮票、海报等生成,终极模板教学 场景6:游戏 Prompt 真的越长越好吗? 按照 Midjourney 的官方文档里的说法&#xff0…

OpenAI开源3D模型生成器;IBM将推出AIGC平台Watsonx;百度正在内测文心千帆大模型平台丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 OpenAI开源3D模型生成器Shap-E 5月10日,OpenAI公开了其最新的开源模型Shap-E,这款创新型3D模型生成器能将描述性的文本转化为相应的3D模型。用户只需提供描述性的文本,就能生…

美团收购光年之外公司全部业务;工联院对大模型知识问答能力进行评测;图森未来计划出售美国业务;小i机器人发布华藏大模型丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 美团收购王慧文光年之外公司全部业务 6月29日,美团发布公告称:于2023年6月29日(交易时段后)订立交易协议,收购光年之外的全部权益。总代价包括现金233…

13岁青少年DAO创始人:Web3治好了我的“丧”

“我看大家都死气沉沉的,大家都站起来活动活动。” 4月,香港Web3嘉年华的一场沙龙,橙色针织帽给黑压压的现场带来一抹亮色,13岁的Carry Zheng戴着它登台,没有“大家好”的寒暄,直接向台下的成年人发出指令&…

从数据到应用 Web3不再纸上谈兵

继宣布拨款5000万港元加速推动Web3生态圈发展后,香港再次明确对Web3产业创新的支持。近日,香港Web3协会正式成立,创立Web3Hub基金,“东方之珠”正在大力推进第三代互联网的生态建设。 不仅仅是政策红利,ChatGPT等人工…

雷军谈人生低谷,刘强东“卸任”后“整顿”京东,AI 引领技术热潮 | 2022 科技圈那些事...

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 2023 年的钟声已经敲响,回顾 2022 年,新兴技术在蓬勃发展,热点趋势不断出现,在潜移默化中给我们工作、学习和生活带来了许多的变化。 这一…

一周 AIGC 丨全球最大 AIGC 收购案诞生,中国大模型独角兽折戟

同样是在 AIGC 赛道,MosaicML 被 Databricks 以 13 亿美元收购,相比上轮估值翻了 5 倍,创造迄今全球最大的生成式 AI 收购案。而在中国,最耀眼的大模型独角兽光年之外,被以 2.85 亿美元送给了美团,相比两个…

从关键新闻和最新技术看AI行业发展(2023.5.22-6.22第一期) |【WeThinkIn老实人报】

Rocky Ding WeThinkIn 写在前面 【WeThinkIn老实人报】是WeThinkIn的全新栏目,旨在整理&挖掘AI行业的关键新闻和最新技术,同时Rocky会对这些关键信息进行解读,力求让读者们能从容跟随AI科技潮流。也欢迎大家提出宝贵的优化建议&#xff0…

中国芯发展新模式:在高质量、高增长内需中发现机会并建立创新生态

北京华兴万邦管理咨询有限公司 刘朝晖 陈皓 集成电路产业从诞生开始历来都是全球化和生态化的行业。全球化是为了摊销其高额的研发费用和制造成本,以及不低的市场营销(试错)支出;而生态化是因为芯片行业本身并不面向最终用户&…

客观地说,应该看一看 Web3.0 了

武术圈有名言:“八极加劈挂,神鬼都害怕”。要是 Web3.0AGI 的话,世界将会变成什么样子? 数科星球原创作者丨苑晶编辑丨大兔 Web3.0 的价值开始受到重视,在最近,来自香港的好消息再次带火了这个领域的热度。…

CSDN参加欧洲最大开源盛会KubeCon,与全球开发者共促开源生态发展

4月18-21日, CSDN与来自全球超 1 万名的工程师、开发者一起参加了在荷兰阿姆斯特丹召开的 KubeConCloudNatvieCon Europe 2023 大会。 KubeConCloudNatvieCon被誉为“欧洲最大开源的盛会”。CSDN第一时间跟进了Kubernetes、云原生技术的最新进展,并与全球…

LLM论文周报|来自谷歌、华为、斯坦福大学、香港大学等机构前沿论文研究

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复…