独家 | ChatGPT工作原理:机器人背后的模型

8b589b7a734e370b17d1b085588fba9d.png

作者:Molly Ruby
翻译:张睿毅
校对:闫晓雨本文约3000字,建议阅读5分钟简要介绍让你耳朵听到起茧的聊天机器人背后的直觉和方法论。

b729990a118ccf788474409c57519e4e.png这篇对赋能ChatGPT的机器学习模型的简要介绍,将从大型语言模型(LLM)开始,进而探讨使GPT-3得到训练的革命性的自注意力机制 (self-attention mechanism),之后研究人类反馈强化学习 (Reinforcement Learning From Human Feedback, RLHF)——使ChatGPT与众不同的创新技术。

0feffb7f2c8306b076a60ecb5fcdc1a8.png

大型语言模型

ChatGPT是一类被称为大型语言模型 (LLM) 的机器学习自然语言处理模型的外推。LLM消化大量的文本数据并据此推断出文本中单词之间的关系。过去几年,计算能力的进步肉眼可见,这些模型也得到了发展。随着输入数据集和参数空间大小的增加,LLM的性能也在增强。

语言模型最基本的训练涉及预测单词序列中的单词。最常见的方法是下个标记预测 (next-token prediction) 和掩码语言建模 (masked-language-modeling, MLM)。

df539c34ee7e39735e85184a8ac54bdd.png

图1:作者对下个标记预测和掩码语言建模(MLM)的举例

通常利用长短期记忆 (LSTM) 模型进行序列建模,该模型根据给定上下文,用统计意义上最可能的词来填补空白。这种序列模型有两个主要限制:

1. 该模型无法赋予某些词更高的权重。在上面的例子中,虽然“阅读”可能最常与“讨厌”联系在一起,但在数据库中,“雅各布”可能是一名狂热的读者,那么模型就应该给“雅各布”比“阅读”更多的权重,选择“喜爱”而不是“讨厌”。

2. 输入的数据是一步一步连续处理的,而不是通过分析整体处理的。这意味着训练LSTM模型时,上下文窗口是固定不变的,仅涵盖单个输入,依次分步处理。这限制了词语间关系的复杂性和由此可推导出的内涵。

针对这个问题,2017年,谷歌大脑的一个团队引入了Transformer模型。与LSTM不同,它能同时处理所有输入数据。它采用自注意力机制,还可以在语句的任何位置针对输入数据的不同片段分配不同的注意力分数。这一特点使它为LLM注入灵魂,使之能捕捉更丰富的内涵,处理更大的数据集。

GPT 和自注意力机制

生成式预训练Transformer (GPT) 模型于2018年首次由OpenAI推出,名为GPT-1。这套模型迭代进化出2019年的GPT-2、2020年的GPT-3、最近2022年的InstructGPT和ChatGPT。在将人类反馈集成到系统的阶段之前,GPT模型进化的最大的进步是由计算效率方面的成就推动的。计算效率的提升,使GPT-3能接受比GPT-2多得多的数据训练,使其拥有更多样化的知识库,和执行更广泛任务的能力。

f08c9d1794fa1048000362a82c5595e8.png

图2: 作者对GPT-2(左)和GPT-3(右)的比较

所有GPT模型都利用了Transformer架构,这意味着它们有一个编码器来处理输入序列,一个解码器来生成输出序列。编码器和解码器都有一个多头自注意力机制,该机制允许模型对序列的不同部分进行不同的加权,以推断含义和上下文。此外,编码器利用掩码语言建模(MLM) 来理解单词之间的关系,并产生更易理解的反应。

驱动GPT的自注意力机制通过将标记(可以是单词、句子或其他文本分组的文本片段)转换为向量来工作,向量代表标记在输入序列中的重要性。该模型分四步做到这一点:

1. 为输入序列中的每个标记创建三个向量:“查询”、“键”和“值”。

2. 通过取两个向量的点积来计算步骤1中的“查询”向量与其他每个标记的“键”向量之间的相似性。

3. 通过将第2步的输出传入softmax函数来生成归一化的权重。

4. 通过将步骤3中生成的权重乘以每个标记的“值”向量,生成一个最终向量,代表标记在序列中的重要性。

GPT使用的“多头”注意力机制,是自注意力机制的进化版。该模型不是一次性执行步骤1到4,而是多次迭代此机制:每次 为“查询”、“键”和“值” 生成新的向量投影。通过以这种方式扩展自注意力,该模型能够掌握输入词语数据的潜在含义更复杂的关系。

ef9ad85a3929a63455e29c8f0748eb62.png 

d980bf43e456c9877b70ac16b8ff383d.png

图3: 作者从ChatGPT生成的截图。

尽管GPT-3在自然语言处理方面取得显著进步,但它在符合用户意图方面是能力有限的。例如,GPT-3可能会产生有以下性质的输出:

  • 缺乏帮助,意味着它们不遵循用户的明确指示。

  • 虚构事实,反映不存在的或不正确的事实。

  • 解释不通,使人难以理解模型是如何得出特定决策或预测的。

  • 有毒/有偏见,包含有害或冒犯性内容,传播错误信息。

ChatGPT中引入了新颖的训练方法,以解决标准版LLM的一些固有问题。

ChatGPT

ChatGPT是InstructGPT的衍生版,它引入了一种新的方法,将人类反馈纳入训练过程,以更好地使模型输出与用户意图保持一致。OpenAI 2022年的论文《训练语言模型以遵循人类反馈的指令》(Training language models to follow instructions with human feedback) 深入描述了人类反馈强化学习 (RLHF) ,下文将简述。

第一步: 监督微调 (SFT) 模型

第一步开发涉及通过雇用40名合同工创建监督训练数据集来微调GPT-3模型,其中输入具有供模型学习的已知输出。输入或提示是从实际用户输入到开放API中收集的。然后,标注员根据提示写出适当的回复,从而为每个输入创建已知输出。然后,GPT-3模型使用这个新监督数据集进行微调,以创建GPT-3.5,也称为SFT模型。

为了把提示数据集的多样性最大化,任何给定的用户ID只能有200条提示入围,任何共有较长相同前缀的提示也被删除。最后,所有含有个人身份信息 (PII) 的提示都被删除。

在汇总OpenAI API的提示信息后,标注员也被要求为那些有极少实际样本数据的几类提示手动创建样本提示,使提示数据集更丰富。包括:

  • 简单的提示:任何随机的提问。

  • 小样本提示:包含多个“查询/响应”对的指令。(注:相当于为某个题型写几个例题)

  • 基于用户的提示:指用户提供示例或指令来引导AI生成特定输出。

在生成回应时,标注员被要求尽力推断出用户的指令是什么。论文描述了提示请求信息的主要三种方式:

1. 直接式:"告诉我关于......"

2. 小样本式:给出两个关于某个主题的故事的例子,然后写一个关于同一主题的故事。

3. 续写式:给出一个故事的开头,然后完成它。

把OpenAI API的提示和标注员手写的提示汇编在一起,共产生了13,000个输入/输出样本,用于训练监督模型。

f2544e43140c662e4e9de17a762eb31a.png

图4: 图片(左)来自OpenAI发表于2022年的论文Training language models to follow instructions with human feedback。红字(右)为作者添加的额外内容。


第二步: 奖励模型

在第一步中训练完SFT模型后,该模型会对用户提示产生更符合要求的响应。下一步的改进是通过训练奖励模型来实现的,该模型的输入是一系列提示和响应,输出是一个名为“奖励”的标量。奖励模型的训练是为了利用强化学习(Reinforcement Learning),让模型学习如何产生输出以最大化其奖励值(见第三步)。

为了训练奖励模型,标注员会看到单个输入提示的4至9个SFT模型输出。他们被要求将这些输出从最佳到最差进行排名,并创建输出排名组合,如下所示。

c4a154c12548437b0220e0f7a80f0903.png

474b46040f42e277dfd8654db1705a9f.png

图5: 作者对响应排名组合的举例。

将每个组合作为一个独立的数据点纳入模型会导致过度拟合(无法推广到未见过的数据)。为解决这个问题,模型将每组排名作为一个批次数据点。

9942fabb1f25927f846c22a20a050596.png

6dff41024d4bcb6a50f7b9375f5982a6.png

图6: 图片(左)来自OpenAI发表于2022年的论文Training language models to follow instructions with human feedback。红字(右)为作者添加的额外内容。


第三步: 强化学习模型

在最后阶段,给模型提供一个随机提示并返回一个响应。该响应是使用模型在第二步学到的“策略”所产生的。该策略代表机器学习的目标,即最大化它的奖励。基于第二步开发的奖励模型会为提示和响应对算出一个奖励值。奖励会反馈到模型中,以升级策略。

2017年,Schulman等人介绍了近端策略优化(PPO),该方法用于更新模型的策略,每生成一个响应就会进行更新。PPO纳入了SFT模型的每个标记的Kullback-Leibler(KL)惩罚。KL散度测量两个分布函数之间的相似度,并惩罚极端距离。在这种情况下,使用KL惩罚以限制第二步奖励模型产生的响应与第一步中训练的SFT模型输出之间的距离,以避免过度优化奖励模型以及过度偏离人类意图数据集。

a7f7df1a453fc8b5265671167a088f86.png

2c59456b8cf5f2e2bf4290b87365ab08.png

Figure 7: 图片(左)来自OpenAI发表于2022年的论文Training language models to follow instructions with human feedback。红字(右)为作者添加的额外内容。

该过程的第二和第三步可重复迭代,但在实践中还没有广泛地这样做。

e96502e7f714b5388b8259881242a260.png

Figure 8: 作者从ChatGPT生成的截图。


模型评估

对模型的评估是用模型在训练期间从未见过的测试数据集来执行的。用该测试集进行一系列评估,以确定该模型是否比其前身GPT-3更能产生符合要求的回复。

帮助性:模型推理和遵循用户指令的能力。标注员在85±3%的时间里相比GPT-3更喜欢InstructGPT的输出。

真实性:控制模型出现虚幻内容的倾向。使用TruthfulQA数据集进行评估时,PPO模型产生的输出显示了真实性和信息量略有增加。

无害性:模型避免不适当的、贬低的和诋毁的内容的能力。使用RealToxicityPrompts数据集测试了无害性。该测试在三种状态下进行:

1. 模型被指示提供友好尊重的回复:导致有毒回复显著减少。

2. 模型被指示提供回复,没有任何关于尊重的设置:有害性没有明显变化。

3. 模型被指示提供有毒回复:回复实际上比GPT-3模型的更加有毒。

关于创建ChatGPT和InstructGPT所用方法的更多信息,请阅读OpenAI于2022年发表的原始论文Training language models to follow instructions with human feedback,https://arxiv.org/pdf/2203.02155.pdf。

42af569940d65c67b36506a9c604ac60.png

c94fc9d2b7bb170b38a42489ed22ee74.png

Figure 9: 作者从ChatGPT生成的截图。

祝学习愉快!

Sources

1. https://openai.com/blog/chatgpt/

2. https://arxiv.org/pdf/2203.02155.pdf

3.https://medium.com/r/?url=https%3A%2F%2Fdeepai.org%2Fmachine-learning-glossary-and-terms%2Fsoftmax-layer

4.https://www.assemblyai.com/blog/how-chatgpt-actually-works/

5.https://medium.com/r/url=https%3A%2F%2Ftowardsdatascience.com%2Fproximal-policy-optimization-ppo-explained-abed1952457b

原文标题:

How ChatGPT Works: The Model Behind The Bot 

原文链接:

https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286


A brief introduction to the intuition and methodology behind the chat bot you can’t stop hearing about.

编辑:于腾凯

校对:林亦霖

译者简介

728b41ab22e589e5cc45de560db56b55.jpeg

大家好,我是Felix 张睿毅。之前大家可能看过我翻译的文章。而现在我希望通过自身的一些创新,让越来越多人喜欢我翻译的文章。同时从学问上,我个人希望让大家看到管卫东老师和唐瑭老师所致力引入的“叶斯柏森语法体系”在英语翻译上的效果。我仅代表接受这个语法体系的学生,但是我准备好了。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

bb05862422dfeb32504d23961a134b8e.png

点击“阅读原文”拥抱组织

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22330.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python如何更换版本

Python如何更换版本 介绍 Python是一种广为使用的编程语言,它经常被用于开发各种软件、网站和应用程序。由于不同版本的Python可能会导致代码不兼容,因此在开发过程中更换Python版本是很常见的需求。本文将介绍如何更换Python版本。 检查当前版本 在…

【数据分析之道】数据分析导读

文章目录 专栏导读1、什么是数据分析?2、数据分析的应用3、数据分析的重要性4、数据分析基本流程总结 专栏导读 ✍ 作者简介:i阿极,CSDN Python领域新星创作者,专注于分享python领域知识。 ✍ 本文录入于《数据分析之道》&#xf…

对话丨周伯文:通用大模型如何突破垂直行业场景?

AGI大潮之下,通用大模型会给垂直行业领域带来哪些新的变化? 来源:AI科技评论 作者:王永昂 编辑:董子博 从京东离开后,周伯文已经很久没有这么兴奋了。 ChatGPT横空出世搅动乾坤,如同一声春雷惊醒…

AI编程时代,开发者路在何方?|开放原子开发者工作坊

AI 正颠覆人们的想象,重塑各行各业。AI 技术改变编程范式,有效提升开发者效率,可能人人有机会成为“10倍程序员”。在此发展趋势下,开发者不禁担心未来会不会被AI取代?随着 AI 编程时代来临,开发者需要掌握…

chatGPT和文言一心,我的看法

最近,ChatGPT-4和百度的文心一言,确实很火啊,尤其是下面的这个图,简直火遍了全网。 先说下,这类模型的一些看法。 1. 技术优势:这两个模型都采用了最先进的自然语言处理技术,如深度学习、神经网…

计算机笔试/面试常见逻辑题/智力题汇总

说明:按种类汇总,难度不分先后,做了分级罗列,方便后续扩充,大家有比较有意思的题目可以在讨论区讨论。 下面有的题题解相对复杂的直接参考了网上的一些解答,而有的题解我认为并不好的也做了补充&#xff0c…

CoT及ReAct解密与实战(三)

第8章 CoT及ReAct解密与实战 8.5 ReAct及计划和执行案例实战 我们来看一下LangChain的官方文档,首先它很简单的说了一下,计划和执行代理(Plan and execute agents)首先计划要做什么,然后执行子任务来实现目标,言外之意ReAct不是这样的,我们在ReAct中看见的内容是,有一步…

拿着ChatGPT给的攻略去看上海车展

选择合适的购车时机「如今人们买车已经渐趋理性,虽然会有很多人等到 『 五一 』 『 金九银十 l 买车,但也有很多人选择在车市的不同优葱时段购车,以获得更大的优惠,如大型车展期间、 6、 8 月的车市传统淡季等这些有较大优惠出现的…

推荐几个清北计算机系学霸的 IT 公众号!

学习如逆水行舟,不进则退;只有坚持不断的学习,才能保持进步。今天给大家精心挑选的这几个优质的公众号,在行业深耕已久,相信大家一定会有所收获,感兴趣的可以关注一下。 机器学习算法与自然语言处理 国内最大的机器学习…

211高校教授公然在聊天群中为其女基金项目“打招呼”!评论区炸了...

本文转载自:募格学术 | 参考资料:知乎、百度百科等 近日,一大学教授在聊天群中公开为其女儿基金项目“打招呼”的行为在网上引起热议,并迅速登上知乎热搜! 在400人的大群里直接点名“打招呼”,这算是学阀当…

ChatGPT可以写文章吗?来看看他对卷积神经网络的解释是否准确

文章目录 提问chatGPT的回答第一次回答第二次回答 结果 提问 chatGPT的回答 在回答时候由于字数限制它不能一口气输出全部结果,此时可以采用两种方法让它继续输出: 复制它的上一步回答给它,它会接着回复直接发送继续,它也会接着…

M1安装服务一条龙Mysql (解决PID的不存在的方法)

遇到的各种奇葩离谱问题 dev.mysql.com/downloads/mysql/,登入下载就行,下载这块最简单,就不详细说明了 首先注意一个点M1可以下载ARM,也可以X86,目前暂时不用考虑效率能用就行,5.7也可以用哈 然后下载完&…

GPT系列模型技术路径演进

目录 前言TransformerGPT-1BERTGPT-2GPT-3InstructGPT/ChatGPTGPT-4类ChatGPT产品Google Bard(诗人)facebook LLaMA(羊驼)复旦 MOSS清华 ChatGLM-6B/130B百度 文心一言 总结参考: 前言 人工智能发展的历程如上图所示,从基于规则统…

如何利用 GPT4创建引人注目的流程图

如何利用 GPT4创建引人注目的流程图 流程图是可视化复杂思想和过程的首选工具。然而,创建一个好的流程图可能需要很多时间。 在本文中,我将向你展示如何在不到一分钟的时间内使用ChatGPT(最好是GPT-4)创建令人惊叹的流程图。 生…

CSS3---选择器分类,最全版

目录 标签选择器(元素选择器) 类选择器 id选择器 通配符选择器 伪类选择器 链接伪类选择器 结构伪类选择器 目标伪类选择器 标签选择器(元素选择器) 标签选择器,是指用HTML标签名称作为选择器,按照标签名称分类,为某一类标签指定统一的…

ChatGPT已过时?Auto-GPT迅速走红,无需人类插手自主解决复杂任务,GitHub标星5万

来源: AI前线 微信号:ai-front 作者 | Luke Larsen ChatGPT 之所以能风靡全球,很大程度上要归功于其简单的功能框架。作为一款 AI 聊天机器人,它唯一的作用就是生成令人信服的自然语言文本、顺畅回应用户的提问。 但 AI 聊天机器人的使用体…

ChatGPT已过时?Auto-GPT迅速走红,无需人类插手自主解决复杂任务,GitHub标星5万...

来源:AI前线 作者:Luke Larsen 译者:核子可乐 策划:冬梅 ChatGPT 之所以能风靡全球,很大程度上要归功于其简单的功能框架。作为一款 AI 聊天机器人,它唯一的作用就是生成令人信服的自然语言文本、顺畅回应用…

telegram纯协议电报群发,自动加群,引流自动化解放双手*

全自动协议批量发送,一键简便操作,极大节省时间和精力。遇到问题时,日志自动诊断,整个过程无需人工干预。目前市场上功能最全面的国内外营销软件,吸引流量效果卓越!

智能黑白图像自动上色——C++实现

前言 《Colorful Image Colorization》是加里福利亚大学Richard Zhang发表在ECCV 2016上的文章,论文主要解决的问题是给灰度图的自动着色,算法并不是为恢复灰度图的真实颜色,而是用灰度图中物体的纹理、语义等信息作为线索,来预测…

解密银行客户经理展业利器系列一:商机共享、创收增长

2023年银行业面临存款、贷款、利润三大变局,与此同时,商业银行的数字化转型正延展至前台建设,期望通过科技手段布局应对,数字化重装身处一线的客户经理,带动单位时间创收提升,更有力地支撑银行业务战略发展…