什么是ChatGPT ?以及它的工作原理介绍

ChatGPT 是 OpenAI 的最新语言模型,比其前身 GPT-3 有了重大改进。与许多大型语言模型类似,ChatGPT 能够为不同目的生成多种样式的文本,但具有更高的精确度、细节和连贯性。它代表了 OpenAI 大型语言模型系列的下一代产品,其设计非常注重交互式对话。

创建者结合使用监督学习和强化学习来微调 ChatGPT,但正是强化学习组件使 ChatGPT 独一无二。创作者使用一种称为人类反馈强化学习 (RLHF) 的特殊技术,该技术在训练循环中使用人类反馈来最大限度地减少有害、不真实和/或有偏见的输出。

在了解 RLHF 的工作原理和了解 ChatGPT 如何使用 RLHF 来克服这些问题之前,我们将研究 GPT-3 的局限性以及它们如何源于其训练过程。最后,我们将研究这种方法的一些局限性。

#大型语言模型中的能力与对齐

“对齐与能力”可以被认为是“准确性与精确度”的更抽象的类比

在机器学习的上下文中,术语能力是指模型执行特定任务或一组任务的能力。模型的能力通常通过优化其目标函数的能力来评估,目标函数是定义模型目标的数学表达式。例如,设计用于预测股票市场价格的模型可能具有衡量模型预测准确性的目标函数。如果该模型能够准确预测股票价格随时间的变化,则可以认为它具有完成此任务的高水平能力。

另一方面,对齐关注的是我们实际希望模型做什么而不是训练它做什么。它问的问题是“目标函数是否符合我们的意图?” 并指模型的目标和行为与人类价值观和期望相一致的程度。举一个简单的具体例子,假设我们训练一个鸟类分类器将鸟类分类为“麻雀”或“知更鸟”,我们使用对数损失(衡量模型预测概率分布与真实分布之间的差异)作为训练客观的,即使我们的最终目标是高分类精度。该模型可能具有低对数损失,即模型的能力高,但准确性差在测试集上。事实上,对数损失与分类任务的准确性并不完全相关。这是一个错位的例子,模型能够优化训练目标,但与我们的最终目标不一致。

像原始 GPT-3 这样的模型未对齐

大型语言模型(例如 GPT-3)根据来自互联网的大量文本数据进行训练,能够生成类似人类的文本,但它们可能并不总是产生与人类期望或理想值一致的输出。事实上,他们的目标函数是单词序列(或标记序列)的概率分布,使他们能够预测序列中的下一个单词是什么(下面有更多详细信息)。

然而,在实际应用中,这些模型旨在执行某种形式的有价值的认知工作,并且这些模型的训练方式与我们希望使用它们的方式之间存在明显差异。尽管从数学上讲,机器计算出的单词序列的统计分布可能是对语言建模的一种非常有效的选择,但作为人类,我们通过选择最适合给定情况的文本序列来生成语言,并使用我们的背景知识和常识来指导这个流程。当语言模型用于需要高度信任或可靠性的应用程序(例如对话系统或智能个人助理)时,这可能会成为一个问题。

虽然这些强大、复杂的模型在过去几年中经过大量数据训练变得非常有能力,但当用于生产系统以使人类生活更轻松时,它们往往无法发挥这种潜力。Large Language Models 中的对齐问题通常表现为:

  • 缺乏帮助:不遵循用户的明确指示。

  • 幻觉:模型编造了不存在的或错误的事实。

  • 缺乏可解释性:人类很难理解模型是如何做出特定决定或预测的。

  • 生成有偏见或有毒的输出:在有偏见/有毒数据上训练的语言模型可能会在其输出中重现该结果,即使没有明确指示这样做。

但是这个对齐问题具体是从哪里来的呢?语言模型的训练方式是否天生就容易出现错位

#语言模型训练策略如何产生错位

Next-token-prediction并且masked-language-modeling用于训练语言模型的核心技术,例如transformers。在第一种方法中,模型被赋予一个单词序列(或“标记”,即单词的一部分)作为输入,并被要求预测序列中的下一个单词。例如,如果给模型输入句子

“猫坐在上面”

它可能会预测下一个词为“mat”“chair”“floor”,因为在给定先前上下文的情况下,这些词出现的可能性很高;语言模型实际上能够估计给定先前序列的每个可能单词(在其词汇表中)的可能性。

掩码语言建模方法是下一个标记预测的变体,其中输入句子中的某些单词被替换为特殊标记,例如[MASK]. 然后要求模型预测应该插入的正确单词来代替掩码。例如,如果模型给出了句子

[MASK]坐在”

作为输入,它可能会将下一个单词预测为“cat”“dog”“rabbit”

这些目标函数的一个优点是它允许模型学习语言的统计结构,例如常见的单词序列和单词使用模式。这通常有助于模型生成更自然、更流畅的文本,是每个语言模型预训练阶段必不可少的一步。

然而,这些目标函数也会导致问题,本质上是因为模型无法区分重要错误和不重要错误。举个很简单的例子,如果给模型输入句子:

[MASK]“奥古斯都统治下的罗马帝国。”

它可能会预测“开始”“结束”,因为这两个词出现的可能性都很高(事实上,这两个句子在历史上都是正确的),即使第二个选择意味着非常不同的含义。

更一般地说,这些训练策略可能会导致语言模型在某些更复杂的任务中出现偏差,因为仅经过训练以预测文本序列中的下一个词(或掩码词)的模型可能不一定会学习一些其含义的更高层次的表示。因此,该模型难以泛化到需要更深入地理解语言的任务或上下文。

研究人员和开发人员正在研究各种方法来解决大型语言模型中的对齐问题。ChatGPT 基于原始的 GPT-3 模型,但经过进一步训练,使用人工反馈来指导学习过程,具体目标是减轻模型的错位问题。所使用的具体技术,称为从人类反馈中强化学习,是基于先前的学术研究。ChatGPT 代表了第一个将这种技术用于生产模型的案例

但是,ChatGPT 的创建者究竟是如何利用人类反馈来解决对齐问题的呢?

#从人类反馈中强化学习

该方法总体上由三个不同的步骤组成:

  1. 有监督的微调步骤:预训练语言模型在标记者策划的相对少量的演示数据上进行微调,以学习从选定的提示列表生成输出的监督策略SFT 模型)。这表示基线模型。

  1. “模仿人类偏好”步骤:标注者被要求对相对大量的 SFT 模型输出进行投票,这样就创建了一个由比较数据组成的新数据集。在此数据集上训练了一个新模型。这称为奖励模型 (RM)

  1. Proximal Policy Optimization (PPO) 步骤:奖励模型用于进一步微调和改进 SFT 模型。这一步的结果就是所谓的政策模型

第一步只发生一次,而第二步和第三步可以不断迭代:在当前最好的策略模型上收集更多的比较数据,用于训练新的奖励模型,然后训练新的策略。

现在让我们深入了解每个步骤的细节!

注意:本文的其余部分基于InstructGPT 论文的内容。根据 OpenAI 的说法,ChatGPT 已经“使用与 InstructGPT 相同的方法进行训练,但数据收集设置略有不同”来源)。不幸的是,ChatGPT 的确切定量报告尚未公开。

第 1 步:监督微调 (SFT) 模型

第一步包括收集示范数据以训练监督政策模型,称为 SFT 模型。

  • 数据收集:选择提示列表,并要求一组人工标记者写下预期的输出响应。对于 ChatGPT,使用了两种不同的提示来源:一些是直接从贴标者或开发人员准备的,一些是从 OpenAI 的 API 请求(即来自他们的 GPT-3 客户)中采样的。由于整个过程缓慢且昂贵,结果是一个相对较小的高质量精选数据集(大概有大约 12-15k 个数据点),用于微调预训练语言模型。

  • 模型选择:ChatGPT 的开发人员没有微调原始 GPT-3 模型,而是选择了所谓的GPT-3.5 系列中的预训练模型。据推测,使用的基线模型是最新的text-davinci-003,一个 GPT-3 模型,主要在编程代码上进行了微调。

因此,非常有趣的是,为了创建像 ChatGPT 这样的通用聊天机器人,开发人员决定在“代码模型”而非纯文本模型之上进行微调。

由于此步骤的数据量有限,在此过程之后获得的 SFT 模型可能会输出仍然(概率上)不是很受用户关注的文本,并且通常会出现上文所述意义上的错位。这里的问题是监督学习步骤的可扩展性成本很高

为了克服这个问题,现在的策略是让贴标签者对 SFT 模型的不同输出进行排序以创建奖励模型,而不是要求人工贴标签者创建一个更大的精选数据集,这是一个缓慢且昂贵的过程——让我们更详细地解释这一点下节详述。

第二步:奖励模型(RM)

目标是直接从数据中学习目标函数(奖励模型) 。此函数的目的是为 SFT 模型输出打分,与这些输出对人类的期望程度成正比。在实践中,这将强烈反映选定的人类标签组的特定偏好以及他们同意遵循的共同准则。最后,这个过程将从数据中提取一个应该模仿人类偏好的自动系统。

它是这样工作的:

  • 选择提示列表,SFT 模型为每个提示生成多个输出(4 到 9 之间的任意位置)。

  • 贴标签者将输出从最好到最差排序。结果是一个新的标记数据集,其中排名是标签。该数据集的大小大约是用于 SFT 模型的精选数据集的 10 倍。

  • 此新数据用于训练奖励模型 (RM)。该模型将一些 SFT 模型输出作为输入,并按优先顺序对它们进行排序。

图改编自来源

对于贴标机来说,对输出进行排序比从头开始生产要容易得多,这个过程可以更有效地扩大规模。在实践中,这个数据集是从 30-40k 提示的选择中生成的,并且在排名阶段将可变数量的生成输出(对于每个提示)呈现给每个标签器。

第 3 步:通过近端策略优化 (PPO) 微调 SFT 模型

强化学习现在用于通过优化奖励模型来微调 SFT 策略。使用的特定算法称为近端策略优化(PPO),微调后的模型称为 PPO 模型。

什么是 PPO?以下是此方法的主要要点:

  • PPO 是一种用于在强化学习中训练代理的算法。之所以称为“on-policy”算法,是因为它直接从当前策略中学习和更新,而不是像 DQN(深度 Q 网络)这样的“off-policy”算法中那样从过去的经验中学习。这意味着 PPO 会根据代理正在采取的行动和收到的奖励不断调整当前策略。

  • PPO使用信任域优化的方法来训练策略,这意味着它将策略的变化限制在与先前策略的一定距离内,以确保稳定性。这与其他策略梯度方法形成对比,后者有时会对可能破坏学习稳定性的策略进行大量更新。

  • PPO 使用价值函数来估计给定状态或动作的预期回报。价值函数用于计算优势函数,它表示预期收益与当前收益之间的差异。然后使用优势函数通过比较当前策略采取的操作与先前策略将采取的操作来更新策略。这使 PPO 可以根据所采取行动的估计价值对政策进行更明智的更新。

在这一步中,PPO模型是从SFT模型初始化的,价值函数是从奖励模型初始化的。该环境是一个bandit 环境,它呈现随机提示并期望对提示做出响应。给定提示和响应,它会产生一个奖励(由奖励模型决定)并且这一集结束。每个代币的SFT 模型都添加了每个代币的KL 惩罚,以减轻奖励模型的过度优化。

图改编自来源

#绩效评估

因为该模型是在人工标注者输入上训练的,所以评估的核心部分也是基于人工输入,即它通过标注者对模型输出的质量进行评分来进行。为避免训练阶段涉及的标注者的判断过度拟合,测试集使用来自保留的 OpenAI 客户的提示,这些提示未出现在训练数据中。

该模型根据三个高级标准进行评估:

  • Helpfulness:判断模型遵循用户指令的能力,以及推断指令的能力。

  • Truthfulness:判断模型对封闭域任务产生幻觉(编造事实)的倾向。该模型在TruthfulQA 数据集上进行评估。

  • 无害性:标注者评估模型的输出是否合适,是否诋毁受保护类,或包含贬损内容。该模型还在RealToxicityPromptsCrowS-Pairs数据集上进行了基准测试。

该模型还评估了传统 NLP 任务(如问答、阅读理解和摘要)的零样本性能,开发人员在其中一些任务上观察到与 GPT-3 相比的性能回归。这是一个“校准税”的例子,其中基于 RLHF 的校准程序是以降低某些任务的性能为代价的。

这些数据集的性能回归可以通过称为预训练混合的技巧大大减少:在通过梯度下降训练 PPO 模型期间,通过混合 SFT 模型和 PPO 模型的梯度来计算梯度更新。

#该方法的缺点

正如InstructGPT 论文(根据其创建者所说,ChatGPT 正是基于该论文)所讨论的,该方法的一个非常明显的局限性是,在将语言模型与人类意图对齐的过程中,用于微调模型的数据受到各种错综复杂的主观因素的影响,包括:

  • 生成演示数据的标记者的偏好。

  • 设计研究和编写标签说明的研究人员。

  • 选择由开发人员制作或由 OpenAI 客户提供的提示。

  • 标记者偏差既包含在奖励模型训练(通过对输出进行排名)中,也包含在模型评估中

作者特别指出了一个明显的事实,即参与训练过程的标注人员和研究人员可能无法代表语言模型的所有潜在最终用户。

除了这个明显的“内在”限制之外,我们还想指出该方法的其他一些可能的缺点、未明确解决的问题以及一些悬而未决的问题:

缺乏控制研究报告的结果衡量最终 PPO 模型的性能,以 SFT 模型为基线。这可能会产生误导:我们怎么知道改进实际上是由于 RLHF?一项适当的(但昂贵的)对照研究将包括投入与用于训练奖励模型的标记工时数完全相同的时间,以创建具有高质量演示数据的更大的精选 SFT 数据集。然后,人们就可以客观地衡量 RLHF 方法与监督方法相比的性能改进。简单来说,缺乏这样的控制研究让一个基本问题完全悬而未决:RLHF 在对齐语言模型方面真的做得很好吗?

比较数据缺乏基本事实:标注者通常会对模型输出的排名持不同意见。从技术上讲,风险是在没有任何基本事实的情况下向比较数据添加高潜在方差。

人类偏好并不是同质的:RLHF 方法将人类偏好视为同质和静态的。假设所有人都拥有相同的价值观显然是一种延伸,至少在人类知识的大量主题上是这样。最近的一些研究开始以不同的方式解决这个悬而未决的问题。

奖励模型 (RM) 的提示稳定性测试:似乎没有实验调查奖励模型在输入提示变化方面的敏感性。如果两个提示在句法上不同但在语义上是等价的,RM 能否在模型输出的排名中显示出显着差异?简单来说,提示的质量对 RM 有多重要?

Wireheading 类型的问题:在 RL 方法中,模型有时可以学习操纵自己的奖励系统以获得预期的结果,从而导致“过度优化的策略”。这可以推动模型重新创建一些模式,这些模式由于某种未知原因使奖励模型得分高(请参阅OpenAI 这篇论文中的表 29 ,了解语言建模中这种行为的明确示例)。ChatGPT 在奖励函数中使用 KL 惩罚项对此进行了修补。请注意,有人试图优化 RM输入(即 PPO 输出)以提高其输出(奖励分数),同时限制输入本身与某些参考输入不太远(SFT 输出)。在最近的预印本中详细介绍了这种方法的局限性。

#进一步阅读的精选参考资料

  • 关于用于 ChatGPT 的 RLHF 方法最相关的论文是训练语言模型以遵循带有人类反馈的指令,它实际上详细介绍了一个名为 InstructGPT 的模型,OpenAI 将其称为 ChatGPT 的“兄弟模型”。

  • Anthropic 发表了一份关于 RLHF 方法的有效性的详细研究,用于微调语言模型以充当有用和无害的助手。

  • Learning to summarize from Human Feedback论文在文本摘要的背景下描述了 RLHF。

  • 近端策略优化:PPO 算法论文。

  • 根据人类偏好进行深度强化学习——是最早在 Atari 游戏的背景下在 RL 中使用人类反馈的(深度学习)论文之一。

  • DeepMind 在SparrowGopherCite论文中提出了 OpenAI 的 RLHF 的替代方案。

  • Anthropic 的一篇(长篇)论文深入探讨了语言模型的对齐问题。这是Sam Ringer 的精彩总结。Anthropic 也有一个 RLHF 的开源存储库(附带论文)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2897.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT 未来的前景以及发展趋势

当谈到ChatGPT的未来和发展趋势时,需要考虑人工智能技术以及文本生成和交互的迅速发展。在这方面,ChatGPT的前景非常有希望,因为它是一种迄今为止最先进的人工智能技术之一。 ChatGPT是一种基于机器学习的自然语言处理技术,它能够…

2023年Chat GPT 应用前景分析

从2022年12月初刚上线至今,不到半年时间ChatGPT月活就超过了1亿用户!可谓火的一塌糊涂,比尔盖茨都称:ChatGPT的历史意义重大,不亚于PC或互联网诞生。以至于ChatGPT官网长期都处于满负荷运转的状态! 由于Ch…

来聊一聊关于ChatGPT的发展前景的问题

ChatGPT是一种基于深度学习的语言模型,可以自动化生成人类语言的文本。近年来,ChatGPT技术得到了广泛应用,并且在人机交互、自然语言处理、虚拟客服、智能写作等领域具有很大的发展前景。本文将从以下三个方面探讨ChatGPT的发展前景。 ChatG…

如何有效利用chatgpt?

如何有效地使用ChatGPT? 代码、诗歌、歌曲和短篇小说都可以由 ChatGPT 以特定的风格编写。您所需要的只是正确的问题和适当的提示。以下是有关如何有效使用ChatGPT的一些提示和想法: 头脑 风暴获取初稿解决编码问题尝试不同的提示格式查找标题寻求帮助…

结合ChatGPT制作PPT

今天看到圈友的一个AI分享,然后自己本身需要做一个分享的PPT。刚好那着帖子实战一下。先说下整体感受。 优点:制作成本确实会比较低,很熟练的话大概就是1分钟一个都有可能。整体流程是先找个第三方PPT制作网站,看下支不支持文本转…

如何使用 ChatGPT 进行教学,教师可以利用 ChatGPT 的 5 种方式

我们听说过很多关于学生如何使用 ChatGPT 撰写论文和布置家庭作业的信息。 我们一直在讨论围绕这个问题的担忧,并争先恐后地为 ChatGPT 寻找 AI 检测工具,据传 OpenAI 也在致力于此。 但是关于教师如何将 ChatGPT 用于他们自己的工作的讨论并不多。 在从教师的角度对 Chat…

ChatGPT多场景应用之基本应用

人工智能(AI)无疑是近年来最流行和最先进的技术之一。生成式 AI模型正在促进众多任务,实现效率和自动化。目前,ChatGPT是风靡互联网的主要生成人工智能模型。据 Similar Web 称,自 2022 年 11 月发布以来,其…

部署像ChatGPT这样的大语言模型,到底要花多少钱?

本文来源 AI前线 作者 | Skanda Vivek 编译 | 刘燕,核子可乐 LLM “经济学”:ChatGPT 与开源模型,二者之间有哪些优劣权衡?谁的部署成本更低? 太长不看版:对于日均请求在 1000 次左右的低频使用场景&…

震撼揭秘:ChatGPT流式返回的黑科技,颠覆您的交流世界!

点击上方“阿三先生”↑↑↑关注我 开发在使用gpt的过程中,我们知道gpt的响应是很慢的,如果是商用过程中,会使用户等待不耐烦,直接放弃产品。在对话过程中,及时的交互是很有必要的。 所以我们可以使用gpt的流式进行响…

如何用ChatGPT制作PPT?

作为程序员的我们,还在为不会写PPT述职报告而烦恼吗? 别担心!!让ChatGPT来帮我们吧!! 你只需要对只ChatGPT说:“嘿,请帮我写一份PPT演示文稿”,等待10秒ChatGPT即可帮我…

借助国内ChatGPT平替+剪映/百度AIGC平台快速制作短视频

系列文章目录 借助国内ChatGPT平替MindShow,飞速制作PPT 借助国内ChatGPT平替markmap/Xmind飞速生成思维导图 利用ChatGPT编写Excel公式,对比讯飞星火与ChatGPT对Excel公式的回答 文章目录 系列文章目录前言一、科大讯飞“星火”认知大模型二、使用步…

如何用ChatGPT, 每天自动批量产出100+条爆款短视频

​关注 很多小伙伴不知道怎么生产内容和制作内容,今天我针对当前比较火的短视频平台(抖音、快手、视频号等),分享一个利用ChatGPT快速生产内容的方式。 需要批量制作的视频需要解决两个问题:大量选题及脚本内容、自动…

让ChatGPT帮你写一个短视频脚本是什么体验?

很多网红博主以及各个领域的短视频博主都在使用的“AI编写视频脚本”,效率直接提升20倍↑↑↑!很多自媒体平台对于ChatGPT的介绍很少,但是他们都在悄悄利用这个强大的AI来帮助处理工作。关于“如何利用ChatGPT编写视频脚本”这件事&#xff0…

ChatGPT可以做WebRTC音视频质量性能优化,惊艳到我了

摘要 随着GPT-4的发布,AI的风越吹越旺。GPT-4可以回答问题,可以写作,甚至可以基于一张草图生成html代码搭建一个网站。即构社区的一位开发者倪同学就基于目前在研究的WebRTC QoS技术点对GPT-3.5跟GPT-4进行一场实验,ChatGPT会取代…

通过 ChatGPT 制作一个短视频

图文,生成视频 当通过 ChatGPT 生成连贯的 prompt 时,除了连环画,我们理所当然还可能畅想更激进的场景——生成动画视频。目前 AIGC 社区确实在生成视频方面有一定的尝试。比如 Deforum 可以通过多条 prompt,配合具体的切换时间点…

基于ChatGPT的视频智能摘要实战

随着在 YouTube 上提交的大量新视频,很容易感到挑战并努力跟上我想看的一切。 我可以与我每天将视频添加到“稍后观看”列表中的经历联系起来,只是为了让列表变得越来越长,实际上并没有稍后再看。 现在,像 ChatGPT 或 LLaMA 这样的…

使用ChatGPT打造短视频爆款开头, ChatGPT联网啦, 可以直接播放周杰伦的音乐

牙叔教程 简单易懂 第一步 采集爆款开头 采集短视频开头文案的教程之前已经写过了, 不会的看这个 某音如何自动化采集爆款开头-黄金5秒 对录制音频的建议 时间间隔在5秒左右 网易见外输出格式: srt字幕 备注 srt字幕输出后, 网易见外支持在线编辑字幕 提取出的文案开头…

如何让ChatGPT你写一个短视频脚本

很多网红博主以及各个领域的短视频博主都在使用的“AI编写视频脚本”,效率直接提升20倍↑↑↑!很多自媒体平台对于ChatGPT的介绍很少,但是他们都在悄悄利用这个强大的AI来帮助处理工作。关于“如何利用ChatGPT编写视频脚本”这件事&#xff0…

如何使用ChatGPT帮助生成YouTube视频摘要?这个插件做到了!

最新在YouTube上看一些教程视频,有的视频时间较长,必须要花费很长时间去看,很浪费时间,同时也是很让人烦恼,但是我发现了一款特别好用的Chrome插件: YouTube视频摘要生成器-一键复制ChatGPT(中文版) 真是一…

保姆级教程,一分钟学会利用ChatGPT制作短视频

1. 概述 ChatGPT的名字相信大家并不陌生,不熟悉的朋友可以查看我以前的文章了解一下。今天我们来谈谈一个更通俗易懂的教程。这个教程将教你如何使用ChatGPT快速制作短视频,操作简单,容易上手。 在各大平台上,你可能看过很多使用…