ChatGPT的原理:机器人背后的模型

ChatGPT的原理:机器人背后的模型

翻译:老齐

本文将深入讲解支持 ChatGPT 的机器学习模型。从介绍大语言模型(Large Language Models)开始,深入探讨革命性的自注意力机制,该机制使 GPT-3 得以被训练。然后,进一步探讨强化学习,这是使 ChatGPT 变得卓越的新技术。

大语言模型

ChatGPT 是一类机器学习自然语言处理模型——大语言模型(Large Language Models,LLMs)的推广。LLMs能够消化大量的文本数据并推断文本中词汇之间的关系。随着计算能力的提升,这些模型在过去几年中得到了长足发展。LLMs 的输入数据集和参数空间越大,它们的能力就越强。

语言模型最基本的功能是预测一句话中缺失的词汇应该是什么,其中最常见的方式是使用下一个词预测(Next-token-prediction)和掩码语言建模技术(Masked-language-modeling)。

alt

这两项基本的技术都是序列型的,通常用长短期记忆(Long-Short-Term-Memory, LSTM)模型实现,模型会根据上下文填充最有统计学意义的词语。然而,这种序列型的模型结构存在两个主要缺陷:

  1. 模型不能将某些上下文中的词汇评估得比其他单词更重要。在上面的例子中,虽然“reading”通常与“hates”相关联,但在数据库中,Jacob 可能是一个非常热爱阅读的人,模型应该比“reading”更重视“Jacob”,并选择“loves”而不是“hates”。
  2. 输入数据被单独、顺序地处理,而不是作为整个语料库。这意味着当训练 LSTM 时,上下文窗口是固定的,仅扩展到序列中几个步骤的单个输入。这限制了单词之间的关系复杂性和可以推断的意义。

为了解决这个问题,谷歌大脑的一个团队在 2017 年推出了 transformers。与 LSTM 不同,transformers 可以同时处理所有输入数据。使用自注意力机制,模型可以针对语言序列的任何位置,给予不同部分的输入数据不同的权重。这个特性大大提高了 LLMs 的语义表达能力,也使处理更大的数据集成为可能。

GPT和自注意力

生成式预训练变换(Generative Pre-training Transformer,GPT)模型最初于 2018 年由 OpenAI 推出,即为 GPT-1。此模型在 2019 年继续发展为 GPT-2,在 2020 年推出了 GPT-3,在 2022 年,就是最近,推出了InstructGPT 和 ChatGPT。在将人类反馈纳入系统之前,推动 GPT 模型演进的最大力量来自于高效的算力,这使得 GPT-3 可以在比 GPT-2 更多的数据上进行训练,从而拥有更多样化的知识基础和更泛化的能力。

alt

所有的 GPT 模型都利用了 Transformer 架构,这意味着它们由处理输入序列的编码器和生成输出序列的解码器组成。编码器和解码器都有多头(multi-head)自注意力机制,使得模型能够对序列的不同部分进行不同权重的处理,以推断出含义和上下文。此外,编码器还利用掩码语言建模来理解词汇之间的关系,并生成更易于理解的回复。

驱动 GPT 的自注意机制通过将 tokens(文本片段,可以是词、句或其他文本分组)转换为向量,表示 token 在输入序列中的重要性。为此,模型:

  1. 为输入序列中的每个 token 创建一个查询、键和值向量。
  2. 通过计算两个向量的点积,计算第一步中查询向量与每个其他 token 的键向量之间的相似度。
  3. 将步骤 2 的输出馈入 softmax 函数,生成归一化的权重。
  4. 将步骤 3 中生成的权重乘以每个 token 的值向量,生成表示序列中 token 重要性的最终向量。

GPT 使用的“多头”注意力机制是自注意的一种演变。模型不是只执行步骤 1-4 一次,而是多次迭代该机制,每次生成查询、键和值向量的新线性投影。通过以这种方式扩展自注意,模型能够理解输入数据中的子含义和更复杂的关系。

alt

尽管 GPT-3 在自然语言处理方面已经有了显著进展,但它在与用户意图对齐方面存在局限性。例如,GPT-3 的输出可能会:

  • 缺乏帮助性,这意味着它们不遵循用户的明确说明。
  • 包含错觉,反映不存在或不正确的事实。
  • 缺乏可解释性,使人难以理解模型是如何得出特定的决策或预测的。
  • 包含有害或带有偏见的内容,具有有害或冒犯性,并传播错误信息。

ChatGPT 引入了创新的训练方法来抵消标准 LLM 的一些固有问题。

ChatGPT

ChatGPT 是 InstructGPT 的一个分支,引入了一种新的方法,将人类反馈纳入到训练过程中,以更好地将模型输出与用户意图对齐。基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)在openAI's 2022的论文“Training language models to follow instructions with human feedback”中有详细描述,以下是简要介绍。

步骤1:监督微调(SFT)模型

首先,聘请 40 名承包商创建一个有监督的训练数据集,对 GPT-3 模型进行微调,使其能够从已知输出的输入数据中学习。输入或提示(注:对于 GPT 中,将用户输入的数据称为 prompt,此处译作“提示”,如果有更好的译文,请读者指出)来自实际用户对 OpenAI API 的输入。标注者为每个提升编写了一个合适的回复,从而为每个输入创建了一个已知的输出,然后使用这个新的有监督数据集对 GPT-3 模型进行微调,以创建 GPT-3.5,也称为 SFT(Supervised Fine Tuning) 模型。

为了最大化提示数据集的多样性,每个用户 ID 只能有 200 个提示,任何具有共同前缀的提示都被删除。最后,删除了包含个人身份信息(PII)的所有提示。

在从 OpenAI API 聚合提示之后,标注者还被要求创建示例提示以填充只有少量真实样本数据的类别。感兴趣的类别包括:

  • 普通提示: 任何任意的要求。
  • 少量提示: 包含多个查询/响应对的指令。
  • 基于用户的提示: 对应于 OpenAI API 请求的特定用例。

在生成响应时,要求标注者尽可能推断用户的指令是什么。本文描述了提示请求信息的主要三种方式。

  1. 直接提示: “告诉我关于……”
  2. 少量提示: 给定这两个故事的例子,写另一个关于同一主题的故事。
  3. 延续提示: 给定一个故事的开头,完成它。

从 OpenAI API 收集的提示和标注者手写的提示编译结果产生了 13,000 个输入/输出样本,可用于有监督模型的训练。

alt

步骤2:奖励模型

在第一步中训练完 SFT 模型之后,该模型会生成更好对齐用户提示的响应。接下来的优化是训练奖励模型,其中模型的输入是一系列提示和响应,输出是一个标量值,称为奖励。奖励模型是必需的,以便利用强化学习,使模型学习生成输出以最大化其奖励(参见第三步)。

为了训练奖励模型,标注者会为单个输入提示提供 4 到 9 个 SFT 模型的输出,让他们根据最佳到最差的顺序排列这些输出,从而创建以下输出排名组合。

alt

将每个组合作为单独的数据点包含在模型中会导致过拟合(泛化到已知数据范围之外就失败)。为了解决这个问题,该模型使用每个等级组合作为一个批次数据点来构建。

alt

步骤3:强化学习模型

在最后阶段,向模型输入一个随机提示,然后返回一个响应。响应是使用模型在第二步中学习到的“策略”生成的。这说明机器已经学会了如何实现其目标,在这种情况下,是最大化奖励。基于第二步中的奖励模型,针对输入的提示,确定一个标量的奖励值和回复,而后将奖励反馈给模型,进一步优化策略。

Schulman 等人在 2017 年介绍了 Proximal Policy Optimization(PPO)的方法,该方法用于在生成每个响应时更新模型的策略。PPO 将 SFT 模型中的每个 token 的 Kullback-Leibler(KL)惩罚项并入其中。KL 散度度量两个分布函数的相似性并惩罚极端距离。在这种情况下,使用 KL 惩罚减少了响应与第一步中训练的 SFT 模型输出之间的距离,以避免过度优化奖励模型致使过度偏离人类意图数据集。

alt

步骤 2 和步骤 3 可以迭代重复,尽管实践中还没有广泛地执行。

alt

模型评估

在训练过程中,测试集是没有用于模型训练的数据,用它来评估模型。在测试集上,进行一系列的评估,以确定模型是否比其前身 GPT-3 更好。

可用性: 模型推断和遵循用户指令的能力。标注者在 85 ± 3% 的程度上更喜欢 InstructGPT 的输出而不是 GPT-3。

真实性: 模型的虚假倾向。使用 TruthfulQA 数据集评估时,PPO 模型产生的输出在真实性和信息性方面都有小幅度提升。

无害性: 模型避免不当、贬损和侮辱性内容的能力。使用 RealToxicityPrompts 数据集对无害性进行了测试。测试在三种条件下进行。

  1. 被告知提供尊重的回答:导致有毒反应显著减少。
  2. 没有设定尊重性的情况下提供回答:毒性没有显著变化。
  3. 被要求提供有毒反应:实际上比 GPT-3 模型有显著更多的有毒反应。

有关创建 ChatGPT 和 InstructGPT 所使用的方法的更多信息,请阅读 OpenAI 发表的原始论文 Training language models to follow instructions with human feedback, 2022 https://arxiv.org/pdf/2203.02155.pdf。

alt

参考资料

  1. https://openai.com/blog/chatgpt/
  2. https://arxiv.org/pdf/2203.02155.pdf
  3. https://medium.com/r/?url=https%3A%2F%2Fdeepai.org%2Fmachine-learning-glossary-and-terms%2Fsoftmax-layer
  4. https://www.assemblyai.com/blog/how-chatgpt-actually-works/
  5. https://medium.com/r/?url=https%3A%2F%2Ftowardsdatascience.com%2Fproximal-policy-optimization-ppo-explained-abed1952457b

本文来源:https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

其他资料:https://lqlab.readthedocs.io/

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3179.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt+机器人控制器融合(一)

当今机器人技术面临的挑战,以及 ChatGPT 能提供的帮助 目前机器人的操作流是从工程师或技术用户开始,需要他们将任务需求转换为系统代码。工程师会处于工作流程的回路中,他们需要不断编写新的代码和规范来纠正机器人的行为。总得来说&#x…

走进chatGPT新一代机器人

chatGPT这款新一代对话式人工智能便在全球范围狂揽1亿名用户,并成功从科技界破圈,成为街头巷尾的谈资。 chatGPT能干什么? 打开官网https://openai.com/blog/chatgpt/ ,完了,芭比Q了 试下其他家的接口 讲笑话 写代码 写…

因用 ChatGPT 打官司,从业 30 年的律师反遭制裁:6 个案例全是假的!

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 用户 5 天破百万、2 个月月活破亿、App 上架 6 天下载量突破 50 万次……ChatGPT 用这些数据证明,它在全球范围内是怎样的“实火”,各行各业也出现了许多有关 ChatGPT 的“美谈…

哪类行为使用ChatGPT会构成犯罪?

我是卢松松,点点上面的头像,欢迎关注我哦! 2月份,淘宝商城、微信、闲鱼等相继屏蔽了ChatGPT。 5月份,有个哥们用ChatGPT乱编热点新闻,然后百家号发文章点击获取收益,卢松松博客有报道&#x…

【刚买的chitgpt】不能用如何退款

前两天刚花钱买了 结果就用不了了 后面通过人工客服退款 需要的朋友可以试试

使用chatgpt完成简繁体转换

tl;dr: 语言模型可以完成简繁转换,还会故意出错以测试人类是否在认真阅读答案。 我:你是一個訓練有素的人工智能,你的任務是將中國大陸的簡體字普通話文章轉換為繁體字的台灣國語文章。例如,我輸入「计算机的内存不足,…

AI(chatGPT)有时也故意误导人类,不能全信

俗话说,尽信书则不如无书。换成现代的智能AI也一样,虽然它强大,但结果也不能全信。最近无意中发现chatGPT一个很扯的问题,竟连最基本的问题都能给出个错误答案,如果信了它就是扰乱视听了。 问题内容 c语言中和&&a…

ChatGPT实战100例 - (02) 自动出PPT它不香么?

文章目录 ChatGPT实战100例 - (02) 自动出PPT它不香么?一、需求与思路1. 需求:出个PPT,5分钟后要用2. 思路:生成markdown然后转化 二、生成markdown语法的思维导图1. 问题2. 回答 三、把markdown文本转换成PPT ChatGPT实战100例 -…

ChatGPT使用技巧—如何在2分钟内做一个PPT?

一、应用场景: 适用于融资路演、产品介绍、企业介绍、培训课件、总结汇报、产品发布、招商推介、项目竞标、企业年会等应用领域。 二、所需工具 1、ChatGPT智珂平台工具 2、Mindshow生成PPT工具 三、直接上干货 操作步骤: 1、首先要生成一份PPT的提纲…

借助ChatGPT自动生成PPT

借助ChatGPT自动生成PPT 首先让GPT生成一段markdown格式的PPT内容,尽量描述全面,以什么语言,什么格式,排版等等。 打开mindshow网址,点击import and create,选择以markdown方式创建,再次点击弹…

推荐 :ChatGPT研究框架(80页PPT)

研究框架系列 合规声明:本文节选自正式入库研究报告。 转自:计算机文艺复兴 公众号,本次转载仅供学习;‍‍ END 版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误…

ChatGPT分钟快速生成PPT

一、原理 结合AI生成 PPT 的原理其实非常简单。 现有的一些 PPT 软件或者开源工具会提供一种文本格式,我们只需要给定固定的格式,把内容输入给相应的软件,那么它就可以生成对应的 PPT 内容; 其实就是两个东西: 内容转…

【ChatGPT】只需要2分钟,ChatGPT帮我生成了一份PPT

自从人工智能横空而出,它在人们的生活中产生了巨大的影响。尤其在企业办公领域,借助人工智能的力量,能够迅速产出丰富多样的内容,无论对于企业还是个人都具有重要的帮助。 想象一下,通过与人工智能的合作,您…

用ChatGPT一分钟自动产出一份高质量PPT

如何用ChatGPT一分钟自动产出一份高质量PPT,节约时间摸鱼呢?废话少说,直接上案例。 一.用ChatGPT做一下提问,这里我用的小程序万事知天下,根据自己PPT的需求,制作chatgpt的prompt就行了。 请帮我创建一个以…

【使用ChatGPT制作PPT】

内容目录 一、利用ChatGPT生成PPT内容1. 打开ChatGPT:2. 输入需求:3. 复制: 二、制作生成PPT1. 打开PPT制作网站:2. 左侧网页版-导入创建-粘贴Markdown内容-导入创建3. 自行更改副标题、演讲者、选择模板、演示及下载 一、利用Cha…

使用ChatGPT+MindShow一键生成PPT,以后再也不用担心制作PPT啦

📋 个人简介 💖 作者简介:大家好,我是阿牛,全栈领域优质创作者。😜📝 个人主页:馆主阿牛🔥🎉 支持我:点赞👍收藏⭐️留言&#x1f4d…

ChatGPT 教你快速制作PPT

如果你想制作一份漂亮的PPT却不知道从何下手,不要担心,ChatGPT来帮你!。 例如我们现在想要做一个零基础小白入门chatGPT的演示文档。 可以这样做。 打开ChatGPT 输入比较好的格式指令如下: 请帮我写一篇 ChatGPT零基础小白教程&am…

ChatGPT VS 文心PPT

前言 2023-03-16日百度正式推出的"文心一言"颇有关注度,各大营销商和公众号都在传播这个事情.对此我也发表一些个人的看法。 我们都大家都在想看ChatGpt和文心一言一教高下的时候,其实我心中已有定论。目前国内将它亲切的称为"国产ChatGPT"&…

【ChatGPT】ChatGPT+MindShow三分钟生成PPT

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 第一步:获取PPT内容大概: 1.打开ChatGPT镜像 2.向他提问,提问格式如下,主题替换成你想获得的信息。比如某本书的拆解,…

(只需两步)让ChatGPT免费帮你制作出漂亮的PPT

目录 第一步:生成 PPT 代码 第二步:将代码转化为 PPT 还在为制作PPT而烦恼吗? 让ChatGPT来帮您! 本篇文章介绍如何利用ChatGPT一键生成PPT文字和样式,省时省力又专业! (真的只需两步&#xf…