ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和工作带来不一样的体验。

后面我们将从chatGPT算法流程作为切入点,分别介绍ChatGPT背后的三个深度学习模型,正是这三个基础的模型铸就了ChatGPT强大的文本信息理解表达能力。

chatGPT算法流程

书归正传,让我们来体验下chatGPT大道至简的神奇算法。

首先从数据库中采样一批prompt提示,然后让人工标注人员编写对应prompt答案。我们利用<prompt,prompt答案>来微调预训练好的GPT-3模型,微调后的模型SFT模型。
第二步,随机采样的一个prompt,让我们微调好的GPT-3模型预测多个答案【<prompt, 答案1>, <prompt, 答案2>…】,人工对比排序同一个prompt好坏情况,然后排序。在利用微调后的GPT-3模型构造一个RM奖励模型,利用人工标注答案顺序,训练RM奖励模型,类似于LambdaRank思想。
第三步,构造一个双头PPO模型,对于一个新采样的prompt提示,生成对应的答案,然后利用RM奖励模型,评测当前生成答案的得分score,并用score反向更新优化PPO模型。
SFT监督模型
SFT模型是微调后的GPT模型,说到GPT模型就不能介绍下大名鼎鼎的Transformer模型,Transformer模型是一个典型的encode-decode模型结构,模型是为了解决LSTM等序列生成模型训练速度慢的问题。

GPT模型和BERT模型是一对孪生兄妹,BERT模型使用了Transformer模型的encoder部分,而GPT模型使用的正好是Transformer模型的decoder部分(改造去掉了第二层multi-head attention),为什么GPT要使用decoder部分而不是encoder部分呢?这就要说到GPT设计之初要解决的问题,和BERT用来抽取文本序列信息不同,GPT生来就是为了生成序列,为了结合前序提示,生成我们后续的答案,所以我们要用Masked Attention,不能让模型看到答案,这就是GPT和BERT的本质区别。

GPT模型结构如下图所示,GPT-3将模型层数升级到了百层,模型参数升级到几千亿,在这千亿的参数中,总会储存想要的信息。

Transformer【左】GPT【右】

RM模型
如果我们是有SFT模型,那模型对于我们输入的prompt提示或者问题,是不会给出我们满意答案的,为什么呢?因为SFT模型训练的目标并不是让人类满意,所以他诞生和成长之初,压根也没有打算让人类满意,他训练自身的目的就是更大概率的生成下一个字符,这显然不能完全代表人类的喜好。

那我们怎么解决这样的一个问题呢?那就构造一个可以代替人来评估生成结果好坏的RM模型,这个模型结构和SFT模型是完全一样的,只不过将输出层改造成输出张量的模型层。对于同一个prompt输出的多个答案,人工评测排序后,使用lambdarank的思想,优化RM奖励模型。RM模型学习的就是对于一个prompt,人类对答案的喜好程度。

RM模型【左】RM损失函数【右】

PPO模型
上面我们花了这么大力气,训练了代表人类喜好的RM模型,这样一个喜好函数有什么用呢?这就要说到我们的PPO模型,我们之前微调的SFT模型,虽然也能够生成prompt answer,但是这是一个没有感情的answer,完全是根据海量文本中上下文共现概率生成的,没有加入任何的人类喜好和意志。

怎么让这个SFT模型按照人类的喜好,生成人类喜欢的prompt呢?这就我们RM模型的作用,RM模型通过上一步人工排序标注的方式,学习到了每对<prompt, prompt answer>人类评测的好坏程度。我们利用SFT模型对输出进行改造,构造一个双头PPO模型,模型一头输出一个张量,代表生成序列每个元素的价值value;另一头将输出映射成prompt answer词典答案。

我们将<prompt, prompt answer>输入到RM模型中,获得一个评估当前prompt对的奖励R,然后用R作为奖励,反向更新每个元素的价值value,这也就是所谓的PPO强化学习算法。

PPO模型【左】PPO目标函数【右】

以上就是ChatGPT基本的模型算法和背后的三个主要的算法模型,其实模型基本的结构和背后的算法并是不第一次提出和应用,但是ChatGPT创新的应用,将强化学习和NLP文本生成很好的结合在了一起,将生成的文本序列融入了人类的喜好,生成的内容更像是一个人在回答我们的prompt,这也就是为什么生成的内容,让我们看起来更舒服更自然。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1334.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT 的工作原理:机器人背后的模型

这篇对支持 ChatGPT 的机器学习模型的温和介绍&#xff0c;将从大型语言模型的介绍开始&#xff0c;深入探讨使 GPT-3 得到训练的革命性自我注意机制&#xff0c;然后深入研究人类反馈的强化学习&#xff0c;使 ChatGPT 与众不同的新技术。 大型语言模型 ChatGPT 是一类被称…

ChatGPT类模型汇总

❤️觉得内容不错的话&#xff0c;欢迎点赞收藏加关注&#x1f60a;&#x1f60a;&#x1f60a;&#xff0c;后续会继续输入更多优质内容❤️ &#x1f449;有问题欢迎大家加关注私戳或者评论&#xff08;包括但不限于NLP算法相关&#xff0c;linux学习相关&#xff0c;读研读博…

训练自己的ChatGPT 语言模型(一).md

0x00 Background 为什么研究这个&#xff1f; ChatGPT在国内外都受到了广泛关注&#xff0c;很多高校、研究机构和企业都计划推出类似的模型。然而&#xff0c;ChatGPT并没有开源&#xff0c;且复现难度非常大&#xff0c;即使到现在&#xff0c;没有任何单位或企业能够完全复…

chatgpt4模型介绍

在当今信息爆炸的时代&#xff0c;人们越来越多地依赖计算机和互联网与他人进行交流。然而&#xff0c;传统的计算机交互方式常常显得呆板和不自然&#xff0c;难以满足人们对于智能、自然对话的需求。为了解决这一问题&#xff0c;OpenAI推出了ChatGPT&#xff0c;这是一种能够…

ChatGPT模型采样算法详解

ChatGPT模型采样算法详解 ChatGPT所使用的模型——GPT&#xff08;Generative Pre-trained Transformer&#xff09;模型有几个参数&#xff0c;理解它们对文本生成任务至关重要。其中最重要的一组参数是temperature和top_p。二者控制两种不同的采样技术&#xff0c;用于因果…

ChatGPT探索系列之二:学习GPT模型系列的发展历程和原理

文章目录 前言一、GPT的起源GPT系列 二、GPT的原理1. GPT原理&#xff1a;自注意2. GPT原理&#xff1a;位置编码3. GPT原理&#xff1a;Masked Language Modeling4. GPT原理&#xff1a;预训练5. GPT原理&#xff1a;微调6. GPT原理&#xff1a;多任务学习 三、GPT模型的风险与…

一文读懂chatGPT模型原理(无公式)

每天给你送来NLP技术干货&#xff01; 来自&#xff1a;JioNLP 点击这里进群—>加入NLP交流群 &#xff08;本文是chatGPT原理介绍&#xff0c;但没有任何数学公式&#xff0c;可以放心食用&#xff09; 前言 这两天&#xff0c;chatGPT模型真可谓称得上是狂拽酷炫D炸天的存…

LeCun:ChatGPT无法实现通用人工智能,但ALM技术路线可以!

文 | 天于刀刀 ChatGPT 将加速通用人工智能的实现。—— 邱锡鹏 在上周刚刚结束的 2023 全球人工智能开发者先锋大会&#xff08;GAIDC&#xff09;上&#xff0c;作者有幸亲身参与大模型技术与应用分论坛&#xff0c;并在现场聆听了来自业界和学界一众大佬的精彩讲座。 在会上…

chatgpt的历史问答记录消失的解决之道

刚刚使用发现我的历史会话记录都没有了&#xff0c;我旁边的一个朋友也没有了。 网上查了一下&#xff0c;很多网友&#xff0c;居然也没有历史记录了。 这是故意而为之&#xff0c;还是误操作删除记录&#xff0c;更有可能是不是装了插件引起的。无意当中发现了一个方法&…

ChatGPT报错解决

背景&#xff1a;登录后无法正常交流&#xff0c;报错内容为&#xff1a; Something went wrong. If this issue persists please contact us through our help center at help.openai.com 如图所示&#xff1a; 解决方法&#xff1a; 1. 不关闭代理的情况下Log out再Log in&a…

chatGPT Access denied访问被拒绝(已解决)

这个网站可以直接进入ai聊天&#xff0c;但是功能只有语言模块&#xff0c;我试用了一下作为文字训练可以使用。ChatGPT Online - AI Chat GPThttps://chatgpt.org/chat 然后是网站尚Access denied 解决办法 首先要使用海外的原生IP进行全局代理&#xff0c;不要使用各大云平…

这20种职业ChatGPT无法取代!

李开发在《AI未来进行式》一书中分析了AI存在明显不足的三大短板&#xff0c;即便到了2042年&#xff0c;AI可能仍然无法完全掌握这些能力。 第一、创造力。AI不具备进行创造、构思以及战略性规划的能力。尽管AI非常擅长针对单一领域的任务进行优化&#xff0c;使目标函数达到最…

聊聊ChatGPT无法取代的7个工作

ChatGPT——全世界都在谈论的非常流行的人工智能工具。自从 2022 年 11 月 30 日推出以来&#xff0c;ChatGPT 就被证明是执行复杂任务并简化它们的一体式工具。无论是通过 UPenn 的沃顿商学院 MBA 考试&#xff0c;撰写常春藤盟校入学论文&#xff0c;还是完成简单的任务&…

OpenAI 宣布部分解除 ChatGPT 无法联网限制,引入插件策略,会带来什么变化?

OpenAI 发布 ChatGPT Plugins (ChatGPT 插件集) 昨天凌晨&#xff0c;OpenAI 发布 ChatGPT Plugins (ChatGPT 插件集)&#xff0c;它能将 ChatGPT 连接到第三方应用程序) 这是 AI 的 App Store 时刻&#xff0c;AI 经历了「iPhone」时刻后&#xff0c;如今也有了应用商店。 这…

我破除了 ChatGPT 无法联网的魔咒!

公众号关注 “GitHubDaily” 设为 “星标”&#xff0c;每天带你逛 GitHub&#xff01; 前阵子我写过一篇文章&#xff0c;介绍了几种无需安装 ChatGPT Plugin&#xff0c;即可让其轻松破除无法联网的魔咒。 最近看到不少同学对此感兴趣&#xff0c;因此我把这几个方案汇总完善…

解决ChatGPT 总是打不开,显示不可用,网站崩溃,聊几句话就报错,plus会员无法升级始终不成功的问题

为什么你的chat gpt总是打不开&#xff0c;显示不可用&#xff0c;网站崩溃&#xff0c;聊几句话就报错&#xff0c;plus会员无法升级始终不成功&#xff1f; 首先第一个问题open ai服务不可用 那么这个问题很显然&#xff0c;你所在的位置不提供chat gpT的服务&#xff0c;解…

ChatGPT - 根据写作进行调整,总结长文并加速学习

文章目录 Prompt Prompt “将以下文本总结为500字或更少。为每个重要点创建部分&#xff0c;并简要总结该点。” [文本]

ACL2023论文写作竟允许使用ChatGPT 了!

文&#xff5c;HFL源&#xff5c;HFL实验室 随着以ChatGPT为代表的生成式AI的火热&#xff0c;近期人工智能领域的顶级会议相继推出相关政策以进一步规范这类工具在科学文献撰写中的使用。ACL 2023程序委员会主席在近期的一篇博客中披露了ACL 2023大会的相关政策。 原文&#x…

首篇ChatGPT辅助写作的论文,已在arXiv发表!

编&#xff5c;LRS源&#xff5c;新智元 虽然ChatGPT写的论文错误太多&#xff0c;但掠夺性期刊应该会接收。&#xff08;错误尝试&#xff01;&#xff01;&#xff09; ChatGPT以其强大的文本创作能力&#xff0c;直接问鼎地表最强问答模型。 但强大的AI也会带来一些负面影响…