【深度学习模型】ChatGPT原理简述

文章目录

  • 前言
  • 1. GPT的前世今生
    • 1.1 OpenAI及GPT系列
    • 1.2 ChatGPT及同期对比模型
  • 2. 技术原理
    • 2.1 预训练语言模型
    • 2.2 训练奖励模型
    • 2.3 用强化学习微调
  • 3. 目前缺陷
  • 参考文献


前言

2022年11月30日,OpenAI推出人工智能聊天模型ChatGPT(ChatGPT: Optimizing Language Models for Dialogue),很快引起百万用户注册使用,公众号和热搜不断,迅速火出圈,甚至引起各大公司在聊天对话机器人上的军备竞赛。

1. GPT的前世今生

1.1 OpenAI及GPT系列

OpenAI(开放人工智能)是美国一个人工智能研究实验室,成立于2015年底,由营利组织 OpenAI LP 与母公司非营利组织 OpenAI Inc 所组成,目的是促进和发展友好的人工智能,使人类整体受益。

OpenAI 的代表作为 GPT系列自然语言处理模型。从2018年开始,OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),此后还有2019年2月的GPT-2,2020年5月的GPT-3。GPT模型参数爆炸式增加,而其效果也越来越好。GPT-3的效果不输于当时统治地位的BERT,只是因为没有开源开放,所以知名度没那么高。到了2022年11月30日,OpenAI发布了ChatGPT,在研究预览期间,用户注册并登陆后可免费使用,这才一下子火出圈(但该项目对一些包括中国大陆、香港在内的地区暂不可用)。

其中,BERT和GPT的示意图如下。它们都基于Transformer模型,前者是双向的,后者的单向的。
在这里插入图片描述

1.2 ChatGPT及同期对比模型

据悉,ChatGPT 基于GPT-3.5架构开发,是InstructGPT的兄弟模型。基于开源期间收集到的大量对话数据,之后还可能进一步推出 GPT-4。

目前,ChatGPT 具有以下特征:

1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。
2)ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。
3)ChatGPT 可以承认自身的无知,承认对专业技术的不了解。
4)支持连续多轮对话。

根据广大网友们的反复测试,目前ChatGPT可以进行很大程度的开放式对话,可以问旅游攻略、可以问哲学问题、可以问数学题怎么做、甚至能让它打代码。但是它终究是一个生成式模型,而不是检索式模型,它只能基于到目前为止的数据集来回答,而无法问它明天天气如何。在开放期间,大量的测试数据也在不断地收集着,但是也通过算法屏蔽,过滤掉了有害的输入样本。

与ChatGPT同期,各大互联网公司都有自己相应的聊天机器人,以下是其对比表。
在这里插入图片描述

2. 技术原理

由于ChatGPT的细节尚未公布,按照InstructGPT来看,它与GPT-3的主要区别在于使用了RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习),即以强化学习方式依据人类反馈优化语言模型,通过对人类知识的引入,训练出更合理的对话模型。

其中,RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,可以分解为三个步骤:

  1. 预训练一个语言模型 (LM) ;
  2. 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ;
  3. 用强化学习 (RL) 方式微调 LM。

在这里插入图片描述

2.1 预训练语言模型

该步骤可以获得SFT(Supervised Fine-Tuning)模型。ChatGPT基于 GPT-3.5的LM,并通过额外的文本或条件进行微调(这是可选的)。OpenAI 对 “更可取” (preferable) 的人工生成文本进行了微调,其中“更可取”的评价标准包括有:

  1. 真实性:是虚假信息还是误导性信息?
  2. 无害性:它是否对人或环境造成身体或精神上的伤害?
  3. 有用性:它是否解决了用户的任务?

2.2 训练奖励模型

该步骤可以获得RM(Reward Model)模型。

关于模型选择方面,RM 可以是另一个经过微调的 LM,也可以是根据偏好数据从头开始训练的 LM。

关于训练文本方面,RM 的提示 - 生成对文本是从预定义数据集中采样生成的,并用初始的 LM 给这些提示生成文本。

关于训练奖励数值方面,需要人工对 LM 生成的回答进行排名。起初作者认为应该直接对文本标注分数来训练 RM,但是由于标注者的价值观不同导致这些分数未经过校准并且充满噪音,而通过排名可以比较多个模型的输出并构建更好的规范数据集。

对具体的排名方式,一种成功的方式是对不同 LM 在相同提示下的输出进行比较,然后使用 Elo 系统建立一个完整的排名。这些不同的排名结果将被归一化为用于训练的标量奖励值。
在这里插入图片描述

2.3 用强化学习微调

首先将微调任务表述为强化学习问题。首先,策略 (policy) 是一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。这个策略的行动空间 (action space) 是 LM 的词表对应的所有词元 (一般在 50k 数量级) ,观察空间 (observation space) 是可能的输入词元序列,也比较大 (词汇量 ^ 输入标记的数量) 。奖励函数是偏好模型和策略转变约束 的结合。

通过近端策略优化 (Proximal Policy Optimization,PPO) 微调初始 LM 的部分或全部参数。对一个输入文本,根据第一步骤的初始 LM 和当前微调的 LM,可以分别得到输出文本 y1,y2,这两个输出通过Kullback–Leibler (KL) 散度进行约束。并结合对当前微调LM的输出通过第二步骤的RM得到的奖励值,通过PPO进行优化。

3. 目前缺陷

尽管ChatGPT表现出出色的上下文对话能力甚至编程能力,完成了大众对人机对话机器人(ChatBot)从“人工智障”到“有趣”的印象改观,我们也要看到,ChatGPT技术仍然有一些局限性,还在不断的进步。
1)ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。ChatGPT在很多领域可以“创造答案”,但当用户寻求正确答案时,ChatGPT也有可能给出有误导的回答。例如让ChatGPT做一道小学应用题,尽管它可以写出一长串计算过程,但最后答案却是错误的。
2)ChatGPT无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题,如果没有进行足够的语料“喂食”,ChatGPT可能无法生成适当的回答。
3)ChatGPT需要非常大量的算力(芯片)来支持其训练和部署。抛开需要大量语料数据训练模型不说,在目前,ChatGPT在应用时仍然需要大算力的服务器支持,而这些服务器的成本是普通用户无法承受的,即便数十亿个参数的模型也需要惊人数量的计算资源才能运行和训练。,如果面向真实搜索引擎的数以亿记的用户请求,如采取目前通行的免费策略,任何企业都难以承受这一成本。因此对于普通大众来说,还需等待更轻量型的模型或更高性价比的算力平台。
4)ChatGPT还没法在线的把新知识纳入其中,而出现一些新知识就去重新预训练GPT模型也是不现实的,无论是训练时间或训练成本,都是普通训练者难以接受的。如果对于新知识采取在线训练的模式,看上去可行且语料成本相对较低,但是很容易由于新数据的引入而导致对原有知识的灾难性遗忘的问题。
5)ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解,因此并不能保证ChatGPT不会产生攻击甚至伤害用户的表述。

参考文献

  1. ChatGPT发展历程、原理、技术架构详解和产业未来
  2. ChatGPT 背后的“功臣”——RLHF 技术详解
  3. 解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1932.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT国产平替出现了:APP商店就能下载,还可给AI加人设,背后公司刚成立3个月...

明敏 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT太火爆谁不想上手试试? 但注册复杂、服务器拥挤……着实有点麻烦。 不过很快就有极客网友指路,说国内其实已经有类似的APP上线了,也是上知天文下知地理的那种。 比如聊聊《三体》,…

直播预告更新 | 火爆全网的ChatGPT为什么这么强?

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! ChatGPT 火爆全网的ChatGPT究竟是什么?为什么这么强? ChatGPT会取代搜素引擎吗? ChatGPT凸显的能力会是metaverse的有力支撑吗? ChatGPT的火爆背后,AI发展路向何…

云服务器搭建Python项目实现学术优化chatgpt

云服务器搭建实现学术优化chatgpt 1 服务器准备2 云服务器配置2.0 FTP配置2.1 python虚拟环境2.1.1 python3.9安装配置2.1.2 下载python项目2.1.3 创建python虚拟环境 3 项目“服务化”(后台运行python项目)4 localURL访问(公网ip访问&#x…

ChatGPT中文LLM相关的开源大模型资源汇总

文章目录 前言1.文本LLM模型1.1 ChatGLM-6B1.2 ChatGLM2-6B1.3 Moss1.4 Chinese-LLaMA-Alpaca1.5 OpenChineseLLaMA1.6 BELLE1.7 Panda1.8 Robin1.9 Fengshenbang-LM1.10 Luotuo-Chinese-LLM1.11 Linly1.12 Firefly1.13 ChatYuan1.14 ChatRWKV1.15 CPM-Bee1.16 TigerBot1.17 书…

【跟着ChatGPT学深度学习】ChatGPT带我学情感分析

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

Chatgpt报错:The site owner may have set restrictions

Chatgpt报错如下: You do not have access to chat.openai.com. The site owner may have set restrictions that prevent you from accessing the site. 错误码:1020 解决办法: 关闭网站后 换节点!换完节点 打开网址&#xf…

文心一言和chatgpt差在哪里

声明 开头声明,个人并非为了故意羞辱和诋毁某公司而写的本篇博客, 只是想单纯的做技术分析,因为技术的探索上是无止境的,我们可以原谅国内计算机技术的不成熟,也可以理解生活的不容易,每个人都在努力&…

ChatGPT爆火 元宇宙失宠了?

去年年底以来,以AI文字、图片创作为代表的AIGC异军突起,既受到很多大厂的追捧,相继推出相关产品,也再度出现了“AI是否会取代人类”的质疑声音。作为由人工智能研究实验室OpenAI发布的全新聊天机器人模型——ChatGPT,实…

ChatGPT 团队背景(共87人)

上一篇:42岁百度员工被裁,向李彦宏及公司高管发邮件 最近,最火的莫过于ChatGPT了,不到半个月用户破百万,不到3个月用户破亿,成为用时最短、最快破亿的应用。被称为AI史上的重大突破。 就是这样的ChatGPT&am…

程序员如何利用chatGPT提高开发效率

对于编程人员来说了解 ChatGPT 是很有帮助的,因为它是一个自然语言处理模型,可以用于处理各种文本任务,例如生成代码注释、代码自动补全、错误检测和纠正、问题回答等等。通过利用 ChatGPT,程序员可以更快速地生成代码&#xff0c…

ChatGPT 进阶1- 提示工程简介

ChatGPT 是一个基于 OpenAI 的大型语言模型,采用GPT-4(Generative Pre-trained Transformer 4)架构。GPT-4 是继 GPT-3 之后的一个更先进的自然语言处理模型,它在许多任务中表现出更高的性能和能力。 ChatGPT 有很多应用场景&…

关于 ChatGPT-4 你需要知道的一切

自人工智能公司 OpenAI 推出 ChatGPT 以来仅仅四个月,而且——毫不夸大其重要性——永远改变了世界。在短短的 15 周内,它引发了全球就业市场的世界末日预言,扰乱了教育系统,并吸引了从大银行到应用开发商的数百万用户。 但现在它…

解决反代ChatGPT API接口后502 Bad Gateway问题

前言 前几天,写了一篇《宝塔快速反代openai官方的API接口,实现国内直接使用ChatGPT》,直接把我一个闲置的域名反代了api.openai.com,从而实现了国内直接使用ChatGPT的目的,但是有网友给博主反映,我的API反…

港大禁用 ChatGPT 等 AI 工具,网友:“从万众瞩目到千夫所指?”

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) ChatGPT 横空出世之后,感觉众多职业都面临被 AI 取代的危险,不少人惊呼:感觉我要被分分钟取代了,甚至连李开复都发微博列举了 20 项最容易…

港大全面封杀ChatGPT!AI肆虐高校,作弊丑闻震惊全世界

来源:新智元(ID:AI_era) 编辑:学妹 ChatGPT,已经开始在全世界的高校里肆虐。最近,港大打响了国内AI反击战第一枪。 随着AI生成的文本与人类的写作越来越像,高中和大学的老师们快被疑…

ChatGPT遭港大「封杀」:罪同论文剽窃抄袭,使用须报备过审

衡宇 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT太能写了,论文、作业,哪里不会就帮写哪里。 为此,香港大学明文禁止师生将ChatGPT用于教学用途,违规使用将被判为抄袭。 港大也成为国内首家对ChatGPT进行明文规定的高校。 具体来说…

ChatGPT实现撰写邮件

撰写邮件 电子邮件是日常工作中很常用的工具,在相对正式的场合,一封格式美观、用语典雅的电子邮件正文会起到很好的作用。ChatGPT 可以较好的完成电子邮件的编写和格式美化工作。 下面让我们以产品销售的角度,写一封推销邮件。假定产品名称…

教程 | 太炸裂,使用ChatGPT插件写邮件,效率提升100倍

今天,我们要介绍一款与ChatGPT相关的浏览器插件:ChatGPT Writer。 ChatGPT Writer不同于其他浏览器插件,它的专注点在于能够在所有网站上编写电子邮件和消息。这个工具不仅适用于日常办公,还特别适合需要频繁进行邮件回复的客服岗…

【ChatGPT实战】2.使用ChatGPT自动化操作邮件

邮件营销,相信大家一定不会陌生吧,特别是做跨境电商的用户,那么邮件营销特别常见的。因此,决定给大家写这篇实操文章。 接下来,我将向大家介绍如何使用ChatGPT来自动化处理邮件,让我们不再被无休止的邮件沟…

【已解决】chatgpt报错 access denied

报错截图 一般是节点ip被封的问题! 解决方法 重启魔法!(简单,优先尝试)换节点或者换工具 (推荐美国节点,另外推荐原生节点)清空浏览器缓存,注意如果不行,就清空24小时或…