ChatGPT技术报告

ChatGPT是一个由OpenAI开发的大型语言模型,是GPT(Generative Pretrained Transformer)系列模型的一部分。它使用了 Transformer 架构,并在大量的文本数据上进行了预训练。预训练的目的是使模型能够从大量的文本中学习语言知识和模式,从而在接下来的任务中更好地进行语言生成。

ChatGPT 的应用领域广泛,包括聊天机器人,问答系统,文本生成,语音识别等。在聊天机器人领域,ChatGPT可以提供人类般的自然语言回答,并且在语法和语义方面的表现十分出色。

  • GPT发展历程

Generative Pre-trained Transformer (GPT),是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。

1.GPT-1

2018 年,GPT-1 诞生,这一年也是 NLP(自然语言处理)的预训练模型元年。性能方面,GPT-1 有着一定的泛化能力,能够用于和监督任务无关的 NLP 任务中。其常用任务包括:

  1. 自然语言推理:判断两个句子的关系(包含、矛盾、中立)
  2. 问答与常识推理:输入文章及若干答案,输出答案的准确率
  3. 语义相似度识别:判断两个句子语义是否相关
  4. 分类:判断输入文本是指定的哪个类别

虽然 GPT-1 在未经调试的任务上有一些效果,但其泛化能力远低于经过微调的有监督任务,因此 GPT-1 只能算得上一个还算不错的语言理解工具而非对话式 AI。

2.GPT-2

GPT-2 也于 2019 年如期而至,不过,GPT-2 并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计 48 层,参数量达 15 亿,学习目标则使用无监督预训练模型做有监督任务。在性能方面,除了理解能力外,GPT-2 在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在“变得更大”之后,GPT-2 的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了彼时的最佳性能。

3.GPT-3

之后,GPT-3 出现了,作为一个无监督模型,几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。而且,该模型在诸多任务上表现卓越,例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平,自动产生的文章几乎让人无法辨别出自人还是机器,更令人惊讶的是在两位数的加减运算任务上达到几乎 100% 的正确率,甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好,似乎让人们看到了通用人工智能的希望,这就是 GPT-3 影响如此之大的主要原因。

 

由于 GPT-3 更强的性能和明显更多的参数,它包含了更多的主题文本,显然优于前代的 GPT-2 。作为目前最大的密集型神经网络,GPT-3 能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的各位哲学家——预测生命的真谛。且 GPT-3 不需要微调,在处理语法难题方面,它只需要一些输出类型的样本(少量学习)。可以说 GPT-3 似乎已经满足了我们对于语言专家的一切想象。

 

  1. ChatGPT“前身”InstructGPT

InstructGPT 的工作原理是开发人员通过结合监督学习+从人类反馈中获得的强化学习。来提高 GPT-3 的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应:人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的 GPT-3 ,将它变成 InstructGPT 以生成每个提示的现有响应。

下一步是训练一个模型,使其对更好的响应做出更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的 GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。

开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后,语言模型会生成响应,而奖励模型会给予相应奖励。PPO 使用奖励来更新语言模型。

二、ChatGPT的技术原理

总体来说,Chatgpt 和 InstructGPT 一样,是使用 RLHF(从人类反馈中强化学习)训练的。不同之处在于数据是如何设置用于训练(以及收集)的。

ChatGPT是一个大型语言模型,由OpenAI训练,具有高效的语言处理能力。它的底层原理主要包括三个方面:Transformer架构、自注意力机制和预训练。

  1. Transformer架构:Transformer是一种用于处理序列数据(如文本)的神经网络架构,是在自注意力机制的基础上构建的。编码器和解码器是它的两个主要组成部分,分别用于处理输入数据和生成输出数据。

  1. 自注意力机制:自注意力机制是Transformer架构的核心,它通过编码输入单元并计算每个输入单元与每个输出单元的相关性,来实现对输入数据的分析。

  1. 预训练:预训练是一个在大量文本数据上训练语言模型的过程。通过预测文本中下一个词语的概率,模型学习语言的语法、语义和模式。预训练后的模型可以在新的数据上获得更好的表现。

ChatGPT的训练过程分为以下三个阶段:

第一阶段:训练监督策略模型

GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调GPT-3.5模型(获得SFT模型,Supervised Fine-Tuning) 。此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类偏好。

第二阶段:训练奖励模型(Reward Mode,RM)

这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。

接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为lmportance Sampling。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6843.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

体验了一下火爆全球的 ChatGPT,我震惊了

这几天,要说编程圈最热的话题,莫过于OpenAI的ChatGPT,写小说,写代码,找BUG,写论文,画漫画,谱曲……简直没有它干不了的事。 趁着下班时间,我也光速注册体验了一下&#…

起点中文网月票榜爬取及数据分析

此文转载自:https://blog.csdn.net/weixin_45036306/article/details/112385445 起点中文网月票榜爬取及数据分析 文章目录 起点中文网月票榜爬取及数据分析1. 数据爬取 1.1.1 准备1.1.2 网页分析1.1.3 层次爬取1.1.4 数据存储 2. 数据分析及可视化 1. 数据爬取 数…

8篇报告|马斯克称Chat GPT好得惊人

8篇报告|马斯克称Chat GPT好得惊人‼️ 最近,连续刷屏的AI应用ChatGPT火爆全球,成为科技圈第一大热潮。 马斯克在推特上评价 ChatGPT 称:“ChatGPT 好得惊人。我们离强得可怕的 AI 不远了。”比尔盖茨盛赞其影响“不亚于互联网诞…

万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现

ChatGPT掀起的NLP大语言模型热浪,不仅将各家科技巨头和独角兽们推向风口浪尖,在它背后的神经网络也被纷纷热议。但实际上,除了神经网络之外,知识图谱在AI的发展历程中也被寄予厚望。自然语言处理是如何伴随人工智能各个流派不断发…

ChatGPT 爆火背后的大语言模型到底是什么?

ChatGPT 是一个基于大规模预训练语言模型的自然语言处理技术。大规模预训练语言模型是指利用大量文本语料对神经网络进行预训练,使得神经网络可以学习到语言的各种规律、结构和特征,从而能够实现各种自然语言处理任务。 ChatGPT 是由 OpenAI 团队开发的…

ChatGPT时代,我们可能站到了自然语言编程的大门口

ChatGPT大火,我现在有种感觉:我们可能站到了自然语言编程的门口,一脚下去,也许能把门踹开。 当然,也可能会踢到一块铁板。 回顾我们的编程之路,基本上就是一个编程门槛不断降低的历史。 最早的一批前辈们…

ChatGPT的语言处理功能真有那么强吗?

作为一名语言类专业的学生,听说ChatGPT的语言能力已经超过70~80%的人类,能够与人进行正常对话,那么对它输入一些我们经常分析的歧义句,不知会有何表现。 进入 ChatGPT中文网 网站 朱鸾AI助手 ChatGPT中文网 - ChatGPT国内网页…

斯坦福等学者对ChatGPT做了在NLP几乎所有任务上的优劣势分析

进NLP群—>加入NLP交流群 一句话总结 在NLP的7个代表性任务中的20个流行数据集上系统性的分析ChatGPT的zero-shot学习能力,最终得出ChatGPT在许多有利于推理能力的任务上表现良好(例如,算术推理),而在解决序列标注等…

【关于ChatGPT的30个问题】15、ChatGPT会对自然语言处理和人工智能领域产生什么影响?/ By 禅与计算机程序设计艺术

15、ChatGPT会对自然语言处理和人工智能领域产生什么影响? 目录 15、ChatGPT会对自然语言处理和人工智能领域产生什么影响?

复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术

分享嘉宾 | 邱锡鹏 整理 | 禾木木,梦依丹 出品 | CSDN(ID:CSDNnews) ChapGPT 自问世以来,便展现出了令世人惊艳的对话能力。仅用两个月时间,ChatGPT 月活跃用户就达一亿,是史上用户增速最…

【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里?

相关博客 【自然语言处理】【大模型】PaLM:基于Pathways的大语言模型 【自然语言处理】【chatGPT系列】大语言模型可以自我改进 【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答 【自然语言处理】【ChatGPT系列】FLAN:微…

ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?

作者 | 张俊林 责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 如今,大语言模型已经彻底改变了自然语言处理 (NLP)的研发现状。众所周知,增加语言模型的规模能够为一系列下游 NLP 任务带来更好的任务效果,当…

抖音seo源码/源代码搭建/源代码部署打包-支持二开

1. 抖音seo源码/源代码搭建/源代码部署打包-支持二开 抖音SEO是指通过提高在抖音平台的关键词排名,来获取流量、获取客户的目的。抖音的流量主要分为付费流量、推荐流量和搜索流量,其中搜索流量因为付费太贵、上热门太累而成为另一种进入方式。与传统搜…

【AI大事件】谷歌AI教父Hinton离职!深探AI风险与挑战,共赴智能科技新征程!

近日,整个科技圈再次惊掉了下巴!深度学习泰斗、神经网络之父、图灵奖得主 Hinton 突然宣布离职谷歌。 Hinton,他可是 AI 的教父啊,而他的学生就是发明了GPT 的首席科学家。 他的这一举动,引发了整个科技行业的关注和讨…

一个人如何做抖音矩阵

随着抖音发展的越来越成熟,不少企业、公司都开始在抖音上发力。但由于人员不够迟迟没有开始布局抖音矩阵,今天小编就来和大家聊一聊一个人怎么做抖音矩阵! 一个人做抖音矩阵其实也非常简单,只需要借助矩阵管理系统即可 很多小伙伴…

好消息,发现一款知网学术不端论文检测查重助手,永久免费分享给大家使用

今天Aliwen要为大家带来一款神器是,知网学术不端论文检测查重助手 v1.5。基本上每个高校都会对学生的毕业论文进行论文查重检测,一方面可以避免论文抄袭,另一方面可以端正同学们的写作态度,让学术氛围更加公正、公平。 点击添加图…

知网查重学术不端文献检测系统查不查公式和图表文字

知网查重学术不端文献检测系统查不查公式和图表文字 记录博文 知网查重学术不端文献检测系统升级到5.3版本 一些说明 查不查公式么? 查。特殊符号转换大多数不出,公式转化率较低,数字可以转化出,文字基本 100 % 转化出。查不查…

免费下论文及查重投稿的10来个方法

目录 免费下载1.超星期刊2.库问搜索3. 全国图书馆参考咨询联盟4.百度学术5.爱学术6.谷歌学术7.OA图书馆8.Idata9.中国国家图书馆10.湖南图书馆——白嫖知网,强烈推荐 免费查重1.百度学术2.超星尔雅3.……待续…… 论文发表 眨眼间就快毕业了,是时候准备写…

20190312 文本查重系统(一)

整体框架部分参照牛客初级项目,python2.7flaskwebmysql; 首先是界面部分(这个部分实在是不大会前端,只能看个简单的效果) 首页:index.html 内容:学生登录和教师登录按钮,text按钮…

Python基于CRNN&CTPN的文本检测系统(源码&教程)

1.背景 文本是人类最伟大和最具影响力的发明之一,是人类智慧的结晶,是人类文化、思想传承的一种基本的表达方式和不可或缺的载体。在21世纪,文本与日常生活密切相关。描述、理解万事万物,表达情感,与他人交流都离不开文本。文本以各种形式存在于生活中,尤其在信息时…