Azure OpenAI 官方指南02|ChatGPT 的架构设计与应用实例

ChatGPT 作为即将在微软全球 Azure 公有云平台正式发布的服务,已经迅速成为了众多用户关心的服务之一。而由 OpenAI 发布的 ChatGPT 产品,仅仅上线两个月,就成为互联网历史上最快突破一亿月活的应用。本期从技术角度深度解析 ChatGPT 的架构设计与应用实例

ChatGPT的起源 ╱ 01

InsturctGPT的架构设计 ╱ 02

ChatGPT的技术应用场景及示例 ╱ 03

ChatGPT 的起源

ChatGPT 是由 OpenAI 公司在 2022年11月推出的一款智能聊天机器人程序,属于文本类AI应用。这里,Chat 即「聊天」,GPT 的全称为“Generative Pre-trained Transformer。由于采用 Transformer 架构,且 ChatGPT 在 GPT-3 大模型基础上专门针对 Chat 聊天能力做了性能上的调优,所以 ChatGPT 在自然语言的许多交互场景中表现出了卓越的性能。

Transformer 模型在2017年问世,能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。经过训练后,这个最初的 Transformer 模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一,成为当时最先进的大型语言模型(Large Language Model, LLM)

2018年,在 Transformer 模型诞生还不到一年的时候,OpenAI 公司发表了论文“Improving Language Understanding by Generative Pre-training(用创造型预训练提高模型的语言理解力),并推出了具有1.17亿个参数的GPT-1(Generative Pre-training Transformers)模型。

这是一个用大量数据训练的、基于 Transformer 结构的模型。OpenAI 的工程师使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练。该数据集包含超过7000本从未出版的书籍,涵盖了冒险、奇幻、言情等类别。在预训练之后,工程师们又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练(又称为微调,Fine-Tuning)。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定,以及文本分类这四种语言场景,都取得了比基础 Transformer 模型更优的结果,成为了新的业内第一。

2019年,OpenAI 公布了一个具有15亿个参数的模型:GPT-2。该模型架构与 GPT-1 原理相同,主要区别在于 GPT-2 的规模更大(10倍)。同时,OpenAI 也发表了介绍该模型的论文“Language Models are Unsupervised Multitask Learners”

2020年,OpenAI 发表论文“Language Models are Few-Shot Learner”,并推出了最新的 GPT-3 模型——它有1750亿个参数。GPT-3 模型架构与 GPT-2 类似,但是规模大了整整两个数量级。GPT-3 的训练集也比前两款 GPT 模型要大得多:经过基础过滤的全网页爬虫数据集(4290亿个词符)、维基百科文章(30亿词符)、两个不同的书籍数据集(670亿词符)

2022年3月,OpenAI再次发表论文“Training Language Models to Follow Instructions with Human Feedback”,并推出了基于 GPT-3 模型并进一步微调的 InstructGPT 模型。InstructGPT 的模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集,从而训练出更真实、更无害,且更好地遵循用户意图的语言模型。

2022年11月,ChatGP 横空出世,它是基于 GPT-3.5 架构开发的对话AI模型,是 InstructGPT 的兄弟模型。但两者在训练模型的数据量上,以及数据收集、数据如何设置用于训练方面有所不同。

InsturctGPT 的架构设计

目前 Azure OpenAI 还没有官方公开资源详细说明 ChatGPT 的技术原理,因此我们将以 ChatGPT 的兄弟模型 InstructGPT 为对象,深度解析其算法架构设计。

如上图所示,开发人员将提示分为三个阶段,并以不同的方式为每个阶段创建响应和训练:

第 1 阶段 训练监督策略模型

在这个阶段,工程师会在数据集中随机抽取问题,由专门的标注人员给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5 模型。这些标注人员会在应聘前进行筛选测试,训练数据大约有1万3千个。相较于第二、三阶段,这里用到的数据量较少。

标注人员根据提示 (prompt) 编写质量可靠的输出响应 (demonstrations)。这里采用的是 Supervised Fine-Tuning(SFT)模型有监督的策略来进行微调。微调之后,SFT 模型在遵循指令/对话方面已经优于 GPT-3.5,但不一定符合人类偏好。

第 2 阶段 训练奖励模型

这一阶段主要是训练一个奖励模型Reward Modeling (RM)。这里的训练数据是怎么得到的呢?首先通过在数据集中随机抽取问题,使用第一阶段生成的模型,对每个问题生成多个不同的回答,然后再让标注人员对这些回答进行排序。对于标注人员来说,对输出进行排序比从头开始打标要容易得多,因此这一过程可以扩展数据量,大约产生3万3千个训练用的数据。

接下来,再使用这个排序结果来训练奖励模型。对于多个排序结果,两两组合,形成多个训练数据对。RM 模型接受输入后,给出评价回答质量的分数。对于一对训练数据,通过调节参数使得高质量回答的打分比低质量的打分要高。奖励模型学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。

第 3 阶段 采用 PPO 强化学习进行优化

PPO (Proximal Policy Optimization,近端策略优化)是一种用于在强化学习中训练 agent 的策略,这里被用来微调 SFT 模型。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题后,使用 PPO 模型生成回答,并用上一阶段训练好的 RM 模型计算奖励,给出质量分数,然后用这个奖励来继续更新 PPO 模型。奖励依次传递,由此产生策略梯度,通过强化学习的方式更新 PPO 模型参数

不断重复第二和第三阶段,通过迭代,会训练出更高质量的 InstructGPT 模型。我们将来自于人类反馈的强化学习简称为 RLHF(reinforcement learning from human feedback):使用人类的偏好作为奖励信号来微调模型。这也是 ChatGPT 在实际对话过程中的输出更符合人类偏好的原因。

ChatGPT 的技术应用场景及示例

总的来说,ChatGPT 有如下几大类技术应用的领域——

⦿ 对话机器人:可以用于生成自然语言对话,实现人机交互。

⦿ 文本生成:可以用于生成摘要、文章、诗歌等文本。

⦿ 问答系统:可以用于回答用户提出的问题,提供相关信息。

⦿ 自动翻译:可以用于实现自动翻译,将文本从一种语言翻译为另一种语言。

⦿ 情感分析:可以用于分析文本的情感倾向,实现情感分析。

⦿ 语音合成:可以用于生成语音,将文本转换为语音。

场景示例 1 NLP 领域

⦿ 生成摘要

 

⦿ 情感分析(小样本或零样本)

few-shot or zero-shot

 

⦿ 开放领域问答

 

⦿ 由文字生成表格

 

⦿ 数据集生成(小样本或零样本)

few-shot or zero-shot

 

场景示例 2 代码领域

⦿ 代码生成

 

⦿ 解释代码

 

⦿ 知识库生成

 

Azure OpenAI 官方指南 Vol.02 ChatGPT 作者

Annie Hu 微软云 AI 高级技术专家

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14044.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聚观早报 | ChatGPT炒股回报率超500%;网易发布11新游戏

今日要闻:微信支付正式发布“微信刷掌”产品;ChatGPT炒股回报率超500%;网易发布11新游戏;国家超算中心发布中文大语言模型;B站试水付费专属视频 微信支付正式发布“微信刷掌”产品 5 月 21 日,北京轨道交通…

chatgpt赋能python:Python在炒股领域的应用

Python在炒股领域的应用 Python语言在炒股领域的应用越来越广泛。Python具有易于学习、开发速度快、跨平台等优点,同时可以通过各种第三方库来获取财经数据、进行数据分析和可视化等操作,使其成为炒股界不可或缺的工具。 获取财经数据 Python编程语言…

chatgpt赋能python:用Python制作动画,你不可错过的工具

用Python制作动画,你不可错过的工具 Python是一种高级编程语言,最初被设计用于编写自动化脚本和简化复杂任务。然而,如今它越来越多地被用于创意和艺术性的项目,甚至是动画制作。 Python在动画制作中的优势一直受到赞誉。它是一…

chatgpt赋能python:制作简单动画:Python带你飞

制作简单动画:Python带你飞 Python不只是一门编程语言,它还能制作简单的动画。Python用于动画的库,有很多种,包括turtle、graphics.py和pygame等等。本文将以turtle为例,介绍如何使用Python制作简单的动画。 turtle简…

ChatGPT真神奇,但是也真焦虑

ChatGPT火爆 ChatGPT的火爆程度不用说也知道。就目前来说,已经开始冲击各行业了,比如客服、智能助手、语言学习、自然语言处理等等等。。 ChatGPT冲击 冲击最高的可能就是中间这个段位的了。高段位无法取代,但是低段位,通过使用Ch…

过于神奇的 ChatGPT

实在好奇究竟用的什么数据集,居然能得到下述问答: 最后又扣回了第一个问题「按照你的要求直接给出答案」,确实很强!

一文看懂ChatGPT与存算一体化

ChatGPT开启大模型“军备赛”,存储作为计算机重要组成部分明显受益: ChatGPT开启算力军备赛,大模型参数呈现指数规模,引爆海量算力需求,模型计算量增长速度远超人工智能硬件算力增长速度,同时也对数据传输速度提出了…

戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接)

戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接) 目录 戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接) 1. 前言 2.Eyeglasses-Dataset数据集说明 3.Eyeglasses-Dataset数据集下载 4.戴眼镜检测和识别(Python版本) 5.戴眼…

ChatGPT近视眼镜购买指南:防雾防尘、舒适度与价格平衡的完美选择

最近眼镜坏了,想买一个新的,之前对眼镜这块不是很了解,于是就问了ChatGPT4. 我:想买一个近视眼镜,需要注意什么?有没有防尘防雾的眼镜?需要加防蓝光功能吗? GPT: 在购买…

AR眼镜方案_基于ChatGPT的AR智能眼镜设计方案

AR眼镜是一种创新的技术,可以在用户的视野中显示虚拟物体和信息。然而,眼镜的人机交互一直是一个难题。幸运的是,ChatGPT的出现带来了新的解决方案,可以为AR眼镜提供更好的人机交互支持。 现在,用户可以通过对AR眼镜内…

谷歌全球大裁员,涉及1.2万人

Datawhale干货 方向:就业信息,来源:机器之心 最近几天科技领域的流行词不是某一项新技术,而是裁员。 1 月 20 日,谷歌母公司 Alphabet 在一份员工备忘录中表示,由于面临「变化的经济现状」,该公…

开源精神奠基人诞生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 16 日,在 2005 年的今天,腾讯收购国内第二大邮件客户端软件 Foxmail。腾讯于当日正式签署了收购 Foxmail 软件及有关知识产权的协议…

平平无奇的营销小天才——ChatGPT

“悉之智能一直以来做的是AI解题方向的探索,目前ChatGPT有很强的同理心和理解能力,但相对缺乏逻辑能力,无法完成数学题之类更复杂的问题。“让AI获得逻辑能力,稳定完成更加复杂的任务,比如AI解体,或许会成为…

ChatGPT的今天,早已被这本书预言了

最近,ChatGPT大火了!推出之后,ChatGPT只用了两个月就积累了1亿用户,随着越来越多的人开始用ChatGPT,发现他能做的东西越来越多,写论文、写作业、写文案、写代码都不在话下。 于是,各种稀奇古怪的…

基于 ChatGPT 的输出训练开源 LLM,糟透了!

【CSDN 编者按】曾以为在 ChatGPT 上训练模型是不错的捷径,可如今所有的大模型都依靠GPT来训练,所有这些内容都来自一个模型,越来越难以区分 LLM 生成的和真正有价值的内容。或许更多基于开源数据集的 LLM 才是我们所需要的。 作者 | Martin …

ChatGPT赋能产品管理

在产品管理和开发过程中,可以利用ChatGPT辅助完成部分工作,提高工作生产力和创造力。原文: How to use ChatGPT in product management 相信你肯定听说过最近大火的ChatGPT,用自然语言跟机器人聊天是挺有趣,不过我还是希望探索一下…

母亲节快乐- AI绘图节日图片走一波

祝愿天下母亲节日快乐,平安喜乐。

巴比特 | 元宇宙每日必读:训练AI模型也得付钱?版权商们正审查自己“被用于训练ChatGPT”的内容,希望获得应有的补偿...

摘要:据华尔街见闻报道,AI聊天机器人凭借其出色的能力,成为环球市场的焦点,让互联网公司之间掀起了新一轮“军备竞赛”。但是,用于训练人工智能的数据,如新闻、书籍等,许多都是有版权归属的&…

ChatGPT来临,架构师何去何从?

你好,我是李运华。 最近科技圈大火的事件就是ChatGPT的全球火热流行。这款由OpenAI公司在2022年11月底推出的聊天机器人,创造了史上消费应用最快达成1亿用户的历史,在推出仅仅两个月后,月活跃用户估计已达1亿,成为历史…