基于GPT3.5模型搭建的聊天系统BAIChat

1. 使用chatgpt前提条件

需要特殊的网络环境。如果是小白,不会搭建网络环境,可以关注我私信我,在线帮你搭建网络环境。

2.BAIChat链接

https://chatbot.theb.ai/#/chat/1686535596065


GPT3

研究背景

最近的研究表明,在 pretrain+finetune 模型中,当模型适应了下游任务的训练集后,往往会失去对下游任务的 OOD(out-of-distribution)泛化能力,这种能力也被称为Zero-shot能力。由于训练集不可能涵盖整个真实分布,而且预测数据的分布也随时间变化而变化,因此模型需要具备 OOD 的能力。通过构建 OOD 测试集,并与 IID(Independent Identically Distribution 指训练集和测试集是同分布但是互相独立)上的表现进行比较,进行了一些实验研究:

1. 传统 NN 衰减很大,甚至只有 30%,而 PTM 衰减很小;

2. 更大 size 的 PTM,并不一定表现更好;

3. PTM 使用的训练数据的规模越大、多样性越强,表现越好,这点在ChatGPT的训练集构建中也体现出来了。


训练数据

GPT-3的训练数据包括低质量的Common Crawl,高质量的WebText2,Books1,Books2和Wikipedia。GPT-3根据数据集的不同的质量赋予了不同的权值,权值越高的在训练的时候越容易抽样到相比之下,GPT-2的训练数据包括了WebText、BooksCorpus、Stories、Wikipedia和Project Gutenberg等。为了清理脏数据,OpenAI做了以下的数据处理部分:

1. 使用高质量数据作为正例,训练LR分类算法,对 CommonCrawl 的所有文档做初步过滤;

2. 利用公开的算法做文档去重,减少冗余数据;

3. 加入已知的高质量数据集;

其中“高质量数据”主要是指 BERT、GPT、GPT-2 使用过的数据,最终处理完成后使用的数据规模约 570G。

如上图所示,在实际实验过程中,对不同数据集按照一定的比例进行采样,这个比例不是按照原始数据量多少来划分的,不然这里基本采样到的就都是 common crawl 的数据了,可以看到这里 common crawl 的数据量比其他几个多很多。进行采样的原因主要考虑到,就算做了一些数据清洗还是觉得 common crawl 的数据质量不如其他几个。最终采样的时候,虽然 common crawl 的数据量是其他几个数据集的上百倍,但是实际占比是 60%,有 40% 的数据是能够保证质量的。

训练方法

Step1-预训练:

在模型结构上,GPT-3 延续使用 GPT 模型结构,但是引入了 Sparse Transformer 中的 sparse attention 模块(稀疏注意力)。

sparse attention 与传统 self-attention(称为 dense attention) 的区别在于:

dense attention:每个 token 之间两两计算 attention,复杂度 O(n²)。 sparse attention:每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)。

具体来说,sparse attention 除了相对距离不超过 k 以及相对距离为 k,2k,3k,... 的 token,其他所有 token 的注意力都设为 0,如下图所示:


我们来具体观察一下,实际上图中的第二行就是涉及到的attention的token内容,可以看出首先关注了附近四个token,其次是2k,3k距离的token,那么为什么这么做呢?使用 sparse attention 的好处主要有以下两点:

1. 减少注意力层的计算复杂度,节约显存和耗时,从而能够处理更长的输入序列;

2. 具有“局部紧密相关和远程稀疏相关”的特性,对于距离较近的上下文关注更多,对于距离较远的上下文关注较少;

但是批判性的角度来讲,肯定是有缺点的,NLP语言中内容都是有上下文关系的,如此依赖必定会对长文本建模的效果变差。关于 sparse attention 详情可参考《Generating Long Sequences with Sparse Transformers》。最终 GPT-3 在训练过程中得到了如下不同规模的模型:

其中规模最大的模型称为 GPT-3,模型参数量为 1750 亿。


Step2-下游任务:zero-shot/few-shot

GPT-3是一种语言模型,它可以通过少量的样本进行学习,因此被称为“Few-Shot Learner”。和人类一样,GPT-3不需要完全不看任何样例就能学习,只需要看一小部分样例就能学会更多的知识。GPT-3的体量非常庞大,因此在下游任务中进行fine-tune的成本很高。为了解决这个问题,GPT-3使用了“In-Context Learning”的方式,在不进行梯度更新或fine-tune的情况下,直接在上下文中进行学习。


如上图所示,GPT-3 在下游任务的评估与预测时,提供了三种不同的方法:

Zero-shot:仅使用当前任务的自然语言描述,不进行任何梯度更新; One-shot:当前任务的自然语言描述,加上一个简单的输入输出样例,不进行任何梯度更新; Few-shot:当前任务的自然语言描述,加上几个简单的输入输出样例,不进行任何梯度更新;

其中 Few-shot 也被称为 in-context learning,虽然它与 fine-tuning 一样都需要一些有监督标注数据,但是两者的区别是:

1. fine-tuning 基于标注数据对模型参数进行更新,而 in-context learning 使用标注数据时不做任何的梯度回传,模型参数不更新;

2. in-context learning 依赖的数据量(10~100)远远小于 fine-tuning 一般的数据量;


最终通过大量下游任务实验验证,Few-shot 效果最佳,One-shot 效果次之,,Zero-shot 效果最差,这是合乎情理的事情。

上图中,横坐标为模型参数量,纵坐标为任务精度,图中大量灰色线表示不同下游任务,橙色/绿色/蓝色线是下游任务效果的平均值。


这张图显示了随着测试案例数量的增加,模型大小对最终效果的影响。虚线代表没有使用Prompt(自然语言描述)。可以看到,模型越大,测试案例数量越多,最终效果越好。当测试案例很多时,Prompt变得不那么重要,因为从案例中也可以推断出任务类型。


这张图显示了任务精度与计算量(模型规模或数据量)之间的关系。要实现线性提高任务效果,通常需要指数级增加模型规模和数据量。也就是说,为了获得更好的效果,我们需要投入更多的计算资源和数据量。


GPT-3虽然很强悍,但是仍旧有局限性:

1)数据量和参数量的骤增并没有带来智能的体感。从参数量上看,从GPT2 1.5B到GPT3 175B约116倍参数量的增加,从数据量上看,GPT2 40G到GPT3 570G近15倍训练数据增加,带来的“更”智能,或者简单点说“更few/zero-shot”的能力。

2)GPT-3的训练数据是从互联网上爬取的,因此可能存在一些错误或不准确的数据。

3)GPT-3在处理某些任务时可能会出现错误或不准确的结果,以及不合理或不合逻辑的结果。


GPT3.5 (Instruct GPT)

GPT-3纵然很强大,但是对于人类的指令理解的不是很好,这也就延伸出了GPT3.5诞生的思路。在做下游的任务时,我们发现GPT-3有很强大的能力,但是只要人类说的话不属于GPT-3的范式,他几乎无法理解。例如,我们说把句子A变成句子B,这种到底是机器翻译呢,还是同语言的转述,都需要让GPT-3学习到才是可以的。


ChatGPT 是基于 GPT3.5 的基础模型框架,核心变化在于通过真实的调用数据以及人类反馈的强化学习进行训练。ChatGPT3.5 主要用于自然语言处理、机器翻译等任务,而 ChatGPT3.5-Turbo 拥有更强大的强度,可用于更复杂的语言分析,比如情感分析、语法结构分析。所以,ChatGPT 和 GPT3.5 是同一系列的产品,但 ChatGPT 是在 GPT3.5 的基础上进行了改进和优化。


InstructGPT采用基于人类反馈的强化学习(RLHF)来不断微调预训练语言模型(LLM),旨在让模型能够更好地理解人类的命令和指令含义,如生成小作文、回答知识问题和进行头脑风暴等。该方法不仅让模型学会判断哪些答案是优质的,而且可以确保生成的答案富含信息、内容丰富、对用户有帮助、无害和不包含歧视信息等多种标准。因此,RLHF是一种有效的方法,可以帮助LLM不断提升性能和适应各种用户需求。


关于 InstructGPT 的技术方案,原文分为了三个步骤:有监督微调,奖励模型训练,强化学习训练;实际上可以把它拆分成两种技术方案,一个是有监督微调(SFT),一个是基于人类反馈的强化学习(RLHF),下面我们简单介绍下。


Step1 监督策略模型 (SFT supervised fine-tuning)

尽管GPT-3具有强大的语言处理能力,但它很难理解人类不同类型指令中蕴含的不同意图,并且很难判断生成内容是否是高质量的结果。为了解决这个问题,采取了以下步骤:首先,从测试用户提交的 prompt 中随机抽取一批,然后请专业的标注人员为这些 prompt 给出高质量答案。接下来,我们使用这些<prompt,answer>数据来Fine-tune GPT-3模型,以使其初步具备理解人类prompt中所包含意图,并根据这个意图给出相对高质量回答的能力。这一步骤中包含了1.2万条训练数据。虽然这个过程是有效的,但显然这还不足以解决所有问题。


在这里使用余弦学习率衰减和残差 dropout 为0.2进行了16个epoch的训练。根据验证集上的RM分数进行最终的SFT模型选择。论文发现SFT模型在第1个epoch后会出现过拟合情况,然而,后来实验发现训练更多的epoch会提高RM分数和人类偏好评分,尽管会出现这种过拟合情况。所以看来过拟合即使出现也不影响最终的学习结果。

Step2 训练回报模型(Reward Model,RM)


在这个阶段,论文中的研究者的主要目的是通过人工标注训练数据来训练回报模型。对用户提交的prompt进行随机抽样,并使用第一阶段Fine-tune好的冷启动模型,生成K个不同的回答,形成<prompt,answer1>,<prompt,answer2>….<prompt,answerK>数据。然后,标注人员根据相关性、信息性和有害信息等标准,对K个结果进行排序,生成排序结果数据。接下来,研究者使用这个排序结果数据进行pair-wise learning to rank训练模式,训练回报模型。RM模型接受一个输入<prompt,answer>,给出评价回答质量高低的回报分数Score。对于一对训练数据<answer1,answer2>,假设人工排序中answer1排在answer2前面,那么Loss函数则鼓励RM模型对<prompt,answer1>的打分要比<prompt,answer2>的打分要高。


实际上船长在这里插一嘴,GPT3.5的RM标注数据,会使用到一些硬性的,主观性不是那么强的指标,例如是否回答问题,是否为低俗色情等等,但是不会完全依赖于这些指标,为什么呢?因为人类的标注都是有很强主观性的,有的人认为是好的答案,有的人就是认为不好,所以并不能通过分数来衡量。那怎么办呢?所以才提出了排名的方式,排名越靠前的越好,这就相当于默认考虑了这些潜在因素。


Step3-强化学习来增强预训练模型

在这个阶段,研究者不需要人工标注数据,而是利用之前学习好的RM模型,通过PPO强化学习来更新预训练模型参数。从用户提交的命令中,随机选择一些新的命令,让PPO模型来生成回答。接着,用RM模型对这些回答进行评估,并给出一个分数作为回报。研究者的目标是训练LLM模型生成的答案能够获得高分数,也就是符合RM标准的高质量回答。最后,根据得到的回报分数来更新PPO模型的参数,以便让LLM模型生成更好的回答。


其实上面说的也是比较笼统的,大致意思是需要强化学习,还有奖励函数来更新语言模型,这么做的原因纯粹是为了让模型知道用户的指令。下面我们来详细的讨论下:


既然是强化学习,那么我们势必需要强化学习的三要素:策略(policy)、动作空间(action space)和奖励函数(reward function)等基本要素。


显然,策略就是基于该语言模型,接收 prompt 作为输入,然后输出一系列文本(或文本的概率分布);而动作空间就是词表所有 token 在所有输出位置的排列组合(单个位置通常有50k左右的token候选);观察空间则是可能的输入token序列(即prompt),显然也相当大,为词表所有token在所有输入位置的排列组合;而奖励函数(reward)则是基于训好的RM模型计算得到初始reward,再叠加上一个约束项来。整个过程如下图所示:



那么具体来说,是如何根据PPO来进行网络更新呢?实际上核心在于新旧两个网络,通过不断拉大新旧两个网络的距离,来让最终的新网络越好。下面是通俗易懂的操作步骤:

1. 定义“旧”的策略和“新”的策略。这两个策略都是我们用来指导智能体行动的指南。

2. 通过与环境交互,我们可以收集到从当前状态开始采取不同动作所得到的奖励,并计算每个动作的概率比例、价值函数以及优势函数等。这些都是用于评估策略表现的指标。

3. 接着,我们会计算新旧策略之间的差异,并使用一个剪切函数来约束更新幅度,以最大程度地提高未来预期回报。

4. 将该变化量应用于模型参数中,以更新模型并改进策略。

5. 重复上述步骤多次,直到模型收敛为止。


举个例子,假设我们正在训练一个自主驾驶汽车,希望它能够在城市道路上安全地行驶。我们可以使用PPO算法来训练它,让它从当前位置出发,不断采取不同的驾驶决策(如加速、刹车、转弯等),并根据所得到的奖励来调整模型参数。通过重复这个过程,我们可以逐渐改进模型,让自主驾驶汽车学会更好地行驶。


那么问题来了,为什么使用PPO方法来更新GPT3呢?实际上是因为有限的Prompt导致的,我们不能够训练无限多的Prompt,类似于强化学习中无限的环境,所以只能够通过新旧模型预测的差别来进行学习速度上的提升。那么PPO究竟如何应用在GPT-3中呢?


从上图中可以看到,base模型是绿色的,RL Policy是灰色的,他们两个都会根据同样的Prompt来输出不同的结果,而接下来就是把两个模型的Reward分数拉的尽可能的大,使得两个的差别越大越好,所以在下面的公式当中,利用了KL DIvergence来衡量两个模型之间分布的差异。而之后,这个分数会用来更新RL 模型,也即是GPT-3,所以RLHF的核心就是利用强化学习的思路来更新GPT的网络。


如果研究者一直重复第二和第三步骤,那么每一轮迭代过后,LLM模型的能力都会变得更强。这是因为第二步骤使用人工标注数据来提高RM模型的能力,第三步骤则利用增强的RM模型对新问题的答案作出更准确的评分,并使用强化学习来鼓励LLM模型学习新的高质量内容。这就像是使用伪标签来扩充高质量训练数据一样,进一步增强了LLM模型的能力。显然,第二和第三步骤相互促进,这就是为什么不断迭代会有持续增强效果的原因。


训练数据

接下来的问题是,如果应用如此多的方法,那强化学习所需要的训练数据是多少呢?实际上很少,只有几万的规模,详细的数据如下图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32875.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【编程必备】保姆级教学:简单教你使用 Python 调用 ChatGPT-3.5-API

前天 OpenAI 开放了两个新模型的api接口&#xff0c;专门为聊天而生的 gpt-3.5-turbo 和 gpt-3.5-turbo-0301。 ChatGPT is powered by gpt-3.5-turbo, OpenAI’s most advanced language model. 从上面这句话&#xff0c;我们可以知道现在 chat.openai.com 官网就是由 gpt-3.5…

GPT时代,超强大脑才是你的第一财富。

ChatGPT 爆火后&#xff0c;无数人把这个无所不能的对话机器人当做生活、工作助理&#xff0c;用其代替搜索引擎、生成流畅的翻译、甚至撰写文章、剪辑视频、分析数据&#xff0c;享受着“不劳而获”的便利和高效体验。 自然而然地&#xff0c;一些老生常谈的话题&#xff0c;比…

新书上市 | 从大脑认知开始,全方面提高编程能力,助你摆脱“GPT焦虑症”

目录 一、ChatGPT火爆全网二、《程序员超强大脑》三、本书内容四、本书特色五、作译者简介1、费莉安赫尔曼斯&#xff08;Felienne Hermans&#xff09;2、蒋楠 大家好&#xff0c;我是哪吒。 &#x1f3c6;本文收录于&#xff0c;49天精通Java从入门到就业。 全网最细Java零…

别贩卖焦虑了,人工智能永远无法取代你

每一次生产力的变革&#xff0c;在带来技术进步与更高效率的同时&#xff0c;也都无可避免的会带来一波失业浪潮&#xff0c;当下的人工智能浪潮自然也不例外。现在&#xff0c;第一批因为AI失业的人已经出现了…… 因为AI失业的第一批人&#xff0c;已经开始在游戏行业出现了 …

基于线上考研资讯数据抓取的推荐系统的设计与实现(论文+源码)_kaic

摘 要 随着互联网的飞速发展&#xff0c;互联网在各行各业的应用迅速成为众多学校关注的焦点。他们利用互联网提供电子商务服务&#xff0c;然后有了“考研信息平台”&#xff0c;这将使学生考研的信息平台更加方便和简单。 对于考研信息平台的设计&#xff0c;大多采用java技…

【.NET AI Books】问题分类和技能使用大全

第一章 问题分类 我会把问题设定放在首位&#xff0c;也就是我们的第一章。毕竟所有生成式的 AI 都是需要基于问题给出答案。所以我一直不认同人工智能会取代人类&#xff0c;没有人类哪来问题呢&#xff1f; ChatGPT 的神奇之处在于它可以根据你的问题去完成不同的工作&…

周期函数傅里叶级数的各次谐波系数确定

周期函数傅里叶级数的各次谐波系数确定 在不考虑直流分量的情况下对于周期函数的系数进行计算确定。 简单阐述原理过程。 实例场景&#xff1a; 假定被采样信号的模拟信号时一个周期性时间函数&#xff0c;除基波外还含有不衰减的直流分量和各次函数。 基本形式 周期函数的…

奈奎斯特稳定性判据的步骤(含详细推导)

奈奎斯特稳定性判据的步骤&#xff1a; 一、作出半闭合曲线1.作出开环系统的奈奎斯特曲线2.补圆 二、计算R的大小三、判断Z是否为0 提示&#xff1a;本文只含有奈奎斯特判据的步骤&#xff0c;适合期末防挂科的同学&#xff0c;若想要透彻地了解奈奎斯特判据的原理&#xff0c;…

《重学 Java 设计模式》PDF 出炉了 - 小傅哥,肝了50天写出18万字271页的实战编程资料

作者&#xff1a;小傅哥 博客&#xff1a;https://bugstack.cn 沉淀、分享、成长&#xff0c;让自己和他人都能有所收获&#xff01;&#x1f604; 文章目录 一、前言二、简介1. 谁发明了设计模式&#xff1f;2. 我怎么学不会设计模式&#xff1f;3. 适合人群4. 我能学到什么5.…

三角函数到傅立叶级数

我讨厌傅立叶级数的叫法&#xff0c;这老让我感觉到很深奥&#xff0c;但当我用三角级数时&#xff0c;感觉就大不同了&#xff01;&#xff01; 下面进入正题 正弦波 信号处理中极为极为极为重要的一个函数,三角函数,之所以叫做三角函数,是因为它的计算方式和直角三角密切相…

三大变换与自控(一)傅里叶级数

这一系列文章记录了我在学习三大变换时的心得。 首先从傅里叶变换开始&#xff0c;这是将一个信号从时域转变成频域的算法&#xff0c;在信号处理方面非常有用。 如果正在阅读这篇文章的读者还对傅立叶分析没有一个比较清楚的感性认识&#xff0c;建议先阅读一下知乎的一篇文…

python实现FFT(快速傅里叶变换)

python实现FFT&#xff08;快速傅里叶变换&#xff09; 简单定义一个FFT函数&#xff0c;以后的使用中可以直接幅值粘贴使用。 首先生成了一个频率为1、振幅为1的正弦函数&#xff1a; 然后计算该信号的频率和幅值&#xff0c;得到计算结果如下&#xff1a; 其中计算相位角…

《Mybatis 手撸专栏》第1章:开篇介绍,我要带你撸 Mybatis 啦

作者&#xff1a;小傅哥 博客&#xff1a;https://bugstack.cn 沉淀、分享、成长&#xff0c;让自己和他人都能有所收获&#xff01;&#x1f604; 1. 为甚&#xff0c;撸Mybatis 我就知道&#xff0c;你会忍不住对它下手&#xff01;&#x1f928; 21年带着粉丝伙伴撸了一遍…

傅里叶变换F(f)与F(w)的探究——以余弦函数为例

我们在信号与系统和通信原理中学到的傅里叶变化大多是 F ( ω ) F(\omega) F(ω)这种形式的&#xff1a; 但有时在看资料的时候&#xff0c;发现有人会用 F ( f ) F(f) F(f)这种表达&#xff0c;在画频域图的时候也有 ω \omega ω和 f f f两种横坐标&#xff0c;幅值也会有相应…

傅里叶级数和傅里叶变换

最近在课堂中再次接触了傅里叶级数&#xff08;FS——Fourier Series&#xff09;和傅里叶变换&#xff08;FT——Fourier Transform&#xff09;&#xff0c;这里写一点粗浅的笔记来帮助自己理解。 一、傅里叶级数的意义 首先傅里叶级数是伟大的&#xff0c;它成功的给我们描…

冲激函数的性质

电路对于单位冲激函数的激励的零状态响应称为单位冲激响应。 单位冲激函数也是一种奇异函数&#xff0c;可定义为 单位冲激函数又称为δ函数。它在t≠0处为0&#xff0c;但在t0处为奇异的。 单位冲激函数δ(t)可以看作是单位脉冲函数的极限情况。图1-a为一个单位矩形脉冲函数…

单边指数信号的傅立叶matlab,实验四连续信号的傅立叶变换

subplot(3,1,3);plot(w1,phai) %该三行用来得到相频特性图可得到完整图形。 例2&#xff0e;求2 11)(ω ωj F 的傅里叶逆变换)(t f 。 解&#xff1a;编写如下M 文件&#xff0c; syms t w F1/(1w^2); fifourier(F,w,t) ezplot(f) 运行后&#xff0c;可得如下的文本和如图2所示…

图像傅立叶变换的原理和物理意义

图像傅立叶变换的原理和物理意义 图像的傅立叶变换&#xff0c;原始图像由N行N列构成&#xff0c;N必须是基2的&#xff0c;把这个N*N个包含图像的点称为实部&#xff0c;另外还需要N*N个点称为虚部&#xff0c;因为FFT是基于复数的&#xff0c;如下图所示&#xff1a; &#…

matlab 傅立叶变换去噪

代码 close all data [3132,3133,3125,3128,3121,3123,3121,3125,3116,3120,3115,3121,3121,3129,3134,3150,3164,3186,3197,3221,3238,3265,3281,3306,3319,3336,3339,3351,3352,3357,3349,3350,3339,3346,3340,3342,3328,3324,3308,3300,3284,3275,3259,3254,3241,3237,322…