从语言模型到ChatGPT,大模型训练全攻略

00f4fb73c53e2155c2821ec1558a8f70.png

文|python

前言

你是否想过,为什么ChatGPT能够如此火爆呢?我认为这主要是因为ChatGPT提供了好玩、有用的对话式交互功能,能够为用户提供帮助,而不仅仅是依靠“大”模型的魅力。毕竟,GPT-3在2020年就已经推出了,拥有175B的参数规模,但除了最初的热度之外,它并没有引起社会太多的关注。

那么,究竟是什么让ChatGPT能够生成相对客观且富有信息量的回答呢?研究者们基于预训练好的大规模语言模型,采用了多种调教手段,主要包括指令调整和基于人类反馈的对齐调整。这些调整手段的运用,使得ChatGPT的交互表现更为出色。本文基于人民大学团队一篇的综述论文,给大家简要介绍一下大模型的调教攻略。

论文地址:
https://arxiv.org/pdf/2303.18223.pdf

各个大模型的研究测试传送门

阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

相关推送:

训练ChatGPT的必备资源:语料、模型和代码库完全指南

高效又稳定的ChatGPT大模型训练技巧总结,让训练事半功倍!

指令调整

指令调整(Instruction Tuning)将多种任务转化成自然语言表述的形式,再通过seq2seq的监督学习+多任务学习的方式调整大规模语言模型的参数。经验表明,指令调整可以让大模型更好地执行指令,并提高跨任务与跨语言的泛化能力,并且可以缓解大模型输出重复内容以及补全输入而非完成任务的问题。

3c233130a96219ed80484750e07f920e.png

上图展示了指令精调的数据样例,通常包括一个任务描述,一组可选的展示样例,以及一组输入输出。模型在训练时,利用输出内容,进行监督学习训练。

指令调整的数据主要有两个来源。一为上图左侧,根据现有的数据集进行改写构建。其中,主要涉及通过众包平台构建不同的任务描述,有些工作用启发式模板构建数据,还有工作提出通过颠倒输入输出的方式扩充数据。

第二个来源为上图右侧,基于人类需求构建指令调整数据。InstructGPT提出利用人类在OpenAI API中输入的数据作为任务描述,以提高指令的多样性,更好满足真实需求。过程中涉及收集用户query,让标注者再计一些query,让标注者写出query的回复作为训练目标。GPT-4还额外构建高风险query来让模型学习“拒绝回复”。第二类数据在后面的对齐调整中也用到了。

在指令调整过程中,任务的数量和多样性对跨任务泛化能力很重要。多样性可以体现在长度、结构、创造性等多个方面。而每个任务所需的样本无需过多。

引入展示样本可以提高模型表现,降低模型对指令表述过度的敏感其他的prompt内容会带来负面影响。在展示样本中,包含类似代数运算等思维链(Chain of Thought)的内容可以有效提升模型多步推理能力,对其他任务也有好处。

指令调整中需要注意任务间的样本数量均衡问题,不能简单地按照任务数据集规模合并。增加高质量数据集的采样比例可以提升表现。不过,一般单一数据集样本量会设置一个上限,一般在几千到几万的范围。

OPT-IML提出在指令调整中引入部分预训练样本作为正则,来提高稳定性;GLM-130B 和 Galactica 在语言模型训练过程中引入了少许指令调整数据。

对齐调整

语言模型预训练预指令调整主要是提高模型建模语言,完成特定任务的能力。然而,对于ChatGPT这类“对话产品”而言,还需要通过对齐调整(Alignment Tuning)来让模型同人类的价值观对齐,从而生成“更令人满意”的回复内容。

对齐调整的主要动机是,有害的、误导的和有偏见的表述会严重影响人们主观的评价。即使这种调整客观上会损害大模型的能力,但可以极大地提升用户体验。大体上有三个需要调整的方向:

1.有帮助的:模型生成的内容应当是简介有执行力的,能够提供额外的信息并展现出模型的敏感、审慎和洞察力。2.忠诚的:模型不应该捏造事实,并且适当地时候表达不确定性。3.无害的:模型避免生成冒犯的、歧视性的内容,并且拒绝一些恶意请求。

用于对齐调整的标注数据有多种形式,例如排序若干候选;成对比较;回答既定的问题以从多个角度评价等。GPT-4还利用了基于自身的零监督分类器。

而在标注者质量筛选方面,除了母语、学历、标注平台(如AMT)上等级之外,研究者还利用标注者之间的内在一致性、标注者与研究者的标注一致性等信息来对标注者做筛选。

00c8e1fb952e7b43a026a0f9b710a1c6.png

基于人类反馈的强化学习算法(RLHF)利用标注数据,基于强化学习PPO(Proximal Policy Optimization),调整大模型。上图显示了RLHF进行对齐调整的过程,具体包含三个步骤:

第一步是基于人类标注数据做有监督精调。这一步和指令调整差不多,不过用的数据都是人类标注的,内容也更自由一些,比如开放式问答,闲聊,头脑风暴,改写等。这一步并非必须,可以认为是针对强化学习的冷启动问题的预热。

第二步是基于人类反馈训练一个奖励模型(Reward Model)。比如InstructGPT中基于标注数据训练了一个排序模型。奖励模型将在第三部强化学习中提供反馈信号。奖励模型一般是一个较小的大语言模型,例如InstructGPT基于175B参数的GPT-3做调整,奖励模型采用6B的GPT3;GopherCite基于280B参数的Gopher做调整,奖励模型采用7B的Gopher。

第三步是强化学习优化的过程。待优化的大语言模型的动作域(action space)是预测词表,状态为当前生成的内容,并将奖励模型的反馈信号通过PPO算法传给大语言模型做优化。对了避免强化学习跑偏,InstructGPT还采用了优化后的模型与原模型生成内容的KL距离作为正则项。

结束语

虽然从头训练一个大模型可能对绝大多数研究者而言是一种奢望,但在现有的开源资料基础之上,对特定的任务或领域进行调教个人专属的大模型并非遥不可及。因此,小伙伴们是否想参考本文内容,亲自尝试调教自家的大模型呢?

bcc47cf08c8046c15dc7013fcf251cb5.png卖萌屋作者:python

北大毕业的NLP博士。日常写点论文,码点知乎,刷点leetcode。主要关注问答、对话、信息抽取、预训练、智能法律等方向。力扣国服第一python选手(经常掉下来)。知乎 ID 是 Erutan Lai, leetcode/力扣 ID 是 pku_erutan,欢迎没事常来逛逛。

作品推荐

  1. 恕我直言,你的实验结论可能严重依赖随机数种子!

  2. AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!

  3. 吐血整理:论文写作中注意这些细节,能显著提升成稿质量

  4. 恕我直言,你的模型可能并没看懂 prompt 在说啥

9f552ac2e05cf992d9c1a91dc194f2e5.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3374.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

训练ChatGPT的必备资源:语料、模型和代码库完全指南

文|python 前言 近期,ChatGPT成为了全网热议的话题。ChatGPT是一种基于大规模语言模型技术(LLM, large language model)实现的人机对话工具。但是,如果我们想要训练自己的大规模语言模型,有哪些…

CHAT GPT 训练流程 无标题】

伊桑CHAT GPT 训练流程 第一步:监督学习 收集人工编写的期望模型是如何输出的数据集, ​​​​并使用其来训练一个生成模型(GPT3.5-based) ​ 第二步:训练奖励模型 收集人工标注的模型多个输出之间的排序数据集…

借助ChatGPT爆火,股价暴涨又暴跌后,C3.ai仍面临巨大风险

来源:猛兽财经 作者:猛兽财经 C3.ai的股价 作为一家人工智能技术提供商,C3.ai(AI)的股价曾在2021年初随着炒作情绪的增加,达到了历史最高点,但自那以后其股价就下跌了90%,而且炒作情…

谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜网友:退钱!

看完谷歌的最新直播,我感觉,微软被“诈骗”了。 谷歌CEO劈柴哥前脚刚发文说要推出ChatGPT竞品Bard,又有各种消息暗示2月8日晚上的发布会会有“新消息”。 不到24小时,微软就连夜上线了ChatGPT版搜索。 微软CEO纳德拉还非常重视…

ChatGPT已经杀疯了...

来源:机器之心 关于 AI 的问题,可以直接问 AI。 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句&#…

尴尬!谷歌版 ChatGPT 全球首秀“大翻车”,市值狂跌 7000 亿

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 昨日,微软宣布用 ChatGPT 改写 Bing、Edge,使其市值飙涨 5450 亿元——有了这个“珠玉”在前,加之谷歌刚官宣了其 ChatGPT 竞品 Bard,人们不由期待今日…

如何在ChatGPT中使用Prompt提示词 - 入门篇

本文导航 文章目录 什么是Prompt?Prompt的核心四个要点使用建议 Prompt的使用范例重新描述所给的文本内容突破ChatGPT的字数限制 总结 什么是Prompt? Prompt中文名提示词,指人工智能(AI)语言模型中的一个输入,它是一个简短的文…

ChatGPT中文版写周报【AI实用技巧】

写周报是打工人的日常操作,但又是相对固定和枯燥的工作。正确使用ChatGPT能轻松愉快地写周报。下面给大家举例说明: ChatGPT中文站https://ai-cn.co 问:我是程序员,负责维护公司商城,帮我写一份周报,不少于…

爆火的ChatGPT太强了!改周报、写代码、改bug,网友:谷歌搜索或GG,Stack Overflow被取代了!...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:机器之心 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bu…

【用AI写周报,“卷死”同事】打造一款自动生成周报的微信小程序

文章目录 前言步骤1:创建账号步骤2:创建一个微信小程序并配置API。步骤3:在微信开发者工具中创建一个新的微信小程序项目步骤4:创建ChatGPT API云函数步骤5:创建UI界面步骤6:创建发送邮件的云函数步骤7&…

【ChatGPT】帮你写周报,这是实在太干货了,老板都看不下去了

说到写周报不少小伙伴会觉得是一件头疼的事情,一周摸鱼了不到7天,周报咋写,掰指头都能数清的事在邮件中更是寥寥数字,自己看着不舒服,老板看着更是头大,要不要搞掉他的想法油然而生; ChatGPT可谓…

职场神器:只需三分钟,让ChatGPT帮我写周报

说到周报,尽管周报的目的是为了提高团队合作和项目进展的透明度,但很多职场员工都觉得是件麻烦事。 本来忙碌了一周到周五的下午,工作完成了,可以下班去吃饭,去嗨皮了,结果临走前还得写一份“每周工作报告…

提升效率,使用ChatGPT的轻松撰写日报和周报

日报和周报是办公生活中不可或缺的部分,它们有助于记录工作进展、分享关键信息和与团队保持沟通。但是,有时写作这些报告可能会变得繁琐和耗时。在本文中,我们将介绍如何利用ChatGPT,一个强大的自然语言处理模型,提高写…

【ChatGPT进阶】如何使用ChatGPT写周报?

作为打工人,真的很讨厌写周报。每次都要绞尽脑汁的想措辞,既要总结工作内容,还要进行润色,要突出自己的能力和工作结果,还要弱化做的不好的地方。每一个字都要消耗一大堆的脑细胞。 Chatgpt的出现真的是职场人的福音&…

ChatGPT 使用 拓展资料:大模型训练为什么这么难

ChatGPT 使用 拓展资料:大模型训练为什么这么难 一些LLMs的省内存方法 https://zhuanlan.zhihu.com/p/616858352

如何训练个人的ChatGpt4

如何在自己的计算机上安装类似 ChatGPT 的个人 AI 并在没有互联网的情况下运行它 个人 AI 的“第一台 PC”时刻 这是个人AI的“第一台PC”时刻,随之而来的是限制,就像在车库里生产第一台Apple 1一样。你是先驱。今天,任何人都可以使用私人和…

ChatGPT 拓展资料:ChatGPT 和预训练模型实战课

ChatGPT 拓展资料:ChatGPT 和预训练模型实战课

ChatGPT的前世今生:预训练模型成长史

Datawhale干货 作者:钱博文,中国移动云能力中心 前言 近年来,随着各大厂商的激烈角逐,预训练模型(The Pretrained Foundation Models ,PFMs)的发展可谓百花争鸣,谁都想在这场没有硝…

开箱即用的ChatGPT替代模型,还可训练自己数据

一、普遍关注是什么? OpenAI 是第一个在该领域取得重大进展的公司,并且使围绕其服务构建抽象变得更加容易。然而,便利性带来了集中化、通过中介的成本、数据隐私和版权问题。 而数据主权和治理是这些新的LLM服务提供商如何处理商业秘密或敏…

玩转#ChatGPT之“用Chat GPT 做出行攻略”

到了五一假期,许多人要规划旅游行程,但却为此烦恼花费很多时间做功课。现在,您可以通过Chat GPT来安排旅游行程。只需告诉GPT您的日期和目的地,便能在30秒内生成不错的行程攻略。同时您还可以添加特定条件,例如前几天想…