ChatGPT:探索RLHF与GPT的完美结合

前言

ChatGPT已经发布一周了热度依旧不减,ChatGPT也各种大显神通,为各大网友“出谋划策”,有写周报的,有写绩效的甚至还有写论文的,作为一个NLP从业者,除了好好体验下其中的乐趣,其背后的原理当然也要有所了解,本文就从其技术细节为大家一一揭开奥秘。

ChatGPT的前世

ChatGPT出来之前,相信大家体验过很多智能问答机器人,大部分的评价都是“人工智障”,而ChatGPT则给人一种忽如一夜春风来,千树万树梨花开的感觉,怎么AI突然变得如此智能!实际上,ChatGPT的成功源自于2年前的GPT3+后期的RLHF优化,所以说
请添加图片描述

接下来我们就先简单回顾下GPT3,GPT3是一个基于transformer decoder的生成模型,其参数规模达到了1750亿,并且使用45TB数据进行训练,其预训练任务就是“句子接龙”,给定前文持续预测下一个字,因此只要有干净的文本数据就能作为模型的训练数据。虽然任务简单,但由于模型规模大数据量大,训练成本达到了数千万美元,在模型训练过程中还有一个小插曲,研究人员发现了代码中有一个小bug,但因为训练成本昂贵并未修复这个bug。

GPT3首次把模型的规模带到了千亿级别,开辟了大模型赛道,其次也为NLP带来了一种新的范式prompt,prompt为GPT3带来了0样本、小样本的学习能力,也为BERT base级别的模型带来了一些新的玩法。

请添加图片描述

GPT3在AI圈内掀起了很大的浪花,但是并未出圈,其关键原因在于其存在严重的弱点

  • 可能会产生偏见,因为它是基于现有数据训练的,如果有任何偏见存在于训练数据中,那么它的结果也会受到影响。
  • 模型的训练和使用过程中存在安全漏洞,因为它会存储用户数据,而且它的使用还可能导致机器不可控。

请添加图片描述

这些问题被统一称为misalignment,随着语言模型的规模越来越大,模型的输出很难满足用户的需求,并且对于生成模型来说,如果要生成不同的答案就涉及到采样算法,那这对于生成的内容来说就更难控制了,那么怎么解决这个问题呢?接下来我们就来看看ChatGPT是怎么做到的。

管得住嘴的ChatGPT

在ChatGPT面世前OpenAI还出过一篇paper:Training language models to follow instructions with human feedback,一看这标题就能感觉到肯定少不了人工打标,这篇paper提出了对于GPT3的改进称为InstructGPT,InstructGPT的目标就是要解决GPT3“管不住嘴”的问题,其解决方案叫做RLHF,其包含3个步骤
请添加图片描述

1、Collect demonstration data, and train a supervised policy

GPT3面世后,OpenAI提供了api,付费后即可集成到自己的项目中,用户使用的时候直接采用 prompt的方法做0样本或小样本的预测,这个过程让OpenAI收集到了大量的prompt数据,研究人员从这些prompt中采样一部分,人工对这些prompt做回答,得到的结果称为demonstration即有标签数据,再用这些demonstration继续fine-tuning GPT3,这个过程称为supervised fine-tuning (SFT)。GPT3的预训练阶段使用的是网上海量的数据,这些数据的质量鱼龙混杂,监督学习的目的就是让模型能生成更多符合人类预期的答案,从而尽可能避免生成一些有害的信息。

2、Collect comparison data, and train a reward model

但是监督学习毕竟需要标注大量数据,OpenAI在怎么有钱也不能这么造呀,于是乎OpenAI想了个办法,搞个模型来判断GPT3输出的有没有问题。于是在有了SFT模型后,继续采样prompt,让SFT模型输出多个不同的output,人工对output做排序,把这个结果拿去训练一个RM(reward model),这个模型和SFT结果一样,只是size小一些,paper中提到6B级别的模型比175B级别的模型更加稳定。注意这里的output是一个zero mean的,这样RM模型只要输出一个大于0的值那么就认为GPT3生成的内容是OK的。

请添加图片描述

最后看下loss function,其中 r θ r_{\theta} rθ表示的是RM, x x x表示的是用户输入的内容, y y y表示不同的答案,注意这里有一个组合数 ( K 2 ) \binom{K}{2} (2K) 训练的时候要把同一个组合数中的内容放到一个batch内,不然会出现过拟合的情况,K通常取4到9之间的一个值,可以看到这其实就是一个pairwise模型。

3、Optimize a policy against the reward model using PPO

有了RM,下一步我们就可以用RM的输出结果来反哺SFT模型了,其思路是采用RM的输出值作为reward,基于 RL的思路进行优化,

  • policy:给GPT输入文本后输出结果的过程
  • action:词典
  • observation:输出文本
  • objective function:一共包含三项,其中 r θ r_{\theta} rθ是RM的输出分数,第二项是KL惩罚项,目的是为了让 RL模型的输出结果和SFT模型的输出结果差距不要太大,第三项则是为了保证RL模型能保留好语言模型的能力,整个模型称为PPO-ptx。有了这样的一个模型框架后 ,有新的prompt模型就能做到持续的自迭代。
    请添加图片描述

有多少人工才有多少智能

在RLHF的优化过程中其实存在很多的标注任务,OpenAI把标注这个过程看的其实非常的重,他们组建了一个40人的外包标注团队,并且基于以下标准 对标注人员做了一个严格的筛选:

  • 确保标注人员对信息敏感,OpenAI首先准备了一份自己标注的数据,这些数据包含一些敏感信息,需要标注人员的标注结果和OpenAI认为的敏感信息是尽可能一致的。
  • 排序阶段的标注需要和OpenAI研究人员标注的排序尽可能一致
  • OpenAI构建了一些敏感prompt,让标注人员编写demonstration,研究人员对每个demonstration给一个1-7分的Likert scale(李克特量表),并针对标注人员计算平均分数。
  • 询问标注人员对于哪些话题或者文化群体更能识别出敏感话题

基于以上4个标准OpenAI筛选出了个标注团队,可见只有高质量的数据才能给模型带来质的提升。

最后看看整体的效果,基于PPO-ptx的模型效果提升明显,特别是6B规模的模型效果出色。

请添加图片描述

思考

ChatGPT火了之后,大家都在讨论能否把ChatGPT应用到自己的业务中或者能否把RL应用到业务中减少些人力标注成本,这里也说说我自己对这两个问题的想法。

  • ChatGPT规模比较大,想直接落地难度还是很高的,仅仅算力就已经挡住了大部分人,但是从上文的效果图中也能看到,6B规模的模型在RLHF的思路下效果也是不错的,所以如果真的想朝着这个方向去落地,可以考虑下6B规模的模型,目前抱抱脸也有很多同规模大小的开源语言模型可以尝试下,不过RLHF的标注成本也不低能否承受也需要提前考虑清楚。

  • RL真的适合应用在NLP应用中码?我觉得还是要看场景,在ChatGPT中RL其实解决的是misalignment问题,GPT3本身已经具备了较强的生成能力,只是说容易“胡言乱语”,RL的任务只是纠正GPT3的这个缺点,并且RM的上限决定了GPT3能把这个缺点改进多少。所以说RL也不是万能的,在我看来ChatGPT使用RL更多是为了尽可能节约人工标注成本。

ChatGPT应该只是OpenAI的压轴戏,让我们一起期待23年初的GPT4能带给我们带来怎样的惊喜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14476.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一场场网络时代的“墨攻”

编辑:阿冒 设计:沐由 公输般为楚造云梯之械成,将以攻宋。子墨子闻之,起于鲁,行十日十夜,而至于郢,见公输般。 子墨子解带为城,以牒为械,公输般九设攻城之机变&#xff0c…

人工智能在网络犯罪中的应用:5个最重要的趋势

在当今的数字世界中,网络威胁不断演变。 人工智能的使用虽然在网络犯罪中还不是必须的,但无疑是我们将在未来几年看到的具有重大发展的最有前途的技术之一。 随着 AI 技术的进步,攻击者开始尝试新的、越来越复杂和有效的攻击模式和技术。 …

【CICC原创】大模型技术发展研判及应用思考

来源:中国指挥与控制学会 蒲志强,研究员,中国科学院自动化研究所 近年来,随着人工智能(Artificial Intelligence, AI)技术的深化发展,大模型(Large Model,也称基础模型,即…

从ChatGPT看人工智能的军事应用

来源:中国军网 今年3月中旬,聊天机器人程序ChatGPT推出了最新版本GPT-4,可支持多元的输入输出形式,使其具备了更强的专业学习能力。作为一种基于人工智能(以下简称AI)技术的聊天程序,ChatGPT一经推出&#…

ChatGPT全面升级,GPT4支持多模态数据。

Open AI在3月14日放了大招,GPT4. 不同于ChatGPT,GPT4是支持多模态数据,目前上去看了下,支持图片和文本两种数据格式。 另外,宣传视频中说:GPT4去年8月就完成了训练,只是为了数据和使用安全方…

揭秘中国开发者真实现状:月薪 8k-17k 占比骤减!

作者 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 瞬息万变的技术圈,似乎随时都在给予技术人数不清的机遇与挑战: 过去一年,频繁出圈的虚拟人曾一度将元宇宙的热度推至巅峰,如今却逐渐“悄无声息”&…

中文互联网正在被AI污染

有没有发现,如今,AI越来越火,但AI生成的垃圾信息也越来越多了。 如果你打开知乎,很大几率会看到AI生成的回答,它们简短、概括性十足,看了等于没看。打开今日头条,你也有很大几率看到用ChatGPT生…

写好“提示”改变“智造未来”-GPT4提示词驶入代码优化驾驶座心得

开篇 在前端科技的新浪潮中,Artificial Intelligence (AI)的逐渐成熟与发展引领着我们向前。其中OpenAI的GPT4提供了我们一种新的可能,帮助我们优化代码,使编程变得更加轻松。在这篇文章中,我们将一同探究如何在1-2分钟内,依靠GPT的提示词优化我们的代码,并展现出我们在…

惊天大绝招-用话术诱导GPT掏出图片来!

开篇 今天我要开大家的眼界!来给大家揭示一个运用Prompts的小诡计。 这个技巧的亮点就在于,即使现在的ChatGPT(适应4版本哦)还没学会把画面呈现出来,我们依然可以借助这个小技巧,让它以图画的形式呼应我们的问题。 对于我们聪明的听众们,我要揭晓的第一件事是这个技巧…

比ChatGPT还好用?收藏10+免费实用的AI工具,轻松提高办公效率

ChatGPT的爆火引发了AI工具的热潮,阿强通过这一段时间对AI工具观察和体验过后,帮大家整理了10好用AI工具,可以应用在不同的工作场景中,比如AI设计、AI办公、AI自媒体,帮你轻松提高工作效率,上班摸鱼也能升值…

ChatGPT 提示语——AI提示词玩家,提示词就是和AI沟通语言的桥梁!

前言: 众所周知,在AI的世界里,提示词就是和AI沟通语言的桥梁,提示关键词常用于AI对话及AI绘画等相关场景,通过准确的使用关键词,你就能更好的让AI辅助自己的工作,其中的成分重要性不言而喻&…

ChatGpt基于第三方API2D服务封装的SpringBoot starter

前置条件&#xff1a; 看下API2D官网&#xff0c;第三方API2D服务对接流程&#xff1a; 其对接文档地址 https://api2d.com/wiki/doc 一:创建一个空的Maven项目 完成后整的项目层级图如下 1.pom.xml 中添加相关依赖包 <?xml version"1.0" encoding"UTF-…

ChatGPT开发【一】:打造与ChatGPT默契互动的绝佳输入格式

点击加入->【OpenAI-API开发】技术交流群 文章目录 1. 导入openai库2.示例聊天API调用3.GPT-3.5-Turbo-0301的使用技巧系统消息Few-show prompt 4.计数Token数 Chatgpt由Openai最先进的型号 gpt-3.5-Turbo和 gpt-4提供支持。我们可以使用OpenAI API使用 GPT-3.5-Turbo或…

不知不觉被安利了ChatGPT

近期ChatGPT热度持续不下&#xff0c;尤其是在IT行业更是聊的火热&#xff0c;于是去查了一下&#xff1a; ​ ChatGPT&#xff08;全名&#xff1a;Chat Generative Pre-trained Transformer&#xff09;&#xff0c;美国OpenAI [1] 研发的聊天机器人程序 [12] &#xff0c;于…

AI之JARVIS:JARVIS(连接众多 AI 模型以解决复杂 AI 任务的接口/可理解为一种超智能AI模型管家,正开发中)的简介、安装、使用方法之详细攻略

AI之JARVIS&#xff1a;JARVIS(连接众多 AI 模型以解决复杂 AI 任务的接口/可理解为一种超智能AI模型管家&#xff0c;正开发中)的简介、安装、使用方法之详细攻略 目录 JARVIS(一种超智能AI模型管家)的简介 JARVIS(一种超智能AI模型管家)的安装 1、硬件要求 2、获取Key 3…

AIGC:【LLM(三)】——JARVIS:连接ChatGPT和HuggingFace解决AI问题

文章目录 0.摘要1.引言2.相关工作3.HuggingGPT3.1 任务规划3.2 模型选择3.3 任务执行3.4 响应生成 4.限制5.结论6.参考资料 0.摘要 解决具有不同领域和模态的复杂人工智能任务是通往人工通用智能的关键骤。尽管存在丰富的适用于不同领域和模态的人工智能模型&#xff0c;但它们…

微软开源 JARVIS 用 ChatGPT 控制 AI 模型

微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文 ——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统 该系统提出了一种让 LLM 充当控制器的新方法&#xff0c;让 LLM 来管理现有的 AI 模型&#xff0c;来完成…

ChatGPT会大规模取代人力吗?这场论坛聚焦当下热点话题。

2月25日&#xff0c;第三届上海数字创新大会在中以&#xff08;上海&#xff09;创新园落下帷幕。为期2天的会期中&#xff0c;设立了5场分论坛&#xff0c;ChatGPT、集成电路、新能源汽车等成为各个分论坛中各行业专家热议的关键词。 360集团创始人周鸿祎通过视频分享的方式&…

2015小米暑期实习笔试题_风口的猪-中国牛市(dp)

风口之下&#xff0c;猪都能飞。当今中国股市牛市&#xff0c;真可谓“错过等七年”。 给你一个回顾历史的机会&#xff0c;已知一支股票连续n天的价格走势&#xff0c;以长度为n的整数数组表示&#xff0c;数组中第i个元素&#xff08;prices[i]&#xff09;代表该股票第i天的…

牛市一宝:证券行业

牛市一宝&#xff1a;证券行业 这篇博客转载的是雪球用户“一颗财丸&#xff08;yikecaiwan&#xff09;”&#xff1a;https://xueqiu.com/9760119050/97909820 在不同跑道&#xff0c;十年差十倍的差距&#xff08;上&#xff09;里&#xff0c;我们看了13个行业指数近13年…