最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作...

西风 发自 凹非寺
量子位 | 公众号 QbitAI

RLHF(基于人类反馈的强化学习)的一大缺点,终于被解决了!

没错,虽然RLHF是大语言模型“核心技巧”之一,然而这种方法也存在一个问题——

它只会判断生成文本的整体效果,不会仔细判断细节是否存在事实性错误、信息不完整和相关度等问题。

换而言之,传统的RLHF只会对大语言模型的整个输出进行打分,而不会揪出细节上的毛病。

为此,华盛顿大学和艾伦人工智能研究院的研究人员提出了一种新的RLHF框架——FINE-GRAINED RLHF(细粒度的人类反馈强化学习)。

da6245c5755bd6054e5da7299665380b.png

这个RLHF框架包含多种不同类型的“打分器”(reward model),通过对语言模型输出的每句话进行评估,从而提升生成文本的质量。

不仅如此,对这些“打分器”的权重进行调配,还能更灵活地控制语言模型输出效果。

事实证明,这种RLHF方法能很好地降低语言模型生成内容的错误率、毒性,并提升它回答问题的全面性和解析能力。

所以,这个RLHF方法究竟长啥样?

对传统RLHF进行两大改进

这个名叫FINE-GRAINED RLHF的框架,核心目的就是细化传统RLHF的评估方法。

具体来说,在语言模型输出结果后,它要能标识出具体哪些句子是错误的、哪些部分是不相关的,从而更精细地指导模型学习,让模型更好地理解任务要求、生成高质量输出。

为此,它主要做了两大改进:

bb01d4e1b725f4a97e603d93dccba9d1.png

一方面,对要评估的文本进行拆解

如果说之前的RLHF评估语言模型,就像老师给学生的高考作文整体打分,那么FINE-GRAINED RLHF,就像是先把学生的作文拆成一句句话,再给每句话进行打分。

另一方面,训练三个“打分器”,分别用来评估事实准确性、相关性和信息完整性:

  • 相关性、重复性和连贯性:给每一句话中的短句子(sub-sentences)进行打分。如果一句话里面的各个句子不相关、重复或不连贯就扣分,否则加分。

  • 错误或无法验证的事实:给每一句话(sentences)进行打分。如果一句话中存在任何事实错误,就扣分;否则加分。

  • 信息完整性:检查回答是否完整,涵盖与问题相关的参考段落中的所有信息,对整个输出进行评分。

为了检验模型的效果,研究人员用两大任务,对这种新RLHF和传统RLHF方法进行了评估。

两大任务效果均有提升

任务一:生成文本毒性评估

为了研究这种新框架的效果,研究人员先进行了去毒任务的实验。

实验使用了Perspective API来测量毒性,它可以返回一个介于0(无毒)和1(有毒)之间的毒性值。

ac92da834495a8943d26a8f98a33d84b.png

上图展示了两种不同的打分机制,其中(a)是传统的RLHF打分机制,也就是对模型所生成的内容打一个“总分”。

而(b)则是新的RLHF评估方法,将输出的内容进行拆解,分成了两个句子,对两个句子分别打分。

针对模型生成的这两句话:

I am such an idiot.She is so smart!
(我真是个白痴。她真聪明!)

显然前半句话是造成生成内容有毒的关键。

传统(a)的方法,并没有指出这一点;而(b)的方法可以很好地指出问题所在。
对两种方法进行比较:

e660a9d24476deb9833987682d55e138.png

可以看到,在上面所有方法中,基于FINE-GRAINED RLHF框架,在多样性(Diversity,大语言模型创造丰富度)水平和其它方法相近的情况下,仍能保持生成内容的毒性最低。

8ad2f4877a23f3c78789c4afeab23365.png

与此同时,根据上图的困惑度曲线,FINE-GRAINED RLHF的毒性下降速度更快,同时保持较低水平的困惑度(Perplexity,越低表示模型对给定序列的预测越准确)。这表明基于FINE-GRAINED RLHF框架学习比传统的RLHF更高效。

关于这一点,其中一个解释是:

新的RLHF方法能够确定有毒内容的位置,这与传统RLHF方法用的整体打分相比,提供的训练目标更明确。

综上,可以看到FINE-GRAINED RLHF在去毒任务中表现更为良好。

任务二:长篇问答

紧接着,研究人员还对FINE-GRAINED RLHF进行了长篇问答任务的实验。

他们收集了一个包含人类偏好和细粒度反馈的长问答数据集——QA-Feedback,基于ASQA(一个专注于回答模糊事实性问题的数据集)制作。

然后,对不同的微调方法(SFT监督微调、Preference RLHF)进行了评估:

63d2da3b49c3e76ffaec7ffd05350195.png
人工评估的不相关性错误(左图)和事实性错误(右图)

与其它方法相比,FINE-GRAINED RLHF生成的内容在事实上更正确,包含更完整的信息。

相比当前表现较好的微调方法,如SFT和Preference RLHF,FINE-GRAINED RLHF生成的无关、重复和不连贯错误也要更少。

afb296f065e2a73f01b81ae32697bb59.png
信息完整度评估,“win”表示FINE-GRAINED RLHF获胜,即在信息完整性方面表现更好;而“lose”表示FINE-GRAINED RLHF失败,即在信息完整性方面表现较差。

上面给出的是人工评估的结果,而在测试集上也有自动的评分。

在QA-FEEDBACK测试集上,评分结果与人工评估类似,四个系统在Rouge分数上都显示FINE-GRAINED RLHF效果更好:

6cb21c3b89fea9b1be7d2009a2f6c974.png
在QA-FEEDBACK测试集上的自动评估结果

更灵活地定制RLHF

此外,研究人员还发现,由于FINE-GRAINED RLHF中使用了多个“打分器”,调整它们的权重,就可能更为灵活地定制语言模型的行为。

例如,将更多的权重添加到评估信息完整性的“打分器”中,可能会使生成的信息完整性更好。

d0c36f555f0b57f7168213f4551adcca.png
不同奖励模型权重配置下FINE-GRAINED RLHF的测试集自动评估结果。

如上表所示,研究人员探索了FINE-GRAINED RLHF定制化语言模型行为的能力。

他们探索了三种“打分器”权重配置,并根据语言模型的平均文本生成长度,将它们分别命名为“short”、“medium”、“long”。

6c382cfa101c0080442e9507cde8c29d.png

“short”生成了相关性更高的内容,但是事实性和完整性方面较差。与之相反,“long”提供了最准确和完整的生成内容。这反映出语言模型引用了大量的文本段落内容。而“medium”配置平衡了三种打分方法,并具有最高的得分。

不过,三个“打分器”之间还存在着竞争关系。

“相关性打分器”(the rel. reward model)偏向于生成短而简洁的回答,而”信息完整性打分器”(the comp. reward model)更偏向于生成更长、更丰富的回答。

因此,在训练过程中,这两个“打分器”会相互竞争,并最终达到一个平衡。

与此同时,“事实性打分器”(the fact. reward model)则会不断提高回答的正确性。

不过,移除任何一个“打分器”都会降低模型性能。

最后,研究人员还将他们的模型与ChatGPT的回答进行了比较。

ChatGPT在测试集上的RougeLSum得分为40.92,远低于本文使用FINE-GRAINED RLHF所训练的模型。

简单来说,ChatGPT生成的回答通常非常简洁且事实准确,但是缺乏澄清模糊问题所需的补充信息。

作者介绍

两位论文共同一作均是来自于华盛顿大学(University of Washington)自然语言处理研究小组的博士生。

Zeqiu Wu,本科就读于伊利诺伊大学电子与计算机工程系,并且取得了该校的硕士学位。

她的研究主要专注于信息检索型对话系统和通用交互系统。

曾在谷歌研究院的实习,担任学生研究员。

胡雨石(Yushi Hu),于2021年从芝加哥大学获得数学、计算机科学和经济学的学士学位。目前师从Mari Ostendorf教授和Noah A. Smith教授。

他的主要兴趣领域是多模态学习和基于人类反馈的强化学习(RLHF)。

此前,他还曾与美国阿贡国家实验室的Saidur Bakaul博士和清华大学的宁传刚教授合作过。

论文地址:
https://finegrainedrlhf.github.io/

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

700dec808b75e6b868bdee9f975bc2d1.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66048.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

幼儿-综合素质【2】

1.材料分析题:材料:一天早上,陈一航蹦蹦跳跳地走进教室,在搬椅子时,他发现旁边小朋友的椅子上有一本书没有收好,便大声喊道:“余老师,这儿有一本书没有收。”余老师笑看说&#xff1…

教师资格考试--中学综合素质

综合素质 教育观 素质教育的基本内涵★★ 素质教育以提高国民素质为根本宗旨素质教育是面向全体学生的教育素质教育是促进学生全面发展的教育素质教育是促进学生个性发展的教育素质教育是以培养学生的创新精神个时间能力为重点的教育 记忆口诀:提素个性创两全 …

中学-综合素质【3】

1.量子概念的提出,第一次把能量的不连续性引入对自然过程的深入认识,对其后量子理论的进一步发展起到了重要作用。这一概念的提出者是(). A.普朗克 B.洛伦兹 C.爱因斯坦 D.麦克斯韦 2.公元395年,罗马帝国分裂为东、西…

幼儿-综合素质【1】

1.某幼儿园一直试着让幼儿做一些力所能及的事,如发勺子、分碗、搬凳子等。一天,小樱用乞求的目光注视着老师,轻声说:“老师,让我发一次勺子好吗?”老师说:“每次吃饭最慢,上课从不举…

中学-综合素质【1】

1.彤彤性格内向,基本不跟其他同学交往,课间常一个人在座位上看书。罗老师对她说:“你看同学们玩得多开心啊,你应该参加一些课外活动,多跟大家一起玩。下列说法中不恰当的是(). A.罗老师注重学生个性发展 B…

中学-综合素质【2】

1.量子概念的提出,第一次把能量的不连续性引入对自然过程的深入认识,对其后量子理论的进一步发展起到了重要作用。这一概念的提出者是(). A.普朗克 B.洛伦兹 C.爱因斯坦 D.麦克斯韦 2.公元395年,罗马帝国分裂为东、西…

数据流程图 状态图 流程图

数据流程图 状态图 流程图 数据流程图 数据流程图(DFD)提供了通过系统的数据流的图形表示。它逻辑上显示了我们的系统进程和外部接口或数据存储交换了哪些信息,但是它没有明确显示信息交换的时间或顺序。数据流程图是结构化系统分析和设计方…

业务逻辑流程图

用Axure注释逻辑 元件的逻辑有5种,具体如下: 功能逻辑:详细讲解该功能的逻辑。 交互逻辑:对页面之间的相互跳转进行说明。 视觉逻辑:对颜色,对图标的要求。 业务逻辑:讲一下该功能对应着什么业…

系统流程图,程序流程图和数据流图

系统流程图(System Flowchart):是描绘系统物理模型的传统工具。它的基本思想是用图形符号以黑盒子形式描绘系统里面的每个部件(程序、文件、数据库、表格、人工过程等),表达信息在各个部件之间流动的情况和系统的操作控…

StringBuilder做字符串拼接高效的原因

StringBuilder做字符串拼接高效的原因 1.与String相比 通过分析源码,发现两者底层都是用一个数组来存储字符 public final class String implements java.io.Serializable,Comparable<String>,CharSequence{/** The value is used for character storage */private fi…

MVCC依然可以产生幻读的原因

不同引擎mvcc实现不一样。以innodb为例的话&#xff0c;mvcc本身是通过trx_id(事务隐藏列)来实现的版本维护&#xff0c;不能读取到ReadView开启时还没提交的事务的记录。 mysql里面实际上有两种读&#xff0c;一种是“快照读”&#xff0c;比如我们使用select进行查询&#x…

TM4C 123GXL上手简介(一) 如何下载从官网下载和使用相关资料

TM4C 123GXL上手简介&#xff08;一&#xff09; 如何下载从官网下载和使用相关资料 相关网站介绍 TI官网&#xff1a;http://www.ti.com.cn/ TI中文社区&#xff1a;https://e2echina.ti.com/ 官网上可以查找到很多关于TI公司单片机的官方资料&#xff0c;而在中文论坛上会有…

Camtasia 2023破解激活版免费下载附序列号激活码

Camtasia Studio 2023破解免费下载它是一种专业屏幕录像 机和视频编辑器&#xff0c;用于屏幕录像机和视频编辑器 Web、CD-ROM 便携式媒体播放器(包括便携式媒体播放器) iPod)录制、编辑和分享高质量的屏幕视频。通过支持各种视频标准&#xff0c;您可以确保当前和未来的内容交…

Camunda 官方快速入门教程中文版(完整版)

本文为Camunda官网快速入门部分的中文版本 原文地址&#xff1a; https://docs.camunda.org/get-started/quick-start/ 0.介绍 本教程将指导您使用Camunda BPM平台建模并实现您的第一个工作流程&#xff0c;其中将使用JAVA或NodeJS作为外部客户端&#xff0c;以及使用DMN分离…

各学科、各专业、全系列软件图文、视频安装详细教程总贴——CM(changeMax)独家制作,汇总

各学科、各专业、全系列软件图文、视频安装详细教程总贴 你好&#xff0c;我是change max&#xff0c;本人写博客已有一个年头了。经过一年多的沉淀&#xff0c;我发现了一个现状&#xff1a; 对于各种专业性的技术贴各位的关注度不高&#xff0c;或者说&#xff0c;本人的教程…

Camtasia2023官方中文版免费下载

在现在的网络互联网时代&#xff0c;越来越多的人走上了自媒体的道路。有些自媒体人会自己在网络上录制精彩视频&#xff0c;也有一些人会将精彩、热门的电影剪辑出来再加上自己给它的配音&#xff0c;做成大家喜欢看的电影剪辑片段。相信不管大家是自己平时有独特的爱好也好、…

【教学类-07-06】20230302《破译电话号码-图形篇(图形固定列不重复)》(三款输入版)

效果展示 1、适合中班默写学号——有姓名 有班级&#xff0c;无学号&#xff0c;适合中班幼儿 2、适合大班幼儿默写名字——有学号&#xff0c;有班级&#xff0c;无姓名&#xff0c; 适合初学者描字&#xff08;小班、中班、大班&#xff09;——名字、学号、班级都有&#xf…

Camtasia2023简体中文标准版免费更新下载

Camtasia专业的 屏幕录制和视频剪辑软件3000多万专业人士在全球范围内使用Camtasia展示产品&#xff0c;教授课程&#xff0c;培训他人&#xff0c;以更快的速度和更吸引人的方式进行沟通和屏幕分享。使您在Windows和Mac上进行录屏和剪辑创作专业外观的视频变得更为简单。 Camt…

不用手动编程!ChatGPT帮你轻松实现单片机按键输入功能

从今年年初&#xff0c;OpenAI发布的ChatGPT已摧古拉朽之势席卷全球&#xff0c;短短两个月注册用户数就超过1亿人&#xff0c;是全世界增长速度最快的应用。很多人都说今年是AI元年&#xff0c;其实也是有一定道理的&#xff0c;之前的AI门槛相对较高&#xff0c;很多人没有机…

通过链接跳转到微信公众号关注页面

首先你查看要操作的公众号历史文章&#xff0c;将其在PC浏览器上打开&#xff0c;将其 参数值复制下来&#xff0c;然后替换这个链接地址中的参数值即可https://mp.weixin.qq.com/mp/profile_ext?actionhome&__bizMzU1NzUzNzM4NA#wechat_redirect