RM奖励模型


本篇将介绍InstructGPT的RM过程,也就是reward model的训练,废话不多说,直接上干货。

RM(Reward Model)模型

这里引入RM模型的作用是对生成的文本进行打分排序,让模型生成的结果更加符合人类的日常理解习惯,更加符合人们想要的答案。RM模型主要分为两个部分:训练数据获取模型训练部分。流程如下图所示

RM 模型训练流程

整个模型流程没啥可说的,在原论文中使用GPT的架构做了一个reward model,这里需要注意的是要将模型的输出映射成维度为1的打分向量,也就是增加一个linear结构。RM模型的主要点还是在于人工参与的训练数据构建部分,将训练好的SFT模型输入Prompt进行生成任务,每个Prompt生成4~9个文本,然后人为的对这些文本进行排序,将每个Prompt生成的文本构建为排序序列的形式进行训练,得到打分模型,以此模型用来评估SFT模型生成的文本是否符合人类的思维习惯。

RM模型代码实操

这里尝试两种方法,这里将这两种方法命名为direct score和rank score:

Direct score:一个是直接对输出的文本进行打分,通过与自定义的label score计算loss,以此来更新模型参数;
Rank score:二是使用排序的方法,对每个Prompt输出的n个句子进行排序作为输入,通过计算排序在前面的句子与排序在后面的句子的差值累加作为最终loss。
Direct score方法

这个方法就是利用Bert模型对标注数据进行编码,用linear层映射到1维,然后利用Sigmoid函数输出每个句子的得分,与人工标记的得分进行loss计算,以此来更新模型参数。流程如下所示

Direct Score计算流程
数据准备及处理
这里使用的数据为上一篇SFT最后所生成的数据,数据准备如下所示:

def data_prepare(pretrain_path):data_lst = ["我们去成都旅游,必须要去的地方是大熊猫繁殖基地。大熊猫是今世界上保存最完好的哺乳动物之一,也是世界自然保护联盟濒危物种红色名录的保护对象之一。在这里,你可以看到全世界最大的熊猫栖息地成都。成都是中国国家林业局直属的国家重点风景名胜区,是国家森林公园、国家湿地公园和国家地质公园的重要组成部分,是全国重点文物保护单位、全国生态文明建设示范区、中国红色旅游名城、国际生态旅游目的地和国际旅游岛建设先进区。地址:四川省成都市绵阳市成华区成都高新技术产业开发区成华大道1号乘车路线:成都绵阳都江堰雅","我们去成都旅游,必须要去的地方是大熊猫繁殖基地。大熊猫是我国唯一的国家二级保护动物,是世界上保存最完整的动物种群之一,也是我国第一个国家级自然保护区。我们是四川省的首批国家重点保护野生动物和珍稀动物基金会的成员,被誉为中国动物保护的摇篮和世界生物多样性保护基地,被中国科学院、中华人民共和国国家林业局授予全国生态文明建设示范区称号,被国务院批准为国家森林城市、国际生态旅游目的地。熊猫基地位于成都市双流区东南部,是国家aaaa级旅游景区,国家地理标志保护单位。熊猫栖息地为亚热带或热带的高山","我们去成都旅游,必须要去的地方是大熊猫繁殖基地。大熊猫是我国唯一的国家级自然保护区,也是世界上保存最完好的熊猫种群之一。它们栖息在亚热带或热带的高海拔草原上,生活环境十分优越,是中国四大自然奇观之一,被誉为世界自然遗产和中国国家森林公园。熊猫栖息地主要分布在中国大陆的西藏、青海、甘肃、宁夏、新疆、内蒙古、山西、辽宁、吉林、黑龙江、江苏、河南、安徽、湖北、湖南、江西、广东、海南、四川、云南、贵州、陕西等地。中国熊猫研究中心主任、中国科学院院士、国家自然科学基金委员会委员、中华全国工商业联合会副主席","我们去成都旅游,必须要去的地方是大熊猫繁殖基地。大熊猫是我国唯一的国家级自然保护区,也是世界上保存最完整、规模最大的野生动物种类繁多的地区之一,是中国国家重点保护的珍稀濒危动物及其栖息地和世界自然遗产的重要组成部分,被誉为中国最美丽的城市和世界生物多样性保护基地,被国际旅游组织评为全球生态旅游目的地。成都熊猫国家公园位于四川省甘孜藏族自治州,是国家aaaa级旅游景区,被《世界遗产名录》列为全国重点文物保护单位。目前,我国已建成国家森林公园、国家湿地公园和国家地质公园,国家林业局、国务院扶贫","我们去成都旅游,必须要去的地方是大熊猫繁殖基地。大熊猫是现存最大、保存最完整的动物,属于国家二级保护动物。熊猫种类繁多,分布广泛,主要分布在四川、云南、陕西、甘肃、宁夏、内蒙古、新疆、青海、吉林、辽宁、黑龙江、山西、江苏、江西、河南、湖北、湖南、广东、广西、海南、重庆、贵州、西藏、四川等省区市。它们的栖息地主要为亚热带或热带的(低地)湿润低地林、亚高山草原、高山湖泊、高原湿润山区和高原沼泽地等,常栖息在高海拔地区。在中国大陆,熊猫分布于四川省甘孜藏族自治州和青海省西宁市等地。雄性熊猫体长约1.5米"]# 自定义打分标签,每个句子一个分值。也可以定义多维度的打分方法,只是模型的线性层需要改为你所定义的维度数direct_score = [[0.75], [0.5], [0.35], [0.4], [0.8]]tokenizer = BertTokenizer.from_pretrained(pretrain_path)train_data = tokenizer.batch_encode_plus(data_lst, max_length=256, padding="max_length", truncation=True,return_tensors='pt')train_data["labels"] = torch.tensor(direct_score)return train_data, tokenizer

RM模型搭建

完整内容请阅读原文

声明:本文转载自知乎,仅供交流学习探讨,作者:SinGaln

本文转载自知乎: ChatGPT原理详解+实操(2)----RM(reward model) - 知乎,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36220.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

藏在GPT背后的治理分歧:那些赞同和反对的人们|AI百态(下篇)

AGI的火种正在燎原。 一面是无可否认的AI生产力,正在赋能千行百业;而另一面,这团火似乎烧向了我们不可控的隐秘角落。 在《AI百态(上篇)——ChatGPT的“N宗罪”》中,我们提到监管重锤在落下,意大…

人工智能写恋爱情话,省时不费脑,也用心(带教程)

用ChatGPT写情话就是让电脑来帮你写一些浪漫的话,比如表达你对恋人的爱意、想念之情等等。这种技术叫做自然语言生成,它会根据你给出的主题、口吻和语气等因素,自动生成一段与之匹配的情话或情书。 借助ChatGPT写情话,可以让普通人…

chatgpt赋能python:Python语录:解读Python最流行的语言之一

Python语录:解读Python最流行的语言之一 Python是一种简单易用、高效的编程语言,它在全球范围内广泛应用,是最流行的编程语言之一。使用Python进行编程可以提高生产力、节省时间和精力。Python语言有许多优秀的开发者、工程师、爱好者和用户…

英语学习-29190410雅思图表作文写作--line grapgh

主要参考来源:https://www.bilibili.com/video/av23014883?p2 Simon雅思 四段式:introduction overview details details 【no conclusion or opinions】 introduction:直接阐述图描述的内容 overview:找最直观的。一般两句 details:对于曲…

雅思写作大小作文能考到7分是什么样的概念?

雅思7分是什么概念?如何区分雅思作文的分数?雅思写作7分对于很多基础不好的同学来说可能是遥不可及的。对于很多6.5分的同学来说,只是差了一点看不到而已,但总是拿不到7分。接下来小站边肖就和大家分享一下雅思写作达到7分是什么水…

亚马逊跨境电商靠谱吗?需要代运营来入手?进来看就知道了!

亚马逊跨境电商靠谱吗?需要代运营来入手?进来看就知道了! 很多人可能不了解亚马逊跨境电商就想着去怎么怎么干,这样是错误的。我们首先要先了解亚马逊,才能更好的了解并走入亚马逊跨境电商,从而走上致富之路…

武汉星起航跨境:亚马逊运营之手动广告的投放方法

首先,一个广告活动,一个广告组,只放一个关键词或一个ASIN,只放一种匹配模式 只有一种竞价策略。就是说一个广告活动里面只放一个关键词,而且只能打开一种匹配模式,竞价策略只有一种。这个对于有一定搜索量有…

运营新人必看 eBay申诉的最全资料

eBay作为一个电商交易平台,限制还是不少的。前几篇eBay系列文章发布后,也有些兄弟来向我反应eBay平台的严格程度,很容易因为这样那样的原因就被封掉了,自己也莫名其妙的。龙哥今天就总结一下eBay封号中比较常见的原因和万一被封要…

亚马逊运营必备的表格技能

Excel是最好用的软件 如果使用表格只限于为每个单元格填入内容,那面对亚马逊运营工作中的大量统计和分析的工作显然不能满足,这篇文章介绍2个亚马逊运营中使用场景最多的表格技能。 数据透视表VLOOKUP函数 数据透视表 场景举例 根据站点、型号、店铺…

Lazada店铺如何同行竞争取胜?这些运营技巧你一定要用

随着跨境电商的大热,入驻Lazada店铺的卖家也越来越多,在这样竞争激烈的趋势下。Lazada卖家,如何让Lazada店铺在同行竞争中取胜?有什么取胜技巧,关键在于运营技巧。此文小编就来告诉你,哪些运营技巧能让你的…

亚马逊、eBay、速卖通自养号测评掌握这个技巧,助力卖家乘风破浪

每个做测评的都知道给每个账号配置安全可靠的网络环境是自养号运营的重中之重 那想要实现伪装度足够高的测评环境,应该从哪几个方面去考虑? 首先:是服务器的硬件参数(像安全码、地区码、监管码等要防止被检测) 其次…

GPT系列论文

目录 GPT 无监督预训练 有监督微调 如何将模型应用于下游任务? 试验结果 GPT-2 摘要 Introduction Approach 数据集&模型 试验结果 GPT-3 核心点 名词解释 few-shot做法图示 数据集 GPT 由无监督预训练有监督微调组成 无监督预训练 有监督微调…

在云服务器上搭建个人版chatGPT及后端Spring Boot集成chat GPT

本文分成两部分,包括【国内服务器上搭建chat GPT】和【后端Spring Boot集成chat GPT】。 无论是在【国内服务器上搭建chat GPT】和【后端Spring Boot集成chat GPT】,两个方式都需要魔法访问,否则是无法正常使用的,即需要具备正常…

【实习生建议】ChatGPT给一名后端实习生的建议

你好呀!我是小易同学,一名普通的不能再普通的学习者。 作为一名大三的学生,我感觉当下国内的就业环境面临较大压力与挑战,于是我对ChatGPT发问,想请ta给我一些建议。 以下是ta给我的建议: 复述如下: 深入学…

将PC端的apk文件通过微信文件分享到手机,后缀名有.1

在PC端下载apk文件,通过微信文件分享传到手机端,在手机微信上可以看到此时传过来的文件后面多了.1的后缀,导致不能安装 怎样在手机文件管理中找到这个文件,并修改其后缀名,每次找路径都要找半天,今天找好了…

教你如何搭建培训机构-招生管理系统,demo可分享

1、简介 1.1、案例简介 本文将介绍,如何搭建培训机构-招生管理。 1.2、应用场景 根据意向信息站的收录信息,可批量导入意向信息,在意向信息站转为意向学员,转为意向学员后可进行报名收费成为正式学员。 2、设置方法 2.1、表单搭建…

教育培训机构如何利用小程序招生?

微信小程序依托微信10亿用户,基于微信强大的社交,开发成本低,营销推广成本低,入口多易推广的天然优势,应用场景也越来越广泛。那么,教育培训机构如何利用小程序实现客源推广,线上选课预约呢&…

基于微信小程序+SSM实现培训机构管理系统

作者主页:编程千纸鹤 作者简介:Java、前端、Pythone开发多年,做过高程,项目经理,架构师 主要内容:Java项目开发、毕业设计开发、面试技术整理、最新技术分享 项目编号:BS-XCX-010 一,项目简介 …

基于微信小程序的培训机构系统

随着社会的发展,社会的方方面面都在利用信息化时代的优势。互联网的优势和普及使得各种系统的开发成为必需。 本文以实际运用为开发背景,运用软件工程原理和开发方法,它主要是采用java语言技术和mysql数据库来完成对系统的设计。整个开发过程…

培训报名小程序实战开发

目录 1 需求描述2 原型绘制2.1 首页2.2 报名列表页2.3 报名页2.4 支付页面2.5 支付成功页面2.6 我的页面2.7 我的报名页面2.8 报名详情页面 3 数据源设计4 数据源开发5 创建模型应用6 录入测试数据7 创建自定义应用8 创建页面总结 经常有人问,低代码学习容易么&…