GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

文章目录

  • GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
    • Pretraining 预训练阶段
    • Supervised FineTuning (SFT)监督微调阶段
    • Reward Modeling 奖励评价建模
    • Reinforment Learning RLHF 强化学习

大模型常遇到一些概念性的问题,比如: 什么预训练?什么是pretraining?什么是Base model,什么是SFT model?
CPT和ChatGPT是一样的吗?

以GPT为例,LLM训练流程分为4个阶段:预训练,监督微调训练,奖励评价训练,强化学习。分别生成预训练模型(Base model,基础模型),如GPT3,GPT4;监督精调模型SFT模型,RM奖励评价模型,和最后的生成模型,如ChatGPT。

Andrej Karpathy的这张总结的很好,下面以此作为阐述。
GPT训练流程

Pretraining 预训练阶段

预训练阶段通过互联网的海量数据,训练一个算法基本原型,获得自然语言隐含的大量通用特征。可以理解第一步是粗调,相当于从粗矿中炼矿,从原油中炼油。

训练数据:
来自互联网的大量文本数据,具有低质量,数量巨大特点,TB级别。以LLaMA模型为例,训练数据共1.4T tokens。
数据来源种类也多样化,绝大部分是互联网抓取公开的数据,还有github,wikipedia,arXiv等专业网站数据。
模型类型:
自然语言建模,生成模型,预测下一个token(算法的处理单位,可以是词语,符号,短语,句子等)
训练结果:
base model 基本模型
计算资源:
算力需要很大,1000块以上的GPU;
训练周期:
训练时间耗费几个月,占据训练时间的99%
代表模型:
预训练模型代表,如GPT,LLaMA等等

Supervised FineTuning (SFT)监督微调阶段

预训练的训练数据良莠不齐,直接用到业务场景效果不是很好,接下来需要对模型进行精调。因此训练数据中,问题覆盖应该具有多样性,而且问题可能有很多种回答。也可以用辅助模型的最佳的回应作为引导标注,满足监督训练的条件。

训练数据:
训练数据需要人工标注,人工编写的问题和回答,形成问答对。数据质量高,但数量少。在10~100K量级。
模型类型:
自然语言建模,预测下一个token。基于base model建模的,生成SFT 模型。
训练结果:
SFT model SFT精调模型
计算资源:
算力根据模型和场景,1-100块的GPU资源;
训练周期:
训练以天为单位,几天到几十天。

Reward Modeling 奖励评价建模

在监督微调阶段,获得精调的自然语言模型,一个问题有多种回答,到底哪种最符合呢?这就需要建立明确的价值观体系,好坏之分的标准。在标准尺度的基础上,进一步判别不同回答的优劣,根据训练者的价值,筛选和奖励最好的回答。这个阶段的关键是评价。

增加答案的价值观判断,本质上是选择最佳路径,在多种回答中,按分数排序,选择最好的问题答案。

训练数据:
训练数据需要标注,人工编写的问题和答案,形成具有价值观偏好的问答对,要训练模型哪个是好的,哪个是不好的回答。数量质量高,但数量少。在10-1000K的量级。
模型类型:
二值分类评价模型,区分好和不好的回答。基于SFT模型,生成RM模型。
训练结果:
RM模型,奖励评价模型不能单独部署。
计算资源:
算力根据模型和场景,1-100块的GPU资源;
训练周期:
训练以天为单位,几天到几十天。

Reinforment Learning RLHF 强化学习

在SFT和RM模型基础上,用强化学习模型,根据人工编写问题答案对,和奖励评价模型,对SFT精调模型进行强化训练。多种路径中选择最佳路径,多种答案中,选择最大奖励的答案。

训练数据:
训练数据和前面一样需要标注,通过价值观偏好RM模型获得评分。数量质量高,但数量少。在10-100K量级。
模型类型:
强化学习模型,预训练模型一样结果形式,奖励最大的,生成下一个token。
训练结果:
带价值观判断的生成模型,代表模型:如:ChatGPT,Claude等。
计算资源:
算力根据模型和场景,1-100块的GPU资源。
训练周期:
训练以天为单位,几天到几十天。

点个赞 点个赞 点个赞

觉得有用 收藏 收藏 收藏

End


GPT专栏文章:
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

决策引擎专栏:
Falcon构建轻量级的REST API服务

决策引擎-利用Drools实现简单防火墙策略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/202779.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGLM2-6B微调过程说明文档

参考文档: ChatGLM2-6B 微调(初体验) - 知乎 环境配置 下载anaconda,版本是Anaconda3-2023.03-0-Linux-x86_64.sh,其对应的python版本是3.10,试过3.7和3.11版本的在运行时都报错。 执行下面的命令安装anaconda sh Anaconda3-202…

【自主探索】基于 frontier_exploration 的单个机器人自主探索建图

文章目录 一、概述1、功能2、要求 二、使用方法1、用于运行演示2、用于开发人员2.1. 探索无/地图数据2.2. 使用 /map 数据进行探索 三、提供的组件1、explore_client1.1. 调用的操作1.2. 订阅主题1.3. 发布主题 2、explore_server2.1. 提供的操作2.2. 调用的操作2.3. 调用的服务…

计算机图形学-变换基础

坐标系转换历程模型坐标系 -> 世界坐标系 -> 摄像机坐标系 -> 视口(屏幕)坐标系 变换 仿射变换和线性变换线性:旋转 缩放 镜像 切变放射: 平移 平移 2D变换矩阵 3D变换矩阵 旋转 2D旋转矩阵 //2D 旋转private (float,…

电路 buck-boost相关知识

BUCK-BOOST 文章目录 BUCK-BOOST前言一、DC-DC工作模式电容电感特性伏秒积平衡原理 二、BUCK电路三、BOOST电路四、BUCK-BOOST电路总结 前言 最近需要用到buck-boost相关的电路知识,于是便写下这篇文章复习一下。 一、DC-DC 在学习buck-boost电路之前我们先来看一…

TCP /UDP协议的 socket 调用的过程

在传输层有两个主流的协议 TCP 和 UDP,socket 程序设计也是主要操作这两个协议。这两个协议的区别是什么呢?通常的答案是下面这样的。 TCP 是面向连接的,UDP 是面向无连接的。TCP 提供可靠交付,无差错、不丢失、不重复、并且按序…

独乐乐不如众乐乐(二)-某汽车零部件厂商IC EMC企业规范

前言:该汽车零部件厂商关于IC EMC的规范可能是小编看过的企业标准里要求最明确的一份企业标准了,充分说明了标准方法不是死的,可以灵活应用。 先看看这份规范的抬头: 与其他企业规范一样,该汽车零部件厂商的IC EMC规范…

C语言之内存函数

C语言之内存函数 文章目录 C语言之内存函数1. memcpy 使⽤和模拟实现1.1 memcpy 函数的使用1.3 memcpy的模拟实现 2. memmove 使⽤和模拟实现2.1 memmove 函数的使用2.2 memmove的模拟实现 3. memset 函数的使用4. memcmp 函数的使⽤ 1. memcpy 使⽤和模拟实现 函数声明如下&a…

2023最全的自动化测试入门基础知识(超详细~)

1)首先,什么是自动化测试? 自动化测试是把以人为驱动的测试行为转化为机器执行的一种过程。通常,在设计了测试用例并通过评审之后,由测试人员根据测试用例中描述的过程一步步执行测试,得到实际结果与期望结果的比较。…

【双十一特辑】爱心代码(程序员的浪漫)-李峋

前言 最近《点燃我温暖你》中李峋的爱心代码超级火,看着特别心动,这不,光棍节快到了,给兄弟们教学一波爱心代码,赶在双十一前表白,让这个双十一不在是孤单一个人! 目录 前言 C语言简易爱心代码…

0002Java程序设计-springboot在线考试系统小程序

文章目录 **摘 要****目录**系统实现开发环境 编程技术交流、源码分享、模板分享、网课分享 企鹅🐧裙:776871563 摘 要 本毕业设计的内容是设计并且实现一个基于springboot的在线考试系统小程序。它是在Windows下,以MYSQL为数据库开发平台&…

Java 图片验证码需求分析

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 图片验证码 需求分析 连续因输错密码而登录失败时,记录其连续输错密码的累加次数;若在次数小于5时,用户输入正确的密码并成功登录…

微服务负载均衡器Ribbon

1.什么是Ribbon 目前主流的负载方案分为以下两种: 集中式负载均衡,在消费者和服务提供方中间使用独立的代理方式进行负载,有硬件的(比如 F5),也有软件的(比如 Nginx)。 客户端根据…

使用Kibana让es集群形象起来

部署Elasticsearch集群详细步骤参考本人: https://blog.csdn.net/m0_59933574/article/details/134605073?spm1001.2014.3001.5502https://blog.csdn.net/m0_59933574/article/details/134605073?spm1001.2014.3001.5502 kibana部署 es集群设备 安装软件主机名…

MQ-7一氧化碳传感器模块功能实现(STM32)

认识MQ-7模块与其工作原理 首先来认识MQ-7模块,MQ-7可以检测空气中的一氧化碳(CO)浓度。他采用半导体气敏元件来检测CO的气体浓度,其灵敏度高、反应速度快、响应时间短、成本低廉等特点使得它被广泛应用于智能家居、工业自动化、环…

minio客户端基本操作

minio客户端基本操作 桶 创建桶 如果要创建新的桶 输入名称,点击创建即可,默认权限就行 删除桶 点击要删除的桶 点击删除 修改桶 如果哪天需要修改桶的权限或者其他信息,还是先点击这个桶进入详情 然后点击要修改的属性,选择…

Qt5.15.2静态编译 VS2017 with static OpenSSL

几年前编译过一次Qt静态库:VS2015编译Qt5.7.0生成支持XP的静态库,再次编译,毫无压力。 一.环境 系统:Windows 10 专业版 64位 编译器:visual studio 2017 第三方工具:perl,ruby和python python用最新的3.x.x版本也是可以的 这三个工具都需要添加到环境变量,安装时勾选…

JavaScript 的初步学习上篇

JavaScript 的介绍 JavaScript 之父 布兰登 . 艾奇 (Brendan Eich) ,1995 年, 用 10 天时间完成 JavaScript 的设计. JavaScript 和 Java 的关系 两者之间就像老婆和老婆饼的关系,即毫无关系, JavaScript 最初的名字叫LiveScript,为了蹭 Java 热度,才改名为 JavaScript.JavaScr…

【2023 云栖】阿里云田奇铣:大模型驱动 DataWorks 数据开发治理平台智能化升级

云布道师 本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下: 演讲人:田奇铣 | 阿里云 DataWorks 产品负责人 演讲主题:大模型驱动 DataWorks 数据开发治理平台智能化升级 随着大模型掀起 AI 技术革新浪潮,大数…

C#中openFileDialog控件的使用方法

目录 一、OpenFileDialog基本属性 二、使用 OpenFile 从筛选的选择中打开文件 1.示例源码 2.生成效果 3. 其它示例 三、使用 StreamReader 以流的形式读取文件 1.示例源码 2.生成效果 四、一种新颖的Windows窗体应用文件设计方法 在C#中,OpenFileDialog控件…

AIGC,ChatGPT AI绘画 Midjourney 注册流程详细步骤

AI 绘画,Midjourney完成高清图片绘制,轻松掌握AI工具。 前期准备: ① 一个能使用的谷歌账号 ② 可以访问外网 Midjourney注册 1.进入midjourney官网https://www.midjourney.com 点击左下角”Join the Beta”,就可以注册,第一次使用的小伙伴会弹出提示,只需要点击Acc…