ChatGPT训练流程

ChatGPT训练流程

news/2024/12/24 7:53:36/文章来源:https://blog.csdn.net/Solo95/article/details/131638614

图源：State of GPT - Microsoft Build

在这里插入图片描述
笔者翻译上图如下：
请添加图片描述

阶段	子阶段	目标	备注
Pre-Training	--------	语言建模
Instruction Finetuning	---------	让模型能够理解自然语言指令
RLHF	Reward Modeling	奖励建模，用来代替人工打分，降低标注成本	奖励模型是用来建模强化学习的一个组件
RLHF	Reinforcement Learning	强化学习建模，通过强化学习的方式训练模型输出奖励最大的文本，即更符合人类偏好的文本

强化学习建模过程如下：

将指令精调后的大语言模型作为Agent，agent的action即给定输入文本 $i$ 进入 $St a t e$ $S_i$ 后的文本 $Output_i$ 。

所有可能输入的文本构成了agent的状态空间
所有可能输出的文本构成了agent的动作空间

将奖励模型作为Environment对模型输出进行打分，将分数作为奖励。

注：

二元分类说法并不准确，原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较，胜出的回复应该得到更多的分数，亦即获得更大的奖励。或者也可以认为是在两者之间做分类，将更符合人类预期的筛选出来，但前者是更加准确的描述。

图源：cs224n-2023-lecture11-prompting-rlhf.pdf
奖励模型是用来实现强化学习的一个辅助模型，可以理解为强化学习建模中的环境（Environment）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/1175.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ChatGPT训练一次要耗多少电？

ChatGPT训练一次要耗多少电？

如果开个玩笑：问ChatGPT最大的贡献是什么？ “我觉得它对全球变暖是有一定贡献的。”知名自然语言处理专家、计算机科学家吴军在4月接受某媒体采访时如是说。随着ChatGPT引爆AIGC，国内外巨头纷纷推出自己的AI大模型，大家为人工智…

阅读更多...

用 chatgpt 训练 midjourney

用 chatgpt 训练 midjourney

Midjourney加上ChatGPT玩法 (notion.site) 语音转文字文字转语音、语音转文字！ 这几种方法你最好要知道 - 零度解说 (freedidi.com)

阅读更多...

chatgpt训练自己的数据python版

chatgpt训练自己的数据python版

一、准备数据（本人准备的是JSONL数据） 1.1、数据格式： {"prompt": "本篇文章的作者是谁？", "completion": "当然是咸菜萝卜头"} {"prompt": "咸菜萝卜头是谁&#xff1…

阅读更多...

NLP：《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读

NLP：《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读

NLP：《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读目录《ChatGPT: Optimizing Language Models for Dialogue》翻译与解读 Abstract Samples 回答修改代码回答道德问题回答数学问题回答如何写信 Methods 三…

阅读更多...

【ChatGPT进阶】3.如何使用ChatGPT翻译文章？

【ChatGPT进阶】3.如何使用ChatGPT翻译文章？

以前翻译是一定要专业的人来做这项工作，但人不可能会所有的语言，但ChatGPT是可以实现的，如果你去研究过NLP，应该就清楚，翻译是它的强项。你可以通过chatgpt把任何语言翻译成任意一个语言，而且水准不低于一…

阅读更多...

chatgpt赋能python：Python模拟登录-实现自动化登录的方法

chatgpt赋能python：Python模拟登录-实现自动化登录的方法

Python模拟登录 - 实现自动化登录的方法在日常生活中，我们使用的许多网站需要我们进行登录才能够访问其功能和服务。而在进行人工操作时，频繁登录已经成为了一件烦琐的任务。因此，自动化登录功能的实现也成为了一个极为重要的需求&#xff…

阅读更多...

chatgpt 无法登录报错Access denied、OpenAl‘s services are not available in yourcountry. (error=unsupported ）

chatgpt 无法登录报错Access denied、OpenAl‘s services are not available in yourcountry. (error=unsupported ）

一、主要解决有账号无法登录问题，共包含两种情况。 1、Oops! OpenAls services are not available in yourcountry.(errorunsupported country) 2、Access denied You do not have access to chat.openai.com. The site owner may have set restrictions that p…

阅读更多...

2023最新！QQ接入ChatGpt!!!保姆级教程

2023最新！QQ接入ChatGpt!!!保姆级教程

直接先上gitee！！！ 基于go-cqhttp的qqbot: java实现基于cqhttp，ws连接由于当前chatgpt热度不断，网上众多的基于chatgpt提供的api做到chat网站层出不穷，但这些网址每次都得找，有些麻烦&#xff0…

阅读更多...

ida接入chatgpt——WPeChatGPT

ida接入chatgpt——WPeChatGPT

ida接入chatgpt——WPeChatGPT ida接入chatgpt——WPeChatGPT 0x00 来源 https://www.52pojie.cn/thread-1752088-1-1.html 感谢Hcho 0x01 安装一开始git clone 不太管用，选择直接这样下载安装所需包按照README文档，首先在解压后的文件夹内运行…

阅读更多...

PHP - ChatGpt 学习仅供参考

PHP - ChatGpt 学习仅供参考

由于最近ChatGpt 大火，但是门槛来说是对于大家最头疼的环节， 由此ChatGpt 有一个API 可以仅供大伙对接让我来说下资质： 1：首先要搞得到一个 ChatGpt 的账户， 会获得一个KEY，该key为访问API核心&#xff0…

阅读更多...

Python如何接入ChatGPT

Python如何接入ChatGPT

文章目录前言一、什么是ChatGPT？二、下载安装步骤1.安装Pycharm2.安装ChatGPT 总结前言 ChatGPT现在越来越火，许多小伙伴都不知道如何去使用，或者没有梯子/国外手机号注册，Pycharm中可以安装nexchatgpt来使用，给有需…

阅读更多...

OpenAI最新官方ChatGPT聊天插件接口《接入插件快速开始》全网最详细中英文实用指南和教程，助你零基础快速轻松掌握全新技术（二）（附源码）

OpenAI最新官方ChatGPT聊天插件接口《接入插件快速开始》全网最详细中英文实用指南和教程，助你零基础快速轻松掌握全新技术（二）（附源码）

Getting started 快速开始前言Introduction 导言Plugin manifest 插件清单OpenAPI definition OpenAPI定义Running a plugin 运行插件Setup a local proxy of your public API 设置公共API的本地代理 Writing descriptions 书写描述Best practices Debugging 排除故障其它资料…

阅读更多...

十分钟教你搭建ChatGPT 图片生成的安卓应用

十分钟教你搭建ChatGPT 图片生成的安卓应用

十分钟教你搭建ChatGPT 图片生成的安卓应用大家好，我是易安！ 今天，我们将集成 OpenAI API (ChatGPT)来构建一个简单的类似 ChatGPT 的 android 应用程序，让它返回我们想要的图片，本文是上一篇的姊妹篇。详细步骤第…

阅读更多...

ChatGpt学习辅助挑战网络工程师001

ChatGpt学习辅助挑战网络工程师001

ChatGpt学习辅助挑战网络工程师001 书接上回,询问ChatGpt后,来点亮第一个技能树成为一个网络工程师ChatGpt提出的的第一步,需要熟悉网络架构. Network Architecture: You should have a good understanding of network architectures and how different components of a net…

阅读更多...

VisualChatGPT: 微软发布可发送和接收图片的 ChatGPT

VisualChatGPT: 微软发布可发送和接收图片的 ChatGPT

公众号关注「奇妙的 Linux 世界」设为「星标」，每天带你玩转 Linux ！ Visual ChatGPT 连接了 ChatGPT 和一系列的 Visual Foundation 模型，以便在聊天过程中发送和接收图像。下图为演示效果： 对该应用实现感兴趣的可以查看其…

阅读更多...

调用chatgpt官方api实现聊天和绘图

调用chatgpt官方api实现聊天和绘图

首先要学会科学上网 1官方api文档 https://platform.openai.com/docs/api-reference/chat/create 2 获取key https://platform.openai.com/ 登录账号之后点击右上角的头像，再点击View API keys 3 http调用聊天接口调用地址https://api.openai.com/v1/chat/com…

阅读更多...

解决chatgpt网络错误，频繁掉线的问题，那就使用KeepChatGPT

解决chatgpt网络错误，频繁掉线的问题，那就使用KeepChatGPT

文章目录解决chatgpt出现An error occurred. If this issue persists please contact us through our help center at help.openai.com问题起因对比原作者github地址安装步骤浏览器要求安装油猴安装KeepChatGPT插件使用方法功能栏说明功能说明如下关于取消审计功能关于调整…

阅读更多...

ChatGPT 速通手册——让 ChatGPT 来写正则表达式

ChatGPT 速通手册——让 ChatGPT 来写正则表达式

regex 生成正则表达式可谓是一门让广大程序员们又爱又恨的技术。它易学难精，而且可维护性又差，别说交接给其他同事，同一个人写的正则表达式，三个月后回头再看，也可能完全不知所云。因此，让 ChatGPT 来写…

阅读更多...

轻松解决ChatGPT网络报错，畅享沟通

轻松解决ChatGPT网络报错，畅享沟通

ChatGPT的确很不错，无论是在什么岗位，使用它都可以让工作的你提升效率，可是我们经常会遇到一个神奇的网络报错（当我们一会不使用就来个这样的效果提示），是不是头大？ 好了，开始进入正…

阅读更多...

完美解决ChatGPT网络错误，不再频繁地刷新网页（分享好用的插件KeepChatGPT）

完美解决ChatGPT网络错误，不再频繁地刷新网页（分享好用的插件KeepChatGPT）

最近发现一个好用的浏览器插件KeepChatGPT！完美解决ChatGPT网络错误，不再频繁地刷新网页，敲好用！！！ 废话不多说上链接！ 安装渠道如下 1 Github：https://github.com/xcanwin/KeepCh…

阅读更多...

最新文章

推荐文章