ChatGPT训练流程

图源:State of GPT - Microsoft Build

在这里插入图片描述
笔者翻译上图如下:
请添加图片描述

阶段子阶段目标备注
Pre-Training--------语言建模
Instruction Finetuning---------让模型能够理解自然语言指令
RLHFReward Modeling奖励建模,用来代替人工打分,降低标注成本奖励模型是用来建模强化学习的一个组件
RLHFReinforcement Learning强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本

强化学习建模过程如下:

  1. 将指令精调后的大语言模型作为Agent,agent的action即给定输入文本 i i i进入 S t a t e State State S i S_i Si后的文本 O u t p u t i Output_i Outputi
  • 所有可能输入的文本构成了agent的状态空间
  • 所有可能输出的文本构成了agent的动作空间
  1. 奖励模型作为Environment对模型输出进行打分,将分数作为奖励。

注:

  1. 二元分类说法并不准确,原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较,胜出的回复应该得到更多的分数,亦即获得更大的奖励。或者也可以认为是在两者之间做分类,将更符合人类预期的筛选出来,但前者是更加准确的描述。
    在这里插入图片描述
    图源:cs224n-2023-lecture11-prompting-rlhf.pdf

  2. 奖励模型是用来实现强化学习的一个辅助模型,可以理解为强化学习建模中的环境(Environment)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1175.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT训练一次要耗多少电?

如果开个玩笑:问ChatGPT最大的贡献是什么? “我觉得它对全球变暖是有一定贡献的。”知名自然语言处理专家、计算机科学家吴军在4月接受某媒体采访时如是说。 随着ChatGPT引爆AIGC,国内外巨头纷纷推出自己的AI大模型,大家为人工智…

用 chatgpt 训练 midjourney

Midjourney加上ChatGPT玩法 (notion.site) 语音 转文字 文字转语音、语音转文字! 这几种方法你最好要知道 - 零度解说 (freedidi.com)

chatgpt训练自己的数据python版

一、准备数据(本人准备的是JSONL数据) 1.1、数据格式: {"prompt": "本篇文章的作者是谁?", "completion": "当然是咸菜萝卜头"} {"prompt": "咸菜萝卜头是谁&#xff1…

NLP:《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读

NLP:《ChatGPT: Optimizing Language Models for Dialogue一种优化的对话语言模型》翻译与解读 目录 《ChatGPT: Optimizing Language Models for Dialogue》翻译与解读 Abstract Samples 回答修改代码 回答道德问题 回答数学问题 回答如何写信 Methods 三…

【ChatGPT进阶】3.如何使用ChatGPT翻译文章?

以前翻译是一定要专业的人来做这项工作,但人不可能会所有的语言,但ChatGPT是可以实现的,如果你去研究过NLP,应该就清楚,翻译是它的强项。 你可以通过chatgpt把任何语言翻译成任意一个语言,而且水准不低于一…

chatgpt赋能python:Python模拟登录-实现自动化登录的方法

Python模拟登录 - 实现自动化登录的方法 在日常生活中,我们使用的许多网站需要我们进行登录才能够访问其功能和服务。而在进行人工操作时,频繁登录已经成为了一件烦琐的任务。因此,自动化登录功能的实现也成为了一个极为重要的需求&#xff…

chatgpt 无法登录报错Access denied、OpenAl‘s services are not available in yourcountry. (error=unsupported )

一、主要解决有账号无法登录问题,共包含两种情况。 1、Oops! OpenAls services are not available in yourcountry.(errorunsupported country) 2、Access denied You do not have access to chat.openai.com. The site owner may have set restrictions that p…

2023最新!QQ接入ChatGpt!!!保姆级教程

直接先上gitee!!! 基于go-cqhttp的qqbot: java实现基于cqhttp,ws连接 由于当前chatgpt热度不断,网上众多的基于chatgpt提供的api做到chat网站层出不穷,但这些网址每次都得找,有些麻烦&#xff0…

ida接入chatgpt——WPeChatGPT

ida接入chatgpt——WPeChatGPT ida接入chatgpt——WPeChatGPT 0x00 来源 https://www.52pojie.cn/thread-1752088-1-1.html 感谢Hcho 0x01 安装 一开始git clone 不太管用,选择直接这样下载 安装所需包 按照README文档,首先在解压后的文件夹内运行…

PHP - ChatGpt 学习 仅供参考

由于最近ChatGpt 大火,但是门槛来说是对于大家最头疼的环节, 由此ChatGpt 有一个API 可以仅供大伙对接 让我来说下资质: 1:首先要搞得到一个 ChatGpt 的账户, 会获得一个KEY,该key为访问API核心&#xff0…

Python如何接入ChatGPT

文章目录 前言一、什么是ChatGPT?二、下载安装步骤1.安装Pycharm2.安装ChatGPT 总结 前言 ChatGPT现在越来越火,许多小伙伴都不知道如何去使用,或者没有梯子/国外手机号注册,Pycharm中可以安装nexchatgpt来使用,给有需…

OpenAI最新官方ChatGPT聊天插件接口《接入插件快速开始》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(二)(附源码)

Getting started 快速开始 前言Introduction 导言Plugin manifest 插件清单OpenAPI definition OpenAPI定义Running a plugin 运行插件Setup a local proxy of your public API 设置公共API的本地代理 Writing descriptions 书写描述Best practices Debugging 排除故障其它资料…

十分钟教你搭建ChatGPT 图片生成的安卓应用

十分钟教你搭建ChatGPT 图片生成的安卓应用 大家好,我是易安! 今天,我们将集成 OpenAI API (ChatGPT)来构建一个简单的类似 ChatGPT 的 android 应用程序,让它返回我们想要的图片,本文是上一篇的姊妹篇。 详细步骤 第…

ChatGpt学习辅助挑战网络工程师001

ChatGpt学习辅助挑战网络工程师001 书接上回,询问ChatGpt后,来点亮第一个技能树 成为一个网络工程师ChatGpt提出的的第一步,需要熟悉网络架构. Network Architecture: You should have a good understanding of network architectures and how different components of a net…

VisualChatGPT: 微软发布可发送和接收图片的 ChatGPT

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! ​ Visual ChatGPT 连接了 ChatGPT 和一系列的 Visual Foundation 模型,以便在聊天过程中发送和接收图像。 下图为演示效果: 对该应用实现感兴趣的可以查看其…

调用chatgpt官方api实现聊天和绘图

首先要学会科学上网 1官方api文档 https://platform.openai.com/docs/api-reference/chat/create 2 获取key https://platform.openai.com/ 登录账号 之后点击右上角的头像,再点击View API keys 3 http调用聊天接口 调用地址https://api.openai.com/v1/chat/com…

解决chatgpt网络错误,频繁掉线的问题,那就使用KeepChatGPT

文章目录 解决chatgpt出现An error occurred. If this issue persists please contact us through our help center at help.openai.com问题起因对比原作者github地址安装步骤浏览器要求安装油猴安装KeepChatGPT插件使用方法功能栏说明功能说明如下关于 取消审计 功能关于 调整…

ChatGPT 速通手册——让 ChatGPT 来写正则表达式

regex 生成 正则表达式可谓是一门让广大程序员们又爱又恨的技术。它易学难精,而且可维护性又差,别说交接给其他同事,同一个人写的正则表达式,三个月后回头再看,也可能完全不知所云。 因此,让 ChatGPT 来写…

轻松解决ChatGPT网络报错,畅享沟通

ChatGPT的确很不错,无论是在什么岗位,使用它都可以让工作的你提升效率,可是我们经常会遇到一个神奇的网络报错(当我们一会不使用就来个这样的效果提示),是不是头大? 好了,开始进入正…

完美解决ChatGPT网络错误,不再频繁地刷新网页(分享好用的插件KeepChatGPT)

最近发现一个好用的浏览器插件KeepChatGPT!完美解决ChatGPT网络错误,不再频繁地刷新网页,敲好用!!! 废话不多说上链接! 安装渠道如下 1 Github:https://github.com/xcanwin/KeepCh…