ChatGPT为什么使用强化学习

最近出现很多ChatGPT相关论文,但基本都是讨论其使用场景和伦理问题,至于其原理,ChatGPT在其主页上介绍,它使用来自人类反馈的强化学习训练模型,方法与InstructGPT相同,只在数据收集上有细微的差别。

那么,InstructGPT和ChatGPT为什么使用强化学习呢?先看个示例:

先不论答案是否正确,回答依赖之前的对话,且不仅是前一句。
强化学习用于解决具有马尔可夫性的问题,马尔可夫性是指每个状态仅依赖前一个状态,而这种链式的关系,又使历史信息被传递到了未来。

强化学习使用的场景是马尔可夫决策过程,包含以下核心点:

  • 随机过程:人机聊天你一句我一句
  • 马尔可夫性:回答依赖问题
  • 奖利:问题可能有多种答案,答案没有绝对的对错,但提问者会对某个答案更满意
  • 行为:每一次决定如何回答都对后续对话走向产生影响
    可以看到聊天的场景是一个马尔可夫决策过程。

进而产生了另一个问题:模型需要大量数据训练,如果用户问个问题,出三个答案,让用户选一个,收集以用于训练模型。这肯定是不够友好,软件在初期效果不佳时也不会有人去用。且有些用户的回答还可能误导模型。

于是,需模仿真实的使用场景,根据用户对答案的偏好,生成奖励值,以进一步训练强化学习模型。即:对场景建模,这也是强化学习的重要部分:基于模型的强化学习(model-based reinforcement learning)。

结合GPT自然语言模型(第一列),奖励模型(第二列),代入强化学习算法(第三列),让模型训练和更新筛选答案的策略。简言之,自然语言模型针对人提出的问题生成N种答案,由强化学习根据当前情况,选择其中最符合用户偏好的答案。

用什么样的文本训练它,它就会生成什么样的文字,从互联网上抓取的数据,学到的也都是大多数声音。而通过人标注数据的引导,可以影响和改变它的行为,比如:在第一列可通过喂给模型更多更高质量的数据,让它在细分领域更具专业性;而通过人工标注数据训练第二列的奖励模型,可以约束和引导它的行为。当然,日后还会发展出更好的结构。

至少,到目前为止,它们只是自然语言生成工具,具有一定的语言能力,可以照猫画虎地根据上文生成下文(一种或多种答案),再用强化学习方法,根据当前情境,从答案中选出相对靠谱的显示出来。所以说,不能指忘它是全知,具有上帝视角回答那些专家都不确定的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16246.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术沙龙 | 探索软件测试前沿技术及最佳实践,体验ChatGPT在测试领域中的应用!...

作为软件开发领域中至关重要的一环,软件测试的重要性日益凸显。然而,随着软件测试开发技术的不断发展,软件测试也面临着越来越多的挑战,为了更好地应对这些挑战,测试人社区将持续举办技术沙龙活动,为测试人…

【自然语言处理】【ChatGPT系列】Chain of Thought:从大模型中引导出推理能力

Chain-of-Thought Prompting:从大模型中引导出推理能力 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》 论文地址:https://arxiv.org/pdf/2201.11903.pdf 相关博客 【自然语言处理】【ChatGPT系列】WebGPT:基于…

真正拖垮你的,是沉没成本

— 1— 沉没成本谬误 沉没成本指的是那些发生在过去,我们无法去收回或改变的付出。 这些付出,包括且不限于金钱、时间、精力、感情等等。 其实,你还会遇到很多类似情况。 不想浪费白等的时间,不愿意打车,心想再坚持…

【报名】智慧金融,以技术红利创造财富价值丨直播预告

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 随着科技的快速发展和数字化时代的到来,金融行业也正面临着前所未有的变革和机遇。在这个变革的浪潮中,智慧金融作为引领金融科技创新的关键力量,正成为行业的焦点。在数字经济和人工智能…

如何快速入门 Java?

在一线互联网公司做开发 13 年了,“精通”Java,“吊打”一众面试官,如何快速入门 Java,对我来说简直就是小儿科,相信看完后你一定能收获满满、醍醐灌顶,今年秋招拿下阿里、美团等互联网大厂的 offer。 逼装…

深度:全面解析数据智能的金融“炼金术”!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 金融以其财富效应,成为最新科技的试金石。一项新技术出来后,人们首先闪过的念头就是“能不能用它赚钱”。例如,ChatGPT带火了大模型,人们也开始将目标聚焦到大模型在金融领域的…

市场营销人员如何使用ChatGPT提升效能?

在如今竞争激烈的市场环境下,市场人的工作备受挑战。他们需要了解和掌握不同的市场趋势和客户需求,制定和调整各种营销策略以适应日益变化的市场环境。 此外, 市场运营人员还需要通过各种渠道和方式,进行品牌宣传、客户服务、销售…

ChatGPT+Xmind精美导图,炸裂了!

用ChatGPT做的Java学习路线思维导图,先看效果 1、输入问题【Java学习路线】,并且后面要加【请用代码形式呈现】 2、输出结果后,点击拷贝代码copy code 3、新建一个txt文档,然后把代码拷贝进去,效果图如下,拷…

【人工智能大模型】一文彻底讲透——什么是 PPO(Proximal Policy Optimization,近端策略优化)?

文章目录 什么是 PPO(Proximal Policy Optimization,近端策略优化)?PPO 简介PPO 算法流程PPO 的数学公式PPO 算法原理如何在实际应用中使用PPO算法?什么是近端优化?怎样进行近端优化的?什么是 KL 散度?ppo2.py什么是 PPO(Proximal Policy Optimization,近端策略优化)…

Vue知识点整理(待更新)

Vue知识点整理(待更新) 参考Vue.js中文官网,Vue 知识点汇总(上)–附案例代码及项目地址,Vue 知识点汇总(下)–附案例代码及项目地址,Vue知识点汇总【持更】 文章目录 Vu…

开源节流皆不易,水滴再“画AI大饼”能否充饥?

收并购以实现规模扩张,会是水滴的解药吗? 日前,水滴公司公告称将战略投资深圳存真求实科技有限公司(即“深蓝保”),分阶段完成,第一阶段占股56%。 深蓝保是一家以微信公众号、小程序为载体&am…

售价高达2.5万,苹果首款MR头显“炸场”,眼睛、手和语音都能控制,WWDC23开启科技革命...

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 新技术追逐下,OpenAI 搅动 AI 风云,微软、Google、亚马逊、百度、阿里、科大讯飞等国内外科技大厂群雄逐鹿。与之形成鲜明对比的是,一直处于静默状态下的苹果&#x…

【GPT4】GPT4 创作郭德纲姜昆相声作品的比较研究

欢迎关注【youcans的 AIGC 学习笔记】原创作品 说明:本文附录内容由 youcans 与 GPT-4 共同创作。 【GPT4】GPT4 创作郭德纲姜昆相声作品的比较研究 研究总结0. 背景1. 对 GPT4 创作的第 1 段相声的分析2. 对GPT4 创作的第 2 段相声的分析3. 对GPT4 创作的第 3 段相…

以太坊支付通道

以太坊及相关的区块链技术的长处在于可以通过去中心化和无需信任的方式进行转账,不过在实现高效益的小额支付上仍需努力。本文讨论了小额交易的问题,介绍了支付通道,并概述了支付通道的工作方式。 下图的交易流程可大致反映以太坊的简单支付…

以太坊共识DAG笔记

DAG解析 1.什么是DAG ? DAG,中文名"有向无环图"。"有向"指的是有方向,准确的说应该是同一个方向,"无环"则指够不成闭环。在DAG中,没有区块的概念,他的组成单元是一笔笔的交…

3步! 老司机教你如何在以太坊上构建基于Token去中心化投票系统!

作者 | Doug Crescenzi 译者 | 王柯凝 出品 | CSDN、区块链大本营 如果想在以太坊平台上构建一个去中心化的自治系统,其实有很多种不同的方法可供你选择。其中,最常用的方法之一就是,选民使用代币(Token)代表投票。你拥…

新版以太坊Ethereum库ethersV5.0配合后端Golang1.18实时链接区块链钱包(Metamask/Okc)以及验签操作

区块链去中心化思想无处不在,比如最近使用个体抗原自检替代大规模的中心化核酸检测,就是去中心化思想的落地实践,避免了大规模聚集导致的交叉感染,提高了检测效率,本次我们使用Ethereum最新的ethersV5.0以上版本链接去…

以太坊Geth Trie源码解析

引言 Merkle Patricia Trie 是一种经过改良的、融合了默克尔树(Merkle Trie)和前缀树(Patricia Trie)两种树结构优点的数据结构,是以太坊中用来存储键值数据对(Key, Value)的重要树形数据结构。…

以太坊编程-Geth

前提:开发环境为Windows版本 一、下载安装 geth安装官网地址:https://geth.ethereum.org/downloads/ 安装时,根据提示一步一步安装即可 安装完成之后,需要进行配置环境变量 二、创世区块部署 新建.json文件:新建记事…

国华小状元1号年金险怎么样?好不好?

很多家长开始为孩子做好未来的教育准备,有一些家长过来私信学姐,少儿年金险有没有必要给孩子买一个? 正巧,学姐测评了一款少儿年金险,是国华人寿旗下的——国华小状元1号少儿年金保险。 听说保障内容不错&#xff1f…