ChatGPT之深度强化学习DRL理解

参考文献:Part 1: Key Concepts in RL — Spinning Up documentation

In a nutshell, RL is the study of agents and how they learn by trial and error. (RL是对agent如何试错的一个研究)It formalizes the idea that rewarding or punishing an agent for its behavior makes it more likely to repeat or forego that behavior in the future.

RL 是Reinforcement Learning的简称.   DRL 是 Deep Reinforcement Learning的缩写,是深度学习和强化学习的合并体.

强化学习的研究是针对一个智能体(agent)不断试错的过程.  通过不断奖励或惩罚智能体,确保它在未来可以最大化的重复有利的行为,放弃不利的行为.

RL中两个主要角色就是 agent(智能体)和enviroment.  enviroment 是agent的主要生活和交互的世界. 在每一步agent和environment的交互步骤中,  agent 根据环境状态的观测数据,然后决定采取的行动action.  当action被实施, enviroment会发生变化,agent 也会随之改变.

   agent 会从enviroment中获取到奖励信号,一个数字, 来告诉agent,enviroment的状态是好还是坏。 agent的目标是最大化累计奖励值,也称为收益率。 RL 方法是一种方式让agent 学习行为达到自己的目标。

主要概念: 

States and Observations

state s, 是一个对environment状态的完整描述。 observation o 是对state的部分描述,有可能省略掉部分信息。

当agent 观察一个完整的全部的environment的状态时,我们说这个environment是一个完全观察环境.

当agent观察部分environment的状态时, 我们说这个environment是部分观察.

Action Spaces

不同的环境需要不同类型的行为.  对环境有效的行为的集合被称为Action Spaces. (行为空间).

根据不同的场景区分为离散行为空间集合, discrete action spaces 离散行为空间. 就是行为没有规律,不连续. 

持续的行为空间,continuous action spaces. 在持续的空间中, 行为就是真实的向量. 比如机器人的移动.这个区别对DRL的算法会产生深刻重大的后果.  不同的行为空间类型,对应不同的DRL算法.

Policies 策略

  policies 是agent决定行为的具体规则.   policies 在尝试最大化agent的收益率.

 parameterized policies  参数化策略:  策略结果是一个可计算的函数,此函数依赖一些列参数, 通过最优化的算法去改变行为.

Deterministic Policies 确定性策略: 

Stochastic [stə'kæstɪk] Policies  随机策略: 

深度RL中最常见的两种随机策略是分类策略和对角高斯策略。

分类策略可用于离散行为空间.  对角高斯策略用于持续行为空间.

Trajectories  [trəˈdʒektəri]   轨迹,轨道,弹道.

Trajectories  是 states 和 actions在environment中的连续的一系列的序列。

Trajectories are also frequently called episodes  (一集)or rollouts.

Reward and Return 奖励和收益

infinite-horizon discounted return  (无限期折现收益) 无限时间窗口累计收益.

finite-horizon undiscounted return   (有限期未贴现收益)   一定时间窗口的累计收益.

Value Functions 价值函数

了解状态或状态-行为对的价值是非常有用的。 通过价值函数,我们可以预测出基于某个状态或者策略行为的期望回报率。价值函数value function ,在几乎每一个RL算法中,以各种方式被使用。

有4类主要的价值函数: 

1. On-Policy Value Function  如果从state  s开始,并且总是根据策略π执行行为,回给出预期回报率.  

 2. On-Policy Action-Value Function   如果从state  s开始, 执行一个任意的action a, 一直沿用策略π, 计算出的回报率.

           

3. Optimal Value Function 最优价值函数.

总是跟随根据最优策略,从状态s 开始,计算出期望收益率.

4. Optimal Action-Value Function.  从状态s开始, 执行一个任意的action  a, 一直跟随最优策略, 然后计算出期望回报率.

   

The Optimal Q-Function and the Optimal Action (最优Q函数和最优行为)

Q-Function,  从状态s开始,采取一个任意的行为, 然后遵循最优策略,获取最佳回报率.

Bellman Equations  贝尔曼方程

 The value of your starting point is the reward you expect to get from being there, plus the value of wherever you land next.

你出发点的价值是你期望从那里获得的回报,再加上你下一站的价值。

value funcion的贝尔曼方程和optimal value function的贝尔曼方程最大的区别是否对action执行max的处理.   反应了一个事实是, 无论agent 何时去选择它的行为,为了最优化行为,它不得不选择一个可以导致更高价值的行为.

Bellman backup 在RL描述中出频率较高的词汇。RL文献中经常出现“Bellman备份”一词。一个状态或状态-动作对的Bellman备份是Bellman方程的右手边:奖励加上下一个值。

Advantage Functions  优势函数

获取到action的相对优势.

优势函数对于策略梯度方法至关重要。

 Formalism 形式主义

到目前为止,我们已经以非正式的方式讨论了agent的环境,但如果你试图深入研究文献,你很可能会遇到这种设置的标准数学形式:马尔可夫决策过程(MDPs)。MDP是一个5元组,\langle S、a、R、P、\rho_0\rangle,其中

S是所有有效状态的集合,

A是所有有效动作的集合,

R:是奖励函数,其中R_t=R(S_t,A_t,S_{t+1}),

P:是转移概率函数,其中P(S’|S,A)是如果您在状态S中开始并采取动作A,则转移到状态S’的概率,

Po是起始状态分布。

马尔可夫决策过程这一名称指的是系统遵循马尔可夫特性的事实:转变只取决于最近的状态和动作,而不取决于先前的历史。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3393.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《花雕学AI》19:比较ChatGPT与新Bing在文章润色方面的应用优势与测试案例

引言: 文章润色是指对已经写好的文章进行修改、优化或完善的过程,以提高文章的质量和效果。文章润色涉及到多方面的内容,如语言表达、逻辑结构、文献引用、格式规范等。文章润色对于提升写作水平、提高论文发表率、增加学术影响力等都有重要意…

GPT润色论文的 10 个指令!

以下是 10个实际使用 ChatGPT 进行润色的例句: 1、精简文章内容: 输入“删除不必要的内容〞,可以删除文章中的冗余内容,使文章更加紧凌。例如:文章中有些内容并不是与主题相关,使其文章会更加简洁明了。 …

用GPT可以润色论文吗-chatgpt翻译润色软件

用gpt翻译润色可以吗 使用GPT(Generative Pre-trained Transformer)进行翻译和润色是可行的,因为GPT是目前自然语言处理领域中最受欢迎的预训练语言模型之一,它通过大规模的语料库训练而成,具备强大的自然语言理解和生…

英文翻译润色-chatGPT英文润色软件

chat英文润色英文会有问题吗 Chat GPT 英文润色输出的质量通常很高,但是在某些极端情况下可能会出现语言不连贯、逻辑混乱以及不准确的情况。这主要是因为英文语言的复杂性以及润色软件算法的复杂性决定的。因此,在进行英文润色时,最好是对输…

ChatGPT生成单元测试实践(Golang)

前言 目前gpt本质上是续写,所以在待测函数定义清晰的情况下,单元测试可以适当依赖它进行生成。 收益是什么: 辅助生成测试用例&测试代码,降低单元测试编写的心智成本辅助code review,帮助发现代码显式/潜在问题…

ChatGPT - 训练ChatGPT 自主生成Prompt

文章目录 训练ChatGPT 自主生成Prompt例子 训练ChatGPT 自主生成Prompt I want you to act as a ChatGPT prompt generator, I will send a topic, you have to generate a ChatGPT prompt based on the content of the topic, the prompt should start with “I want you to …

ChatGPT 生成的代码比你写的更不安全

出品 | OSC开源社区(ID:oschina2013) ChatGPT 是 OpenAI 发布的大语言模型聊天机器人,可以根据用户的输入生成文本,其中包括代码。不过加拿大魁北克大学的研究人员发现,ChatGPT 生成的代码往往存在严重的安全问题&…

1.1 ChatGPT背后的关键技术-预训练

1. ChatGPT的含义 ChatGPT的GPT对应的英文分别为Generative Pre-trained Transformer,意思是用到Transformer网络架构的生成式预训练模型。其中预训练也叫做自监督学习(Self-supervised Learning)或者是大模型(Foundation Model&…

从语言模型到ChatGPT,大模型训练全攻略

文|python 前言 你是否想过,为什么ChatGPT能够如此火爆呢?我认为这主要是因为ChatGPT提供了好玩、有用的对话式交互功能,能够为用户提供帮助,而不仅仅是依靠“大”模型的魅力。毕竟,GPT-3在2020年就已经推出…

训练ChatGPT的必备资源:语料、模型和代码库完全指南

文|python 前言 近期,ChatGPT成为了全网热议的话题。ChatGPT是一种基于大规模语言模型技术(LLM, large language model)实现的人机对话工具。但是,如果我们想要训练自己的大规模语言模型,有哪些…

CHAT GPT 训练流程 无标题】

伊桑CHAT GPT 训练流程 第一步:监督学习 收集人工编写的期望模型是如何输出的数据集, ​​​​并使用其来训练一个生成模型(GPT3.5-based) ​ 第二步:训练奖励模型 收集人工标注的模型多个输出之间的排序数据集…

借助ChatGPT爆火,股价暴涨又暴跌后,C3.ai仍面临巨大风险

来源:猛兽财经 作者:猛兽财经 C3.ai的股价 作为一家人工智能技术提供商,C3.ai(AI)的股价曾在2021年初随着炒作情绪的增加,达到了历史最高点,但自那以后其股价就下跌了90%,而且炒作情…

谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜网友:退钱!

看完谷歌的最新直播,我感觉,微软被“诈骗”了。 谷歌CEO劈柴哥前脚刚发文说要推出ChatGPT竞品Bard,又有各种消息暗示2月8日晚上的发布会会有“新消息”。 不到24小时,微软就连夜上线了ChatGPT版搜索。 微软CEO纳德拉还非常重视…

ChatGPT已经杀疯了...

来源:机器之心 关于 AI 的问题,可以直接问 AI。 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句&#…

尴尬!谷歌版 ChatGPT 全球首秀“大翻车”,市值狂跌 7000 亿

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 昨日,微软宣布用 ChatGPT 改写 Bing、Edge,使其市值飙涨 5450 亿元——有了这个“珠玉”在前,加之谷歌刚官宣了其 ChatGPT 竞品 Bard,人们不由期待今日…

如何在ChatGPT中使用Prompt提示词 - 入门篇

本文导航 文章目录 什么是Prompt?Prompt的核心四个要点使用建议 Prompt的使用范例重新描述所给的文本内容突破ChatGPT的字数限制 总结 什么是Prompt? Prompt中文名提示词,指人工智能(AI)语言模型中的一个输入,它是一个简短的文…

ChatGPT中文版写周报【AI实用技巧】

写周报是打工人的日常操作,但又是相对固定和枯燥的工作。正确使用ChatGPT能轻松愉快地写周报。下面给大家举例说明: ChatGPT中文站https://ai-cn.co 问:我是程序员,负责维护公司商城,帮我写一份周报,不少于…

爆火的ChatGPT太强了!改周报、写代码、改bug,网友:谷歌搜索或GG,Stack Overflow被取代了!...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:机器之心 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bu…

【用AI写周报,“卷死”同事】打造一款自动生成周报的微信小程序

文章目录 前言步骤1:创建账号步骤2:创建一个微信小程序并配置API。步骤3:在微信开发者工具中创建一个新的微信小程序项目步骤4:创建ChatGPT API云函数步骤5:创建UI界面步骤6:创建发送邮件的云函数步骤7&…

【ChatGPT】帮你写周报,这是实在太干货了,老板都看不下去了

说到写周报不少小伙伴会觉得是一件头疼的事情,一周摸鱼了不到7天,周报咋写,掰指头都能数清的事在邮件中更是寥寥数字,自己看着不舒服,老板看着更是头大,要不要搞掉他的想法油然而生; ChatGPT可谓…