通用人工智能之路:什么是强化学习?如何结合深度学习?

目录

  • 1 ChatGPT中的强化学习
  • 2 环境与智能体的交互
  • 3 强化学习特征四元组
  • 4 深度强化学习的引入
  • 5 教程大纲
  • 加入我们

1 ChatGPT中的强化学习

2015年,OpenAI由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立,公司核心宗旨在于实现安全的通用人工智能(AGI),使其有益于人类。ChatGPTOpenAI推出的一个基于对话的原型 AI 聊天机器人,2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。ChatGPT魔力的关键因素之一可以追溯到2017年的概念人类反馈强化学习(RLHF)

在这里插入图片描述

RLHF的关键在于在难以明确规定任务的强化学习环境中操作,在这些情景下,人类反馈可能产生巨大的影响。RLHF利用人类评估者的少量反馈来引导智能体对目标及其相应奖励函数的理解。

RLHF的训练过程大致阐述为

智能体从环境中随机采取行动,智能体每隔一段时间向人类评估者展示学习效果。根据效果,评估者会施加引导信息,智能体然后利用这个反馈逐渐建立起一个最能解释人类判断的目标和奖励函数的模型。一旦智能体对目标及其相应奖励函数有了清晰的理解,它就使用传统强化学习方法来学习如何实现该目标。随着行为的改善,智能体会继续请求关于它最不确定哪个更好的轨迹对的人类反馈,进一步完善对目标的理解

在这里插入图片描述

ChatGPT是大型语言模型的缩影,而这个领域已成为应用现代强化学习技术最有趣的领域之一。接下来,我们将介绍深度强化学习的基本概念,以及有效的学习路线

2 环境与智能体的交互

环境(Environment)是机器学习任务所依赖的物理规则与载体,例如

  • 在下棋对弈任务中,环境是棋盘、对手与游戏规则
  • 在机器人控制任务中,环境是机器人硬件、任务场景与物理定律

智能体(Agent)是存在于环境中的实例,智能体必须依赖环境,并与环境产生交互。智能体不能改变环境的物理规则,但可以通过传感器(Sensor)观察来感知环境(感知的结果称为状态),通过决策器(decision maker)来根据状态决定将要采取的行动,最后通过执行器(Actuator)动作来影响环境。

在这里插入图片描述

举例而言

  • 人类Agent有眼睛、耳朵和其他器官等传感器,也有手、腿、声道等作为执行器
  • 硬件Agent可能用摄像头、红外测距仪作为传感器,各种马达作为执行器
  • 软件Agent接受键盘敲击、文件内容和网络数据包作为传感器输入,并以屏幕显示、写文件和发送网络数据包为执行器

Agent的核心是决策器,其内部存在一个从感知到行为的映射,称为Agent函数(或称之为策略)。Agent函数的具体实现过程称为Agent程序,机器学习等人工智能学科就是一系列Agent程序设计的方法论。Agent根据外部环境感知做出相应行为,很自然地需要判断Agent函数的好坏。若这个行为符合期望,则认为智能体是理性的(Rational)

3 强化学习特征四元组

接下来,我们正式给出经典强化学习的定义

强化学习(Reinforcement Learning, RL)在潜在的不确定复杂环境中,训练一个最优决策 π \pi π指导一系列行动实现目标最优化的机器学习方法

强化学习与监督学习的不同之处在于不需要进行样本标注,核心是通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡

在这里插入图片描述

在初始情况下,没有训练数据告诉强化学习智能体并不知道在环境中应该针对何种状态采取什么行动,而是通过不断试错得到最终结果,再反馈修正之前采取的策略,因此强化学习某种意义上可以视为具有“延迟标记信息”的监督学习问题。

强化学习的基本过程是:智能体对环境采取某种行动 a a a,观察到环境状态发生转移 s 0 → s s_0\rightarrow s s0s,反馈给智能体转移后的状态 s s s和对这种转移的奖赏 r r r。综上所述,一个强化学习任务可以用四元组 E = < S , A , P , R > E=\left< S,A,P,R \right> E=S,A,P,R表征

  • 状态空间 S S S:每个状态 s ∈ S s \in S sS是智能体对感知环境的描述;
  • 动作空间 A A A:每个动作 a ∈ A a \in A aA是智能体能够采取的行动;
  • 状态转移概率 P P P:某个动作 a ∈ A a \in A aA作用于处在某个状态 s ∈ S s \in S sS的环境中,使环境按某种概率分布 P P P转换到另一个状态;
  • 奖赏函数 R R R:表示智能体对状态 s ∈ S s \in S sS下采取动作 a ∈ A a \in A aA导致状态转移的期望度,通常 r > 0 r>0 r>0为期望行动, r < 0 r<0 r<0为非期望行动。

状态空间有限的基本强化学习可以用马尔科夫决策过程进行抽象建模,可见机器学习强基计划6-1:图文详细总结马尔科夫链及其性质(附例题分析)

4 深度强化学习的引入

传统强化学习大多基于数值离散状态空间的任务,即根据所有数值组合的状态是有限的,但现实中往往面临数值连续的无限状态空间。例如围棋任务的状态空间规模高达 1 0 17 10^{17} 1017;自动驾驶任务中状态可能由激光雷达、陀螺仪、里程计的连续数值共同组成。庞大的状态空间导致无法维护内部用以决策的数据结构——例如Q-Learning算法的Q-Table,因此引入深度强化学习(Deep Reinforcement Learning, DRL)

深度强化学习融合了深度学习和强化学习框架,其中

  • 深度学习负责感知和拟合非结构化的环境输入信息,而不依赖于对状态空间的人工建模,克服了无限状态空间问题
  • 强化学习负责通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡

深度强化学习使智能体具有在未知环境中做出复杂决策的能力,在机器人、游戏、自然语言处理等诸多领域得到广泛应用。如图所示,深度学习为强化学习提供了策略评估,而强化学习根据评估值进行策略改进,与环境交互产生训练样本反馈给神经网络,增强其感知能力

在这里插入图片描述

5 教程大纲

本专栏将重点介绍强化学习技术,并且采用Pytorch框架对常见的强化学习算法、案例进行实现,帮助读者理解原理。同时,辅以各种机器学习、数据处理技术,弥补一些人工智能的底层知识

🔥 专栏地址:Pytorch深度强化学习,具体大纲如下


🚀 第一章——经典强化学习理论

  • 通用人工智能之路:什么是强化学习?如何结合深度学习?
  • Pytorch深度强化学习1-1:Gym安装与环境搭建教程(附基本指令表)
  • Pytorch深度强化学习1-2:详解K摇臂赌博机模型和 ϵ \epsilon ϵ-贪心算法
  • Pytorch深度强化学习1-3:策略评估与贝尔曼期望方程详细推导
  • Pytorch深度强化学习1-4:策略改进定理与贝尔曼最优方程
  • Pytorch深度强化学习1-5:详解蒙特卡洛强化学习原理
  • Pytorch深度强化学习1-6:详解时序差分强化学习(SARSA、Q-Learning算法)

🚀 第二章——深度强化学习理论

  • Pytorch深度强化学习2-1:基于价值的强化学习——DQN算法
  • Pytorch深度强化学习2-2:基于价值的强化学习——Prioritized Replay DQN
  • Pytorch深度强化学习2-3:基于价值的强化学习——Dueling DQN
  • Pytorch深度强化学习2-4:基于策略的强化学习——策略梯度定理
  • Pytorch深度强化学习2-5:基于策略的强化学习——基线优化(Baseline)
  • Pytorch深度强化学习2-6:演员-评论家框架——A2C与A3C算法
  • Pytorch深度强化学习2-7:演员-评论家框架——DDPG与TD3算法

🚀 第三章——深度强化学习案例

  • Pytorch深度强化学习案例:基于DQN实现Flappy Bird游戏与分析

加入我们

目前博主正在组建深度学习技术交流群,群中成员是有明确共同目标,共同愿景的,这样才能共同成长,所以只要你想学好机器学习、深度学习就请加入我们(下方名片),让我们一起从理论到实践攻克深度学习,为从事相关工作或科研打下基础!

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
当然群里也配套长期更新的网盘资源福利等你领取!

上面给出的是教程的大致大纲,后面可能会有顺序和内容的调整,但可以保证内容量只增不减,更新频率为一周1~2更。所有应用类内容都配有代码,可以放心使用


🔥 更多精彩专栏

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29793.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

笔记本玩逆水寒服务器未响应,《逆水寒》运行游戏时电脑崩溃问题解决指引

亲爱的自在同门大家好&#xff01; 近日&#xff0c;我们接到反馈&#xff0c;部分笔记本在运行游戏时会出现崩溃现象。经过技术调查处理&#xff0c;建议这部分自在同门作如下处理&#xff1a; 一、请检查一下&#xff0c;您的笔记本是否同时处在以下环境中&#xff1a; 1)Win…

逆水寒角色服务器找不到,逆水寒服务器曝出,很多人都选了这个大区,而老油条却选这个大区...

《逆水寒》不删档测试客户端已经开启下载&#xff0c;相信很多玩家已经下完了客户端&#xff0c;毕竟服务器都拥挤过一次了&#xff0c;下面就为大家介绍一下安装完的客户端界面。 看过雷火的logo之后我们看到的是NGP登录平台的界面&#xff0c;十分简单&#xff0c;背景是动图…

逆水寒服务器维护能进游戏吗,逆水寒7月12日几点可以进游戏 逆水寒更新维护公告...

逆水寒在今天也就是7月12日已经正在进行一次新版本的更新维护&#xff0c;在这次的新版本中&#xff0c;更新的内容极其多&#xff0c;所以下面就来为大家详细的分享一下这次逆水寒的更新维护公告。 【逆水寒智者无情详细图文攻略 智者无情任务步骤】 【逆水寒 7 月 12 日更新到…

周末,我打开《逆水寒》参加了一场AI学术会议

晓查 发自 凹非寺量子位 编辑 | 公众号 QbitAI 今年&#xff0c;线上办AI学术会议已经是常态了。 但在中国古风游戏里开会&#xff0c;你肯定没见过。 会场设在大宋皇宫议事厅&#xff0c;门卫是带刀宫廷侍卫&#xff0c;参会者清一色换上古装&#xff0c;还能比心勾搭AI学术大…

怎么查询逆水寒服务器角色信息,逆水寒服务器状态

逆水寒服务器状态 内容精选 换一换 华为云帮助中心,为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档,帮助您快速上手使用华为云服务。 逆水寒服务器状态 相关内容 查询云服务器信息列表。您可以在API Explorer中直接运行…

《逆水寒》

终于把温瑞安的《 逆水寒》读完了&#xff0c;基本都是利用坐地铁的时间&#xff0c;断断续续的把这本书看完的&#xff0c;每天看上一百来页&#xff0c;一个月下来才看完。 《逆水寒》很像《越狱》&#xff0c;都是一帮子人从始至终的逃亡&#xff0c;到最后看似没有希望了&…

逆水寒商业脚本制作视频

​一章 易语言基础 共6课时 1、关于易语言必须了解的基本知识 2、易语言基本组件(不包括超级列表框)讲解 3、易语言超级列表框详解 3、易语言核心支持库讲解之一 4、易语言核心支持库讲解之二 5、易语言模块制作和DLL制作 6、用制作的模块和DLL开发三个小软件 第二章…

逆水寒台式电脑配置配置要求2021适合玩逆水寒游戏电脑清单

逆水寒台式电脑配置配置推荐 CPU Intel 酷睿i5 10400F 逆水寒配置要求这些点很重要 看过你就懂了 让你玩的飞起http://www.adiannao.cn/du 主板 华硕TUF GAMING B460M-PLUS (WI-FI) 内存 金士顿骇客神条FURY 8GB DDR4 固态硬盘 西部数据Blue SN550 NVME SSD&#xff08;500GB…

逆水寒2021最新服务器,逆水寒公布2021部分更新计划,写满了离经叛道

1月9日&#xff0c;网易旗舰武侠古风端游《逆水寒》年度玩家盛典在上海举行。 当日&#xff0c;2020年度赛的冠军们在现场公布了《逆水寒》2021年的部分更新计划。 作为业内最为勤劳的一款网游&#xff0c;网易《逆水寒》一直以引领武侠网游潮流著称&#xff0c;比如之前的54元…

遇见逆水寒最新服务器是哪个,遇见逆水寒合服公告 遇见逆水寒旧服账号还在吗...

因为逆水寒端游合服的缘故&#xff0c;遇见逆水寒手游也将实现合服&#xff0c;那么遇见逆水寒中哪些区服和合二为一呢&#xff1f;玩家在之前区服的账号数据会被清除吗&#xff1f;下面就是遇见逆水寒手游的合服公告&#xff0c;有疑问的玩家都来看看吧&#xff01; 遇见逆水寒…

逆水寒 找不到服务器,逆水寒服务器最近为什么总崩?

原标题&#xff1a;逆水寒服务器最近为什么总崩&#xff1f; 最新资讯&#xff0c;近期大家都在玩的逆水寒的游戏&#xff0c;但是近期大家进入逆水寒进不去&#xff0c;逆水寒服务器崩了一度还上了热搜&#xff0c;那么到底逆水寒服务器崩了怎么回事&#xff1f;为什么逆水寒服…

逆水寒服务器列表文件,逆水寒9月20日服务器合并结果公告一览 逆水寒9.20合服大全有哪些...

本文导航第1页&#xff1a; 合服投票计算规则 合服投票计算规则 不少玩家都很感兴趣逆水寒9月20日服务器合并结果公告一览&#xff0c;因此针对这个问题给各位介绍一番逆水寒9.20合服大全有哪些&#xff0c;希望对你们有用各位。 逆水寒9月20日合服的服务器有哪些&#xff1f;大…

逆水寒捏脸服务器维护,逆水寒捏脸数据分享_全职业捏脸数据一览

逆水寒捏脸数据分享&#xff0c;角色的捏脸很重要&#xff0c;如何才能捏出自己想要的角色呢&#xff0c;下面小编就来为大家详细的介绍一下逆水寒捏脸数据&#xff0c;感兴趣的玩家快来看看吧&#xff01; 捏脸系统是逆水寒游戏推出地新玩法&#xff0c;在游戏上线开测之前&am…

逆水寒服务器列表文件,逆水寒目前服务器

逆水寒目前服务器 内容精选 换一换 创建GDS外表。在当前数据库创建一个GDS外表&#xff0c;用于数据并行导入导出。GDS外表分为只读外表和只写外表&#xff0c;分别用于数据并行导入和并行导出&#xff0c;缺省为只读外表。外表由命令执行者所有&#xff1b;GDS外表不需要显式指…

逆水寒2021最新服务器,【图片】《逆水寒》2021年1月21日更新公告【逆水寒ol吧】_百度贴吧...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 二、玩法系统 1.全新团本【苍山蛊影】第二阶段首领登场&#xff01; 阴阳蛊毒&#xff0c;变幻莫测&#xff0c;被泡泡控制的王锦树、邵雅紫两人得阴阳蛊毒秘法实力大涨&#xff0c;誓要夺取帝王蛊找泡泡报仇。 1)参与方式&#x…

逆水寒服务器维护中,逆水寒维护到几点今天 逆水寒11.1更新了什么

大家好&#xff0c;今天逆水寒更新了&#xff0c;但是逆水寒维护到几点今天呢&#xff1f;更新了什么内容&#xff1f;我们一起往下看吧。 逆水寒维护到几点今天&#xff1f; 预计更新完毕时间为10&#xff1a;00 逆水寒11.1更新了什么? 江湖大事件 第一届“说英雄谁是英雄”跨…

逆水寒角色找不到服务器,《逆水寒》游戏客户端安装常见问题解决方法

受到网络、下载服务器、操作系统等多方面的原因的影响&#xff0c;游戏客户端下载和安装过程中会有一些不顺利的情况发生。我们针对几类常见问题&#xff0c;特提供如下解决方法。 频繁进游戏后客户端崩溃、闪退等 1.可能是由于系统驱动异常导致的&#xff0c;尝试使用驱动人生…

实战:手把手教你colossal-AI复现Chatgpt的流程

相信很多人都看了使用colossal-AI复现Chatgpt的流程的文章&#xff0c;但实际上看过了&#xff0c;不免有人发出“说得贼明白&#xff0c;就是自己做不出来”的感叹吧。本人公开一下实战过程&#xff0c;给有兴趣复现chatgpt流程的朋友一个参考。 一、环境搭建&#xff1a; 1…

chatgpt赋能python:Python开发桌面应用全面介绍

Python开发桌面应用全面介绍 Python是一种非常万能的编程语言&#xff0c;也逐步发展成为一种适用于开发各种桌面应用程序的语言。Python开发桌面应用的优点是它可以快速开发&#xff0c;易于阅读和使用&#xff0c;同时具有很高的可扩展性和可维护性&#xff0c;因此越来越多…

chatgpt赋能python:Python如何保存文件到桌面

Python如何保存文件到桌面 在编程中&#xff0c;常常需要将程序生成的文件保存到指定的位置。当然&#xff0c;最常见的目标就是桌面。本文将介绍如何在Python中将文件保存到桌面&#xff0c;以及可能出现的错误及解决方法。 保存文件到桌面 首先&#xff0c;我们需要导入Py…