论文精读(2)—基于稀疏奖励强化学习的机械臂运动规划算法设计与实现(内含实现机器人控制的方法)

目录

1.作者提出的问题及解决方向

2.延深-用如何用强化学习对机器人进行控制

2.1思路

2.2DQN和DDPG在机器人控制中的应用

3.解决方案

3.1思路

3.2实验

3.3创新点

4.展望


1.作者提出的问题及解决方向


目的:使机械臂在非结构化环境下实现端到端的自主学习控制,

问题:基于深度强化学习算法结合视觉图像与运动学模型完成机械臂抵达目标区域任务,但稀疏奖励环境下机械臂运动控制算法存在探索效率低、学习速度慢、样本利用率低等问题。

解决

①(解决样本利用率低)提出了一种结合重要性采样的机械臂运动控制方法,增大了有效样本的采样概率,提高了样本的利用率。

②(理论上奖励函数决定算法收敛速度和程度)提出了一种运动学奖励驱动的机械臂控制方法。基于机械臂运动学分析,通过解析法求解关节逆解值,以最小功率作为目标引导。从稀疏奖励、距离奖励和运动学奖励三个方面改进设计了奖励函数。

2.延深-用如何用强化学习对机器人进行控制

2.1思路

机械臂运动控制的策略网络本质是环境状态到机械臂动作的映射,环境状态通常包括目标物体的位置、形状大小,机械臂各关节的当前转角,以及机械臂抓手末端的空间坐标和相对姿态等,将环境状态输入到策略网络,由其决策输出机械臂各关节的应运动控制量(角度,速度,加速度,力矩等),机械臂不断重复探索-决策-执行过程,最终抵达目标区域。

2.2DQN和DDPG在机器人控制中的应用

DQN:本研究机械臂控制方法基于深度确定性策略梯度算法,其以深度Q网络DQN算法为基础,引入了Actor-Critic 框架思路。DQN算法的动作空间为有限个动作构成,依靠计算每一个动作的Q值选择最大Q值对应的动作,其网络输出是离散的动作价值分布,无法处理连续控制性问题。

DDPG:而DDPG算法利用Actor 网络去拟合某状态下选择某动作时能获得的Q值,找到该状态下最大 Q 值对应的动作,输出的是确定性动作,因此能够用来处理连续控制性问题。Actor 网络也称为策略网络,将当前状态通过策略网络输出动作;Critic 网络对学习的策略进行评估,反过来利用策略优势训练Actor 策略网络,使累计回报价值最大。

3.解决方案

3.1思路

①重要性采样替代随机采样:传统在经验池进行数据采样用的是随机采样方法,可以保证经验池中每个样本都有同样的几率用于训练,作者认为。对于稀疏奖励环境的机械臂运动控制任务场景,获取的数据质量参差不齐,随机采样效果不佳,重要性采样给每个样本设定一个可动态更新的优先级,依照该样本的优先级占总优先级的比例确定该样本的被采样概率,效果更加。

②引入运动学逆解改进奖励函数:每次执行完动作后都要计算当前机械臂关节角相对于最终期望角度的差距

3.2实验

①在二维仿真实验中从平均奖励、平均步数和成功率三个标准分析了改进方法的效果,验证方法的可行性和有效性。

②在三维仿真环境下使用综合改进算法测试分析了随机目标模型和固定目标模型的效果。

3.3创新点

采样:重要性采样替代随机采样

奖励函数:引入运动学奖励(计算当前机械臂关节角相对于最终期望角度的差距,此处是因为作者认为单纯的距离无法完全涵盖探索过程),以及常用的稀疏奖励 、距离奖励、单步奖励(描述相邻两步探索相对目标的距离变化情况 )

4.展望

问题:算法探索效率低、学习速度慢、样本利用率低

样本利用效率低:不同的应用场景可能会有更加合适的采样方法。

学习速率慢:结合实际情况改进奖励函数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/140600.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL学习笔记6

MySQL数据库如何存放数据? 注明:我们平常说的MySQL,其实主要指的是MySQL数据库管理软件。 一个MySQL DBMS可以 同时存放多个数据库,理论上一个项目就对应一个数据库。 如博客项目blog数据库,商城项目shop数据库&#…

(Vue2)智慧商城项目

新增两个目录api、utils api接口模块:发送ajax请求的接口模块 utils工具模块:自己封装的一些工具方法模块 第三方组件库vant-ui PC端:element-ui(element-plus) ant-design-vue 移动端:vant-ui Mint UI…

【计算机网络 - 自顶向下方法】计算机网络和因特网

目录 1. What is the Internet? 1.1 因特网的具体构成 1.2 因特网的功能 2. Network core 2.1 基本介绍 2.2 分组交换 2.2.1 序列化时延 2.2.2 排队延迟和丢包 2.2.3 分组交换的优缺点 2.3 电路交换 2.3.1 基本概念 2.3.2 电路交换网络中的复用 2.3.3 电路交换文件…

中秋国庆内卷之我爱学习C++

文章目录 前言Ⅰ. 内联函数0x00 内联函数和宏的比较0x01 内联函数的概念0x02 内联函数的特性 Ⅱ. auto(C 11)0x00 auto的概念0x01 auto的用途 Ⅲ. 范围for循环(C11)0x00 基本用法0x01 范围for循环(C11)的使用条件 Ⅳ. 指针空值nullptr(C11)0x00 概念 前言 亲爱的夏…

Lnmp架构之mysql数据库实战2

4、mysql组复制集群 一主多从的请求通常是读的请求高于写 ,但是如果写的请求很高,要求每个节点都可以进行读写,这时分布式必须通过(多组模式)集群的方式进行横向扩容。 组复制对节点的数据一致性要求非常高&#xff…

人工智能驱动的自然语言处理:解锁文本数据的价值

文章目录 什么是自然语言处理?NLP的应用领域1. 情感分析2. 机器翻译3. 智能助手4. 医疗保健5. 舆情分析 使用Python进行NLP避免NLP中的陷阱结论 🎉欢迎来到AIGC人工智能专栏~人工智能驱动的自然语言处理:解锁文本数据的价值 ☆* o(≧▽≦)o *…

1791_树莓派bash入门杂志_Essentials_Bash_v1

全部学习汇总: GreyZhang/little_bits_of_raspberry_pi: my hacking trip about raspberry pi. (github.com) 拿到一份树莓派早期的宣传电子杂志资料,看了一下感觉还是有一些帮助。针对里面多少有一些共鸣的地方,做一个简单的整理。 1. 命令行…

【kohya】训练自己的LoRA模型

文章目录 序言准备环境准备图片处理图片下载kohya_ss代码修改pyvenv.cfg启动界面访问地址生成字幕准备训练的文件夹配置训练参数开始训练遇到的问题: 序言 在把玩stable diffusion的webUI和comfyUI后,思考着自己也微调一个个性化风格的checkpoint、LyCO…

FPGA的DQPSK调制解调Verilog

名称:DQPSK调制解调 软件:Quartus 语言:Verilog 要求: 使用Verilog语言进行DQPSK调制和解调,并进行仿真 代码下载:DQPSK调制解调verilog,quartus_Verilog/VHDL资源下载 代码网:h…

机试算法学习

又到了一年一度的校招干饭环节,本人不得已以应届生的身份卷入了这场洪流,让我们各自加油吧! 蛇形矩阵 xx机考编程题 题目描述 输入两个整数 n和 m,输出一个 n 行 m 列的矩阵,将数字 1到 nm按照回字蛇形填充至矩阵中…

【数据开发】数据全栈知识架构,数据(平台、开发、管理、分析)

文章目录 一、数据全栈知识架构1、数据方法(思维,统计学,实践,北极星)2、数据工具:数据仓库3、数据规范 二、数据分析工具1、大数据平台2、数据开发:入库计算(重点)3、数…

AI AIgents时代 - (三.) AutoGPT和AgentGPT

前两篇讲解了Agent的原理和组件,这节我将给大家介绍两个agent项目,给出它们的工作原理和区别,并教大家亲手尝试使用 Agents🎉 🟢 AutoGPT🤖️ 我们的老朋友,之前文章也专门写过。AutoGPT 是一…

MySQL单表查询和多表查询

一、单表查询 素材: 表名:worker-- 表中字段均为中文,比如 部门号 工资 职工号 参加工作等 CREATE TABLE worker (部门号 int(11) NOT NULL,职工号 int(11) NOT NULL,工作时间 date NOT NULL,工资 float(8,2) NOT NULL,政治面貌 varchar(10)…

李宏毅hw-9:Explainable ML

——欲速则不达,我已经很幸运了,只要珍惜这份幸运就好了,不必患得患失,慢慢来。 ----查漏补缺: 1.关于这个os.listdir的使用 2.从‘num_文件名.jpg’中提取出数值: 3.slic图像分割标记函数的作用&#xf…

怎么选择AI伪原创工具-AI伪原创工具有哪些

在数字时代,创作和发布内容已经成为了一种不可或缺的活动。不论您是个人博主、企业家还是网站管理员,都会面临一个共同的挑战:如何在互联网上脱颖而出,吸引更多的读者和访客。而正是在这个背景下,AI伪原创工具逐渐崭露…

DAZ To UMA⭐一.DAZ简单使用教程

文章目录 🟥 DAZ快捷键🟧 DAZ界面介绍 🟥 DAZ快捷键 移动物体:ctrlalt鼠标左键 旋转物体:ctrlalt鼠标右键 导入模型:双击左侧模型UI 🟧 DAZ界面介绍 Files:显示全部文件 Products:显示全部产品 Figures:安装的全部人物 Wardrobe…

ubuntu 18.04 中 eBPF samples/bpf 编译

1. history 信息 一次成功编译 bpf 后执行 history 得到的信息: yingzhiyingzhi-Host:~/ex/ex_kernel/linux-5.4$ history1 ls2 mkdir ex3 cd ex4 mkdir ex_kernel5 ls /boot/6 sudo apt install linux-source7 ls /usr/src/8 uname -r9 cd ex_kernel/10…

MySQL(7) Innodb 原理和日志

一、MySQL结构 客户端 server层 查询缓存(5.7) 连接器 分析器 优化器 执行器 引擎层 二、一条update操作mysql的流程 三、MySQL的日志 (1)redo log 保证MySQL 持久性的关键,如果MySQL宕机,buffer pool…

SpingBoot:整合Mybatis-plus+Druid+mysql

SpingBoot:整合Mybatis-plusDruid 一、特别说明二、创建springboot新工程三、配置3.1 配置pom.xml文件3.2 配置数据源和durid连接池3.2.1 修改application.yml3.2.2 新增mybatis-config.xml 3.3 编写拦截器配置类 四、自动生成代码五、测试六、编写mapper.xml&#…

远程端点管理和安全性

当今的企业网络环境是一个分布式动态环境,其中有许多需要管理、验证和保护的移动部件,而不会对最终用户的生产力产生任何威慑力。提供有效的端点管理安全性,同时仍提供无缝最终用户体验的解决方案至关重要。 Endpoint Central 执行的活动可确…