Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023
paper
code
preference based offline RL,基于HIM,不依靠额外学习奖励函数

Intro

本研究聚焦于离线偏好引导的强化学习(Offline Preference-based Reinforcement Learning, PbRL),这是传统强化学习(RL)的一个变体,它不需要在线交互或指定奖励函数。在这个框架下,代理(agent)被提供了固定的离线轨迹数据和人类对轨迹对的偏好,用以提取动态信息和任务信息。

由于动态信息和任务信息是正交的,简单的方法可能涉及先基于偏好学习奖励函数,然后使用现成的离线RL算法。然而,这需要单独学习一个标量奖励函数,然而该过程被认为存在信息瓶颈。

为了解决这个问题,作者提出了一种新的范式——离线偏好引导策略优化(Offline Preference-guided Policy Optimization, OPPO),它通过对离线轨迹和偏好直接建模,消除了单独学习奖励函数的需要。OPPO通过引入一个离线后见信息匹配目标(HIM)来优化上下文策略,以及一个偏好建模目标来找到最优上下文。OPPO进一步通过迭代优化这两个目标来整合一个表现良好的决策策略。实证结果表明,OPPO有效地模拟了离线偏好,并且在包括真实或伪奖励函数指定的离线RL算法在内的先前竞争基线上取得了更好的性能。

Method

在这里插入图片描述

HIM-driven Policy Optimization

min ⁡ π , I θ L H I M : = E ⁡ τ ∼ D ( τ ) [ ℓ ( I θ ( τ ) , I θ ( τ z ) ) + ℓ ( τ , τ z ) ] \min\limits_{\pi,I_\theta}\mathcal{L}_{\mathbf{HIM}}:=\underset{\tau\sim\mathcal{D}(\tau)}{\operatorname*{\mathbb{E}}}\left[\ell\left(I_\theta(\tau),I_\theta(\tau_\mathbf{z})\right)+\ell\left(\tau,\tau_\mathbf{z}\right)\right] π,IθminLHIM:=τD(τ)E[(Iθ(τ),Iθ(τz))+(τ,τz)]
其中 l \mathcal{l} l为损失函数。

Preference Modeling

min ⁡ z ∗ , I θ L P M : = E [ max ⁡ ( ℓ ( z ∗ , z + ) − ℓ ( z ∗ , z − ) + m , 0 ) ] \min_{\mathbf{z}^*,I_\theta}\mathcal{L}_{\mathbf{PM}}:=\mathbb{E}\Big[\max(\ell(\mathbf{z}^*,\mathbf{z}^+)-\ell(\mathbf{z}^*,\mathbf{z}^-)+m,0)\Big] z,IθminLPM:=E[max((z,z+)(z,z)+m,0)]
通过优化上式得到最佳embedding,使得条件策略产生的轨迹经过embedding后接近 z + z^+ z+

Training Objectives & Implementation Detai

L t o t a l : = L H I M + α L P M + β L n o r m \mathcal{L}_{\mathrm{total}}:=\mathcal{L}_{\mathrm{HIM}}+\alpha\mathcal{L}_{\mathrm{PM}}+\beta\mathcal{L}_{\mathrm{norm}} Ltotal:=LHIM+αLPM+βLnorm

采用BERT结构作为encoder : I θ : τ → z I_{\theta}:\tau\to\mathbf{z} Iθ:τz;采用GPT作为上下文条件策略 π ( a ∣ s , z ) \pi(a|s,z) π(as,z), 通过自回归建模预测未来的动作

伪代码

在这里插入图片描述

results

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/330416.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js二进制数据,文件---ArrayBuffer,二进制数组

1.二进制数据 在 JavaScript 中有很多种二进制数据格式,比如:ArrayBuffer,Uint8Array,DataView,Blob,File 及其他。 2.ArrayBuffer 基本的二进制对象是 ArrayBuffer —— 对固定长度的连续内存空间…

linux:信号深入理解

文章目录 1.信号的概念1.1基本概念1.2信号的处理基本概念1.3信号的发送与保存基本概念 2.信号的产生2.1信号产生的五种方式2.2信号遗留问题(core,temp等) 3.信号的保存3.1 信号阻塞3.2 信号特有类型 sigset_t3.3 信号集操作函数3.4 信号集操作函数的使用 4.信号的处理4.1 信号的…

Qt输入输出类使用总结

Qt输入输出类简介 QTextStream 类(文本流)和 QDataStream 类(数据流)Qt 输入输出的两个核心类,其作用分别如下: QTextStream 类:用于对数据进行文本格式的读/写操作,可在 QString、QIODevice或 QByteArray 上运行,比如把数据输出到 QString、QIODevice 或 QByteArray 对象…

Ubuntu切换内核版本

#安装内核安装工具 sudo apt-get install software-properties-common sudo add-apt-repository ppa:cappelikan/ppa sudo apt-get update sudo apt-get install mainline#安装指定内核版本(有些版本并不能安装成功) mainline install 5.14.10#更新GRUB配置 sudo update-grub#查…

Python实现将LabelMe生成的JSON格式转换成YOLOv8支持的TXT格式

标注工具 LabelMe 生成的标注文件为JSON格式,而YOLOv8中支持的为TXT文件格式。以下Python代码实现3个功能: 1.将JSON格式转换成TXT格式; 2.将数据集进行随机拆分,生成YOLOv8支持的目录结构; 3.生成YOLOv8支持的YAML文件…

操作教程|通过DataEase开源BI工具对接金山多维表格

前言 金山多维表格是企业数据处理分析经常会用到的一款数据表格工具,它能够将企业数据以统一的列格式整齐地汇总至其中。DataEase开源数据可视化分析工具可以与金山多维表格对接,方便企业更加快捷地以金山多维表格为数据源,制作出可以实时更…

【网络版本计算器的实现】

本章重点 理解应用层的作用, 初识HTTP协议理解传输层的作用, 深入理解TCP的各项特性和机制对整个TCP/IP协议有系统的理解对TCP/IP协议体系下的其他重要协议和技术有一定的了解学会使用一些分析网络问题的工具和方法 ⭐注意!! 注意!! 注意!! 本课是网络编程的理论基础.是一个服务…

Antd Vue项目引入TailwindCss之后出现svg icon下移,布局中的问题解决方案

目录 1. 现象: 2. 原因分析: 3. 解决方案: 写法一:扩展Preflight 写法二: 4. 禁用 Preflight 1. 现象: Antd Vue项目引入TailwindCss之后出现svg icon下移,不能对齐显示的情况&#xff0…

爬虫实训案例:中国大学排名

近一个月左右的时间学习爬虫,在用所积累的知识爬取了《中国大学排名》这个网站,爬取的内容虽然只是可见的文本,但对于初学者来说是一个很好的练习。在爬取的过程中,通过请求数据、解析内容、提取文本、存储数据等几个重要的内容入…

React-router 最佳实践

使用的是 BrowserRouter,Routes 和 Route,这是 react-router-dom v5 和 v6 都支持的 API。这种方式的优点是路由配置和应用的其它部分是紧密集成的,这使得路由配置更加直观和易于理解 // router/index.js import { BrowserRouter as Router,…

【Qt 学习笔记】Qt常用控件 | 布局管理器 | 网格布局Grid Layout

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 布局管理器 | 网格布局Grid Layout 文章编号&#xff1a…

成品短视频APP源码搭建

在数字化时代,短视频已成为全球范围内的流行趋势,吸引了大量的用户和内容创作者。对于有志于进入短视频领域的企业和个人来说,成品短视频APP源码搭建提供了一条快速、高效的路径。本文将探讨成品短视频APP源码搭建的过程及其优势,…

Mac维护神器CleanMyMac X成为你的苹果电脑得力助手

在数字化时代,Mac电脑已成为众多用户的首选。然而,随着频繁的使用和数据量的日益增长,许多Mac用户面临着系统杂乱、存储空间不足以及隐私保护等问题。幸运的是,"CleanMyMac X"这款优化和清理工具应运而生,它…

[论文笔记]REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

引言 今天带来一篇经典论文REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS的阅读笔记,论文中文意思是 在语言模型中协同推理和行动。 虽然大型语言模型(LLMs)在语言理解和互动决策任务中展现出强大的能力,但它们在推理(例如思维链提示)和…

【算法】栈算法——最小栈

题解:最小栈(栈算法) 目录 1.题目2.题解3.总结 1.题目 题目链接:LINK 这个题目题意说的有点绕,说白了让你在常数时间内检索到最小元素就是O(1)时间复杂度下找到栈中最小的元素。 2.题解 思路:这个栈可以内嵌套两个库栈来进行…

商品发布功能

文章目录 1.SPU和SKU介绍1.SPU2.SKU3.两者之间的关系 2.完成商品发布界面1.组件引入1.commoditylaunch.vue 引入到 src/views/modules/commodity下2.multiUpload.vue 引入到 src/components/upload/multiUpload.vue 2.创建菜单1.创建目录2.创建菜单,注意菜单路由要匹…

开源博客项目Blog .NET Core源码学习(25:App.Hosting项目结构分析-13)

本文学习并分析App.Hosting项目中后台管理页面的文章管理页面。   文章管理页面用于显示、检索、新建、编辑、删除文章数据,以便在前台页面的首页、文章专栏、文章详情页面显示文章数据。文章管理页面附带一新建及编辑页面,以支撑新建和编辑文章数据。…

交换机部分综合实验

实验要求 1.内网IP地址使用172.16.0.0/16 2.sw1和sW2之间互为备份; 3.VRRP/mstp/vlan/eth-trunk均使用; 4.所有pc均通过DHcP获取Ip地址; 5.ISP只配置IP地址; 6.所有电脑可以正常访问IsP路由器环回 实验拓扑 实验思路 1.给交换机创建vlan,并将接口划入vlan 2.在SW1和…

传输层 --- UDP

一、简述与回顾 传输层:负责数据能够从发送端传输接收端 在TCP/IP协议中,我们用"源IP","源端口号","目的IP","目的端口号",和"协议号"来表示一个通信。…

Android studio关闭自动更新

Windows下: 左上角file - setting - Appearance & Behavier - system setting - update - 取消勾选