Offline RL : SEABO: A Simple Search-Based Method for Offline Imitation Learning

news/2024/11/15 23:38:00/文章来源:https://blog.csdn.net/wdnmdwsmsa/article/details/136900232

NIPS 2024
paper

Intro

离线强化学习一般需要带奖励标签的数据，而现实中这种标签获取困难。本文提出一种基于搜索的离线方法SEABO。SEABO以无监督学习的方式，对最接近专家演示的transaction较大的奖励，否则分配较小的奖励。
在这里插入图片描述

Method

SEABO采用KD-tree搜索最近邻的专家数据，距离度量方法采用默认的欧氏距离： $d=D((\tilde{s}_{e},\tilde{a}_{e},\tilde{s}_{e}^{\prime}),(s,a,s^{\prime}))$ 。

奖励函数的设计将基于上面的距离 $d:r=\alpha\exp\left(-\frac{\beta\times d}{|\mathcal{A}|}\right)$ 。这样无标签的数据将获得奖励标签，然后结合其他Offline RL方法进一步优化策略。算法伪代码如下：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/280712.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Flume-transaction机制源码分析

一、整体流程 FileChannel主要是由WAL预写日志和内存队列FlumeEventQueue组成。二、Transaction public interface Transaction {// 描述transaction状态enum TransactionState { Started, Committed, RolledBack, Closed }void begin();void commit();void rollback();voi…

Introduction to Data Mining 数据挖掘

Why Data Mining? • The Explosive Growth of Data: from terabytes to petabytes — Data collection and data availability ◦ Automated data collection tools, database systems, Web, computerized society — Major sources of abundant data ◦ Business: Web, e-co…