多智能体强化学习-G2ANet

Multi-Agent Game Abstraction via Graph Attention Neural Network

论文地址

代码地址

摘要

本文通过一个完整的图来建模智能体之间的关系,并创新性地提出一种基于两阶段注意力网络(G2ANet)的游戏抽象机制,表明两个智能体之间的交互以及交互的重要性。本文将这种检测机制集成到基于图神经网络的多智能体强化学习中,以进行游戏抽象(可以理解为为了提高智能体的性能,简化学习过程而提出的与多智能体系统结构等相关的先验知识),并提出了两种新的学习算法GA-Comm和GA-AC。

相关工作

大规模的智能体数量个复杂的智能体交互对策略的学习造成影响。因此,简化学习过程是一个重要的研究。早期的研究重要是松散多智能体系统的耦合,采用游戏抽象和知识转换来加速多智能体强化学习。然而,在大规模的智能体环境中,智能体往往不是独立的,通过松散耦合将单智能体的方法应用到多智能体系统中失效。

game abstract

游戏抽象的主要思想是将多智能体强化学习(马尔可夫博弈)模型简化为一个小游戏,从而降低求解(或学习)博弈均衡策略的复杂性。

soft- attention

soft-attention计算元素的重要性分布。它是完全可微的,因此能够实现end-to-end 反向传播训练。

hard-attention

hard- attention从所有元素中选择一个子集,迫使模型只能关注重要元素,完全忽略其他元素。

方法

在这里插入图片描述
如图所示,本文提出一种基于两阶段注意力网络的图网络结构来进行游戏抽象。hard-attention用来减少无关的边(无关的智能体信息),soft-attention用来学习重要的边(相关的智能体信息),然后使用图网络获得其他智能体的信息。最后,将获得的游戏抽象与强化学习算法结合。
G2ANet:将智能体之间的关系构建为图,每个智能体为一个节点,默认情况下,所有的节点成对连接。
agent-coordination-graph:智能体之间的关系构建为一个无相图: G = ( N , E ) G=(N,E) G=(N,E),又节点集合 N N N和边集合 E E E组成,是 N N N的无序元素对。每个节点代表智能体的入口(开始),边代表两个相邻智能体之间的关系。
在这里插入图片描述
之前的工作大部分采用soft-attention机制获得重要性分布,包括环境中的所有智能体(与当前智能体不相关的智能体),从而削弱了真正有作用的智能体的影响。因此,G2ANet中先用hard-attention去除不相关的智能体,在用soft-attention确定相关智能体的权重分布。
部分可观测环境中,在时间步 t t t,每个智能体 i i i获得一个局部观测
o i t o_i^t oit,它包含了智能体 i i i在图 G G G中的信息。通过MLP将局部观测 o i t o_i^t oit编码为一个特征向量 h i t h_i^t hit ,然后,通过特征向量 h i t h_i^t hit 学习智能体之间的关系。hard-attention会输出一个one-hot向量,我们可以得到节点 i i i j j j之间的边是否存在于图 G G G中,以及每个智能体需要与哪些智能体交互。通过这种方式,策略学习被简化为几个较小的问题,并且可以实现初步的游戏抽象。
此外,图 G G G中每条边的权重不同。我们通过soft-attention学习每条边的权重。这样,我们可以得到智能体 i i i的一个子图 G i G_i Gi,智能体 i i i仅仅与需要交互的智能体相连,边的权重代表关系的重要性。可以利用GNN获得子图 G i G_i Gi的向量表示,代表其他智能体的贡献。
具体的,图上图所示。对于智能体 i i i,通过hard-attention机制学习到一个hard权重 W h i , j W_h^{i,j} Whi,j,决定智能体 i , j i,j i,j之间是否需要交互。利用LSTM网络输出权重(0,1).对于智能体 i i i,我们将智能体 i , j i,j ij的嵌入向量合并为特征 ( h i , h j ) (h_i,h_j) (hi,hj),并将特征输入到LSTM模型中,这里采用了 B i − L S T M Bi-LSTM BiLSTM,减少输入顺序对权重的影响,考虑所有输入的影响。(传统LSTM中输出仅取决于当前时间和前一时间的输入,而忽略了后一时间的输出信息输入)
另外,由于hard-attention采用sampling过程而无法进行梯度反向传播,在这里尝试采用gumbel-softmax解决(具体可以参考gumbel-softmax):
W h i , j = g u m ( f L S T M ( h i , h j ) ) W_h^{i,j}=gum(f{LSTM(h_i,h_j)}) Whi,j=gum(fLSTM(hi,hj))
g u m ( . ) gum(.) gum(.)代表gumbel-softmax 函数。通过hard-attention,得到智能体 i i i的子图 G i G_i Gi,图中, i i i仅仅与需要协作的智能体相连。
然后,使用soft-attention学习子图 G i G_i Gi边的权重 W s i , j W_s^{i,j} Wsi,j,使用query-key(键-值对)将嵌入 e i , e j e_i,e_j ei,ej进行比较,并将这两个嵌入之间的匹配值传递到softmax函数中(这里就是采用最基础的attention机制处理,对hard-attention保留的边进行重要性权重处理)
W s i , j ∝ e x p ( e j T W k T W q e i W h i , j ) W_s^{i,j}\propto exp(e_j^TW_k^TW_qe_iW_h^{i,j}) Wsi,jexp(ejTWkTWqeiWhi,j)
W k W_k Wk e j e_j ej转化为key, W q W_q Wq e i e_i ei转化为query, e i , e j e_i,e_j ei,ej对应图中的 ( h i , h j ) (h_i,h_j) (hi,hj)

基于G2ANet的策略网络

大部分通信的研究中,通过聚合函数实现通信,聚合函数可以将所有其他智能体的通信向量(例如,平均函数、最大函数)聚合为一个向量,并将其传递给每个智能体。这样,每个智能体都可以接收所有智能体的信息并实现通信。但是,在大多数环境中,智能不需要与所有其他智能体通信。频繁的通信将导致高计算成本,并增加策略学习的难度。本文提出一种GA-Comm。
在这里插入图片描述
如上图, o i o_i oi代表智能体 i i i的观测,利用LSTM提取智能体的特征:
h i , s i = L S T M ( e ( o i ) , h i ′ , s i ′ ) h_i,s_i=LSTM(e(o_i),h'_i,s'_i) hi,si=LSTM(e(oi),hi,si)
( h i , s i ) (h_i,s_i) (hi,si)是LSTM的hidden和 cell states。关于其他智能体对智能体 i i i的贡献,我们首先使用两阶段注意机制来选择智能体 i i i需要与哪些智能体通信并获得其重要性
W h i , j = M h a r d ( h i , h j ) , W s i , j = M s o f t ( W h , h i , h j ) W_h^{i,j}=M_{hard}(h_i,h_j), \\ W_s^{i,j}=M_{soft} (W_h,h_i,h_j) Whi,j=Mhard(hi,hj),Wsi,j=Msoft(Wh,hi,hj)
最后,通过soft-attention输出的权重对邻居特征进行加权处理得到邻居信息 x i x_i xi
x i = ∑ j ≠ i w j h j = ∑ j ≠ i W h i , j W s i , j h j x_i=\sum_{j\neq i}w_jh_j=\sum_{j\neq i}W_h^{i,j}W_s^{i,j}h_j xi=j=iwjhj=j=iWhi,jWsi,jhj
最后,利用策略梯度得到每个智能体的策略,并扩展到多种RL算法中
a i = π ( h i , x i ) a_i=\pi(h_i,x_i) ai=π(hi,xi)
h i h_i hi是智能体的观测特征, x i x_i xi是其他智能体对 i i i的贡献。

基于G2ANet的AC网络

在这里插入图片描述
基于M AAC。主要改进是计算其他智能体的贡献权重,在G2ANet-AC中,
x i = ∑ j ≠ i w j v j = ∑ j ≠ i w j h ( V g i ( o j , a j ) ) w j = W h i , j W s i , j ∝ e x p ( h ( B i L S T M j ( e i , e j ) ) e j T W k T W q e i ) x_i=\sum_{j\neq i}w_jv_j=\sum_{j\neq i}w_jh(Vg_i(o_j,a_j))\\ w_j=W_h^{i,j}W_s^{i,j}\propto exp(h(BiLSTM_j(e_i,e_j))e_j^TW_k^TW_qe_i) xi=j=iwjvj=j=iwjh(Vgi(oj,aj))wj=Whi,jWsi,jexp(h(BiLSTMj(ei,ej))ejTWkTWqei)

实验

在交通灯和追捕环境中进行验证
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50440.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python画轨迹图:认识、用法与优势

Python画轨迹图: 认识、用法与优势 Python的数据可视化能力十分强大。画图工具虽然千千万,但其中,轨迹图是同时准确又美观的图形表现。本文将向读者介绍Python画轨迹图的好处、如何使用以及如何在项目合适的地方使用轨迹图。 了解Python轨迹图 为了更…

爬取古诗文网的推荐古诗

爬取古诗文网的推荐古诗 思路分析完整代码结果展示 思路分析 本次的主要目的是练习使用正则表达式提取网页中的数据。 该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指的是第一页。 https://www.gushiwen.org/def…

Python程序写诗【训练1分钟】古诗生成

原创AI程序写诗:训练 一分钟,诗词一秒成! 先看看写出来什么诗~ 文章目录 来看看程序语料下载地址关于程序的一些基础更多诗词创作山水田园宫廷别塞战争抒情春节 来看看程序 from gensim.models import Word2Vec # 词向量 from random impor…

最全中华古诗词数据库,收录30多万诗词

诗词诗人数据库 mysql文件 收录13136个诗人 305131个诗词,还有诗词赏析和注解等,需要的同学可以下载 可以搜索微信小程序 诗词成语大全 看数据效果 下载地址 人们习惯用史料来描述文学史的高峰状态,而在当今大数据时代,我们或可尝…

Python爬取古诗词

一、需求 爬取网址:https://www.gushiwen.org/ 需求: (1)获取侧边栏【类型】信息; (2)获取每个类型中古诗文详情页信息; (3)提取详情页数据:古诗…

最新C#调用Google即时翻译

主要是调用谷歌的翻译API进行翻译,WebRequest的请求,将获取到的翻译提取出来。下面上代码 需要用到一个的js文件:对获取到数据的过滤,命名为gettk.js var b function(a,b){for(var…

机器自动翻译古文拼音 - 十大宋词 - 江城子·乙卯正月二十日夜记梦 苏轼

【苏轼】江城子乙卯正月二十日夜记梦||纪录片剪辑 江城子乙卯正月二十日夜记梦 宋苏轼 十年生死两茫茫,不思量,自难忘。 千里孤坟,无处话凄凉。 纵使相逢应不识,尘满面,鬓如霜。 夜来幽梦忽还乡,小轩窗&…

汉译英翻译,中译英翻译古诗词有哪些要求?

作为中华民族优秀传统文化的代表——中国古诗词,受到了越来越多翻译人员的关注,将中文古诗词翻译成英文,对于促进中国古典文化在西方的传播有重大意义。那么,在中译英翻译过程中,如何才能准确翻译古诗词?提升古诗英译…

机器自动翻译古文拼音 - 宋词 - 桂枝香 金陵怀古 王安石

桂枝香金陵怀古 北宋王安石 登临送目,正故国晚秋,天气初肃。 千里澄江似练,翠峰如簇。 归帆去棹斜阳里,背西风,酒旗斜矗。 彩舟云淡,星河鹭起,画图难足。 念往昔、繁华竞逐,叹门外…

机器自动翻译古文拼音 - 十大宋词 - 水调歌头 明月几时有 苏轼

水调歌头明月几时有 北宋苏轼 明月几时有,把酒问青天。 不知天上宫阙,今夕是何年。 我欲乘风归去,又恐琼楼玉宇,高处不胜寒。 起舞弄清影,何似在人间? 转朱阁,低绮户,照无眠。 不应…

5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

熟悉橡皮擦的朋友都知道,橡皮擦最爱写的文章是关于 Python 的,但是呢,橡皮擦确实是一个产品经理,哈哈,所以每次给大家分享 Python 相关知识的时候,总想着自己是一个前端工程师(好迷糊&#xff0…

模拟登录古诗词网

主要思路: 对登录界面发送请求,网址:https://so.gushiwen.cn/user/login.aspx?fromhttp://so.gushiwen.cn/user/collect.aspx由于该网址密码输错三次会有验证码,我们就需要第三方平台帮忙破解验证码。小编采用的斐斐打码平台&am…

随机古诗词

利用HTML CSS js 制作的随机游戏 <html> <head><meta charset"utf-8" /><title>随机古诗词</title><style>#box {width: 1000px;margin: 0 auto;background: rgb(3, 0, 7);color: rgb(11, 160, 224);height: 1000px;line-height…

机器自动翻译古文拼音 - 十大宋词 - 声声慢 寻寻觅觅 李清照

声声慢寻寻觅觅 宋李清照 寻寻觅觅&#xff0c;冷冷清清&#xff0c;凄凄惨惨戚戚。 乍暖还寒时候&#xff0c;最难将息。 三杯两盏淡酒&#xff0c;怎敌他、晚来风急。 雁过也&#xff0c;最伤心&#xff0c;却是旧时相识。 满地黄花堆积&#xff0c;憔悴损&#xff0c;如今…

app 上架到苹果应用商店

https://appstoreconnect.apple.com/ 登陆 可供销售 就是我的app提交申请并通过的状态 添加新建APP 信息 填写完就创建 按照提示进行填写 注意上传图片可以用苹果手机截屏 在做作图软件 做成需要得像素上传 重点记录 构建版本&#xff08;别的挺简单&#xff09; 打开m…

【考研初试】问题汇总及解答

●信息搜集 Q&#xff1a;哪里可以找考研资料&#xff1f; A&#xff1a;wx公众号、b站、知乎、csdn、王道论坛&#xff08;计算机考研&#xff09; &#xff08;资料一般是以百度网盘链接的形式分享&#xff0c;其实找网课视频最方便的是找到那种定期更新资料的网盘群&#x…

复试-专业问题

这是我的学长&#xff0c;SDZ学长整理&#xff0c;我就发出了&#xff0c;如果你们有幸去了浙大软科记得谢谢他&#xff0c;哈哈哈 这两种方法在形式上相像&#xff0c;其区别在于&#xff1a;pa是指针变量&#xff0c;a是数组名。值得注意的是&#xff1a;pa是一个可以变化的…

CPA2021_会计_东奥张志凤_02_会计概述、财务报告目标、会计基本假设和会计基础

文章目录 第一章 总论本章考情分析主要内容第一节 会计概述一、会计的定义二、会计的作用三、企业会计准则的制定与企业会计准则体系 第二节 财务报告目标、会计基本假设和会计基础一、财务报告目标二、会计基本假设三、会计基础 第一章 总论 本章考情分析 本章内容是会计准则…

20应用统计考研复试要点(part2)--统计学

学习笔记,仅供参考,有错必纠 具体原理:统计量及其抽样分布 ;数据的概括性度量 文章目录 贾俊平统计学数据的分布特征概率与概率分布统计量及其抽样分布贾俊平统计学 数据的分布特征 概率与概率分布 样本、事件和样本空间总体:是包含所研究的全部个体(数据)的集合。 样本:…

20应用统计考研复试要点(part24)--简答题

学习笔记,仅供参考,有错必纠 简答题 什么是数据的离散程度,列举5种,并说明其特点数据的离散程度反映的是各变量值远离其中心值的程度。 异众比率,是指非众数组的频数占总频数的比例,其计算公式为: 四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差用 Q d…