目录
前言
一、多智能体强化学习的概念
二、多智能体面临的问题
三、现有算法简介
总结
前言
基于上一篇文章对于强化学习基础概念的介绍,本篇文章针对多智能体强化学习进行介绍和总结,帮助大家了解多智能体的基本概念以及算法,方便大家后续的学习,后面专题也会针对各种经典算法进行介绍。
一、多智能体强化学习的概念
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是强化学习(Reinforcement Learning,RL)研究方向的一个分支。多智能体是指在学习过程中,有多个智能体跟环境进行交互。多个智能体之间相互影响,共同决定了系统的整体表现,如图1所示。
根据多个智能体之间的关系,可以分为几种类型:1.完全合作型 2.完全竞争型 3. 混合型。
完全合作型:所有智能体的奖励函数相同,多智能体的目标是达到全局最优。
完全竞争型:两个奖励函数相反的智能体,同时博弈的过程遵循随机博弈的过程。
混合型:多智能体被换分为多个组,组内为合作关系,组间为竞争关系。
利己型:奖励函数互不相关,每个智能体仅考虑自身奖励最大,利益最大化。
按照训练方式进行分类,主要分为集中式,分散式,集中训练和分散执行等框架。
集中式:采用集中训练集中执行的方式,训练效果好;但是由于集中执行的动作空间维度爆炸等问题,使得该方法计算复杂度过高。
分散式:采用分散训练分散执行的方式,计算复杂度低;但是由于各个智能体之间缺少联系,会导致奖励分配不均、多智能体无法实现合作目标,计算不收敛等问题。
集中训练和分散执行框架:为了平衡计算复杂度与精度之间的关系,现有的主流框架为集中训练和分散执行 (centralized training and decentralized execution, CTDE)框架,智能体在集中训练时,共享所有智能的数据,使从全局的角度来优化策略以及学习过程。分布式执行是指每个智能体根据自己的策略进行独立的决策,不依赖于其他智能体的信息或者控制,这样可以降低计算复杂度。由于训练阶段已经进行了全局优化,因此能够实现多智能体之间的有效协作。CTDE框架可以有效地平衡全局奖励与执行效率的关系,实现有效的性能优化和提升。
二、多智能体面临的问题
1. 环境的非平稳性:在多智能体环境中,每个智能体要考虑其他智能体的动作和回报,使得环境非平稳变化。在这样的的环境中,多智能体之间相互影响,奖励函数不能正确反映出行为的正确性,使得算法不收敛。
2.多智能体的非完全观测:每个智能体仅能实现自己有关环境信息的观测,不能实现全局信息的观测。
3.多智能的奖励分配问题:当多智能体之间的关系为合作关系时,即全局奖励函数作为所有智能的奖励时,如何确定各智能体对于奖励函数的贡献值,也就是确定奖励的分配是十分重要的问题。这个问题也被称为信用分配问题(credit assignment )。
4.训练执行框架的设计:框架的设计会影响多智能体强化学习的训练效果,进而影响全局的表现。不同的问题要具体分析,设计合理的框架进行训练和执行。
5.学习过策的鲁棒性问题:由于训练数据有限,使得学习后的策略仅在特定环境下有效。尽可能多的设计各种情况下的训练场景,增强学习过程的鲁棒性和稳定性。
三、现有算法简介
此部分不做过多的详细介绍,后续会根据不同的算法写文章进行专门详细的介绍。协作类算法主要是研究如何通过集中式的训练达到各智能体独立执行策略;通信类的算法是建立多智能体之间的联系从而实现协同合作。
协作类算法:
VDN
QMIX
QTRAN
MADDPG
……
通信类算法:
RIAL
CommNet
BiCNet
ATOC
IC3Net
TarMAC
SchedNet
DGN
……
总结
通过本篇文章,大家可以对多智能体有一个初步的了解和认知。至于各种算法的具体表现形式和步骤将会在接下来的文章中详细介绍。