[论文学习]Adaptively Perturbed Mirror Descent for Learning in Games

[论文学习]Adaptively Perturbed Mirror Descent for Learning in Games

  • 前言
  • 概述
  • 前置知识和问题约定
    • 单调博弈(monotone game)
    • Nash均衡和Gap函数
    • 文章问题定义
    • Mirror Descent
  • 方法
  • 评价

前言

文章链接

我们称集合是紧的,则集合满足:1.闭集 2.有界集。在一个紧凑的策略空间中,连续函数总是可以达到其最大值和最小值,这对于证明纳什均衡的存在性是非常有用的。

博弈的单调性(Monotonicity):单调性通常指的是博弈的雅可比矩阵(Jacobian matrix)是正定的或半正定的。这意味着当一个玩家增加其策略值时,其他玩家的最优反应不会减少。这种性质确保了博弈的稳定性和解的唯一性。大概意味着,一个玩家的策略调整一定与收益变化的方向一致,即不会出现策略改变导致出现非预期收益。

博弈的平滑性(Smoothness):平滑性通常意味着每个玩家的收益函数是可微的,并且其导数是连续的。这种性质允许使用微分工具来分析博弈的动态特性和均衡解。

L-Lipschitz条件。 ∣ ∣ f ( x ) − f ( y ) ∣ ∣ ≤ L ∣ ∣ x − y ∣ ∣ ||f(x)-f(y)||\leq L||x-y|| ∣∣f(x)f(y)∣∣L∣∣xy∣∣。该条件能保证算法的收敛性。其本身可以控制函数的变化速率。

弱单调性:在这里插入图片描述

Gap Function
在这里插入图片描述

概述

本文提出了一种作用于Mirror Descent(MD)算法的收益扰动的方式。需要说明的是,MD算法的收益函数是单调的,并可能包含噪声。通过采用这种算法,MD成功在没有噪声的场景中达到了最后一次迭代收敛到Nash均衡。目前的研究显示,基于距离anchoring函数或slingshot函数的距离设置扰动,强调了扰动对MD的作用。

因此,我们提出了APMD算法,通过根据预先设定的间隔,不断更新slingshot函数,从而不断调整扰动的大小。并最终加速了收敛的速度。

文章的整体思维链为:

  1. 过去的研究从最初的设置强大的凸的惩罚函数->仔细调整优化的learning rate(调整惩罚的大小)
  2. 本文不调整惩罚强度参数,而是以固定频率更新slingshot函数,从而带动扰动强度的修改。
  3. 提出算法,并给出相关的收敛速度的证明。

前置知识和问题约定

单调博弈(monotone game)

定义: G = { [ N ] , ( X i ) i ∈ [ N ] , ( v i ) i ∈ [ N ] } G = \{[N], (\mathcal{X}_i)_{i\in [N]}, (v_i )_{i\in [N]}\} G={[N],(Xi)i[N],(vi)i[N]}
其中 [ N ] = { 1 , 2 , . . . , N } [N] = \{1, 2, ..., N\} [N]={1,2,...,N}表示有N个玩家, X i ∈ R d i \mathcal{X_i}\in R^{d_i} XiRdi表示玩家 i i i d i d_i di维的紧的策略空间,为便于以后的表示,我们设所有玩家的策略空间的拼接为 X = Π i ∈ [ N ] X i \mathcal{X}=\Pi_{i\in[N]}\mathcal{X_i} X=Πi[N]Xi,每个玩家选择其策略 π i \pi_i πi的目的是最大化其可微分的价值函数 v i : X → R v_i:\mathcal{X}\rightarrow \R vi:XR。我们定义 π − i ∈ Π j ≠ i X j \pi_{-i}\in \Pi_{j\neq i}\mathcal{X_j} πiΠj=iXj表示除了玩家 i i i,其它玩家的策略。并定义所有玩家的策略组合 π = ( π i ) i ∈ [ N ] ∈ X \pi=(\pi_i)_{i\in [N]}\in \mathcal{X} π=(πi)i[N]X。本文主要考虑平滑的单调博弈,即收益函数的导数是单调的。
文中给出的单调博弈满足以下两个公式:
∑ i = 1 N ⟨ ∇ π i u i ( π i , π − i ) − ∇ π i u i ( π i ′ , π − i ′ ) , π i − π i ′ ⟩ ≤ 0 ∀ π , π ′ ∈ X (1) \sum_{i=1}^N{\langle \nabla_{\pi_i}u_i(\pi_i,\pi_{-i})-\nabla_{\pi_i}u_i(\pi'_i,\pi_{-i}'), \pi_i-\pi_i'\rangle \leq 0 \quad\forall \pi, \pi'\in\mathcal{X}\tag{1}} i=1Nπiui(πi,πi)πiui(πi,πi),πiπi0π,πX(1)
∑ i = 1 N ∣ ∣ ⟨ ∇ π i u i ( π i , π − i ) − ∇ π i u i ( π i ′ , π − i ′ ) ∣ ∣ 2 ≤ L 2 ∣ ∣ π − π ′ ∣ ∣ 2 (2) \sum_{i=1}^N||\langle \nabla_{\pi_i}u_i(\pi_i,\pi_{-i})-\nabla_{\pi_i}u_i(\pi'_i,\pi_{-i}')||^2\leq L^2||\pi-\pi'||^2\tag{2} i=1N∣∣πiui(πi,πi)πiui(πi,πi)2L2∣∣ππ2(2)
上述公式实际上规定了两点,公式(1)规定该价值函数的变化趋势是与策略的变化趋势相反的(是一种弱单调性递减,可以认为其二阶导数矩阵是负定的)。

公式(2)则规定了其价值函数变化趋势的变化程度不大。即不会出现突变之类的的情况。

在这里插入图片描述
此外文中提到了两个博弈:最大最小博弈、零和高维矩阵博弈。并认为两者都是单调博弈。
对于其证明,这里可以简要叙述:

  • 关于Example1:根据定义 u 1 = − u 2 u_1 = - u_2 u1=u2,因此其上述的梯度差实际上就是相反数的关系,其和永远是0,因此可以认为是单调的。
  • 关于Example2:证明见上文。

Nash均衡和Gap函数

文章中满足Nash均衡的解集写作 Π ∗ \Pi^* Π, 并指出,对于一个平滑的单调博弈,Nash均衡解永远存在。论文用Gap函数作为衡量一个策略与Nash均衡之间的距离。
G A P ( π ) = m a x π ~ ∈ X ( ∑ i = 1 N ⟨ ∇ π i u i ( π i , π − i ) , π ~ i − π i ⟩ ) (3) GAP(\pi)=max_{\tilde{\pi}\in\mathcal{X}}(\sum_{i=1}^N\langle\nabla_{\pi_i}u_i(\pi_i,\pi_{-i}), \tilde{\pi}_i-\pi_i\rangle)\tag{3} GAP(π)=maxπ~X(i=1Nπiui(πi,πi),π~iπi⟩)(3)
这个公式之所以能衡量,可以简单理解为,假如对于一个二维函数而言比如 y = x 2 y=x^2 y=x2,在一个给定的策略点 x 0 x_0 x0,现在需要在所有合法策略里找一个点 x 1 x_1 x1,使得在当前点的梯度之下,到 x 1 x_1 x1使得价值增长的最多。

这个GAP值之所以大于等于0,是因为如果某一个策略的所有梯度都小于0(说明无论怎么变动这个策略,该策略附近都不会有更好的价值了),则最大就是0,也就是说其本身。

此外需要说明的是,某些博弈可能存在多个Nash均衡点,可以理解为存在多个局部最小值,因此这里GAP=0不意味着这就是全局最优,仅能认为已经到了某个Nash均衡点(局部最优)。

文章问题定义

本文所讨论的博弈过程定义为,每个参与者 i i i根据其之前所获得的信息作决策,并在决策结束后下一轮收到价值函数的梯度作为反馈。本论文主要讨论两种反馈模型:全量反馈(Full Feedback)与噪声反馈(Noisy Feedback)。

  • 全量反馈: ∇ ^ π i u ( π i t , π − i t ) = ∇ π i u ( π i t , π − i t ) \hat{\nabla}_{\pi_i}u(\pi_i^t, \pi_{-i}^t)=\nabla_{\pi_i}u(\pi_i^t, \pi_{-i}^t) ^πiu(πit,πit)=πiu(πit,πit),即反馈的梯度完全等于该点真实的梯度。
  • 噪声反馈: ∇ ^ π i u ( π i t , π − i t ) = ∇ π i u ( π i t , π − i t ) + ξ i t \hat{\nabla}_{\pi_i}u(\pi_i^t, \pi_{-i}^t)=\nabla_{\pi_i}u(\pi_i^t, \pi_{-i}^t) + \xi_i^t ^πiu(πit,πit)=πiu(πit,πit)+ξit,其中 ξ i t \xi_i^t ξit是噪音向量,在后续的讨论过程中,认为其均值为0,方差有界。

Mirror Descent

在这里插入图片描述

方法

在这里插入图片描述

论文后面有大量的数学证明用于证明该算法的收敛性。这里暂时偷懒了,以后再写。

评价

  1. 本文解决了在有噪声的反馈中,最终会围绕Nash均衡转圈,而无法收敛到Nash均衡的情况。
  2. 本文是更多是一个理论上推导。十分严谨。
  3. 不同的散度函数会对收敛结果有影响吗?不同的映射函数会对Mirror Descent有影响吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12159.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go学习:类型转换需注意的点 以及 类型别名

目录 1. 类型转换 2. 类型别名 1. 类型转换 在从前的学习中,知道布尔bool类型变量只有两种值true或false,C/C、Python、JAVA等编程语言中,如果将布尔类型bool变量转换为整型int变量,通常采用 “0为假,非0为真”的方…

使用Pygame制作“吃豆人”游戏

本篇博客展示如何使用 Python Pygame 编写一个简易版的“吃豆人(Pac-Man)” 风格游戏。这里我们暂且命名为 Py-Man。玩家需要控制主角在一个网格地图里移动、吃掉散布在各处的豆子,并躲避在地图中巡逻的幽灵。此示例可帮助你理解网格地图、角…

ubuntu磁盘扩容

ubuntu磁盘扩容 描述先在虚拟机设置里面扩容进入Ubuntu 配置使用命令行工具parted进行分区输出如下完成 描述 执行命令,查看 fs 类型是什么 lsblk -o NAME,FSTYPE,MOUNTPOINT将60G扩容到100G,其中有些操作我也不知道什么意思,反正就是成功了&#xff0…

redis底层数据结构

底层数据结构 了解下这些咱常用的数据其底层实现是啥 在提到使用哪类数据结构之前,先来了解下redis底层到底有多少种数据结构 1,sds动态字符串 概念与由来 redis是一种使用C语言编写的nosql,redis存储的key数据均为string结构&#xff0…

ChatGPT怎么回事?

纯属发现,调侃一下~ 这段时间deepseek不是特别火吗,尤其是它的推理功能,突发奇想,想用deepseek回答一些问题,回答一个问题之后就回复服务器繁忙(估计还在被攻击吧~_~) 然后就转向了GPT&#xf…

趣味Python100例初学者练习01

1. 1 抓交通肇事犯 一辆卡车违反交通规则,撞人后逃跑。现场有三人目击该事件,但都没有记住车号,只记下了车号的一些特征。甲说:牌照的前两位数字是相同的;乙说:牌照的后两位数字是相同的,但与前…

2024-我的学习成长之路

因为热爱,无畏山海

蓝桥杯备考:高精度算法之除法

我们除法的高精度其实也不完全是高精度,而是一个高精度作被除数除以一个低精度 模拟我们的小学除法 由于题目中我们的除数最大是1e9,当它真正是1e9的时候,t是有可能超过1e9的,所以要用long long

Maven jar 包下载失败问题处理

Maven jar 包下载失败问题处理 1.配置好国内的Maven源2.重新下载3. 其他问题 1.配置好国内的Maven源 打开⾃⼰的 Idea 检测 Maven 的配置是否正确,正确的配置如下图所示: 检查项⼀共有两个: 确认右边的两个勾已经选中,如果没有请…

【前端】ES6模块化

文章目录 1. 模块化概述1.1 什么是模块化?1.2 为什么需要模块化? 2. 有哪些模块化规范3. CommonJs3.1 导出数据3.2 导入数据3.3 扩展理解3.4 在浏览器端运行 4.ES6模块化4.1 浏览器运行4.2 在node服务端运行4.3 导出4.3.1 分别导出4.3.2 统一导出4.3.3 默认导出4.3.4 混用 4.…

强化学习笔记(5)——PPO

PPO视频课程来源 首先理解采样期望的转换 变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加 经过转换后变成 x在q(x)分布下,f(x)*p(x)/q(x) 的期望。 起因是:求最大化回报的期望,所以对ceta求梯度 具体举例…

20-30 五子棋游戏

20-分析五子棋的实现思路_哔哩哔哩_bilibili20-分析五子棋的实现思路是一次性学会 Canvas 动画绘图(核心精讲50个案例)2023最新教程的第21集视频,该合集共计53集,视频收藏或关注UP主,及时了解更多相关视频内容。https:…

【HTML入门】Sublime Text 4与 Phpstorm

文章目录 前言一、环境基础1.Sublime Text 42.Phpstorm(1)安装(2)启动Phpstorm(3)“启动”码 二、HTML1.HTML简介(1)什么是HTML(2)HTML版本及历史(3)HTML基本结构 2.HTML简单语法(1)HTML标签语法(2)HTML常用标签(3)表格(4)特殊字符 总结 前言 在当今的软件开发领域&#xff0c…

Kubernetes学习之包管理工具(Helm)

一、基础知识 1.如果我们需要开发微服务架构的应用,组成应用的服务可能很多,使用原始的组织和管理方式就会非常臃肿和繁琐以及较难管理,此时我们需要一个更高层次的工具将这些配置组织起来。 2.helm架构: chart:一个应用的信息集合…

Kamailio 不通过 dmq 实现注册复制功能

春节期间找到一篇文章,需要 fg 才能看到: https://medium.com/tumalevich/kamailio-registration-replication-without-dmq-65e225f9a8a7 kamailio1 192.168.56.115 kamailio2 192.168.56.116 kamailio3 192.168.56.117 route[HANDLE_REPLICATION] {i…

grpc 和 http 的区别---二进制vsJSON编码

gRPC 和 HTTP 是两种广泛使用的通信协议,各自适用于不同的场景。以下是它们的详细对比与优势分析: 一、核心特性对比 特性gRPCHTTP协议基础基于 HTTP/2基于 HTTP/1.1 或 HTTP/2数据格式默认使用 Protobuf(二进制)通常使用 JSON/…

Intel 与 Yocto 项目的深度融合:全面解析与平台对比

在嵌入式 Linux 领域,Yocto 项目已成为构建定制化 Linux 发行版的事实标准,广泛应用于不同架构的 SoC 平台。Intel 作为 x86 架构的领导者,在 Yocto 生态中投入了大量资源,为其嵌入式处理器、FPGA 和 AI 加速硬件提供了完整的支持…

kubernetes(二)

文章目录 NamespacePodLabelDeploymentService Namespace 在Kubernetes系统中,Namespace是一种至关重要的资源类型,其主要功能在于实现多套环境的资源隔离或者多租户的资源隔离,默认情况下所有的Pod都能够相互访问,但如果不想让两…

巧妙利用数据结构优化部门查询

目录 一、出现的问题 部门树接口超时 二、问题分析 源代码分析 三、解决方案 具体实现思路 四、优化的效果 一、出现的问题 部门树接口超时 无论是在A项目还是在B项目中,都存在类似的页面,其实就是一个部门列表或者叫组织列表。 从页面的展示形式…

【数据分析】案例04:豆瓣电影Top250的数据分析与Web网页可视化(numpy+pandas+matplotlib+flask)

豆瓣电影Top250的数据分析与Web网页可视化(numpy+pandas+matplotlib+flask) 豆瓣电影Top250官网:https://movie.douban.com/top250写在前面 实验目的:实现豆瓣电影Top250详情的数据分析与Web网页可视化。电脑系统:Windows使用软件:PyCharm、NavicatPython版本:Python 3.…