阅读记录【arXiv2020】 Adaptive Personalized Federated Learning

Adaptive Personalized Federated Learning

论文地址: https://arxiv.org/abs/2003.13461

摘要

对联邦学习算法个性化程度的研究表明,只有最大化全局模型的性能才会限制局部模型的个性化能力。在本文中,我们提倡自适应个性化联合学习(APFL)算法,其中每个客户端将训练其本地模型,同时为全局模型做出贡献。我们推导出局部模型和全局模型混合的泛化界限,并找到最佳混合参数。我们还提出了一种有效通信的优化方法来协作学习个性化模型并分析其在平滑强凸和非凸设置中的收敛性。大量的实验证明了我们的个性化模式的有效性,以及已建立的泛化理论的正确性。

adaptive personalized federated learning (APFL)

1. Introduction

仅针对全局模型的准确性进行优化会导致本地客户的泛化能力较差。
根据这些观察结果,为了平衡与其他用户协作的好处和不同用户域之间统计异质性的缺点之间的权衡,本文提出了一种自适应个性化联邦学习(APFL)算法旨在为每个用户学习个性化模型,该模型是最佳局部模型和全局模型的混合。我们从理论上分析了个性化模型对局部分布的泛化能力,依赖于混合参数、局部和全局分布之间的差异以及局部和全局训练数据的数量。为了学习个性化模型,我们提出了一种有效通信的优化算法,该算法在学习过程中利用局部模型和全局模型之间的相关性来自适应地学习模型。如图 1 所示,通过逐步增加多样性,与 FedAvg 和 SCAFFOLD 学习的全局模型相比,所提出的算法找到的个性化模型表现出更好的泛化能力。我们用广泛证实的实验结果补充了我们的理论发现,这些实验结果证明了所提出的个性化模式相对于常用 FO 算法的全局和局部模型的优越性。

federated optimization(FO)

Organization

  • Section 2. relatework
  • Section 3. introduce the APFL & its generalization guarantees
  • Section 4. communication-effcient optimization problem
  • Section 5. convergence rate
  • Section 6. experimental
  • Section 7 & 8. discussion & future work

2. Relate work

联邦学习个性化方法主要分为三类: local fine-tuning. multi-task learning, contextualization

  • local fine-tuning: 每个客户端接收一个全局模型,并使用自己的局部收据和几个梯度下降步骤进行调整。(元学习、域适应、迁移学习)。
  • multi-task learning: 每个客户端的优化可以被视为一个新任务,或者根据某些特征对客户端聚类,将其作为相似任务
  • contextualization: 针对一个客户的不同环境设置个性化模型
  • personalization via model regularization: 模型正则化,通过规范全局模型和局部模型之间的差异来引入不同的个性化方法。(个性化的知识蒸馏)
  • personalization via model interpolation:模型插值

“什么程度的个性化最适合每个客户?” 本文自适应地调整每个客户端地个性化程度来回答这个问题。

PFL personalized fedrated learning

每个客户端都可以访问自己的数据分布Di,对于任何假设h,损失函数定义为l,局部分布的真实风险由 L D i ( h ) = E ( x , y ) ∼ D i [ l ( h ( x ) , y ) ] L_{D_i}(h)=E_{(x,y)\sim D_i}[l(h(x),y)] LDi(h)=E(x,y)Di[l(h(x),y)] 表示。由 L ^ D i ( h ) \hat L_{D_i}(h) L^Di(h)来表示h在分布D_i上的经验风险,用均值 D ˉ \bar{D} Dˉ 表示客户端的平均分布。
与联邦学习相同,全局模型通过训练以最小化相对于分布 D ˉ \bar{D} Dˉ 的经验损失,即 min ⁡ h ∈ H L ^ D ˉ ( h ) \min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(h) minhHL^Dˉ(h)

3.1 Personalized model

具有自适应权重的局部模型与全局模型相混合的联合预测模型——个性化模型。
对于全局模型,目标仍然是最小化经验风险。

h ˉ ⋆ = arg ⁡ min ⁡ h ∈ H L ^ D ˉ ( h ) \bar{h}^\star =\arg\min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(h) hˉ=arghHminL^Dˉ(h)

对于每个用户的本地模型,则是通过权重 α i \alpha_i αi聚合部分本地模型和部分全局模型,则本地模型的目标为

h ˉ l o c , i ⋆ = arg ⁡ min ⁡ h ∈ H L ^ D ˉ ( α i h + ( 1 − α i ) h ˉ ⋆ ) \bar{h}^\star_{loc,i} =\arg\min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(\alpha_i h+(1-\alpha_i)\bar{h}^\star) hˉloc,i=arghHminL^Dˉ(αih+(1αi)hˉ)

最后,第i个个性化模型是 h ˉ ⋆ \bar{h}^\star hˉ h ˉ l o c , i ⋆ \bar{h}^\star_{loc,i} hˉloc,i的凸组合。

h α i = α i h ˉ l o c , i ⋆ + ( 1 − α i ) h ˉ ⋆ h_{\alpha_i}=\alpha_i \bar{h}^\star_{loc,i}+(1-\alpha_i)\bar{h}^\star hαi=αihˉloc,i+(1αi)hˉ

h α i h_{\alpha_i} hαi不一定是经验风险的最小化,因为是在部分合并全局模型的情况下优化了 h ˉ l o c , i ⋆ \bar{h}^\star_{loc,i} hˉloc,i 。大多数情况下,如果在从D_i中提取的训练集上进行评估, h α i h_{\alpha_i} hαi将会产生residual risk

3.2 Generalization guarantees

二分类问题考虑squared hinge loss ‘ ( h ( x ) , y ) = ( m a x 0 , 1 − y h ( x ) ) 2 `(h(x), y) = (max{0, 1 − yh(x)})2 (h(x),y)=(max0,1yh(x))2

回归问题考虑 MSE loss ‘ ( h ( x ) , y ) = ( h ( x ) − y ) 2 `(h(x), y) = (h(x) − y)2 (h(x),y)=(h(x)y)2

定义1. 一对模型间最坏情况的分歧量化。该度量通过计算样本训练集上两个假设之间的最大分歧来衡量假设类的复杂性。(一种全局模型和局部模型泛化误差间的权衡)

在这里插入图片描述

定理1. 前文所提个性化方法的主要结果,由VC维来衡量。的数据量)。会导致全局模型有更好的泛化性,

在这里插入图片描述

泛化风险主要取决于下面三种

  • m(D中提取的数据量):相对于个人用户数量较大,全局模型通常由更好的泛化性。
  • D与D_i间的散度:平均分布与第i个分布的数据异质性,差异过大会导致全局模型损害局部泛化。
  • m_i(D_i提取的数据量):mi一般较小,局部模型的泛化可能很差。

因此应该选一个小的权重 α i \alpha_i αi来包含更多比例的全局模型。

最优最小参数
在这里插入图片描述

RHS (Right-Hand Side),右侧

4 Optimization Method

自动更新权重的自适应算法:将原本的模型分为两阶段优化问题,全局更新共享模型,本地更新用户本地模型。每个本地客户端要解决的问题为:

min ⁡ v ∈ R d f i ( α i v + ( 1 − α i ) w ⋆ ) \min_{\mathcal{v}\in R^d}f_i(\alpha_i v+(1-\alpha_i)w^\star) vRdminfi(αiv+(1αi)w)

其中 w ⋆ = arg ⁡ min ⁡ w F ( w ) w^\star=\arg\min_w F(w) w=argminwF(w) 为全局最优模型。这两个模型间的平衡由 α i \alpha_i αi 控制。

4.1 Local Descent APFL

双层优化算法Local Descent APFL。服务器随机选择一定的K个客户端作为一组U,每个选定的客户端维护三个模型:全局模型w,自己持有的本地模型v,和混合个性化模型v=alphav+(1-alpha)w,选定的客户端在本地对自己的数据更新w和v两个参数

在这里插入图片描述

在本地进行 τ \tau τ轮更新狗后,将各自本地的w发送到服务器,通过均值聚合。

4.2 Adaptive α \alpha α update

在这里插入图片描述
在这里插入图片描述

注意到 α \alpha α的值与个性化版本和本地版本全局模型的差异及设备内个性化模型的梯度间相关性进行更新的。这表明,当全局模型偏离个性化模型时,α值会发生变化,以调整全局模型捕获的所有设备之间的本地数据和共享知识之间的平衡。显然,当个性化模型和全局模型非常接近时(IID 数据),α 值不会发生太大变化。

5 Convergence Analysis

本节对固定 α \alpha α的APFL在强凸和非凸函数上的收敛性进行分析。

定义2:(梯度多样性) 参数化不变量,parameterization-invariant quantities
在这里插入图片描述

定义3:(本地-全局最优性差距)针对强凸,需要以下反应异质性的量
在这里插入图片描述

v和w取决于客户端之间本地数据的分布和loss的几何形状。

假设

在这里插入图片描述

5.1 强凸损失函数

假设

在这里插入图片描述

定理2:(局部下降 APFL 的全局模型收敛)

在这里插入图片描述

定理3:(Local Descent APFL 的个性化模型收敛)
在这里插入图片描述

推论1

在这里插入图片描述

定理4:(局部下降 APFL 的个性化模型收敛,无需假设 αi)
在这里插入图片描述

5.2 非凸损失函数

定义4:(梯度差异)
在这里插入图片描述

6 Experiments

6.1 Setup

  • 基本情况:Azure、PyTorch(with ‘distributed’)、F64s虚拟机、每个节点64个vCPU
  • Datasets:
    • MNIST:每个客户端2类,每个客户端4类,iid
    • CIFAR10:每个客户端2类
    • EMNIST
  • else(除非特殊说明):learning rate 每 iteration 降低1.本地更新10次

6.2 Results

  1. strongly convex loss(带有参数正则化的逻辑回归):不同学习率下的acc和loss对比,iid时fedavg性能更好,noniid时personalized更好。另外更大的学习率对noniid数据集有正面作用。
  2. 还比较了不同的sample ratio下的训练性能,越大性能越好
  3. 自适应 α \alpha α 相较于其它结果
  4. nonconvex loss:Cifar-10 vs FedAvg、SCAFFOLD
  5. Natural heterogeneous data: EMNIST vs FedAvg
  6. Comparison with other personalization methods: EMNIST vs FedAvg、PerAvg、pFedMe

7 讨论

  • 关于文本所提的适应性:当局部分布远离全局分布时,全局模型对本地模型更新帮助较小,因此改变自适应alpha的值,让本地模型的比例更大,可以更好得适应不同本地分布。
  • 面向新节点的个性化(seen task):
    • APFL vs MAML. APFL:不同用户间共享知识,以减少泛化误差;MAML:更关心如何构建元学习器,用更少的样本更快的训练本地个性化模型
    • 实验对比,在训练完全局模型后,增加的新节点上,APFL的性能比FedAvg更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/199987.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

纽扣电池/含纽扣电池产品上架亚马逊各国法规标准要求16 CFR 第 1700.15/20 ANSI C18.3M(瑞西法案认证)

亚马逊纽扣电池认证标准有哪些? 一、美国站(亚马逊纽扣电池/含纽扣电池商品)安全测试标准要求: 16 CFR 第 1700.15 、16 CFR 第 1700.20 ANSI C18.3M、警示标签声明要求(第 117-171 号公众法) 二、澳大…

【EI会议征稿】第四届公共管理与智能社会国际学术会议(PMIS 2024)

第四届公共管理与智能社会国际学术会议(PMIS 2024) 2024 4th International Conference on Public Management and Intelligent Society 第四届公共管理与智能社会国际学术会议将在2024年3月15-17日在长沙召开。PMIS 2024由中南大学社会计算研究中心、中南大学公共…

Open AI开发者大会:AI“科技春晚”

ChatGPT的亮相即将满一年之时,OpenAI举行了自己的首次开发者大会。OpenAI首席执行官Sam Altman宣布推出最新的大模型GPT-4 Turbo。正如“Turbo”一词的中文含义“涡轮增压器”一样,本次发布会上,OpenAI的这款最新大模型在长文本、知识库、多模…

安装2023最新版PyCharm来开发Python应用程序

安装2023最新版PyCharm来开发Python应用程序 Install the Latest JetBrains PyCharm Community to Develop Python Applications Python 3.12.0最新版已经由其官网python.org发布,这也是2023年底的最新的版本。 0. PyCharm与Python 自从1991年2月20日&#xff0…

Chrome添加扩展程序

Crx4Chrome 下载crx 打开扩展程序 如果拖动crx文件到扩展程序提示只能通过Chrome应用商店添加此项内容 修改crx文件后缀为zip并解压,再拖动到扩展程序 Vue.js devtools

源启容器平台KubeGien 打造云原生转型的破浪之舰

云原生是应用上云的标准路径,也是未来发展大的趋势。如何将业务平滑过渡到云上?怎样应对上云期间的各项挑战呢?中电金信基于金融级数字底座“源启”打造了一款非常稳定可靠、多云异构、安全可控、开放灵活的容器平台产品——源启容器平台Kube…

Java_异常详解

前言 异常是什么,异常如何抛出,如何抛出自定义异常,异常处理主要的五个关键字:throw,try,catch,finally,throws ,异常的处理流程 异常是什么 在Java中,将程序执行过程中发生的不正常行为称为异常。比如之前写代码时经常遇到的: 1. 算数异…

CAD文件转奥维 转shapefile

之前写过一篇CAD转ArcGIS 其实万变不离其宗,都是经纬度知识的应用。 背景是当我们拿到一份带有坐标的CAD文件如何转换为矢量文件。 首先我们要明白XY坐标系的含义。 X—real X-500000 为近距离标准经线的距离。 y 为距离赤道的距离。 X 429174.3048 Y 32313…

【MATLAB基础绘图第17棒】绘制玫瑰图

MATLAB绘制玫瑰图 玫瑰图(Nightingale Rose Chart)风玫瑰图(WindRose)准备工作:WindRose工具包下载案例案例1:基础绘图 参考 玫瑰图(Nightingale Rose Chart) 玫瑰图(Ni…

为什么云游戏被认为是行业的未来趋势?

5G 时代的到来,游戏行业也正在经历着一场革命性的变革。云游戏,这个看似神秘的新兴领域,正在逐渐成为行业的未来趋势。 一、云游戏的优势 摆脱硬件束缚 在传统游戏中,玩家需要购买昂贵的游戏主机或电脑,才能享受高质…

buildadmin+tp8表格操作(3)----表头上方按钮绑定事件处理,实现功能(选中或取消指定行)

在buildAdmin的表格中,通过按钮来选中和取消某一行 这种情况,只适合表格行的单选 在elementplus是这样说的 我们所使用的就是这个方法 看一下buildAdmin中的用法 highlight-current-row 是element-plus 中表格的属性 因为 buildadmin 中的table是对 el…

超聚变服务器关闭超线程CPU的步骤(完整版)

前言: 笨鸟先飞,好记性不如烂笔头。 我们项目都用不到超线程CPU,所以调测设备的时候都需要关掉,最近新设备换成了超聚变的服务器,这篇记录我关闭(超聚变)服务器超线程CPU的方法步骤。 关闭超线程CPU的步骤…

部署Kubernetes Dashboard

Dashboard简介 Dashboard 是基于网页的 Kubernetes 用户界面。 可以使用 Dashboard 将容器应用部署到 Kubernetes 集群中,也可以对容器应用排错,还能管理集群资源。 Dashboard创建 #创建pods kubectl apply -f https://raw.githubusercontent.com/kub…

西米支付”:在游戏SDK中,提供了哪些支付渠道?SDK的用处?

在游戏SDK中,提供了哪些支付渠道? 常见的支付方式包括支付宝、微信支付、银联支付等。游戏SDK的支付功能可以方便玩家选择不同的支付渠道,以满足他们个性化的支付需求。 流行的支付应用:该应用集成了流行的支付应用支付接口&#…

el-checkbox 对勾颜色调整

对勾默认是白色 改的时候一直在试着改color人,其实不对。我用的是element ui 的复选框 /* 对勾颜色调整 */ .el-checkbox__inner::after{/* 是改这里的颜色 */border: 2px solid #1F7DFD; border-left: 0;border-top: 0;}

向pycdc项目提的一个pr

向pycdc项目提的一个pr 前言 pycdc这个项目,我之前一直有在关注,之前使用他反编译python3.10项目,之前使用的 uncompyle6无法反编译pyhton3.10生成的pyc文件,但是pycdc可以,但是反编译效果感觉不如uncompyle6。但是版…

重磅解读 | 阿里云 云网络领域关键技术创新

云布道师 10 月 31 日,杭州云栖大会,阿里云技术主论坛带来了一场关于阿里云主力产品与技术创新的深度解读,阿里云网络产品线负责人祝顺民带来《云智创新,网络随行》的主题发言,针对阿里云飞天洛神云网络(下…

捷诚管理信息系统 SQL注入漏洞复现

0x01 产品简介 捷诚管理信息系统是一款功能全面,可以支持自营、联营到外柜租赁的管理,其自身带工作流管理工具,能够帮助企业有效的开展内部审批工作。 0x02 漏洞概述 捷诚管理信息系统CWSFinanceCommon.asmx接口存在SQL注入漏洞。未经身份认…

一个快递包裹的跨国之旅

事情要从今年三月份说起,一位爱尔兰的同事在6月份结婚,团队同事准备了中国风的丝绸画轴、领带、丝巾作为礼物。3月份开始邮寄,4月初爱尔兰方面收件,5月份因为文件不足、不完整、不正确等原因被取消进口,7月份退回到大连…

VR全景打造亮眼吸睛创意内容:三维模型、实景建模

随着VR技术在不同行业之间应用落地,市场规模也在快速扩大,VR全景这种全新的视觉体验为我们生活中的许多方面都带来了无限的可能。更加完整的呈现出一个场景或是物体的所有细节,让浏览者感受到自己仿佛置身于现场一般;其次&#xf…