学者观察 | 联邦学习与区块链、大模型等新技术的融合与挑战-北京航空航天大学童咏昕

导语

当下,数据已成为经济社会发展中不可或缺的生产要素,正在发挥越来越大的价值。但是在数据使用过程中,由于隐私、合规或者无法完全信任合作方等原因,数据的拥有者并不希望彻底和他方共享数据。为解决原始数据自主可控与数据跨区域流动之间的矛盾,联邦学习这项技术应运而生。

在北京航空航天大学教授童咏昕看来,联邦学习和区块链技术在打破多方数据孤岛、实现数据共享的场景中都发挥了重要作用,实现了“原始数据不出域,数据可用不可见”的效果。以我国自主创新的区块链软硬件技术体系“长安链”为例,通过与联邦学习技术的深度融合,突破了数字经济中的数据“暗区”,实现了数据价值的释放,通过垂域大模型等场景应用,提升了数字经济的活力。

图片

学者寄语

面向国家数字经济发展重大战略需求,联邦学习与区块链等新技术的融合发展大有可为!希望长安链可以不断开拓创新,更进一步。

——北京航空航天大学  教授  童咏昕

理解联邦学习

联邦学习是一种隐私保护的分布式机器学习技术。通俗的理解好比小羊吃草,传统的机器学习方式是把数据汇集到一起再进行处理,就像各个牧场把草集中到一个地方喂小羊,小羊生长越来越健壮,也就是模型越来越强大。联邦学习就好比牵着小羊去各个牧场吃草,让羊越来越健壮,数据不动模型动,数据虽不出域但同样释放价值。

如今,联邦学习已经在智慧金融、智慧医疗、智慧城市等领域展现其应用价值。例如金融联合风控、疾病联合预测等,我们日常生活中经常使用的手机地图聚合网约车平台,也是联邦学习和时空数据挖掘的典型应用:各平台以联邦学习的方式在敏感数据不出域的条件下实现跨平台信息共享,合理地分配各平台订单及运力。

联邦学习与区块链,“正交”技术深度融合

联邦学习与区块链是“正交”的两个方向。区块链就像去中心化的账本,它解决的是多方协作的可信问题。联邦学习本质上是分布式机器学习的一类,使数据在不出本地的前提下联合学习。虽然从理论基础上来讲这两个技术是正交的,但是二者存在很多共性:都是分布式的计算,都能够实现数据共享。因此,二者的融合点在于可信联邦学习。

联邦学习与区块链的融合点在于可信联邦学习。联邦学习中最有代表性的算法为联邦平均算法(FedAvg),其中所有中间结果(梯度)均需上传传到中心服务器进行计算,所以从根本上它依然是一个中心化的分布式计算方法,算法的安全性依赖于中心服务器的可信度。而区块链之所以受到大家欢迎,是因为在很多业务场景中去中心化的技术框架更具可信度。区块链与中心化的联邦学习互补成为去中心化的联邦学习,这是非常有价值的。

至此大家可能不禁要问:为什么在现在有影响力的联邦学习开源社区里几乎没有基于区块链的联邦学习项目?我认为是因为缺少区块链领域的顶尖的研究机构对区块链和联邦学习深度融合的探索,这是一片蓝海。目前,未来区块链与隐私计算高精尖创新中心正在围绕长安链进行开拓,着力研发出有效的、开源的、联邦学习与区块链深度融合的系统,有希望填补这块空白。当然,这对系统构架来讲难度很高,比如,区块链的吞吐量和联邦学习的大梯度之间怎么耦合,才能既不浪费计算资源又能控制通信量,其中有非常多的工程和科学的问题需要解决。我们来自多个方向的科学家正在持续攻关。 

联邦学习与大模型,互补放大价值

联邦学习与大模型的结合是近期热门的研究问题。大模型是生成式学习中的前沿技术,很多人认为把数据汇在一起训练大模型已经非常耗费硬件资源和算力,采用联邦学习这种分布式方式联合多方数据进行训练,增大通信量是不是画蛇添足?其实不然。

现在的大模型训练主要使用的是公开的公有域数据,但高质量的数据往往存储在不对外公开的私域里,比如涉及隐私的政务数据,科研机构的数据,行业数据,这些数据质量更高,但无法在保持数据自治权的前提下轻易共享参与到基础通用大模型的训练中。联邦学习会对基础通用大语言模型训练产生助力,用私域的高质量数据解决公域数据质量不足的问题。

两种技术的另一个结合点是垂域大模型。基础大模型的体量非常庞大,例如meta开源的Llama 2有着百亿的参数量,我们国家的大型科技企业也拥有100亿参数级别的大模型。大模型对于算力的要求非常高,500张显卡已经是基础配置,每张显卡价格数万元,训练成本高昂,一般的科研机构或者高校很难持续投入。而在基础大模型之上注入特定领域数据使领域内的系统更智能,这样的垂域大模型正在构筑未来“办公自动化”的新形态。例如走失人口或犯罪分子的追踪任务,只需要在公安系统中输入相关的嫌疑人特征,系统就能够联合当地所有摄像头数据库,通过大模型进行人员锁定;又如一些基础的公文撰写任务,办公人员仅需简单描述一下需求之后可以自动生成,大幅提升了效率。在这个过程中,联邦学习技术使得行业高价值数据得以充分利用,同时又确保了数据不出域。因此联邦学习和大模型的技术融合在很多领域大有可为,相信未来一两年之内会不断涌现成熟的产品。

面向未来的联邦学习,须跨多道栏

机构数据共享仍需引导激励。联邦学习是一种作用于生产关系的技术,越面向多个参与主体的时候越能发挥更大的价值。在当前的法律和隐私保护框架下,如何能更好地推动跨机构间的合作是联邦学习面临的问题。

首先,联邦学习等技术领域亟待建立完备的法律基础。“数据可用不可见、原始数据不出域”是一个描述性术语,从计算机语言来讲“差分隐私保护”、“匿名化”、“脱敏”“安全多方计算”都是密码学或隐私计算相关的术语,而在监管与合规的过程中计算机技术术语与法律术语之间存在理解的壁垒,无法达到法律条款与技术之间的映射,这催生出了一个很火的方向“计算法学”,为联邦学习等隐私计算相关技术夯实法律基础,以应对多方机构间的权益纠纷,这是需要学者和法律工作者们共同推动的工作。

此外,政府单位或者行业协会需要引导、推动建设激励机制。解决数据自治和跨域协同之间矛盾的根本在于有一个好的激励机制,联邦的过程存在多方博弈,这种博弈存在着竞争与合作,双方在博弈的过程中是非理性的,每一方都想少输出、多获益。建设一个好的激励机制,以保证贡献数据多、价值大的主体能够获益多,将会促进数据要素价值流通的实现,营造良性的数字经济发展环境。

联邦学习理论研究仍需夯实基础。目前我国联邦学习技术处于领跑状态。这一技术最早是在国外提出,随后国内一批学者很快就参与到联邦学习的研究中,并在其技术发展中起到了引领作用,具有较强的国际影响力。比如,联邦学习在IEEE的第一个国际标准就是由我国牵头制定,第一本联邦学习英文教材也来自我国,谷歌学术上被引用量最高的论文也来自我国。

我国联邦学习的飞速发展在于国家对于数字经济的高度重视。“个人信息保护法”使个人数据隐私和安全保护有了法律基础,连续发布的“数据二十条”等政策为构建数据基础制度体系指明了方向,各地数据交易所的建设为联邦学习提供了天然的应用土壤,联邦学习成为了数据要素流通与交易有代表性的交易范式之一。此外,国家近年来大幅推动数字化转型,智慧政府、智慧城市、智慧交通等产业也在为新的信息技术应用提供了机会,联邦学习在应用方面相较其他国家有很大优势。

虽然在技术及应用上我国已取得了一些成绩,但仍存在问题:我国在该领域的研究优势主要集中于应用,在基础理论研究上与国外还有较大差距。

因此,我国联邦学习的发展仍需持之以恒加强基础理论研究。通过建立合作与交流平台,推动国内外高校、科研机构和创新中心间的知识共享与学术交流;为年轻人提供更多的学术机会和支持,为联邦学习培养人才后备军;鼓励学者进行基础研究、创新研究,设立奖项或资助计划以激励学者进行高水平的学术研究,培养出优秀的学术人才。要让更多的人加入到联邦学习的基础理论研究中来,还需要政府、高校、科研院共同营造领域内更加良好的学术氛围。

「数据新动能」学者观察

数据作为数字经济发展的核心引擎,如何激发动能、释放价值,驱动数字经济高质量发展?长安链开源社区发起的「数据新动能」学者观察栏目邀请专家学者分享数字经济、数字技术的研究、思考与展望,共同探索数字经济“密码”。

 拥抱区块链技术,探索数字经济“密码”

聚焦数字经济发展

追踪尖端学术前沿

探讨新潮科技理念

捕捉鲜活产业动态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/190776.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode—67.二进制求和【简单】

2023每日刷题&#xff08;二十八&#xff09; Leetcode—67.二进制求和 实现代码 void reverse(char *a, int len) {for(int i 0; i < len / 2; i) {char tmp a[i];a[i] a[len - 1 - i];a[len - 1 - i] tmp;} }char* addBinary(char* a, char* b) {int len1 strlen(a…

golang 库之「依赖注入」

文章目录 1. 写在最前面2. 依赖注入2.1 使用场景2.2 框架对比 3. fx 框架使用场景示例3.1 示例3.2 golang 原生的库3.3 fx 库3.4 对比3.4.1 如上两种实现方式对比3.4.2 关于过度设计3.4.3 感悟 4. 碎碎念5. 参考资料 1. 写在最前面 同事在技术分享的时候用了 golang 的 fx 框架…

套接字的多种可选项

套接字可选项和I/O缓冲大小 套接字的多种可选项 套接字可选项分为 IPPROTO_IP、IPPROTO_TCP、SOL_SOCKET 三层&#xff0c;各层的含义为&#xff1a; IPPROTO_IP&#xff1a;IP 协议相关事项&#xff1b; IPPROTO_TCP&#xff1a;TCP 协议相关事项&#xff1b; SOL_SOCKET&am…

苍穹外卖-day09

用户端历史订单模块 1. 查询历史订单 1.1 需求分析和设计 产品原型&#xff1a; 业务规则 分页查询历史订单可以根据订单状态查询展示订单数据时&#xff0c;需要展示的数据包括&#xff1a;下单时间、订单状态、订单金额、订单明细&#xff08;商品名称、图片&#xff09;…

如何设置静态代理IP切换电脑上网地址使用?

在当今的网络时代&#xff0c;代理IP已成为一种常见的网络访问方式。通过使用代理IP&#xff0c;我们可以隐藏自己的真实IP地址&#xff0c;从而保护自己的隐私和安全。但是&#xff0c;有时候我们需要切换代理IP来满足不同的上网需求。本文将介绍如何设置静态代理IP切换电脑上…

优秀智慧园区案例 - 珠海华发智慧园区,万字长文解析先进智慧园区建设方案经验

一、项目背景 珠海华发产业园运营管理有限公司&#xff08;简称“产业园公司”&#xff09;是2016年起连续五年跻身“中国企业500强”、国务院国企改革“双百企业”的珠海华发集团旗下的实体产业发展载体运营平台&#xff0c;依托“四园一基地”&#xff1a;中以国际产业园、信…

Java自学第11课:电商项目(4)重新建立项目

经过前几节的学习&#xff0c;我们已经找到之前碰到的问题的原因了。那么下面接着做项目学习。 1 新建dynamic web project 建立时把web.xml也生成下&#xff0c;省的右面再添加。 会询问是否改为java ee环境&#xff1f;no就行&#xff0c;其实改过来也是可以的。这个不重要。…

基于springboot实现福聚苑社区团购平台系统项目【项目源码】

基于springboot实现福聚苑社区团购平台系统演示 Javar技术 Java是一种网络脚本语言&#xff0c;广泛运用于web应用开发&#xff0c;可以用来添加网页的格式动态效果&#xff0c;该语言不用进行预编译就直接运行&#xff0c;可以直接嵌入HTML语言中&#xff0c;写成js语言&…

【KVM-4】硬件虚拟化技术(详)

前言 大家好&#xff0c;我是秋意零。 经过前面章节的介绍&#xff0c;已经知道KVM虚拟化必须依赖于硬件辅助的虚拟化技术&#xff0c;本节就来介绍一下硬件虚拟化技术。 &#x1f47f; 简介 &#x1f3e0; 个人主页&#xff1a; 秋意零&#x1f525; 账号&#xff1a;全平…

从替代走向引领,永洪科技迈向全球化

对于数据分析领域而言&#xff0c;这是一个最好的时代。 《全球数字经济白皮书&#xff08;2023年&#xff09;》介绍&#xff0c;2016年-2022年&#xff0c;中国数字经济年均复合增长率为14.2%&#xff0c;数字经济发展增速和规模兼具。随着数字基础实施持续夯实、数字应用不…

前端面试系列之工程化篇

如果对前端八股文感兴趣&#xff0c;可以留意公重号&#xff1a;码农补给站&#xff0c;总有你要的干货。 前端工程化 Webpack 概念 本质上&#xff0c;webpack 是一个用于现代 JavaScript 应用程序的静态模块打包工具。当 webpack 处理应用程序时&#xff0c;它会在内部从一个…

MyBatis 反射工具箱:带你领略不一样的反射设计思路

反射是 Java 世界中非常强大、非常灵活的一种机制。在面向对象的 Java 语言中&#xff0c;我们只能按照 public、private 等关键字的规范去访问一个 Java 对象的属性和方法&#xff0c;但反射机制可以让我们在运行时拿到任何 Java 对象的属性或方法。 有人说反射打破了类的封装…

企业微信开发教程一:添加企微应用流程图解以及常见问题图文说明

最近在前辈的基础上新添加了一个企微应用&#xff0c;过程中遇到了一些卡点&#xff0c;这里一一通过图片标注与注释的方式记录一下&#xff0c;希望能给后来人提供一些清晰明了的帮助&#xff0c;话不多说&#xff0c;大家直接看图吧。 &#xff08;文中包括一些本项目独有的配…

matlab背景部分最小化算法人脸检测

1、内容简介 略 18-可以交流、咨询、答疑 matlab背景部分最小化算法人脸检测 2、内容说明 matlab人脸检测 matlab人脸检测&#xff0c;背景部分最小化算法 3、仿真分析 略. 4、参考论文 略 链接&#xff1a;https://pan.baidu.com/s/1yQ1yDfk-_Qnq7tGpa23L7g 提取码&…

双H桥直流马达步进电机驱动芯片SS8833E

由工采网代理的率能SS8833E是一款适用于有刷直流或双极步进电机的集成电机驱动芯片&#xff1b;采用eTSSOP16封装&#xff1b;该器件集成了两个PNMOS H桥和电流调节电路&#xff1b;电机输出电流可以由外部脉宽调制器&#xff08;PWM&#xff09;或内部PWM电流控制器控制。 工…

家庭安全计划 挑战赛| 溺水预防

溺水预防 从了解到行动 家庭安全计划 | 少年急救官 地震避险逃生该怎么做&#xff1f; 起火了该如何应对&#xff1f; 哪些行为容易导致溺水&#xff1f; 家庭风险隐患有哪些&#xff1f; 家庭逃生演练四步骤你会吗&#xff1f; 国际救助儿童会&#xff08;英国&#xff…

虚拟化服务器+华为防火墙+kiwi_syslog访问留痕

一、适用场景 1、大中型企业需要对接入用户的访问进行记录时&#xff0c;以前用3CDaemon时&#xff0c;只能用于小型网络当中&#xff0c;记录的数据量太大时&#xff0c;本例采用破解版的kiwi_syslog。 2、当网监、公安查到有非法访问时&#xff0c;可提供基于五元组的外网访…

kubernetes--Pod进阶

目录 一、资源限制&#xff1a; 1. 资源限制的两种规范&#xff1a; 2. Pod 和 容器 的资源请求和限制&#xff1a; 3. CPU 资源单位&#xff1a; 4. 内存资源单位 &#xff1a; 5. 资源限制示例&#xff1a; 二、健康检查&#xff1a;探针&#xff08;Probe&#xff09; 1. 探…

Git Gui的使用及ssh协议-IEDA使用git

目录 一.Git Gui的使用 二.ssh协议 2.1 什么是ssh key 2.2 配置用户名和邮箱&#xff08;如果已经配置&#xff0c;就跳过&#xff09; 2.3 生成(或删除)秘钥 ​编辑 2.4 远程仓库绑定公钥 三.IEDA使用git 3.1 idea配置Git 3.2 项目上传Git 3.3 演示 一.Git Gu…

python打包部署脚本

linux可使用expect来实现自动交互&#xff0c;windows想要写出同样的功能脚本&#xff0c;只能使用python或者安装ActiveTcl 1、安装python Microsoft Store搜索python直接安装&#xff0c;默认会直接添加到环境变量https://www.python.org/官网下载&#xff0c;点击安装时会提…