联邦计算在百度观星盘的实践

图片

导读:本文简短综述联邦计算领域的核心技术点,随着联邦计算在产业界的应用及普及,保护数据隐私与解决数据孤岛,二者可以兼得,为数字广告营销等领域提供了一个全新思路。

全文4761字,预计阅读时间12分钟。

一、导语

众所周知,数据是AI技术的燃料,更多高质量的数据意味着可以训练出更好性能的业务模型。随着IT移动化步伐地迈进,互联网数据被割裂为一个个孤岛,制约AI发展的一个瓶颈是保护用户数据隐私和打破不同主体之间数据孤岛的问题。随着移动设备性能的强化,4G/5G的兴起普及,在移动终端上进行模型训练变得可行。2016年,Google团队发布了一篇论文:Communication-Efficient Learning of Deep Networks from Decentralized Data。自此,产业界联邦学习(「Federal Learning」,Google中文命名为联盟学习,国内习惯称为联邦学习)的大幕开启。

图片

△图片来__源:《Federated L__earning: Collaborative Machine Learning without Centralized Training Data》

在数百万不同的智能手机上部署联邦学习,其本质是移动模型,而非移动数据。为避免用户隐私泄露,联邦学习不需要在云端存储用户数据。智能手机下载当前版本的模型,通过学习本地数据来改进模型,并把模型改进增量加密发送到云端,与其他用户的更新即时整合为共享模型,所有的训练数据仍然在各终端用户的设备中,用户数据不会在云端保存。

在国际隐私数据条例(GDPR等)趋严的形势下,以Google为代表的ToC业务(如输入法)开辟了一个全新的思路。国内,联邦学习在产业界延伸至ToB领域,解决ToB AI的困局:隐私保护与数据孤岛问题。比如风控、营销等涉及到大规模的用户数据交互,隐私保护价值更高。2019年底,百度、微众、蚂蚁、富数、华控等5家公司,获得了信通院的安全计算证书,是当前安全计算资质中最具影响力的认证。

二、联邦计算核心技术

为联合打通数据孤岛,解决参与方的数据安全可信隐私保护问题,广义的联邦计算**「Federated Computing」实现方案包括:以密码学为核心的MPC多方安全计算「Secure Multi-Party Computation」,以及硬件可信执行环境TEE「Trusted Execution Environment」**。

2.1 多方安全计算(MPC:Secure Multi-Party Computation)

多方安全计算MPC以密码学为理论基础,采用算法/程序逻辑层面保障计算的安全可信任的基本理念,其安全性是可经过数学公式推导验证的。MPC不依赖于硬件等环境设施,即对各类异构的系统环境有兼容性,不依赖特定硬件。

2.1.1 混淆电路(Garbled Circuit)

混淆电路是一种密码学协议。图灵奖得主姚期智院士在1982提出著名的Yao’s Millionaires’ Problem,并给出了基于混淆电路的解决方案。该问题是Alex和Bob在无可信第三方,且不告知对方财富值的情况下比谁更富有。

图片

其原理为:所有可计算的函数问题都可转换为不同的电路,由加法电路、乘法电路、移位电路、选择电路等表示。而电路本质上由门(gate)组成,逻辑门包括与门、非门、或门、与非门等。混淆电路把这些门进行加密和打乱来掩盖信息。Alice用密钥加密门的真值表并打乱后输出给Bob。Bob对真值表的每行进行解密,算法保障只有一行可解密成功,并提取结果。最后Bob将结果同步给Alice。过程中,二者交换的都是随机数或密文,无隐私数据泄露,但从程序逻辑层面完成了所需业务的计算。

2.1.2 秘密分享(Secret Sharing)

秘密共享(也称为秘密分割)是指用于在一组参与者之间分发秘密的方法,每个参与者被分配一个秘密的份额。只有当足够数量的不同类型的份额组合在一起时,才能重建秘密,个人份额本身无意义。

在秘密分享中,最经典的算法是Shamir’s Secret Sharing,它最基本的设计原理是:平面上 k 个点可以唯一确定一个 k−1 阶的多项式

图片

如两个点可以唯一确定一条直线。我们把 a0 作为秘密S。我们从曲线上任取n个点(i,f(i)),每个参与者分配一个点,作为一个密码的份额,则凑齐任意k个参与方则可还原出秘密S。此处,可基于拉格朗日差值方法计算多项式,本文不做展开。

2.1.3 同态分享(HE:Homomorphic Encryption)

同态加密的概念早在1978年在银行应用背景下被提出,作者是RSA算法中的R(Ron Rivest) 和A(Leonard Adleman)以及Michael L. Dertouzos。对于同态加密的概念引用同态加密大牛Craig Genty的定义:

「A way to delegate processing of your data, without giving a way access to it.」

即使用者可以在不接触原数据的情况下进行数据处理。其本质是:使用方直接处理密文,然后解密密文得到的明文结果与直接处理明文得到结果等价。精巧之处在于,数据的处理方并不知道数据的明文,却最终计算得到业务期望的结果,即数据提供方未泄露其原始数据,有效保护数据隐私。

同态加密的数学定义为:E(m1)*E(m2)=E(m1*m2)  ∀ m1,m2∈M

其中,E为加密算法,M是所有信息的集合,*表示运算符。如果加密算法满足如上公式,则E在运算*上的功能符合同态加密性质。

根据支持的运算的数量及次数可对HE进行分类:当前部分同态加密(PHE)、层次同态加密(SWHE)在业界生产环境已有应用,全同态加密(FHE)效率较低,当前尚无法支撑大规模计算。

2.2 硬件可信执行技术环境(TEE:Trusted Execution Environment)

可信执行环境(TEE)是主处理器的安全区域。它保证内部加载的代码和数据在机密性和完整性方面受到保护。TEE作为独立执行环境,可提供各种安全功能:如隔离执行,应用程序的完整性,以及其资产的机密性。其保障安全的核心机制是:指令集扩展, 旨在以硬件安全为强制性保障, 不依赖于固件和软件的安全状态。

图片

△图片来源_:Gidon Gershinsky《Trust Management in Intel SGX Enclaves》_

Intel® Software Guard Extensions (Intel® SGX)保护选定的代码和数据不被泄露和修改。开发者可以把应用程序划分到CPU强化的encalve飞地中,即使在受攻击的平台环境(操作系统/虚拟机)中也能提高安全性。使用该应用层可信执行环境,开发者能够启用身份和记录隐私、安全浏览和数字管理保护(DRM)或者任何需要安全存储机密或者保护数据的高保障安全应用场景。

除了英特尔SGX,TEE方案还包括ARM的TrustZone,AMD点安全加密虚拟化SEV和NVIDIA的可信小内核TLK等。各厂商基于硬件的方案,其核心都是实现最小可能的攻击面:CPU边界成为攻击面外围,所有的数据、内存、外围之外的I/O都是加密的。

2.3 MPC与TEE横向对比

MPC方案与TEE方案横向比对如下:

图片

2.4 联邦学习分类

联邦学习定义为:在进行机器学习的过程中,各参与方可以借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。联邦学习可以分为三类:

图片

  • 「横向联邦学习」
    横向联邦学习(基于用户纬度切分)适用于两个数据集共享相同的特征空间但样本ID空间不同的情况。使用双方用户特征相同但用户不完全相同的数据进行训练。

  • 「纵向联邦学习」
    纵向联邦学习(基于特征纬度切分)适用于两个数据集共享相同的样本ID空间但特征空间不同的情况。取出双方用户相同而用户特征不完全相同的那部分数据进行训练。

  • 「联邦迁移学习」
    联邦迁移学习适用于两个数据集不仅在样本上而且在特征空间上都不同的情况。该场景下,不对数据进行切分,而可以利用迁移学习来克服数据或者标签不足的情况。

三、百度联邦计算业务

3.1 百度联邦计算特色

如百度安全计算白皮书所述,百度在数据安全和隐私保护领域产品的主要创新点包括:

  • 「多种技术有机融合,覆盖数据安全和隐私保护的多种场景」

平台将 MPC、TEE、DP等领先技术进行有机融合,供一整套面向多方安全计算的数据安全解决方案,在保护企业数据资产的基础上,有效防范用户隐私泄露风险,覆盖数据安全和隐私保护的多种场景。

  • 「独特多方安全计算DSL语言,安全可控“电子合约”运行机制」

平台为多方安全计算场景设计专用的DSL语言,来描述多方数据联合计算全过程的复杂逻辑,形成多方安全计算“电子合约”,经各参与方确认后才能执行,参与方明确知晓数据使用方式,结合多方安全方案实现数据安全可控。

  • 「多方安全计算技术深度优化,支持海量数据的多方安全计算」

平台为适应百度大规模数据安全计算需求,经过大规模工程化改造和多种性能优化,支持百亿级数据多方安全计算,轻松胜任各种多方安全计算场景,为多方安全计算从学术界走向工业界供技术保障。

3.2 百度联邦计算典型业务

联邦计算模式可应用广告营销领域,其中人群定向是重要的一个分支。联邦精准人群是指基于双方的全量大数据,进行ID的隐私数据求交(PSI:Private Set Intersection),基于客户一方的精准数据,在媒体侧进行广告投放。并且实现客户数据的**「可用不可见,相逢不相识」**的效果,有效保护了客户数据的隐私性。

图片

外部合作伙伴,如广告主将数据保存在自己的服务器或云存储中,百度数据保存在百度域下。BFC**「Baidu Federated Computing」**主节点协调各方计算节点,不接触各方本地数据。在保证数据不出域的前提下,各计算节点间进行参数等加密信息的交互,最终完成业务模型的计算。营销实践案例表明联邦精准人群模式基于客户一方的大数据可大幅提升客户的ROI。

为了解决联合营销场景中的数据安全合规问题,基于百度安全、联手数据流通服务使用“联邦计算”技术,为观星盘开辟了“联合营销绿色通道”。在保证各方敏感数据不出域的前提下,基于“可用不可见”的安全计算,将百度观星盘数据和广告客户数据安全打通,以实现联合精准营销。

业务后续展望,基于联邦计算/联邦学习可在广告营销全链路(投前洞察、投中触达、投后分析)赋能AI营销业务,沉淀数据资产、激活数据资产,在保障数据隐私合规的情况下最大程度挖掘数据价值,实现用户、客户、媒体的三方共赢。

本期作者 | 王崇杰,百度商业平台研发部资深研发工程师,长期专注于互联网商业广告营销领域。关注大数据处理、分布式系统架构、中间件设计、网络数据安全等技术领域。

招聘信息

百度商业平台研发部主要负责百度商业产品的平台建设,包括广告投放、落地页托管、全域数据洞察等核心业务方向,致力于用平台化的技术服务让客户及生态伙伴持续成长,成为客户最为依赖的商业服务平台。

无论你是后端,前端 ,大数据还是算法,这里有若干职位在等你,欢迎投递简历,关注同名公众号百度Geek说,输入内推即可,百度商业平台研发部期待你的加入!

阅读原文
|联邦计算在百度观星盘的实践

---------- END ----------

百度Geek说

百度官方技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

欢迎各位同学关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23534.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c语言 校正时区算法,如何正确校正星盘中的时差与时区

如何正确校正星盘中的时差与时区以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 制作命盘中最容易产生误差的就是时区问题了。 因为中国幅员辽阔,横跨好几个时区,但都…

C#: 星座星盘计算算法

前一篇提到计算八卦五行的算法,这里要跟大家分享一个星座星盘的算法。你们可能觉得笔者怎么开始研究这些玄幻的东西了,确实笔者觉得有一些真的是很扯,不过笔者的目的是为了研究大数据。好了,说到星盘笔者发现新浪星座有个很不错的…

星盘php,占星树星盘教程:如果通过星盘推算盘主适合哪个领域的工作?

塔罗 星盘占卜,请找阳阳老师 ~ XYZ:无论你遇到任何疑问,都请随时留言给阳阳老师,我会在看到信息后的第一时间回复的 Orz... 关注我,每天一个关于命理学的一个小知识(笑) ————其它热点内容请在文章底部查看 今天&a…

【Prompting】ChatGPT Prompt Engineering开发指南(6)

ChatGPT Prompt Engineering开发指南:Expanding/The Chat Format Expanding自定义对客户电子邮件的自动回复提醒模型使用客户电子邮件中的详细信息 The Chat Format总结内容来源 在本教程中,第一部分学习生成客户服务电子邮件,这些电子邮件是…

做外贸如何能提高开发信的回复率?

Snow给我分享了一封他们的开发信,我觉着写得很好,分享给大家。 各位可以仔细看下这封开发信。 一封好的开发信,要包含下面一些个要点: 1. 尽可能的简单,不要太长,一般3-8句话就可以了,太长客户…

ChatGPT背后的指令学习是什么?PSU最新首篇《指令学习》技术全面综述,详述指令学习关键问题

来源: 专知 任务语义可以用一组输入到输出的例子或一条文本指令来表示。传统的自然语言处理(NLP)机器学习方法主要依赖于大规模特定任务样本集的可用性。出现了两个问题: 首先,收集特定于任务的标记示例,不适用于任务可能太复杂或太昂贵而无法注释&#…

使用Python机器学习预测足球比赛结果:第一篇 数据采集 (下)

利物浦7比0狂胜曼联,这个锅不能再让C罗背了吧。预测足球比分有什么好方法吗? 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 探索足球结果和赔率的 Python 项目。 那么,让我们按照我所遵循的步骤进行&a…

cas latex模板参考文献APA等引用格式(Elsevier期刊)

目录 一、在模板中引入需要的 .bst 文件,每个文件都是一种参考文献的格式 二、模板中引入.bst 文件的格式 三、在 \documentclass 之后,\begin{document} 之前,引入 natbib 包 四、在文章正文中引用参考文献 例如:期待的参考文献格…

作为测试人员,我们该如何看待AI

前几天看到一篇文章讨论从测试人员的角度去理解AI的,稍微翻译了一下。原文地址https://stevethedoc.wordpress.com/2023/06/18/how-should-we-view-ai-as-testers 上周三和周四,我有幸与我的两位同事Sushmitha Sivan和Bhavana Akula一起参加了伦敦的AI峰…

【Ai工具合集,一定有你需要的!】

花费了一天的时间测试了市面上各大Ai工具,然后帮大家整理总结出来了这些工具,一定记得点赞收藏保存,后面肯定会用到! 使用说明 1.部分Ai工具需要魔法上网,请自行解决;部分工具需要收费,可以尝…

把 ChatGPT 加入 Flutter 开发,会有怎样的体验?

前言 ChatGPT 最近一直都处于技术圈的讨论焦点。它除了可作为普通用户的日常 AI 助手,还可以帮助开发者加速开发进度。声网社区的一位开发者"小猿"就基于 ChatGPT 做了一场实验。仅 40 分钟就实现了一个互动直播 Demo。他是怎么做的呢?他将整个…

加入Beezy GPT-4体验官俱乐部,成为高级AI功能“领航员”

目前,Beezy已率先接入GPT-4 API ,无需科学上网,为您带来简单好用的智能体验。 GPT-4 VS GPT-3.5 一、优点 GPT-4和 GPT-3.5语言模型在前沿技术的推动下,都具备了相当出色的自然语言生成能力。相较于GPT-3.5, GPT-4 实现…

迎来新兴市场数字化转型红利,雅乐科技潇洒画出“向上曲线”

3月14日,“中东小腾讯”雅乐科技公布了最新一季财报。财报显示,雅乐科技2022年第四季度,营收7510万美元,同比增长11.2%;净利润为1660万美元,净利润率22.1%;2022年全年营收3.036亿美元&#xff0…

梦幻西游手游排队显示服务器已满,梦幻西游手游排队进不去 一直排队解决方法...

今天小编为大家带来了梦幻西游手游排队进不去 一直排队解决方法,感兴趣的朋友们可以跟着小编去下文了解一下哦! 梦幻西游手游排队进不去,一直排队怎么办?游戏新开服,总是会有一堆服务器排队问题,那么梦幻西…

梦幻西游单机架设教程-端游篇

准备工具: GGE 服务端 客户端 服务器 源码 废话不多说教程开始 我们打开GEE双击打开ggemain.exe这个程序 程序打开之后点击右上角文件设置 关联lua文件和关联项目文件后保存 打开服务端找到服务端. sublime-projectl打开把127.0.0.1改成我们服务器的ip 5、把默认端口…

好玩的免费GM游戏整理汇总

前言 我所有架设的游戏发布和更新都会实时整理到本文 https://echeverra.cn/h5game ,建议收藏。 游戏全部免费带GM后台(可以免费充值发送游戏道具),且长期维护,其中大天使之剑和梦幻西游我会一直一直维护下去。 有人…

【手游服务端】梦幻西游十五门派端+教程+GM物品后台

下载链接:https://pan.baidu.com/s/1ds_xFq1Rd1_xC4515BRGXw 提取码:soho 【手游服务端】梦幻西游十五门派端教程GM物品后台

最新亲测转转交易猫闲鱼后台源码

教程:修改数据库账号密码直接使用。 下载程序:https://pan.baidu.com/s/16lN3gvRIZm7pqhvVMYYecQ?pwd6zw3

微信聊天记录导出工具WeChatExporter开源啦!

【2019年08月21日更新】 距离第一次发布软件已经有了许多新功能和稳定性上的提升,本文的一些内容已经过时,欢迎直接到GitHub上看ReadMe:https://github.com/tsycnh/WeChatExporter 之前曾经写过一个导出微信聊天记录的工具,偶尔自…

闲鱼跳转app源码+后台管理

教程:修改数据库账号密码直接使用。 源码带有教程! 下载程序:https://pan.baidu.com/s/16lN3gvRIZm7pqhvVMYYecQ?pwd6zw3