隐语隐私计算实训营「数据分析」第 5 课:隐语PSI介绍及开发实践

深入理解隐语(SecretFlow)中的PSI技术

隐私集合求交(Private Set Intersection, PSI)是隐私计算中的一个重要技术,它允许多方在不泄露自己数据的前提下找出共同的数据交集。在本文中,我们将深入探讨SecretFlow(隐语)中PSI的实现和应用。

PSI的基本概念

PSI是一种特殊的安全多方计算(MPC)协议。假设Alice持有数据集X,Bob持有数据集Y,通过PSI协议,他们可以计算出X∩Y,而不泄露交集之外的任何信息。

(图片在原pdf文档的第4页)

PSI可以分为以下几类:

  • 2方PSI / 多方PSI
  • 平衡PSI / 不平衡PSI
  • 半诚实模型PSI / 恶意模型PSI
  • 带计算的PSI:如PSI-CA(基数)、PSI-Payload分析、Circuit PSI等

SecretFlow中的PSI实现

在这里插入图片描述

SecretFlow实现了多种PSI协议,主要包括:

  1. ECDH-PSI
  2. KKRT16 PSI
  3. BC22 (PCG-PSI)
  4. EC-OPRF PSI (不平衡PSI)
  5. DP-PSI
  6. ECDH 3方PSI(可扩展到多方)
  7. Mini-PSI(适合小数据集)

ECDH-PSI

ECDH-PSI是一个简单易懂、易于实现的协议。它具有最佳的通信成本,但计算成本较高。ECDH-PSI易于扩展,可以修改为计算交集大小(PSI-CA)。

SecretFlow的ECDH-PSI实现支持25519和FourQ曲线,并增加了Intel-crypto multi-buffer支持以提升性能。同时,为了满足国内合规需求,还增加了SM2曲线支持。
在这里插入图片描述

KKRT16 PSI

KKRT16是一个基于不经意传输(OT)扩展的PSI协议。它的主要优点是运行速度快,但缺点是内存占用大、通信量大。

SecretFlow对KKRT16做了多项优化:

  • 使用Bit Matrix Transpose提高性能
  • 采用Pipeline/Vector AES加速
  • 使用无存储的CuckooHash

(图片在原pdf文档的第9页)

BC22 PCG-PSI

BC22是基于伪随机相关生成器(PCG)的PSI协议。它在通信量和运行时间上都有优势。

SecretFlow的实现采用了(3,2)广义CuckooHash,并使用了emp-zk中的WYKW21 Wolverine方案作为VOLE实现。

(图片在原pdf文档的第12页)

PSI在SecretFlow中的架构

SecretFlow对PSI进行了多层封装,以提供易用的接口:

  1. 底层: 各种PSI协议的核心实现
  2. 操作符层: 提供统一接口,便于接入工程化封装
  3. 内存PSI层: 提供算法内核级的性能和统一易用的接口
  4. 分桶PSI层: 支持海量数据,覆盖生产级全流程

(图片在原pdf文档的第18页)

【课程作业】使用 SecretFlow进行PSI

实训平台教程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

PSI 作业内容

将 payment.csv 和 record.csv, 求交键为 uid, 两份文件交集大小为?

创建节点

在这里插入图片描述

文件准备

在这里插入图片描述

notebook运行
初始化 SecretFlow

alice 和 bob 节点都需要初始化 secretflow。首先在两个节点分别选取一个可以被对方访问的地址,注意,端口号要选取未被占用的端口
在这里插入图片描述

import secretflow as sf
import spu
import osnetwork_conf = {"parties": {"alice": {"address": "172.16.0.6:8000",},"bob": {"address": "172.16.0.15:8000",},},
}party = os.getenv("SELF_PARTY", "alice")
sf.shutdown()
sf.init(address="127.0.0.1:6379",cluster_config={**network_conf, "self_party": party},log_to_driver=True,
)
初始化 SPU
  1. alice 的 address 请填写可以被 bob 访通的地址,并且选择一个未被占用的端口注意不要和 Ray 端口冲突
  2. alice 的 listen_addr 可以和 alice address 里的端口一样。
  3. bob 的 address 请填写可以被 alice 访通的地址,并且选择一个未被占用的端口注意不要和 Ray 端口冲突
  4. bob 的 listen_addr 可以和 bob address 里的端口一样。
    在这里插入图片描述
alice, bob = sf.PYU("alice"), sf.PYU("bob")
spu_conf = {"nodes": [{"party": "alice","address": "172.16.0.6:8001","listen_addr": "172.16.0.6:8001",},{"party": "bob","address": "172.16.0.15:8001","listen_addr": "172.16.0.15:8001",},],"runtime_config": {"protocol": spu.spu_pb2.SEMI2K,"field": spu.spu_pb2.FM128,"sigmoid_mode": spu.spu_pb2.RuntimeConfig.SIGMOID_REAL,},
}
spu = sf.SPU(cluster_def=spu_conf)
隐私求交

SecretFlow 提供 psi_csv 函数, psi_csv 将 csv 文件作为输入,并在求交后生成 csv 文件。默认协议为 KKRT

psi_csv(key: str | List[str],input_path: str,output_path: str,receiver: str,protocol="KKRT_PSI_2PC",precheck_input=True,sort=True,broadcast_result=True,bucket_size=1048576,curve_type="CURVE_25519",preprocess_path=None,ecdh_secret_key_path=None,dppsi_bob_sub_sampling=0.9,dppsi_epsilon=3,progress_callbacks: Callable[[str, ProgressData], None] | None = None,callbacks_interval_ms: int = 5000,ic_mode: bool = False,
)
current_dir = os.getcwd()input_path = {alice: f"{current_dir}/payment.csv",bob: f"{current_dir}/record.csv",
}
output_path = {alice: f"{current_dir}/payment_output.csv",bob: f"{current_dir}/record_output.csv",
}
spu.psi_csv("uid", input_path, output_path, "alice")

在这里插入图片描述

未来展望

SecretFlow团队对PSI技术有着雄心勃勃的计划:

  1. 协议开发: 实现更多先进的PSI协议,如RS22 Blazing Fast、Circuit PSI、多方PSI和恶意模型PSI等。
  2. 调用框架优化: 开发独立的PSI代码库,优化入口函数和参数,改进协议封装架构。
  3. 产品化: 实现轻量化部署,开发算法原理可视化工具。

(图片在原pdf文档的第29页)

通过不断创新和优化,SecretFlow致力于为用户提供更高效、更安全的PSI解决方案,推动隐私计算技术的发展与应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/404559.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙内核源码分析(时钟任务篇)

时钟概念 时间是非常重要的概念,我们整个学生阶段有个东西很重要,就是校园铃声. 它控制着上课,下课,吃饭,睡觉的节奏.没有它学校的管理就乱套了,老师拖课想拖多久就多久,那可不行,下课铃声一响就是在告诉老师时间到了,该停止了让学生HAPPY去了. 操作系统也一样&…

php源码编译与初始化

1 php源码编译 解压 yum install -y bzip2 # 安装解压工具 tar -xf php-7.4.12.tar.bz2 # 解压文件./condigure ./configure --prefix/usr/local/php --with-config-file-path/usr/local/php/etc --enable-fpm --with-fpm-usernginx --with-fpm-groupnginx --with-curl --wi…

线程面试题

1.JDK自带的线程池有哪些? 2.线程池中核心线程数与最大线程数与缓冲任务队列的关系? 先使用核心线程执行任务。 当核心线程不足时,新任务入队列等待。 当队列满且线程数未达最大值时,增加非核心线程执行任务。 当队列满且线程…

Leetcode每日刷题之209.长度最小的子数组(C++)

1.题目解析 根据题目我们知道所给的数组均是正整数,我们需要找到的是该数组的子数组,使其子数组内所有元素之和大于或等于给出的目标数字target,然后返回其长度,最终找出所以满足条件的子数组,并且要返回长度最小的子数…

网络硬盘录像机NVR程序源码海思3520D NVR 安防监控智能升级运用方案

随着安防技术的不断发展,传统的监控系统正逐步向智能化方向转变。海思Hi3520D作为一款高性能的网络视频处理芯片,在NVR(网络视频录像机)领域有着广泛的应用。本方案旨在探讨如何利用海思Hi3520D芯片的强大功能对现有的NVR系统进行…

vue2使用天地图

需求:用vue2使用天地图展示对应点位数据以及开发中出现的问题等,其实天地图的写法和百度地图差不多 注意!!!天地图的接口不稳定,时常报错418,官网也是一样的情况,推荐还是使用百度或…

C++:C/C++的内存管理

目录 C/C内存分布 C语言中动态内存管理方式 C内存管理方式 new/delete操作内置类型 new/delete操作自定义类型 operator new与operator delete函数 new和delete的实现原理 定位new表达式 常见问题 malloc/free和new/delete的区别 内存泄漏 C/C内存分布 我们先来看以…

【机器学习】(基础篇七) —— 神经网络

神经网络 神经网络是一种模仿人脑神经元结构的计算模型,用于处理复杂的数据模式识别和预测问题。它由大量简单的处理单元(称为“神经元”或“节点”)组成,这些单元通过连接权重相互连接。神经网络可以学习从输入数据到输出结果之…

GitLab Merge Request流水线

GitLab Merge Request 流程文档 为了提升代码质量,让开发人员参与代码review,现在输出Merge Request的流程文档: 1.项目创建各自开发者的分支,命名规则是dev_名字首字母,比如我是dev_cwq.然后把本地分支推到远端orgin…

2024.8.19 学习记录 —— 作业

一、TCP机械臂测试 #include <myhead.h>#define SER_PORT 8888 // 与服务器保持一致 #define SER_IP "192.168.0.114" // 服务器ip地址int main(int argc, const char *argv[]) {// 创建文件描述符打开键盘文件int fd open("/dev/input/event1…

【数学建模】趣味数模问题——舰艇追击问题

问题描述 某缉私舰位于走私船以东 d 10 km&#xff0c;走私船以匀速 u 8 km/h 向北沿直线行驶。缉私舰立即以速度 v 12 km/h 追赶。缉私舰使用雷达进行跟踪&#xff0c;保持瞬时速度方向始终指向走私船。求解缉私舰的追逐路线和追上走私船所需的时间。 方法 理论求解&…

NIO中的异步—ChannelFuture、CloseFuture以及异步提升在NIO中的应用

ChannelFuture 客户端调用connect后返回值为ChannelFuture对象&#xff0c;我们可以利用ChannelFuture中的channel()方法获取到Channel对象。 由于上述代为为客户端实现&#xff0c;若想启动客户端实现连接操作&#xff0c;必须编写服务端代码&#xff0c;实现如下&#xff1a;…

python中的randint如何使用

python中的randint用来生成随机数&#xff0c;在使用randint之前&#xff0c;需要调用random库。random.randint()是随机生成指定范围内的整数&#xff0c;其有两个参数&#xff0c;一个是范围上限&#xff0c;一个是范围下限。 具体用法如下&#xff1a; import random print…

USB3.2 摘录(四)

系列文章目录 USB3.2 摘录&#xff08;一&#xff09; USB3.2 摘录&#xff08;二&#xff09; USB3.2 摘录&#xff08;三&#xff09; USB3.2 摘录&#xff08;四&#xff09; 文章目录 系列文章目录8 协议层&#xff08;Protocol Layer&#xff09;8.8 三个参数地址信息&…

苍穹外卖项目DAY07

苍穹外卖项目Day07 1、缓存菜品 1.1、问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得&#xff0c;如果用户端访问量比较大&#xff0c;数据库访问压力随之增大 1.2、实现思路 通过Redis来缓存菜品的数据&#xff0c;减少数据库查询操作 缓存逻辑分析&#xff…

未来视界,触手可及:揭秘数字透明屏的奇幻之旅

在这个日新月异的科技时代&#xff0c;每一项创新都如同星辰般璀璨&#xff0c;引领着我们向更加智能、更加梦幻的未来迈进。今天&#xff0c;就让我们一起揭开一项颠覆传统视觉体验的前沿科技——数字透明屏的神秘面纱&#xff0c;探索它如何将未来视界&#xff0c;化为触手可…

IDEA:如何在idea中设置自动导包

这里使用的是idea2020版本,但是不同版本操作不会有较大的差别. 在Editer中展开General之后,选中Auto Import,最后勾选中Add unambiguous imports on the fly.

微信视频号评论如何快速采集?三种高效实用的方法

本文将深入探讨如何高效地采集微信视频号评论&#xff0c;通过揭秘三种实用方法&#xff0c;助您迅速掌握这一营销利器。从自动化工具到智能策略&#xff0c;每一步都旨在提升您的市场分析效率&#xff0c;让您在竞争激烈的社交媒体领域中脱颖而出。 一、引言&#xff1a;为何…

探索顶级PDF水印API:PDFBlocks(2024年更新)

引言 在一个敏感信息常常面临风险的时代&#xff0c;能够轻松高效地保护文档的能力至关重要。PDF水印已成为企业和个人寻求保护其知识产权、确保文件保密性的基本工具。 PDFBlocks 文字水印 API是什么&#xff1f; PDFBlocks API 提供了一个强大的解决方案&#xff0c;用于在…

day06——前后端交互

一、计算属性 计算属性就是基于现有的数据推算出来的新属性&#xff0c;只要依赖的数据变化&#xff0c;新属性就会自动更新&#xff0c;而且计算属性多次调用的情况下只会计算一次&#xff0c;效率非常高 简化写法 const app new Vue({ el: #app, data: {}, methods: {//跟da…