企业级数据共享规模化模式

f3638f244b4c0caa5bd4a7f2e15a2bf8.gif

数据共享正在成为企业数据战略的重要元素。对于公司而言,Amazon Data Exchange 这样的亚马逊云科技服务提供了与其他公司共享增值数据或从这些数据获利的途径。一些企业希望有一个数据共享平台,他们可以在该平台上建立协作和战略方法,在封闭、安全和排外的环境中,与有限的一组公司交换数据。例如,金融服务公司与其审计公司,或制造公司与其供应链合作伙伴。这可以促进新产品和服务的开发,并有助于提高其运营效率。

数据共享是一项团队工作,值得注意的是,在构建合适的基础设施之外,成功的数据共享还需要企业确保业务负责人支持数据共享计划。他们还需要确保提供高质量的数据。数据平台所有者和安全团队应鼓励正确使用数据,并修复任何隐私和保密问题。

本文讨论了各种数据共享选项以及常见架构模式,企业可以采用这些模式,基于亚马逊云服务可用性和数据合规性来设置其数据共享基础设施。

数据共享选项和数据分类类型

企业在运营时受各种安全合规要求的约束。一些企业可以使用像 Amazon Data Exchange 这样的亚马逊云科技服务。但是,一些机构在受严格监管的行业中开展工作,例如联邦机构或金融服务等,他们可能会受到限制,只能使用明示允许的亚马逊云科技服务选项。例如,如果某个企业被要求在 Fedramp Medium 或 Fedramp High 环境中运营,则他们共享数据的选项可能会限制为可用且已明示允许的亚马逊云科技服务。服务可用性基于亚马逊云科技的平台认证,允许列表则基于企业对其安全合规性架构和准则的定义。

企业要与其合作伙伴共享的数据类型,也可能会对用于数据共享的方法产生影响。遵守数据分类规则可能会进一步限制他们能够选择的数据共享选项。

以下是一些常规数据分类类型:

  • 公共数据 – 重要信息,但通常可供人们免费读取、研究、查看和存储。这些数据通常具有最低的数据分类和安全级别。

  • 私有数据– 您可能需要保密的信息,例如电子邮件收件箱、手机中的内容、员工识别号码或员工地址。私有数据如果被共享、销毁或更改,可能会对个人或企业构成轻微的风险。

  • 机密或受限数据– 有限的个人或团体可以访问的敏感信息,通常需要特别许可或特别授权。对机密或受限数据的访问可能涉及身份和授权管理等方面。机密数据的示例包括社会安全号码和车辆识别号。

以下是决策树示例,在根据服务可用性、分类类型和数据格式(结构化或非结构化)选择数据共享选项时,您可以参考该决策树。其他因素,例如可用性、多个合作伙伴可访问性、数据大小、使用模式(批量加载/API 访问)等,也可能会影响数据共享模式的选择。

25b81f6bcfb42398cd5b1ed23cafb842.png

在以下部分中,我们将详细地讨论每个模式。

模式 1:

使用 Amazon Data Exchange

Amazon Data Exchange 简化了数据交换过程,帮助企业降低成本、提高敏捷性并加快创新。企业可以选择使用 Amazon Data Exchange 与外部合作伙伴私密共享数据。Amazon Data Exchange 提供在身份和资源级别应用的边界控制。这些控制措施决定哪些外部身份有权访问特定的数据资源。Amazon Data Exchange 为外部各方访问数据提供了多种不同的模式,例如:

  • Amazon Data Exchange for Amazon Redshift

  • Amazon Data Exchange for Amazon Lake Formation(目前为预览版)

  • 适用于数据 API 的 Amazon Data Exchange

  • 适用于数据文件的 Amazon Data Exchange

  • Amazon Data Exchange for Amazon S3(目前为预览版)

下图展示了一个示例架构。

7fdab7bdc1ddacd1b8f3371890d90a52.png

借助 Amazon Data Exchange,在配置了要共享(或销售)的数据集后,Amazon Data Exchange 就会自动管理创建者和使用者之间的授权(和账单)。创建者不必管理政策、设置新的接入点或为每个使用者创建新的 Amazon Redshift 数据共享,在订阅结束时会自动撤销访问权限。这可以显著减少共享数据的操作开销。

模式 2:

使用 Amazon Lake Formation

进行集中访问管理

在创建者和使用者均使用亚马逊云科技服务,且具有可以使用 Aamazon Lake Formation 的亚马逊云科技账户时,您可以使用这种模式。这种模式提供了一种无需编写代码的数据共享方法。下图展示了一个示例架构。

46bf286f86aa67cef9449cc9c78f889d.png

在这种模式下,中央监管账户配置了 Lake Formation,用于管理创建者企业账户的访问权限。来自生产账户 Amazon Simple Storage Service(Amazon S3)存储桶中资源的链接在 Lake Formation 中创建。创建者将 Amazon Glue Data Catalog 资源上的 Lake Formation 权限授予外部账户,或者直接授予其他账户中的 Amazon Identity and Access Management(IAM)主体。Lake Formation 使用 Amazon Resource Access Manager(Amazon RAM)来共享资源。如果被授予者账户与授予者账户属于同一企业,则可立即向被授予者提供共享资源。如果被授予者账户不属于同一企业,则 Amazon RAM 会向被授予者账户发送邀请,以便其接受或拒绝资源授予。要使共享资源可供使用,被授权者账户中的使用者管理员必须使用 Amazon RAM 控制台或 Amazon 命令行界面(Amazon CLI)接受邀请。

获得授权的主体可以与外部账户中的 IAM 主体明确共享资源。当创建者想要控制外部账户中可以访问其资源的用户时,此功能很有用。IAM 主体获得的权限是直接授予的权限,加上与在账户级授予并向下传递到主体的权限。接收方账户的数据湖管理员可以查看直接的跨账户授权,但无法撤消权限。

模式 3:

从创建者外部共享账户中使用 

Amazon Lake Formation

创建者可能有严格的安全要求,任何外部使用者都不应访问其生产账户或其集中治理账户。他们也可能没有在其生产平台上启用 Lake Formation。在这种情况下,如下图所示,创建者的生产账户(账户 A)专用于其内部企业用户。创建者创建另一个账户,即创建者的外部共享账户(账户 B),专用于外部共享。这使得创建者有更大的自由度,可针对特定企业创建特定策略。

b31f214bd541fc3c93475e7e96371d5a.png

创建者实施了一个流程,在账户 B 中创建数据的异步副本。对于需要共享的对象,可以将存储桶配置为同区域复制(SRR,Same Region Replication)或跨区域复制(CRR,Cross Region Replication)。这可以帮助自动将数据刷新到外部账户的 External Published Datasets(外部已发布数据集)S3 存储桶,而无需编写任何代码。

通过创建数据的副本,创建者可以进一步隔离外部使用者与其生产数据。它还可以帮助满足任何合规性或数据主权要求。

Lake Formation 设置在账户 B 上,管理员为其账户中的 External Published Datasets(外部已发布数据集)S3 存储桶创建资源链接,用以授予访问权限。管理员按照前述的相同过程授予访问权限。

模式 4:

使用 Amazon Redshift 数据共享

这种模式非常适合主要在 Amazon Redshift 上发布数据产品的创建者。这种模式还要求创建者的外部共享账户(账户 B)和使用者账户(账户 C)均具有加密的 Amazon Redshift 集群或 Amazon Redshift Serverless 端点,并且它们满足 Amazon Redshift 数据共享先决条件。

以下架构图显示了模式概览。

f77dba286eccd439cbf6c78ed60ca34d.png

根据创建者的合规性限制,可以有两种选择:

  • 选项 A– 创建者直接在生产 Amazon Redshift 集群上启用共享数据。

  • 选项 B – 创建者可能会在共享生产集群方面进行限制。创建者创建一个简单的 Amazon Glue 作业,从生产账户 A 的 Amazon Redshift 集群中,将数据复制到外部账户 B 的 Amazon Redshift 集群。此 Amazon Glue 作业可以根据使用者的需要安排刷新数据。当账户 B 中有数据时,创建者可以根据需要创建多个视图和多个数据共享。

在这两个选项中,创建者可以完全控制共享哪些数据,而使用者管理员则完全控制其企业中的哪些用户可以访问数据。

在创建者和使用者管理员都批准了数据共享请求后,使用者用户可以访问这些数据,就好像这些数据存在于自己的账户中一样,无需编写任何额外的代码。

模式 5:

使用 API 安全私密地共享数据

当外部合作伙伴没有使用任何亚马逊云科技服务时,您可以采用这种模式。如果已发布的数据产品分布在多种服务上(例如,Amazon S3、Amazon Redshift、Amazon DynamoDB 和 Amazon OpenSearch Service),而创建者希望保持单一的数据共享接口时,您也可以使用此模式。

这种使用场景示例如下:A 公司希望与其合作伙伴公司 B 近乎实时地共享一些日志数据,B 公司使用这些数据为 A 公司生成预测洞察。A 公司将这些数据存储在 Amazon Redshift 中。A 公司希望首先遮蔽个人身份信息(PII),然后再与合作伙伴分享事务数据,以经济实惠且安全的方式来生成洞察。B 公司不使用亚马逊云科技服务。

A 公司使用 Amazon Lambda 函数或 Amazon Glue 建立小型批处理流程,该流程查询 Amazon Redshift 以获取增量日志数据,应用规则来遮蔽 PII,并将这些数据加载到 Published Datasets(已发布数据集)S3 存储桶。这将实例化 SRR/CRR 进程,该进程刷新 External Sharing(外部共享)S3 存储桶中的这些数据。

下图显示了使用者随后如何通过基于 API 的方法来访问这些数据。

c9d97cc5b3cb75178f01881c6b2fb1d8.png

该工作流包含以下步骤:

  1. API 使用者发送 HTTPS API 请求到 API 代理层。

  2. API 代理将 HTTPS API 请求转发到外部共享亚马逊云科技账户中的 Amazon API Gateway。

  3. Amazon API Gateway 调用请求接收方 Amazon Lambda 函数。

  4. 请求接收方函数将状态写入 DynamoDB 控制表。

  5. 第二个 Lambda 函数是轮询器,用于在 DynamoDB 表中检查结果的状态。

  6. 轮询器函数从 Amazon S3 提取结果。

  7. 轮询器函数通过 Amazon Simple Email Service(Amazon SES),向请求方发送预签名 URL,以便从 S3 存储桶中下载文件。

  8. 请求方使用该 URL 下载文件。

  9. 网络边界亚马逊云科技账户仅允许传出互联网连接。

  10. 在流量传出创建者的网络边界之前,API 代理层会强制执行传出安全控制和边界防火墙。

  11. Amazon Transit Gateway 安全传出 VPC 路由表仅允许从所需的创建者子网进行连接,同时防止互联网访问。

模式 6:

使用 Amazon S3 接入点。

数据科学家可能需要合作处理图像、视频和文本文档。法律和审计团队可能需要与审计机构共享报告和报表。本模式讨论了共享此类文档的方法。本模式假设外部合作伙伴也在使用亚马逊云科技。Amazon S3 接入点让创建者可以设置跨账户存取,从而与其使用者共享访问权限,而无需编辑存储桶策略。

接入点是附加到存储桶的指定网络端点,可用于执行 S3 对象操作,例如 GetObject 和 PutObject。每个接入点都有不同的权限和网络控制,Amazon S3 对通过该接入点执行的任意请求应用这些权限和网络控制。每个接入点都会强制执行自定义的接入点策略,该策略与附加到底层存储桶的存储桶策略结合在一起使用。

以下架构图显示了模式概览。

800c7719e8af49e87f49284f7232be46.png

创建者创建 S3 存储桶并启用访问点的使用。作为配置的一部分,创建者为使用者指定使用者、IAM 角色和权限。

在使用者账户中具有 IAM 角色的使用者用户可以通过互联网访问 S3 存储桶,也可以通过 VPC 端点和 Amazon PrivateLink,仅限通过 Amazon VPC 进行访问。

总结

每家企业都有一套独特的限制和要求,而建立有效的数据共享解决方案需要满足这些条件。在这篇文章中,我们展示了可供企业使用的各种选项和最佳实践。数据平台所有者和安全团队应携手合作,评测哪种方法最适合您的具体情况。亚马逊云科技账户团队也可以提供帮助。

相关资源

有关相关主题的更多信息,请参阅以下内容:

  • 亚马逊云科技上的数据边界

    https://aws.amazon.com/identity/data-perimeters-on-aws/

  • Amazon Data Exchange

    https://aws.amazon.com/data-exchange/

  • 使用 Amazon Lake Formation 在亚马逊云科技账户之间安全共享数据

    https://aws.amazon.com/blogs/big-data/securely-share-your-data-across-aws-accounts-using-aws-lake-formation/

  • 在 Amazon Redshift 中跨集群共享数据

    https://docs.aws.amazon.com/redshift/latest/dg/datashare-overview.html

  • 使用 S3 接入点设置跨账户 Amazon S3 访问

    https://aws.amazon.com/blogs/storage/setting-up-cross-account-amazon-s3-access-with-s3-access-points/

Original URL: 

https://aws.amazon.com/blogs/big-data/patterns-for-enterprise-data-sharing-at-scale/

本篇作者

361a34d40fc60569afb4a63af7bd5900.jpeg

Venkata Sistla

亚马逊云科技的云架构师,侧重于数据与分析。他擅长构建数据处理功能,帮助客户消除阻碍他们利用数据获得业务洞察的约束。

19c51187ca848936f258bb36884ecdaf.png

Santosh Chiplunkar

亚马逊云科技的首席驻场架构师。他在帮助客户解决数据挑战方面拥有20多年的经验。他帮助客户制定数据和分析策略,并为他们提供如何实现策略的指导。

5d05445f9f330146ed06f1602dea8c56.gif

37b46b6310eb8f58f0afe190ada9ba9a.gif

听说,点完下面4个按钮

就不会碰到bug了!

1fce74a7a78c0c51ed69592a2ae85d7a.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/115599.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

联邦学习FedAvg-基于去中心化数据的深度网络高效通信学习

随着计算机算力的提升,机器学习作为海量数据的分析处理技术,已经广泛服务于人类社会。 然而,机器学习技术的发展过程中面临两大挑战:一是数据安全难以得到保障,隐私泄露问题亟待解决;二是网络安全隔离和行业…

使用飞桨实现的第一个AI项目——波士顿的房价预测

part1.首先引入相应的函数库: 值得说明的地方: (1)首先,numpy是一个python库,主要用于提供线性代数中的矩阵或者多维数组的运算函数,利用import numpy as np引入numpy,并将np作为它的别名 part…

linux字符串处理

目录 1. C 截取字符串,截取两个子串中间的字符串linux串口AT指令 2. 获取该字符串后面的字符串用 strstr() 函数查找需要提取的特定字符串,然后通过指针运算获取该字符串后面的字符串用 strtok() 函数分割字符串,找到需要提取的特定字符串后,…

如何在小程序中给会员设置备注

给会员设置备注是一项非常有用的功能,它可以帮助商家更好地管理和了解自己的会员。下面是一个简单的教程,告诉商家如何在小程序中给会员设置备注。 1. 找到指定的会员卡。在管理员后台->会员管理处,找到需要设置备注的会员卡。也支持对会…

宠物赛道,用AI定制宠物头像搞钱项目教程

今天给大家介绍一个非常有趣,而粉丝价值又极高,用AI去定制宠物头像或合照的AI项目。 接触过宠物行业应该知道,获取1位铲屎官到私域,这类用户的价值是极高的,一个宠物粉,是连铲个屎都要花钱的,每…

USRP 简介,对于NI软件无线电你所需要了解的一切

什么是 USRP 通用软件无线电外设( USRP ) 是由 Ettus Research 及其母公司National Instruments设计和销售的一系列软件定义无线电。USRP 产品系列由Matt Ettus领导的团队开发,被研究实验室、大学和业余爱好者广泛使用。 大多数 USRP 通过以太网线连接到主机&…

本地部署 Stable Diffusion(Mac 系统)

在 Mac 系统本地部署 Stable Diffusion 与在 Windows 系统下本地部署的方法本质上是差不多的。 一、安装 Homebrew Homebrew 是一个流行的 macOS (或 Linux)软件包管理器,用于自动下载、编译和安装各种命令行工具和应用程序。有关说明请访问官…

【分享】PDF如何拆分成2个或多个文件呢?

当我们需要把一个多页的PDF文件拆分成2个或多个独立的PDF文件,可以怎么操作呢?这种情况需要使用相关工具,下面小编就来分享两个常用的工具。 1. PDF编辑器 PDF编辑器不仅可以用来编辑PDF文件,还具备多种功能,拆分PDF文…

GPT-4.0技术大比拼:New Bing与ChatGPT,哪个更适合你

随着GPT-4.0技术的普及和发展,越来越多的平台开始将其应用于各种场景。New Bing已经成功接入GPT-4.0,并将其融入搜索和问答等功能。同样,在ChatGPT官网上,用户只需开通Plus账号,即可体验到GPT-4.0带来的智能交流和信息…

使用flink sqlserver cdc 同步数据到StarRocks

前沿: flink cdc功能越发强大,支持的数据源也越多,本篇介绍使用flink cdc实现: sqlserver-》(using flink cdc)-〉flink -》(using flink starrocks connector)-〉starrocks整个流程…

小游戏分发平台如何以技术拓流?

2023年,小游戏的发展将受到多方面的影响,例如新技术的引入、参与小游戏的新玩家以及游戏市场的激烈竞争等。首先,新技术如虚拟现实(VR)、增强现实(AR)和机器人技术都可以带来新颖的游戏体验。其…

嘉泰实业和您共创未来财富生活

每一次暖心的沟通都是一次公益,真诚不会因为它的渺小而被忽略;每一声问候都是一次公益,善意不会因为它的普通而被埋没。熟悉嘉泰实业的人都知道,这家企业不但擅长在金融理财领域里面呼风唤雨,同时也非常擅长在公益事业当中践行,属于企业的责任心,为更多有困难的群体带来大爱的传…

大数据课程K13——Spark的距离度量相似度度量

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Spark的距离度量和相似度度量; ⚪ 掌握Spark的欧氏距离; ⚪ 掌握Spark的曼哈顿距离; ⚪ 掌握Spark的切比雪夫距离; ⚪ 掌握Spark的最小二乘法; 一、距离度量和相似度度量 1. …

打磨 8 个月、功能全面升级,Milvus 2.3.0 文字发布会现在开始!

Milvus 社区的各位伙伴: 大家晚上好!欢迎来到 Milvus 2.3.0 文字发布会! 作为整个团队的匠心之作,Milvus 2.3.0 历经 8 个月的设计与打磨,无论在新功能、应用场景还是可靠度方面都有不小的提升。 具体来看:…

UG\NX CAM二次开发 插入工序 UF_OPER_create

文章作者:代工 来源网站:NX CAM二次开发专栏 简介: UG\NX CAM二次开发 插入工序 UF_OPER_create 效果: 代码: void MyClass::do_it() {tag_t setup_tag=NULL_TAG;UF_SETUP_ask_setup(&setup_tag);if (setup_tag==NULL_TAG){uc1601("请先初始化加工环境…

【Ubuntu】解决ubuntu虚拟机和物理机之间复制粘贴问题(无需桌面工具)

解决Ubuntu虚拟机和物理机之间复制粘贴问题 第一步 先删除原来的vmware tools(如果有的话) sudo apt-get autoremove open-vm-tools第二步 安装软件包,一般都是用的desktop版本(如果是server换一下) sudo apt-get …

开源vue动态表单组件

一、项目简介 vueelement的动态表单组件,拖拽组件到面板即可实现一个表单 二、实现功能 支持拖拽 支持输入框 支持文本框 支持数字输入框 支持下拉选择器 支持多选框 支持日期控件 支持开关 支持动态表格 支持上传图片 支持上传文件 支持标签 支持ht…

简单了解网络传输介质

目录 一、同轴电缆 二、双绞线 三、光纤 四、串口电缆 一、同轴电缆 10BASE前面的数字表示传输带宽为10M,由于带宽较低、现在已不再使用。 50Ω同轴电缆主要用来传送基带数字信号,因此也被称作为基带同轴电缆,在局域网中得到了广泛的应用…

基于OFDM的水下图像传输通信系统matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 function [rx_img] func_TR(tx_img, num_path, pathdelays, pathgains, snr) rng(default); …

AI图像行为分析算法 opencv

AI图像行为分析算法通过pythonopencv深度学习框架对现场操作行为进行全程实时分析,AI图像行为分析算法通过人工智能视觉能够准确判断出现场人员的作业行为是否符合SOP流程规定,并对违规操作行为进行自动抓拍告警。OpenCV是一个基于Apache2.0许可&#xf…