【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (4) - 使用Azure Key Vault 管理ADB Secret

前言

DataBricks Unity Catalog(UC)是一个统一的对数据资产治理的解决方案。它对所有数资产进行集中管理,搭配一系列数据治理框架和扩展的审计功能。
还有一种描述:UC 是对data lake上的数据展示进行细粒度数据治理的解决方案。它帮助简化安全性,同时对数据治理提供一个集中区域进行统一的控制访问和审计访问。

出现的原因

Databricks已经成为很普遍的数据平台,用于存储和处理数据,在满足这种功能性之后,需要考虑现今流行的一些方向:发现和治理。

组件

UC 目前由4大部分组成:Data discovery, Governance, Lineage 和Sharing。

Data discovery

通过搜索界面,可以对元数据进行结构化组织。通过对登陆用户的授权,确保搜索功能在元数据层面的安全性。

Data Governance

UC 被设计为对所有数据资产如文件,表,试图,dashboard等都可以通过一个中央存储库来完成搜索和发现。借助data governance 框架和扩展的审计日志,把所有对数据存储的操作存放在Databricks 帐户中。

Data Lineage

数据血缘在近几年出现得越来越频繁,也意味着越来越重要,它提供了企业数据流的关键信息,通过检查数据血缘,可以减少后续低质量数据的流入, 保证企业数据的质量。
想象一个场景,当一个数据表中的列,是由多个数据源的数据组合而成,那么使用UC 里面的数据血缘就可以可视化展现这个数据流。

Data Sharing

过去的数据共享缺乏足够的监控,通过UC 内置的数据共享可以控制数据的流出和使用规范。这个功能也支持多平台,不同的云之间进行数据共享。
它是一个协议,为了安全地共享数据给其他组织,并且不需要在意这些组织使用什么平台而开发的。

UC 架构

从官网的架构图可以看出UC的对象模型使用了3级命名空间来满足不同类型的数据资产。
所有存储在UC 中内容都被称为“对象(Object)” 。一旦这些内容变成了对象,就可以通过选择性访问(Selective Access)来控制对象。
在这里插入图片描述
一个UC 可以链接到多个ADB workspace, 如下图。

在这里插入图片描述

元存储

首先是元存储(Metastore),是一个特定云平台的数据目录,它通过添加一层抽象层使得用户可以更好地对数据资产分类。元存储作为一个数据资产的容器。ADB 的元存储是建立在Azure的存储帐户上。

大部分的信息如数据血缘中的查询,工作流等都存储在元存储中,不过审计日志(Audit log)则不同,它需要存储在其他地方以免元存储被删除后审计日志丢失。审计日志收集所有跟UC有关的时间如建、删、改元存储中的所有组件,包括元存储本身。

  • Metastore 是一个“数据库”,保存着关于数据的元数据,比如表的schema, 数据相关文件的实际存储路径,文件格式等。
  • 它需要手动创建。
  • Metastore因为有集中metastore 层,可以在多个ADB workspace里面共享。
  • 数据本身,数据血缘,审计日志和其他关于数据得一切都被收集和存储在元存储中。

User management

如果一个项目中,用户,组和Service Principle有权限访问特定的workspace,可以把这些对象“导入”到UC 的User Management 中。 每当这些对象要访问workspace的数据时,Workspace会先跟UC 校验这些对象是否有特定数据的访问权限。当“Authentication”(有没有访问权限) 和“Authorization”(进入后有什么权限)都校验成功后这些对象就可以正常访问允许的数据。

在这里插入图片描述

小结

简单来说,UC 是一个统一的数据治理解决方案。它通过集中控制数据访问, 细粒度权限控制,自动化负载的血缘,跨组织的数据共享来保证Databricks中的数据资产得到控制和治理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/238751.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索FTP:原理、实践与安全优化

引言 在正式开始讲解之前,首先来了解一下文件存储的类型有哪些。 DAS、SAN和NAS是三种不同的存储架构,分别用于解决不同场景下的数据存储需求。 DAS (Direct Attached Storage 直接附加存储):DAS 是指将存储设备(如硬盘&#x…

如何在电脑上建立待办事项列表,高效管理每日待办事项?

很多人在日常工作中都面临着诸多待办的任务,确保这些任务按时、高效地完成对工作效率至关重要。想象一下:你是一名项目经理,每天需要跟进各个项目的进展情况,安排会议、协调团队工作、处理突发问题等,这些需要严格按时…

分布式架构理论:从头梳理分布式架构的重难点

文章目录 一、分布式架构 - 系统理论1、分布式一致性与CAP理论2、BASE理论3、分布式一致性算法:Raft(1)Paxos算法(2)Raft算法(3)共识算法:拜占庭将军问题 4、脑裂现象和Lease机制&am…

【ceph】在虚拟环境中需要给osd所在的虚拟盘扩容操作

本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8…

Java_线程通信

一、线程通信 首先,什么是线程通信呢? 当多个线程共同操作共享资源时,线程间通过某种方式互相告知自己的状态,以相互协调,避免无效的资源挣抢。 线程通信的常见模式:是生产者与消费者模型 生产者线程负…

Vue 中修改 Element 组件的 下拉菜单(Dropdown) 的样式

Vue 中修改 Element 组件的 下拉菜单(Dropdown) 的样式 今天在项目中碰到一个 UI 改造的需求,需要根据设计图把页面升级成 UI 设计师提供的设计图样式。 到最后页面改造完了,但是 UI 提供的下拉菜单样式全部是黑色半透明的,只能硬着头皮改了。…

【LeetCode】组合两个表(mysql)

题目 编写解决方案,报告 Person 表中每个人的姓、名、城市和州。如果 personId 的地址不在 Address 表中,则报告为 null 。 以 任意顺序 返回结果表。 结果格式如下所示。 答 select firstName ,lastName,city,state from Person left join Address …

[渗透测试学习] Hospital - HackTheBox

文章目录 信息搜集getshell提权信息搜集 nmap扫描一下端口 发现8080端口和443端口有http服务 然后发现3389端口是启用了ms-wbt-server服务 在对443端口的扫描没有收获,并且只有邮箱登录界面无法注册 接着看向8080端口,我们随便注册用户登录后发现有文件上传功能 getshell …

git撤销提交到本地的commit

有些时候,当我们提交代码到本地后,突然发现因为某些原因需要撤销提交本地的代码。 就比如我,因为代码写错了分支,已经提交到本地了,而我需要取消,并且还要把代码搞得另外的分支上。 提交前: …

放空一下自我 free

文章目录 放空一下自我 free默认的效果使用易读的参数间隔显示内存状态查看meminfo文件更多信息 放空一下自我 free **free**这个命令在Linux系统监控的工具里面,算是使用的比较多的一个。 使用_man_查看可知,官方含义为: Display amount o…

基于Spring Boot+vue的云上新鲜水果超市商城系统

本云上水果超市是为了提高用户查阅信息的效率和管理人员管理信息的工作效率,可以快速存储大量数据,还有信息检索功能,这大大的满足了用户、员工信息和管理员这三者的需求。操作简单易懂,合理分析各个模块的功能,尽可能…

SpringMVC-异常处理及常用组件

异常处理器 1.基于配置的异常处理 springmvc提供了一个处理控制器方法执行过程中所出现的异常的接口: HandlerExceptionResolver HandlerExceptionResolver接口的实现类有: DefaultHandlerExceptionResolver和SimpleMappingExceptionResolver springmvc提供了自定义的异常处…

实践学习PaddleScience飞桨科学工具包

实践学习PaddleScience飞桨科学工具包 动手实践,在实践中学习!本项目可以在AIStudio平台一键运行!地址:https://aistudio.baidu.com/projectdetail/4278591 本项目第一次执行会报错,再执行一次即可。若碰到莫名其妙的…

C++ | 四、指针、链表

指针 指针用来储存地址定义方式,int *ptr;,使用*来表示所定义的变量是指针取地址符,ptr &a;,通过&来取得一个普通变量的地址,并储存到指针中取值(解引用),想要取得一个指针…

15.鸿蒙HarmonyOS App(JAVA)进度条与圆形进度条

15.鸿蒙HarmonyOS App(JAVA)进度条与圆形进度条 progressBar2.setIndeterminate(true);//设置无限模式,运行查看动态效果 //创建并设置无限模式元素 ShapeElement element new ShapeElement(); element.setBounds(0,0,50,50); element.setRgbColor(new RgbColor(255,0,0)); …

排序——计数排序

文章目录 概念思路绝对映射:相对映射 代码实现特性结果演示 概念 计数排序是一个非基于比较的排序算法,该算法于1954年由 Harold H. Seward 提出。它的优势在于在对一定范围内的整数排序时,它的复杂度为Ο(nk)(其中k是整数的范围…

typora导出html添加目录

typora导出html添加目录 使用方法 首先要从typora导出html文件,之后用记事本编辑器html文件 找到文档最后面,如图: 用文字编辑类工具打开sideBar.txt,复制其中所有内容【内容在下面】 在如上图的位置插入所复制的内容 打开修改…

【深入挖掘Java技术】「源码原理体系」盲点问题解析之HashMap工作原理全揭秘(上)

HashMap工作原理全揭秘 — 核心源码解析 知识盲点概念介绍数据结构数组链表数组VS链表哈希表不同JVM版本HashMap的展现形式 HashMap VS HashTable特性区别对比 hashcodehashCode的作用equals方法和hashcode的关系key为null怎么办执行步骤 核心参数容量探讨负载因子探讨加载因子…

usb个人总结

一、usb工具分析 1、不同的usb抓包工具抓包分析 2、USB抓包分析方式 外接usb分析仪分析 (1)力科usb分析仪 (2)HD-USB12 协议分析仪 (3)沁恒CH552 usb分析仪,软件工具USB2.0 Monitor (4)等等…

PHP留言板实现

完整教程PHP留言板 登陆界面 一个初学者的留言板(登录和注册)_php留言板登录注册-CSDN博客 留言板功能介绍 百度网盘 请输入提取码 进入百度网盘后,输入提取码:knxt,即可下载项目素材和游客访问页面的模板文件。 &…