离线数仓-数据治理

目录

一、前言

1.1 数据治理概念

1.2 数据治理目标

1.3 数据治理要解决的问题

1.3.1 合规性

元数据合规性

数据质量合规性

数据安全合规性

1.3.2 成本

存储资源成本

计算资源成本

二、数据仓库发展阶段

2.1 初始期

2.2 扩张期

2.3 缓慢发展期

2.4 变革期

三、数据治理内容

3.1 元数据治理

3.2 数据质量治理

3.3 数据安全治理 

3.4 计算资源治理

3.5 存储资源治理

四、数据治理总结

4.1 模型合规治理

4.2 数据质量合规治理

4.3 数据安全合规治理

4.4 存储资源治理

4.5 计算资源治理

4.6 数据价值治理

五、数据治理如何推动

六、思考与沉淀


一、前言

1.1 数据治理概念

       数据治理包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。

1.2 数据治理目标

       数据模型合规,数仓内部及下游易用且有保障,提升开发及使用效率,发挥数据价值, 降本增效。最大化数据使用的ROI(投资回报率)

1.3 数据治理要解决的问题

1.3.1 合规性

  • 元数据合规性

       各模型、表,子字段等未按照数据标准规范制作

  • 数据质量合规性

       数据质量问题发生频繁,缺少链路保障

  • 数据安全合规性

      模型、表/字段未做权限管控,被下游随意引用

1.3.2 成本

  • 存储资源成本

      无用数据模型较多,某些表存在不必要存储周期

  • 计算资源成本

      存在无效任务,数据倾斜任务,高读写任务(运行时间长)

   数据治理的实施可以借助云平台,例某商业版的数据治理工作台的功能如下截图:

二、数据仓库发展阶段

2.1 初始期

  • 业务特点:单一、少量的业务模式探索
  • 数据诉求:支持统一数仓内部规范,通过核心数据模型支撑下游应用(数据分析、运营、风控、产品、算法)

2.2 扩张期

  • 业务特点:快速扩张
  • 数据诉求:大量的复合指标,派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等,实现自助查询。

2.3 缓慢发展期

  • 业务特点:稳增长
  • 数据诉求:对原有数据仓库进行治理优化,包括数据质量全链路保障、元数据管理、数据安全等基建的建设,还包括指标体系建设(指标定义、指标口径、指标地图)、计算/存储资源治理等内容。(该阶段可以进行集中化数据治理)

2.4 变革期

  • 业务特点:发现新的机会,精细化运营
  • 数据诉求:快速支持业务创新

三、数据治理内容

3.1 元数据治理

       这里的元数据治理主要介绍数据表合规治理,文章指路:

数仓治理-数据表合规治理-CSDN博客文章浏览阅读808次,点赞19次,收藏22次。数仓治理-数据表合规治理https://blog.csdn.net/SHWAITME/article/details/135749389?spm=1001.2014.3001.5502

3.2 数据质量治理

        数据质量治理文章指路:

数仓治理-数据质量治理-CSDN博客文章浏览阅读936次,点赞27次,收藏29次。数仓数据治理-数据质量治理https://blog.csdn.net/SHWAITME/article/details/135737631?spm=1001.2014.3001.5501

      数据质量文章指路:

数仓-数据质量-CSDN博客文章浏览阅读1k次,点赞19次,收藏15次。数仓-数据质量https://blog.csdn.net/SHWAITME/article/details/135732154?spm=1001.2014.3001.5501

3.3 数据安全治理 

      数据安全治理文章指路:

数仓治理-数据安全治理-CSDN博客文章浏览阅读343次,点赞9次,收藏7次。数仓治理-数据安全治理https://blog.csdn.net/SHWAITME/article/details/135832433?spm=1001.2014.3001.5502     数据安全文章指路:

数仓-数据安全-CSDN博客文章浏览阅读758次,点赞24次,收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502      上述的元数据治理、数质量治理、数据安全治理属于合规治理的范畴。

3.4 计算资源治理

        计算资源治理见文章:

数仓治理-计算资源治理-CSDN博客文章浏览阅读1.1k次,点赞34次,收藏18次。数仓治理-计算资源治理https://blog.csdn.net/SHWAITME/article/details/135760673?spm=1001.2014.3001.5501

3.5 存储资源治理

       存储资源治理见文章:

数仓治理-存储资源治理-CSDN博客文章浏览阅读64次,点赞3次,收藏3次。数仓治理-存储资源治理https://blog.csdn.net/SHWAITME/article/details/136000702?spm=1001.2014.3001.5502

四、数据治理总结

4.1 模型合规治理

  • 数据标准重制定:包括对原来数据域重构,表字段命名体系重构,按照新标准对原来的模型进行合规改造;
  • 元数据信息补充:包括添加元数据owner,对元数据的使用说明,颗粒度声明,主键声明以及字段中文名具体内容等进行完善,便于数仓内部或下游使用;
  • 制度建设:完善模型评审机制,代码提交强审核,保障内容合规后上线;
  • 分层合理性:治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表等;
  • 数据链合理性:重构因快速支撑业务而产生的烟囱模型,消除链条冗长,数据产出耗时长等问题;

4.2 数据质量合规治理

  • 流程化:包括制定任务上线/变更流程,指标变更流程等;
  • dqc管控:对4大基础dqc进行补充,对核心业务模型dqc补充,对经常触发的dqc进行调整(例如:表行数波动等,可借助算法对近7天的dqc波动率进行监测,动态评估阈值;
  • sla及基线治理:上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份的快恢能力;
  • 针对上游问题的数据治理(数据源出现问题):建设数据质量的长期监测体系;

4.3 数据安全合规治理

  • 角色权限管控:对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级,使得在同一个图表中,不同等级的用户查看的数据内容也不一样;
  • 数据脱敏,防止数据泄露;
  • 表/字段分级:对每个表及字段进行打标签,保障每张表都有数据安全管控;
  • 数据权限使用:表/字段走审批流程 ,设置数据使用申请时的卡点负责人/负责组;
  • 其他的数据下载管控:例如:最多下载 1000行/次, 离职数据的风险管控等;

4.4 存储资源治理

  • 设置统一的表/分区的生命周期,对当前表按照新标准进行裁剪,对未分区表进行重制定分区;
  • 长期未引用/被使用/临时的表进行下线处理;
  • 压缩格式优化/存储格式优化
  • 根据业务场景对表的存储重划分:对较大数据量的表,评估是否可以采取全量转增量的存储策略,对用户表可以采取拉链表等;

4.5 计算资源治理

  • 数据倾斜任务治理;
  • 针对消耗大量的cpu/内存的任务进行治理;
  •  无效监控项,重复开发的模型、数据价值低的模型及时下线;
  • 梳理数据链路并对任务调度进行治理;
  • 规划核心任务,分配任务优先级,非核心的任务靠后运行;
  • 小文件治理

4.6 数据价值治理

  • 烟囱数据模型及对应的任务,模型粒度成功的任务及时下线处理;
  • ads公共逻辑下沉到dws,实现逻辑复用;
  • 建立模型价值度量指标,逐步下线低价值的模型;
  • 下线ads层未被下游引用的场景模型(不再支撑具体的业务,没有存在的 意义)

五、数据治理如何推动

  • 跟下游协同配合最重要的是调动他们的积极性,让下游感觉到治理能对他们带来价值
  • 实施奖惩措施,让下游积极参与其中。
  • 和bi一起做治理,可将治理成效的月报/周报发送全技术/业务部门,使他们也能感知到数仓治理的价值。

六、思考与沉淀

代补充~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/251006.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW电能质量监测系统

LabVIEW电能质量监测系统 随着全球能源需求的增加以及能源危机的加剧,对电能的有效利用和质量监控变得越来越重要。特别是在电力系统中,电能质量的监测对于保证电力设备的稳定运行和提高能源利用效率具有重要意义。采用LabVIEW软件开发了一套高效的电能…

查看自己电脑是arm还是x64(x86);linux操作系统识别

1、查看自己电脑是arm还是x64(x86) linux 参考: https://liuweiqing.blog.csdn.net/article/details/131783851 uname -a如果输出是 x86_64,那么你的系统是 64 位的 x86 架构(通常我们称之为 x64)。如果…

MySQL原理(五)事务

一、介绍: 1、介绍: 在计算机术语中,事务(Transaction)是访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。事务是恢复和并发控制的基本单位。 2、事务的4大特性 原子性、一致性、隔离性、持久性。这四个属性通常称为ACID特性…

Zoho Projects与Jira:中国市场的理想替代品之争?

在软件开发生命周期中,项目管理一直是一个非常重要的环节。为了更好地协作、追踪项目的进程和管理任务,许多公司选择了Jira这款著名的项目管理工具,它是个非常强大的工具,但是作为一款纯国外产品,他可能不适合中国市场…

性能篇:如何解决高并发下 I/O瓶颈?

大家好,我是小米!今天我们来聊一个在高并发场景下经常遇到的挑战,那就是I/O瓶颈。随着互联网的快速发展,我们的应用在处理海量数据时,I/O操作成为了一个极为关键的环节。那么,问题来了,什么是I/O呢? 什么是I/O I/O(Input/Output)是计算机系统中一个至关重要的概念,…

canvas设置图形各种混合模式,类似photoshop效果

查看专栏目录 canvas实例应用100专栏,提供canvas的基础知识,高级动画,相关应用扩展等信息。canvas作为html的一部分,是图像图标地图可视化的一个重要的基础,学好了canvas,在其他的一些应用上将会起到非常重…

dubbo+sentinel最简集成实例

说明 在集成seata后,下面来集成sentinel进行服务链路追踪管理~ 背景 sample-front网关服务已配置好 集成 一、启动sentinel.jar 1、官网下载 选择1:在本地启动 nohup java -Dserver.port8082 -Dcsp.sentinel.dashboard.serverlocalhost:8082 -Dp…

QSlider使用笔记

最近做项目使用到QSlider滑动条控件,在使用过的过程中,发现一个问题就是点滑动条上的一个位置,滑块并没有移动到鼠标点击的位置,体验感很差,于是研究了下,让鼠标点击后滑块移动到鼠标点击的位置。 1、event…

记录element-plus树型表格的bug

问题描述 如果数据的子节点命名时children,就没有任何问题,如果后端数据结构子节点是其他名字,比如thisChildList就有bug const tableData [{id: 1,date: 2016-05-02,name: wangxiaohu,address: No. 189, Grove St, Los Angeles,selectedAble: true,th…

2024 IC FPGA 岗位 校招面试记录

引言 各位看到这篇文章时,24届校招招聘已经渐进尾声了。 在这里记录一下自己所有面试(除了时间过短或者没啥干货的一些研究所外,如中电55所(南京),航天804所(上海))的经…

【安装指南】maven下载、安装与配置详细教程

🌼一、概述 maven功能与python的pip类似。 Apache Maven是一个用于软件项目管理和构建的强大工具。它是基于项目对象模型的,用于描述项目的构建配置和依赖关系。以下是一些关键的 Maven 特性和概念: POM(Project Object Model&…

Javaweb之SpringBootWeb案例之 @ConfigurationProperties的详细解析

4.3 ConfigurationProperties 讲解完了yml配置文件之后,最后再来介绍一个注解ConfigurationProperties。在介绍注解之前,我们先来看一个场景,分析下代码当中可能存在的问题: 我们在application.properties或者application.yml中配…

神经网络 | 基于多种神经网络模型的轴承故障检测

Hi,大家好,我是半亩花海。本文主要源自《第二届全国技能大赛智能制造工程技术项目比赛试题(样题) 模块 E 工业大数据与人工智能应用》,基于给出的已知轴承状态的振动信号样本,对数据进行分析,建…

CMake生成osg的FFMPEG插件及Windows下不生成VS工程问题解决

在Windows下,如何利用CMake生成osg的FFMPEG插件,请参考如下博文,同生成jpeg插件类似: osg第三方插件的编译方法(以jpeg插件来讲解)。 如下为生成FFMPEG时必要的设置: 注意: 一定要…

Transformer实战-系列教程3:Vision Transformer 源码解读1

🚩🚩🚩Transformer实战-系列教程总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 1、整体解读 在文本任务中大量使用了Transformer 架构,因为文本数据是一个序列非常好…

Django响应式图像库django-pictures

什么是响应式图像? 响应式设计是指网页在不同尺寸的设备上都有良好的显示效果。响应式设计的网页图像,就是响应式图像。 django-pictures是使用现代代码(如 AVIF 和 WebP)的响应式跨浏览器图像库。 特点 使用 Picture 标签的响应…

QSqlRelationalTableModel 关系表格模型

一、 1.1 QSqlRelationalTableModel继承自QSqlTableModel,并且对其进行了扩展,提供了对外键的支持。一个外键就是一个表中的一个字段 和 其他表中的主键字段之间的一对一的映射。例如,“studInfo”表中的departID字段对应的是“departments…

Spring Boot导出EXCEL 文件

主要功能:实现java导出excel到本地 JDK版本&#xff1a;openJDK 20.0.1 依赖pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchem…

Python 数据分析(PYDA)第三版(一)

原文&#xff1a;wesmckinney.com/book/ 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 关于开放版本 第 3 版的《Python 数据分析》现在作为“开放获取”HTML 版本在此网站wesmckinney.com/book上提供&#xff0c;除了通常的印刷和电子书格式。该版本最初于 2022 年…

OpenSSL:configure: error: OpenSSL library not found解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…