数据治理005-血缘关系

数据血缘是元数据产品的核心能力,但数据血缘是典型的看起来很美好但用起来门槛很高的技术,只要你采买过元数据产品就知道了。这篇文章对数据血缘的特征、价值、用途和方法做了系统阐述:
1、特征:归属性、多源性、可追溯及层次性
2、价值:数据价值评估、数据质量评估及数据生命周期管理
3、用途:合规需求、影响分析和质量问题分析、数据安全和隐私、迁移项目及自服务分析
4、方法:自动解析、系统跟踪、机器学习方法及手工的收集
数据血缘获得的方法看,自动解析基本是不靠谱的,机器学习方法还处于设想阶段,手工收集及时性,一致性很差,系统跟踪极大依赖于规范化管理能力和工具的集成能力,但却是我比较认可的方法,要建立数据血缘一定要具体场景导向、小处着手,不要一下子想着搞个血缘全量,凡是理想化的做到最后大多做了个寂寞。

一、什么是数据血缘?

数据血缘的定义

数据血缘(Data Lineage),指的是在数据的产生、ETL处理、加工、融合、流转到最终消亡的过程中,数据之间自然形成的一种类似人类血缘的关联关系。简单来说,就是数据之间的上下游来源去向关系——数据从哪里来,到哪里去。

而在实际数据的运用中,从数据角度厘清数据的血缘关系,即弄清数据存储在什么数据库的什么表,对应的字段是什么以及字段的属性;从业务角度厘清数据的血缘关系,即了解数据所属业务线、业务数据的产生逻辑、数据的使用逻辑以及业务线之间的关联关系。

2. 数据血缘关系的4大特征

1)归属性。一般来说,特定的数据归属于特定的组织或者个人。
2)多源性。同一个数据可以有多个来源(多个父亲);一个数据也可以是多个数据经过加工生成的,而且这种加工过程可以是多个。
3)可追溯性。数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
4)层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度的描述信息形成了数据的层次。

3. 数字血缘关系图例

在这里插入图片描述

数据血缘的基本概念

数据血缘关系,顾名思义描述的是数据之间的关联性。这种关系并不是简单记录数据的流动轨迹,而是具体地揭示了数据在采集、处理、存储、共享和应用过程等整个数据生命周期中,每一个环节的状态和流动的全面映射,涵盖了数据的来源、流向和责任归属等,是确保数据治理有效性的基石。
在具体实践中,数据血缘关系分为三种类型:

1.向上血缘(Source-to-Target Mapping):

主要是追溯数据的原始来源,比如基本信息的录入、初始采集点等。了解数据的“根”,对于验证数据的真实性、评估数据质量以及在出现问题时进行根源分析至关重要。

2.向下血缘(Target-to-Source Mapping):

主要是指数据去向,比如数据流转中是如何被各系统、报告或分析所使用。这有助于监控数据的使用情况,确保数据被正确解读和应用,同时也便于评估数据变更对下游系统的影响,提前规避或减小潜在错误传播的风险。

3.双向血缘:

是上述两者之间的桥梁,揭示了数据在处理链路上的相互作用和依赖。它强调了数据处理过程中各步骤之间的复杂互动,对于优化数据流程、识别关键依赖关系以及在系统更新或迁移时,对于保持数据的连续性具有不可估量的价值。

数据血缘关系在数据治理中的关键作用

1.提升数据质量。

在数据治理中,数据质量问题是最常见的问题,会导致数据分析结果错误,从而影响决策和运营。在数据治理过程中,数据元素之间的关系很容易被忽视,数据血缘关系分析则能够揭示数据元素间的深层关联,帮助我们更好地理解数据的来源、处理历史和变化情况。通过实时监控数据质量并发出预警,可以及时发现并纠正数据异常或错误,确保数据在整个生命周期中保持准确性和完整性。

2.保障数据安全。

在数据治理中,数据安全与合规性问题是重要组成部分,包括数据泄露、数据滥用、数据隐私保护等。数据血缘关系记录则是实现数据安全与合规性的关键,它帮助我们全面了解数据的流转路径,有助于加强数据安全措施,通过监控数据流向,防范敏感数据得到适当保护,从而确保数据的安全性和合规性。

3.优化数据管理流程。

数据管理流程的完善与否直接关系到数据的质量和一致性。数据血缘关系通过标识数据源、数据处理、存储和应用的各个环节,促进了数据管理流程的优化,确保了数据的可追溯性和可审计性。同时可以帮助我们识别和清除不再使用或价值低的数据,释放存储和计算资源,从而降低成本。在实际应用中,数据血缘关系可以辅助进行数据问题排查与运维,快速定位并解决问题,从而减少业务影响和损失。

4.挖掘数据价值。

数据治理的目标是将数据转化为支持业务决策的有用信息。在数据治理中,数据的来源和去向是非常重要的。数据来源决定了数据的质量和可信度,而去向则决定了数据的价值和利用效率。数据血缘关系通过追溯数据的历史和去向,帮助我们深入理解数据的质量、价值和潜在用途,有效管理和控制数据资产,提升数据的利用效率。同时,数据血缘也是数据产品和应用体验提升的重要支撑,有助于增强业务对数据准确度的信任。

5. 提升数据问题排查效率

数据从生产到赋能业务应用,会经过很多的处理环节,业务端报表或数据应用服务异常时,需要第一时间定位问题,排查修复。如果靠一层一层的人肉翻代码效率非常低下,一方面耗费过多的人力与时间资源,另一方面问题的解决时间越长,对业务影响和利润的损失越大。

基于数据关系,加以血缘的可视化的展现形式,可以直观地监测数据的生产链路,以及各个环节的异常情况。

6. 优化数据资产管理成本

随着业务地发展数据不断增长,只增不减的任务和数据表会不断加大数据资源的投入和管理成本。很多时候,企业不是不愿意做数据治理,而是缺少数据治理的依据,贸然下线数据库可能会带来业务的重大影响,不如一直维持现状。

构建全面准确的全链路数据血缘视图,就可以找出数据上下游应用方,做好沟通和信息同步。对于长期没有调用的服务,可以及时做下线处理,节省数据成本。

7. 提升数据产品及应用体验

数据部门经常被业务Diss数据是不是有问题,长此以往,业务部门对数据准确度的信任降低,部门之间的沟通协调效率更差。

利用数据血缘关系,可以在数据产出任务层面对数据质量的准确性、一致性、及时性、完整性等维度进行监控覆盖,设置报警机制,对下游应用进行通知提醒。这么做,一方面为数据的错误即时预警,通知数据部门迅速响应,另一方面也降低了业务利用错的数据做错误的决策的可能性。挽救了企业可能会出现的损失。

8. 方便确认数据处理逻辑

业务部门在使用数据时,有时候需要确认数据口径和加工逻辑是什么,是否符合自己的需求,通过血缘的可视化展示,可以方便业务部门查看数据的处理过程。

实现数据血缘关系的方法

实现数据血缘关系的方法有很多种,包括基于元数据的方式、基于数据流图的方式、基于数据仓库的方式等。每种方法都有其优势和局限,在实际工作中应结合工作的具体需求、现有技术和资源进行选择。

1.基于元数据的方式实现。

该方式主要是通过定义一系列元数据标准,包括数据源名称、数据源类型、数据格式、数据来源、转换规则、数据所有者及更新频率等信息,系统构建起数据元素之间的关系图谱。这种方式主要依赖于现有的数据库管理系统和ETL工具的抽取功能,灵活且易于实施,但其准确性和应用深度受限于元数据的质量和完整性。

以常用的关系数据库来说,外键(Foreign Key)不仅是在两个表之间建立链接,还是用于维护表之间数据完整性的约束。假设有两个表:Customers和Orders。Customers表包含客户信息,Customer ID为主键列,而 Orders 表包含订单信息。从Orders表定义脚本可知,FOREIGN KEY (CustomerID) 指定了 Orders表中的 CustomerID 列为外键,用于链接客户与订单的关系。
在这里插入图片描述

在数据库中,外键和数据血缘虽然是两个不同的概念,但它们在数据管理和维护中存在一定的联系:

(1)数据依赖性:外键定义了表之间的依赖关系,这是数据血缘分析中的一个关键部分。通过外键,我们可以了解哪些表的数据依赖于其他表的数据。

(2)数据流:在进行数据血缘分析时,外键可以帮助我们追踪数据在不同表之间的流动。例如,Orders表中的CustomerID是Customers表的外键,那么我们可以知道Orders表的数据来源于Customers表。

(3)数据完整性和一致性:外键通过维护数据的引用完整性,间接支持数据血缘的准确性。如果数据的来源或结构发生变化,外键约束可以帮助我们识别和解决数据不一致的问题。例如,外键约束确保了Orders表中的每个Customer ID值都必须在Customers表的Customer ID列中有对应的值。如果尝试插入一个在Customers表中不存在的Customer ID 到Orders 表,数据库将拒绝这个操作。

由本例可知,在实际应用中数据血缘工具和数据库管理系统(DBMS)结合使用,能够提供更全面的数据分析和维护能力。通过外键和数据血缘的结合,数据库管理员和数据分析师可以更好地理解和管理数据的生命周期。

2.基于数据流图的方式实现。

数据流图(DFD)是以图形化的方式展示数据的流动和转换过程,帮助我们清晰直观地看到数据的起点和终点,以及数据在组织内部的流动路径,可以快速定位问题源头、识别潜在问题和风险。这种方法非常适合可视化复杂的、具有多层级数据处理的系统结构和数据处理流程。如图简单举例对比脚本和数据流图两种方式。
在这里插入图片描述
在这里插入图片描述

3.基于数据仓库的方式实现。

该方式主要是通过建立集中式的数据存储库,整合来自多个源系统的数据,记录数据的来源、加载日期、转换逻辑和历史版本等,实现对数据血缘关系进行可视化和管理,用于支持医院进行决策支持、数据分析和生成报告。同时数据仓库提供了丰富的历史数据和强大的查询能力,使得追溯数据血缘成为可能。

实施数据血缘关系的主要步骤

1.建立数据血缘关系模型

数据血缘关系模型是描述数据元素之间的关联关系和数据流动路径的模型,可以更好地理解数据的来源和去向,以及数据在处理和分析过程中可能发生的变化和修改。建立数据血缘关系模型,首先需要明确组织内的数据业务,按照业务、系统来源等进行分类;其次确定核心数据实体及其属性,包括主数据、生产数据、衍生指标等,并考虑数据元素间的关系类型、生命周期和版本控制等因素,包括各个环节之间的依赖关系和交互作用;再利用流程图或定向图等合适的工具绘制数据从源到目标的整体流动路径,包括数据处理、分析、报告生成等环节。

2.确定数据血缘关系规范

数据血缘关系规范是描述数据血缘关系模型中各个元素之间关系的规则和约束,以确保数据的准确性和一致性,提高数据治理的效率和质量,为后续的数据分析和使用提供基础。包括为数据实体、流程和系统制定统一的命名规则,增强可读性和一致性;确定数据质量标准,如数据清洗、验证规则等;同时记录影响数据处理和变化的业务逻辑等文档规则,确保数据血缘能真实反映出实际数据操作过程。

3.优化数据血缘关系数据结构

数据血缘关系数据结构包括实体数据、关系数据和元数据三部分。实体数据描述了数据的物理属性,需要包含数据格式、长度、精度等足够的属性信息,以便实现精确查询;关系数据描述了数据之间的关联关系,需要使用标准化的标识符来明确实体间的关系;元数据描述了数据的属性、定义、来源等信息,需要包括技术元数据和业务元数据,同时保证其处于最新状态。优化数据血缘关系数据结构,可以提高数据的查询效率和可维护性,确保数据的完整性和可追溯性。

4.维护数据血缘关系

当前,数据需求和数据的使用方式在不断变化,这就需要不断改进数据血缘关系以适应新的数据需求和业务场景,因此数据血缘关系模型也应该是一个动态的、可扩展的、易于维护的模型,通过建立数据追踪机制,实现任何对数据结构、处理逻辑的变更都应当及时触发血缘关系的审查和更新;与数据质量管理相结合,利用自动化工具实现监控数据流和数据质量,发现异常应当立即触发数据审计;定期进行数据血缘关系的维护,及时更新数据的关联关系和变更历史以确保数据的质量和可靠性。此外通过提升数据团队对数据血缘关系重要性的认识,增强其责任感,同时采用定期回顾并优化数据血缘关系模型和管理流程,通过不断迭代改进以确保其时效性和实用性。

综上所述,数据血缘关系为追踪数据生命周期提供了一种系统化的方法。这种关系将数据治理转变成了一个动态且持续进化的过程,而非单一的静态事件。因此,数据血缘在数据治理领域的重要性日益凸显,它要求我们持续地审视并优化数据管理策略,以适应业务需求和技术环境的不断演变。深入掌握数据血缘关系,并将其有效融入实践当中,对于构建一个健康、稳固且可持续的数据生态系统而言,是至关重要的。

数据血缘总结与思考

厘清数据的血缘关系,就是厘清数据之间的上下游来源去向关系。企业构建全面准确的全链路数据血缘视图,就可以找出数据上下游的应用方,加快数据部门对业务数据报错的debug速度,降低企业决策的失误;也可以及时对长期无用的数据库或报表进行下线处理,节省数据管理成本。

数据集成工具:
FineDataLink:一款数据集成工具。它专注于帮助企业进行数据集成和同步,确保数据的高效流动和一致性。通过FineDataLink,企业能够将来自不同数据源的数据整合在一起,建立起完整的数据血缘关系。这样,企业可以更好地理解数据的来源、变化和流向,梳理和管理数据血缘关系,提高数据质量和可信度。
在这里插入图片描述

引用:
数据治理:数据血缘关系!
什么是数据血缘?数据血缘分析对企业数据治理的重要性!
什么是数据血缘?数据血缘分析对企业数据治理的重要性!
数据血缘关系(转载)
数据资产与治理:浅谈数据血缘的作用与价值
构建数据血缘的解决方案
构建数据纽带:全链路血缘
数据血缘在安全大数据中的重要性
数据治理中的数据血缘关系是什么?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/433807.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP已知事务码查询关联角色

运维期间客户就出现没有某些事务码的权限,要求添加; 想要添加事务码就必须知道这个事务码属于哪个角色;使用SUIM-角色-按菜单中的事务分配,输入事务码,点击执行就可以查看 找到相关的角色之后,用SU01添加至…

动态规划算法:12.简单多状态 dp 问题_打家劫舍_C++

目录 题目链接:LCR 089. 打家劫舍 - 力扣(LeetCode) 一、题目解析 题目: 解析: 二、算法原理 1、状态表示 状态表示: 2、状态转移方程 状态转移方程推理: 3、初始化 dp表初始化: 特殊…

【抓包工具】如何下载抓包工具Fiddler

目录 Fiddler简介 Fiddler下载步骤 Fiddler安装步骤 配置Fiddler抓取HTTPS Fiddler简介 Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据&#xff08…

【BurpSuite】SQL注入 | SQL injection(1-2)

🏘️个人主页: 点燃银河尽头的篝火(●’◡’●) 如果文章有帮到你的话记得点赞👍收藏💗支持一下哦 【BurpSuite】SQL注入 | SQL injection(1-2) 实验一 Lab: SQL injection vulnerability in WHERE clause…

大数据新视界 --大数据大厂之数据压缩算法比较与应用:节省存储空间

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

2-105 基于matlab的GA-WNN预测算法

基于matlab的GA-WNN预测算法。遗传算法优化小波神经网络的步骤:1设种群规模为M。随机生成初始种群N , 采用实数编码对个体Ni编码。2、用1中的种群N训练, WNN参数由初始化获得。3、计算种群N中个体适应度值。满足终止条件则跳至6, 不满足执行4。4、适应度大的个体, 选…

携手SelectDB,观测云实现性能与成本的双重飞跃

在刚刚落下帷幕的2024云栖大会上,观测云又一次迎来了全面革新。携手SelectDB,实现了技术的飞跃,这不仅彰显了观测云在监控观测领域的技术实力,也预示着我们可以为全球用户提供更加高效、稳定的数据监测与分析服务。这一技术升级&a…

智慧园区建设,构建智能监控和安防体系

智慧园区是指运用先进的信息技术和互联网思维,以提升园区管理和服务水平为目标,通过整合各类资源、优化园区运营,打造智能化、智能、绿色、低碳的现代园区。在智慧园区中,智慧楼宇、智能监控、智慧消防和智慧安防是不可或缺的重要…

SpringBoot整合JPA实现CRUD详解

SpringBoot版本是2.0以上(2.6.13) JDK是1.8 一、依赖 <dependencies><!-- jdbc --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-jdbc</artifactId></dependency><!--…

【ADC】SAR 型 ADC 和 ΔΣ ADC 的选型决策方法

本文学习于TI 高精度实验室课程&#xff0c;介绍如何选择 SAR 或 delta-sigma 型 ADC。 文章目录 一、选型决策树二、特定传感器的应用三、需要 DC 精度但分辨率较低的应用四、需要 DC 精度且分辨率较高的应用五、极低噪声的 DC 精密测量六、需要捕获瞬态信号值的应用七、需要高…

vue单点登录异步执行请求https://xxx.com获取并处理数据

一、请求一个加密地址获取access_token再拼接字符串再次请求 接口返回数据 异步执行请求该地址获取数据并处理 二、请求代码第二步使用 access_token 获取 auth_key // 第二步&#xff1a;使用 access_token 获取 auth_keyconst access_token tokenData.access_token;const …

13年408计算机考研-计算机网络

第一题&#xff1a; 解析&#xff1a;OSI体系结构 OSI参考模型&#xff0c;由下至上依次是&#xff1a;物理层-数据链路层-网络层-运输层-会话层-表示层-应用层。 A.对话管理显然属于会话层&#xff0c; B.数据格式转换&#xff0c;是表示层要解决的问题&#xff0c;很显然答案…

代理模式简介:静态代理VS与动态代理

代理模式&#xff1a;静态代理VS动态代理 1、定义2、分类2.1 静态代理2.2 动态代理 3、使用场景4、总结 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 1、定义 代理模式是一种设计模式&#xff0c;通过代理对象控制对目标对象的访问。简而…

JS---获取浏览器可视窗口的尺寸

innerHeight 和 innerWidth 这两个方法分别是用来获取浏览器窗口的宽度和高度&#xff08;包含滚动条的&#xff09; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible&q…

数据结构 ——— 顺序表oj题:编写函数,删除有序数组中的重复项

目录 题目要求 代码实现 题目要求 一个升序排列的数组 nums &#xff0c;要求原地删除重复出现的元素&#xff0c;使每个元素只出现一次&#xff0c;并返回删除后数组的新长度&#xff0c;元素的相对顺序应该保持一致 代码实现 代码演示&#xff1a; int removeDuplicate…

C语言开发基础新手快速入门及精通系列学习教程(系统性完整C语言学习笔记整理)

关注我&#xff0c;一起学编程 前言 作为一名拥有多年开发经验的码农&#xff0c;我的职业生涯涵盖了多种编程语言&#xff0c;包括 C 语言、C、C# 和 JavaScript。在这一过程中&#xff0c;我深刻地意识到扎实的基础对于编程学习的重要性&#xff0c;尤其是对于 C 语言…

Snap 发布新一代 AR 眼镜,有什么特别之处?

Snap 发布新一代 AR 眼镜&#xff0c;有什么特别之处&#xff1f; Snap 简介 新一代的 AR 眼镜特点 Snap 简介 Snap 公司成立于 2010 年&#xff0c;2017 年美国东部时间 3 月 2 日上午 11 时许&#xff0c;在纽交所正式挂牌交易&#xff0c;股票代码为 “SNAP”。其旗下的核…

Docker实践与应用:深度探索与丰富案例

一、引言 在当今的软件开发和运维领域&#xff0c;Docker已经成为了一种不可或缺的技术。它以容器化的方式改变了软件的开发、部署和运行模式&#xff0c;为企业和开发者带来了前所未有的便利和效率提升。本文将深入探讨Docker的实践操作以及丰富的应用举例&#xff0c;带您全面…

windows10使用bat脚本安装前后端环境之msyql5.7安装配置并重置用户密码

首先需要搞清楚msyql在本地是怎么安装配置、然后在根据如下步骤编写bat脚本&#xff1a; 思路 1.下载mysql5.7 zip格式安装包 2.新增data文件夹与my.ini配置文件 3.初始化数据库 4.安装mysql windows服务 5.启动并修改root密码&#xff08;新增用户初始化授予权限&#xff09…

YUView:YUV查看工具

文章目录 引言安装步骤使用YUView查看YUV数据播放与分析功能亮点注意事项 YUView的架构设计 引言 本文将介绍如何在Ubuntu 20.04上安装YUView&#xff0c;并分享其基本使用方法。 安装步骤 安装依赖项 在开始安装YUView前&#xff0c;先确保安装了所有必需的依赖包。打开终…