读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录

1. 同步数据

1.1. 不同的数据仓库和数据湖通过数据集成层来进行桥接

1.2. AWS Glue、Fivetran和Matillion等数据集成工具从不同来源收集数据,统一这些数据,并将其转换为上游来源

1.3. 数据集成的一个典型用例是收集数据湖的数据并以结构化格式将其加载到数据仓库中

1.4. ETL是数据集成中一个众所周知的过程

  • 1.4.1. ETL通常描述集成的步骤,其中首先从一个或多个数据存储库中提取数据,转换为新的结构或格式,最后加载到目标数据存储库中

2. 收集数据质量指标

2.1. 你无法修复你无法测量的东西

  • 2.1.1. 如果没有数据质量指标,你就无法获得数据质量

2.2. 数据宕机的时间(也就是你的数据不完整、有错误、出现缺失或者其他不准确的时间段)来度量数据质量

  • 2.2.1. 公司会仔细度量宕机时间,并投入大量资源来避免发生服务中断的情况

2.3. 问题列表

  • 2.3.1. 数据是最新的吗?

  • 2.3.2. 数据是完整的吗?

  • 2.3.3. 字段是否在预期的范围内?

  • 2.3.4. 空值率是否高于或低于应有的水平?

  • 2.3.5. 模式是否已经更改?

2.4. 可扩展性

  • 2.4.1. 跟踪大量的表和大数据集可能会非常棘手

2.5. 监控栈的其他部分

  • 2.5.1. 构建真正可靠的数据管道并实现数据可观测性需要的远不只是收集指标这么简单

2.6. Snowflake

  • 2.6.1. Snowflake是最流行的云数据仓库工具之一,其设计从一开始就优先考虑了数据质量和数据完整性

  • 2.6.2. 映射清单

  • 2.6.3. 监控数据的新鲜度和容量

    • 2.6.3.1. 度量视图的新鲜度和容量并不简单,因为这是底层查询指令中包含的表的函数
  • 2.6.4. 建立你的查询历史记录

    • 2.6.4.1. 拥有在Snowflake环境中运行的所有查询的可靠历史记录是解决问题时非常有用的工具,它可以让你准确了解最近一次写入表的方式和时间
  • 2.6.5. 健康检查

2.7. 数据仓库最重要的功能之一就是能够直接从其中提取数据质量指标并将其可视化以便进行简单的分析

2.8. 为跟踪数据质量指标而提取的信息需要随时能够提供给团队中的其他成员使用,特别是当事情发生变化或你正处于对数据管道进行根因分析的痛苦之中时

3. 查询日志

3.1. 问题

  • 3.1.1. 谁在访问这些数据?

  • 3.1.2. 来自上游的哪里?

  • 3.1.3. 来自上游的哪里?

  • 3.1.4. 平均多久执行一次特定的转换?

  • 3.1.5. 有多少行会受到影响?

3.2. 查询日志表通常仅存储某些天数的查询历史记录,且其中所包含的信息比数据质量计划所需要的多得多

3.3. 一个处理数据质量指标查询日志的健壮的解决方案需要具有前瞻性,并将所需的指标和聚合存储在一个更为永久的位置

4. 数据目录

4.1. 数据栈中的另一个关键元素是数据目录,它在理解数据质量方面起着重要的作用

  • 4.1.1. 数据目录作为元数据清单,为投资者提供了评估数据可访问性、健康状况和位置所需的信息

  • 4.1.2. 不仅可以监测数据,还可以与机器学习和自动化相集成,让数据更易于被发现、更具协作性,并且更符合当前组织、行业甚至政府的相关规则

4.2. 由于数据目录提供了有关公司数据源的单一真相来源,因此你可以很容易地利用数据目录来管理管道中的数据

  • 4.2.1. 数据目录可以用来存储元数据,让利益相关方更好地了解特定来源的沿袭,从而增强对数据本身的信任

  • 4.2.2. 数据目录可以方便地记录个人身份信息的存放位置和下游蔓延位置,以及组织中谁有权通过管道来访问这些信息

4.3. 问题

  • 4.3.1. 应该在哪里查找数据?

  • 4.3.2. 这些数据重要吗?

  • 4.3.3. 这些数据代表了什么?

  • 4.3.4. 这些数据的相关性和重要性如何?

  • 4.3.5. 该如何使用这些数据?

4.4. 传统上使用Excel来解决数据编目问题的方式

  • 4.4.1. 自动化能够让数据工程师和分析师腾出时间来专注于真正能取得进展的项目

4.5. 当前存储的大部分数据都是非结构化且高度流动的

  • 4.5.1. 人们越来越需要根据数据的意图和目的来理解数据,而不是简单地描述消费者访问和使用的数据

  • 4.5.2. 数据编目可以发现并组织恰当的元数据来解释你的数据管道

4.6. 构建数据目录

  • 4.6.1. 在构建或投资数据目录之前,你需要与运营和分析团队的下游利益相关方一起合作,了解哪些数据对业务最为重要,从而需要进行记录和编目

  • 4.6.2. 最基本的,数据目录是元数据集合,可提供对数据位置、所有权和潜在用例的背景信息和洞察

  • 4.6.3. Sqlparse、ANTLR、Apache Calcite和MySQL的SQL Parser都是流行的开源SQL解析解决方案

  • 4.6.4. GraphQL、REST和Cube.js等开源查询语言工具将允许你在数据库中查询SQL并将其呈现在编目可视化服务中

  • 4.6.5. Amundsen、Apache Atlas、DataHub或CKAN

  • 4.6.6. 当你拥有严格的模型时,数据目录的效果很好,但随着数据管道变得越来越复杂,非结构化数据开始成为黄金标准,我们对数据的理解(数据做什么、谁在使用它、如何使用它)并不能反映现实情况

  • 4.6.7. 下一代数据目录将具有学习、理解和推断数据的能力,让用户能够以自助式服务的方式利用其洞察力

    • 4.6.7.1. 数据目录将支持自动数据发现和主动元数据
  • 4.6.8. 数据管理策略还必须包含数据发现,这是一种实时了解分布式数据资产健康状况的新方法

    • 4.6.8.1. 数据发现借鉴了Zhamak Dehghani和Thoughtworks的数据网格模型提出的面向领域的分布式架构,认为不同的数据所有者都应对其数据产品负责,并推动不同位置的分布式数据之间的通信

    • 4.6.8.2. 一旦数据被提供给某一特定领域并在该领域转换后,该领域数据的所有者就可以利用这些数据来满足其自身的运营或分析需求

  • 4.6.9. 数据发现取代了对数据目录的需要,它根据一组特定消费者如何摄取、存储、聚合和使用数据,提供了对特定领域数据的动态解读

    • 4.6.9.1. 数据治理的标准和工具同样是跨领域联合的,以支持更高的可访问性和互操作性

    • 4.6.9.2. 数据发现可以实时了解数据的当前状态,而不是其理想状态或“编目”状态

4.7. 以数据质量为优先的数据目录

  • 4.7.1. 自助式服务的数据发现与自动化

    • 4.7.1.1. 即使没有专门的支持团队,数据团队也应该能轻松利用其数据目录

    • 4.7.1.2. 自助式服务、自动化和工作流编排等数据工具消除了数据管道各阶段之间及其过程中产生的孤岛,让数据变得更容易理解和访问

    • 4.7.1.3. 更高的可访问性自然会提高数据的采用率,从而减轻数据工程团队的负担

  • 4.7.2. 随数据演变的可扩展性

    • 4.7.2.1. 随着公司接收越来越多的数据且非结构化数据开始成为常态,通过扩展来满足这些需求的能力对于数据计划的成功将变得至关重要
  • 4.7.3. 用于分布式数据发现的数据沿袭

    • 4.7.3.1. 数据发现严重依赖自动化表格和字段级的沿袭来映射数据资产之间的上下游依赖关系

    • 4.7.3.2. 数据发现让数据团队能够相信团队对数据的假设与现实相符,从而在不考虑领域的前提下,在数据基础设施中实现动态发现和高度的可靠性

    • 4.7.3.3. 你的团队可能已经以某种方式在数据发现方面进行了投资,无论是通过团队为验证数据而正在进行的手动工作,还是通过工程师编写的自定义验证规则,或者仅仅是基于损坏的数据或未被察觉的隐性错误所做出的决策成本

4.8. 要获得真正可发现的数据,很重要的一点在于数据不仅要“编目”​,而且从摄取到利用这一过程要准确、干净且完全可观测

  • 4.8.1. 要可靠

  • 4.8.2. 只有了解你的数据及其状态,以及在其生命周期的所有阶段和跨领域的使用方式,我们才能开始信任它

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470677.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openSUSE 环境下通过 zypper 安装软件

操作场景 为了提升您在云服务器上的软件安装效率,减少下载和安装软件的成本,腾讯云提供了 zypper 下载源。openSUSE 操作系统和部分 SLES 的云服务器用户可通过 zypper 快速安装软件。本文档以 openSUSE 操作系统为例,指导您通过 zypper 快速…

ima.copilot-腾讯智能工作台

一、产品描述 ima.copilot是腾讯推出的基于腾讯混元大模型技术的智能工作台,通过先进的人工智能技术,为用户提供了一个全新的搜读写体验,让知识管理变得更加智能和高效。它不仅是一个工具,更是一个智能的伙伴,能够帮助…

NVIDIA Isaac Sim 仿真平台体验测评

目录 一、引言二、GPU加速相关体验2.1 Isaac Sim GPU 加速体验2.2 GPU加速体验分析 三、AI框架集成相关体验四、学术研究价值五、开发生态六、综合分析6.1 主要优势6.1.1 仿真效率6.1.2 开发便利性6.1.3 与 AI 框架的协同性 6.2 潜在应用场景 七、运行体验与建议7.1 GPU加速与P…

WebRTC API分析

主题 本文详细描述常用的webrtc api 媒体协商类 myPeerConnection.createOffer([options]); var options { offerToReceiveAudio: true, // 告诉另一端,你是否想接收音频,默认true offerToReceiveVideo: true, // 告诉另一端&a…

11张思维导图带你快速学习java

博主主页:【南鸢1.0】 本文专栏:JAVA 本文目录 简介 1.Java SE​编辑 2.Java Web 3.MySQL​编辑 4.前端技术 5.Linux 6.Spring SpringMvc mybatis 7.JVM 8.Springboot 9.Vue 10.SpringCloud 11.常用中间件 总结 简介 Java是一种跨平台的编程语言&am…

Jmeter基础篇(22)服务器性能监测工具Nmon的使用

一、前言 我们在日常做压测的过程中,不仅仅需要监控TPS,响应时间,报错率等这些系统基础性能数据,还需要对服务器的性能(如CPU、磁盘、内存、网络IO等)做监控,以求对系统运行过程中的硬件性能有…

Unity3D学习FPS游戏(12)敌人检测和攻击玩家

前言:上一篇实现了敌人能动,有了点乐趣,但是敌人和玩家没什么对抗性。本篇将实现敌人追击玩家,并攻击玩家。 敌人攻击玩家 敌人检测玩家目标思路-碰撞检测的Trigger触发实现 敌人攻击目标思路-模仿玩家发射子弹的思路实现 效果 敌…

利用滑动窗口解题

目录 前言: 第一题:209. 长度最小的子数组 - 力扣(LeetCode) 第二题:1004. 最大连续1的个数 III - 力扣(LeetCode) 第三题:3. 无重复字符的最长子串 - 力扣(LeetCode&…

车载空气净化器语音芯片方案

开发背景: 随着人们生活质量的不断提升和环保意识的日益增强,车内空气质量成为了广大车主关注的焦点。长时间封闭的车厢环境,加之城市空气污染、新车内饰材料释放的有害气体等因素,使得车内空气质量往往不尽如人意,严重…

《MYSQL45讲》误删数据怎么办

对误删数据分类的话,有 1.delete 误删行 2.drop table 或者truncate table 语句误删表 3.使用drop database 误删数据库 4.使用rm命令误删整个MYSQL实例 一,误删行 一下操作前置条件是:binlog的格式是row,并且binglog_row_im…

不对称信息

你买了一辆二手车,你并不知道它出过几次事故,但它之前的车主却对此了如指掌。来买保险的公司都是那些出险概率很大的(比如矿工、化工厂),但那些安全的公司很少去买保险,这两种问题都属于信息不对称问题。 …

94个属于一区且接受医工交叉领域投稿的期刊汇总|个人观点·24-11-13

小罗碎碎念 继汇总病理AI的基础模型、病理组学&影像组学的公开数据集以后,我们再来盘一盘医工交叉领域有哪些热门期刊可以投稿。我会分区进行介绍,每个区则会进一步划分学科种类,方便大家选择适合自己的投稿期刊。 这期推文先分享大类属…

网站小程序app怎么查有没有备案?

网站小程序app怎么查有没有备案?只需要官方一个网址就可以,工信部备案查询官网地址有且只有一个,百度搜索 "ICP备案查询" 找到官方gov.cn网站即可查询! 注:网站小程序app备案查询,可通过输入单位…

MySQL45讲 第二十讲 幻读是什么,幻读有什么问题?

文章目录 MySQL45讲 第二十讲 幻读是什么,幻读有什么问题?一、幻读的定义二、幻读带来的问题(一)语义问题(二)数据一致性问题 三、InnoDB 解决幻读的方法四、总结 MySQL45讲 第二十讲 幻读是什么&#xff0…

FatLab:我的编程课程系列

FatLab 是一款教程类软件。 大概是因为我的编程生涯始于自学,FatLab便也保持了这种气息:从一个“自然生长”的角度提供了一套C语言教程。 教程方面,目前仅完成了《C语言基础要素》系列。正如其名,这个系列仅探讨了语言中非常基础…

冗余连接2 hard题 代随C#写法

此题在卡码网109与力扣685题亦有记载 有一说一C#写法我没咋搞懂 就看明白了思路 这里贴一个答案待后续我醒悟了再来看罢 难就难在对整体数据结构classUnion(并查集)的理解不熟并且 对于输入输出这个迭代过程理解上也比较吃力 109. 冗余连接II 题…

【QT】QSS

个人主页~ 一、QSS QSS可以说是拿了CSS的一部分过来用,是CSS的简化版本 1、基本语法 选择器 {属性名:属性值; }将界面上所有的QPushButton文本颜色都改为红色 QPushButton {color:red; }2、设置方式 (1)指定控件样式设置 在widget.cpp中…

java模拟键盘实现selenium上下左右键 table中的左右滚动条实现滚动

在这篇文章中,我们将学习如何使用Java编程语言模拟键盘输入,特别是模拟上下左右方向键的操作。这是一个很有趣的项目,尤其适合刚入行的开发者。我们将分步进行,接下来,我们会通过表格展示整个实现过程,然后…

JQuery封装的ajax

1. 注意&#xff1a; 首先要导jq的包json对象可以用 . 来调用keyjava只能给前端传页面&#xff0c;或者打印的内容String jsonstr json.toJSONString(resultJSON); //将对象转为JSON对象 Json格式和参数解释&#xff1a; <script src"js/jquery-1.10.2.min.js&quo…

文献解读-DNAscope: High accuracy small variant calling using machine learning

关键词&#xff1a;基准与方法研究&#xff1b;基因测序&#xff1b;变异检测&#xff1b; 文献简介 标题&#xff08;英文&#xff09;&#xff1a;DNAscope: High accuracy small variant calling using machine learning标题&#xff08;中文&#xff09;&#xff1a;DNAsc…