读数据湖仓02数据抽象

1. 不同类型的数据

1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式

1.2. 结构化数据

  • 1.2.1. 在企业等组织中,只有少量的数据是结构化数据

  • 1.2.2. 结构化数据是基于事务的数据,是组织日常业务的副产品

1.3. 文本数据

  • 1.3.1. 存在于许多地方,如合同、电子邮件、电话交谈、医疗记录等

1.4. 机器生成的模拟/物联网数据

  • 1.4.1. 这类机器包括摄像头、无人机、手表、闹钟、车辆等

  • 1.4.2. 由机器生成的数据无处不在

2. 数据量

2.1. 在组织中,对于不同类型的数据有不同的度量维度

2.2. 最重要的维度是数据量,而存储和管理不同数据量所使用的技术也各不相同

2.3. 与文本数据相比,结构化数据的数据量相对较小

2.4. 由机器生成的数据的数据量要远远超过文本数据的数据量

3. 数据的业务价值

3.1. 仅仅有大量的数据并不意味着所有的数据都具有业务价值

  • 3.1.1. 有些数据的业务价值很高

  • 3.1.2. 有些数据的业务价值则相对较低

3.2. 由机器生成的模拟/物联网数据

  • 3.2.1. 只有一小部分具有巨大的业务价值

  • 3.2.2. 大部分由机器生成的数据都是机械式的记录,它们很少或根本没有业务价值

    • 3.2.2.1. 如果有一天车床由于异常导致无法正常工作,那么我们需要高度关注该车床当天生成的数据

    • 3.2.2.2. 车床在工作过程中生成的有用数据的比例非常低

4. 数据的访问概率

4.1. 数据的访问概率与其蕴藏的业务价值密切相关

  • 4.1.1. 数据被访问的概率集中在有业务价值的数据中

4.2. 数据湖仓中数据的访问概率与数据的业务价值呈正相关

4.3. 将不常被访问的数据与访问概率较高的数据存储在同一个地方是没有意义的,应该将其存储到不同的数据存储器中

4.4. 将不同类型的数据存储在一起不仅会影响存储器的性能、增加成本,而且会降低数据分析工程师处理数据的效率

  • 4.4.1. 将访问概率较高的数据与访问概率较低的数据存储在数据湖仓中的同一位置并不明智

4.5. 在对数据进行分隔存储时,我们需要考虑是否检索存储在大容量存储器中的数据

  • 4.5.1. 需要考虑将数据存储到大容量存储器中后,在未来出现未知需求时,我们能否查找和分析已存入大容量存储器中的数据

  • 4.5.2. 在大容量存储器中找到所需的数据后,就可以很容易地将该数据存储到高性能存储器中

5. 数据降级

5.1. 随着时间的推移,所有类型的数据都会发生数据降级(Data Degradation)

5.2. 数据的访问概率会随着时间的推移而降低

5.3. 存储时间越久的数据,对解决当前问题有帮助的概率就越低

6. 基于大容量存储器的数据归档机制

6.1. 随着时间的推移,数据的访问概率和业务价值都会降低,为了提高数据的存储能力,将大容量存储器作为归档数据的载体是必要的

6.2. 数据被存储在归档存储区,当需要用到相关数据时,可以在归档存储区进行检索

6.3. 如果数据归档处理得当,那么几乎不需要在归档存储区中检索数据

7. 数据抽象

7.1. 数据抽象是数据湖仓的基础,它是许多依赖企业数据的应用程序的基础设施

  • 7.1.1. 正确的数据抽象使数据湖仓中的各方可以方便地访问和使用数据,也能使数据更易于理解

7.2. 数据抽象(Data Abstraction)是一种处理大量复杂数据的非常有用且必要的方法

7.3. 人们在日常生活中经常使用抽象的方法来处理规模庞大且复杂的事物

7.4. 使用抽象的方式引用对象比单独提及每个对象更简便

7.5. 数据类型不同,抽象模式和方法也不同

  • 7.5.1. 结构化数据通过数据模型进行抽象

  • 7.5.2. 文本数据通过本体(Ontology)和分类标准进行抽象

  • 7.5.3. 模拟/物联网数据通过蒸馏算法进行抽象

7.6. 经过初步观察,可以发现,数据模型和本体似乎是一回事

7.7. 这两种抽象类型之间也存在一些重要且明显的区别

  • 7.7.1. 数据模型面向内部,着眼于组织的内部运行

  • 7.7.2. 本体面向外部,用于描述外部世界

  • 7.7.3. 数据模型描述的数据可在必要时进行更改

  • 7.7.4. 本体所抽象的文本则不能更改

  • 7.7.5. 数据模型所使用的数据是有限的

  • 7.7.6. 文本以及文本所依据的外部世界的描述却不是有限的

    • 7.7.6.1. 外部世界可以永远存在

7.8. 数据模型和本体是对数据的抽象,而蒸馏算法则是对处理过程的描述

7.9. 基础数据中还有另一种重要的抽象概念,即数据在组织流程中流动时对数据血缘的抽象

  • 7.9.1. 数据是作为事务的一部分被采集的

  • 7.9.2. 数据一旦被采集,就会与其他同类数据汇集在一起

  • 7.9.3. 数据到达用于分析处理的位置后,分析人员需要全面了解数据经历的整个过程,只有这样他们才能成功进行分析处理

8. 结构化数据模型

8.1. 实体关系图(Entity Relationship Diagram,ERD)

  • 8.1.1. 实体关系图描述了组织的主要主题领域及实体之间的关系

8.2. 数据项集(Data Item Set,DIS)

  • 8.2.1. 数据项集则将实体扩展为其组成部分,包括特定实体的键、属性以及数据项集中实体的从属数据

8.3. 数据库模式(Database Schema)

  • 8.3.1. 数据库模式是数据项集的镜像,它描述了数据的物理属性、索引和唯一键值等特征

  • 8.3.2. 只是在数据项集的基础上增加了一些细节

8.4. 数据模型的不同组成部分是相互关联的,实体关系图中的每个实体都有一个对应的数据项集,并且每个数据项集都有一个对应的数据库模式

8.5. 数据模型通常不包括派生数据(Derived Data)或汇总数据(Summarized Data),仅包含粒度数据(Granular Data)

8.6. 数据模型的元素可用于为数据模型内部的数据提供上下文情境

9. 本体和分类标准

9.1. 本体是一组相关的分类标准

  • 9.1.1. 本体是无限的,创建本体是为了满足特定群体的需求

    • 9.1.1.1. 本体的元素可以无限扩展
  • 9.1.2. 本体中的每个分类标准都是独一无二的

  • 9.1.3. 第一种类型的本体是通用的,适用于任何主题

    • 9.1.3.1. “我喜欢……”

    • 9.1.3.2. “我爱……”​

  • 9.1.4. 第二种类型的本体是针对某一学科的

    • 9.1.4.1. 医生有医学术语

    • 9.1.4.2. 律师有法律术语

    • 9.1.4.3. 建筑工人有建筑术语

  • 9.1.5. 第三种类型的本体是针对某个组织特定术语的本体

    • 9.1.5.1. 某家石油公司会使用一些只在其内部使用的术语

9.2. 分类标准是对相似事物的分类

  • 9.2.1. 每个分类标准中的元素都与其他分类标准中的元素存在着某种关系

  • 9.2.2. 分类标准中的每个元素都与分类标准的一般值有着相同的关系

  • 9.2.3. 分类标准用于对同类对象进行分类

  • 9.2.4. 分类标准是用来描述外部世界的

  • 9.2.5. 分类标准是一种固定的文本抽象,不会随意改变

10. 蒸馏算法

10.1. 从大量模拟/物联网数据中蒸馏有用的数据

10.2. 蒸馏算法的形式多种多样,如何选择取决于模拟/物联网数据自身的业务价值和最终业务价值之间的差异

10.3. 随着时间的推移,蒸馏算法也会随条件的变化而改变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/433848.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Redis][哨兵][下]详细讲解

目录 1.安装部署(基于Docker)1.编排Redis主从节点2.编排Redis-Sentinel节点 2.重新选举1.redis-master宕机之后2.redis-master重启之后3.总结 3.选举原理4.总结 1.安装部署(基于Docker) 1.编排Redis主从节点 编写docker-compose.yml 创建/root/redis/docker-compose.yml&…

【项目文档】软件系统培训方案(Doc原件2024)

1. 培训概述 2. 培训目的 3. 培训对象及要求 3.1. 培训对象 3.2. 培训人员基本要求 4. 培训方式 5. 培训内容 6. 培训讲师 7. 培训教材 8. 培训质量保证 8.1. 用户培训确认报告 8.2. 培训疑问解答 软件全套资料部分文档清单: 工作安排任务书,可行性分析报…

JS对不同浏览器的检测问题

Navigator对象也称浏览器对象,该对象包含了浏览器的整体信息,如浏览器名称,版本号等。Navigator对象由Navigator浏览器率先使用,后来各方浏览器都开始支持Navigator对象,逐步成为一种标准。 一、Navigator对象的属性 …

自动化check是不是测试?

这篇文章是reddit上关于质量保障讨论的比较多的帖子,我把它转为中文版,供大家交流学习,由于直接用的翻译软件以及截图,大家凑合看下哈。 自动化检查并不是真正的“测试”?编写自动化检查确实很重要——但编写自动化测…

Android开发MPAndroidChart两条折线图

Android开发MPAndroidChart两条折线图 Android开发两条折线图效果,还是有一定难度的,难点它的起点不是坐标0的开始,还有数值上有背景图 一、思路: 用的是MPAndroidChart的BarChart 二、效果图: 三、关键代码&#…

原生代理IP是什么?

代理IP的各个类型称呼有很多,且它们在网络使用和隐私保护方面扮演着不同的角色。今天将探讨什么是原生IP以及原生IP和住宅IP之间的区别,帮助大家更好地理解这两者的概念和实际应用,并选择适合自己的IP类型。 一、什么是原生IP? 原…

Netty 与 WebSocket之间的关系

WebSocketProtocolHandler 和 Netty 在处理 WebSocket 连接时扮演不同的角色,但它们通常是一起使用的,尤其是在基于 Netty 的项目中。为了更好地理解它们之间的区别,我们首先需要了解 WebSocket 和 Netty 的基本概念。 WebSocket WebSocket…

11年408考研真题解析-计算机网络

第一题: 解析:网络层虚电路服务和数据报服务 传输服务只有:有连接可靠和无连接不可靠两种,直接排除BC。 网络层指的是IP协议,由图二可知:运输层,网际层,网络接口层唯一有连接可靠的协…

远程访问软路由

远程访问软路由主要涉及通过互联网从远程位置访问和控制基于软件的路由器系统。以下是远程访问软路由的一般方法: 一、远程访问软路由的方法 通过Web管理界面访问: 适用于大多数支持Web管理的软路由系统。用户只需在浏览器中输入软路由的公网IP地址或域…

MySQl查询分析工具 Optimizer Trace

文章目录 什么是Optimizer Trace如何使用可跟踪哪些sql 相关系统变量optimizer_traceoptimizer_trace_offset和optimizer_trace_limitoptimizer_trace_featuresoptimizer_trace_max_mem_sizeend_markers_in_json information_schema.OPTIMIZER_TRACETRACE列内容解读join_prepar…

观测云链路追踪分析最佳实践

背景 如果要在开发、运维和工程层面持续改进一个涉及多服务的应用,以链路追踪、日志检索、指标收集、用户体验监测、性能剖析、关联分析等作为代表性技术的可观测性必不可少,这一看法已成为共识,但在采用这项技术的过程中,如何分…

设备管理与点巡检系统

在现代企业管理中,设备的高效运作至关重要。为此,我们推出了设备管理与点巡检系统,通过自动化管理提升设备使用效率,保障生产安全。 系统特点 设备全生命周期管理 系统涵盖设备的各个阶段,从设备管理、点检、巡检、保…

vue.js 原生js app端实现图片旋转、放大、缩小、拖拽

效果图&#xff1a; 旋转 放大&#xff1a;手机上可以双指放大缩小 拖拽 代码实现&#xff1a; html <div id"home" class"" v-cloak><!-- 上面三个按钮 图片自己解决 --><div class"headImage" v-if"showBtn">&l…

【机器学习】---深入探讨图神经网络(GNN)

深入探讨图神经网络 1. 图的基本构成示例图邻接矩阵 2. GNN的基本原理消息传递机制更新公式 3. GNN的类型及应用3.1 Graph Convolutional Networks (GCN)GCN实现示例 3.2 Graph Attention Networks (GAT)GAT实现示例 3.3 GraphSAGEGraphSAGE实现示例 4. GNN的应用场景5. GNN的挑…

【湖南步联科技身份证】 身份证读取与酒店收银系统源码整合———未来之窗行业应用跨平台架构

一、html5 <!DOCTYPE html> <html><head><meta http-equiv"Content-Type" content"text/html; charsetutf-8" /><script type"text/javascript" src"http://51.onelink.ynwlzc.net/o2o/tpl/Merchant/static/js…

NSSCTF [HUBUCTF 2022 新生赛]simple_RE(变种base64编码)

文件无壳 拖入IDA中 shiftF12查看可疑字符串 发现两串字符串 一看这两个等于号就猜测是base64编码 进入主函数看看 这段代码是一个简单的 C 语言程序&#xff0c;主要功能是接受用户输入的字符串作为“flag”&#xff0c;然后通过对输入的字符串进行一些处理和比较来验证是否输…

深圳龙链科技:全球区块链开发先锋,领航Web3生态未来

【深圳龙链科技】是全球领先的Web3区块链技术开发公司&#xff0c;专注于为全球客户提供创新高效的区块链解决方案。 深圳龙链科技由币安资深股东携手香港领先的Web3创新枢纽Cyberport联袂打造&#xff0c;立足于香港这一国际金融中心&#xff0c;放眼全球&#xff0c;汇聚了华…

Python获取百度翻译的两种方法

一、引言 百度是我们常用的搜索工具&#xff0c;其翻译是与爱词霸合作&#xff0c;总体看其反应速度较快&#xff0c;可以作为项目中重要的翻译工具。根据大家的需要&#xff0c;现提供两种Python获取百度翻译的两种办法&#xff1a; 二、requests法 我们引用requests模块&a…

智能Ai语音机器人的应用价值有哪些?

随着时间的推移&#xff0c;人工智能的发展越来越成熟&#xff0c;智能时代也离人们越来越近&#xff0c;近几年人工智能越来越火爆&#xff0c;人工智能的应用已经开始渗透到各行各业&#xff0c;与生活交融&#xff0c;成为人们无法拒绝&#xff0c;无法失去的一个重要存在。…

SQL进阶技巧:如何获取状态一致的分组? | 最大、最小值法

目录 0 需求描述 1 数据准备 2 问题分析 方法1&#xff1a;最大、最小值法&#xff08;技巧&#xff09; 方法2&#xff1a;常规思路 3 小结 如果觉得本文对你有帮助&#xff0c;那么不妨也可以选择去看看我的博客专栏 &#xff0c;部分内容如下&#xff1a; 数字化建设通…