flink车联网项目前篇:建模设计(第65天)

系列文章目录

2.2 维度建模
2.2.1 维度表
2.2.2 事实表
2.2.3 维度建模的三种模型
3. 建模设计
3.1 ODS层
3.2 DWD层
3.3 DWS层
3.4 ADS层

文章目录

  • 系列文章目录
  • 前言
    • 2.2 维度建模
      • 2.2.1 维度表
      • 2.2.2 事实表
      • 2.2.3 维度建模的三种模型
  • 3. 建模设计
    • 3.1 ODS层
    • 3.2 DWD层
    • 3.3 DWS层
    • 3.4 ADS层


前言

本文主要详解了维度建模和flink车联网项目的建模设计。由于篇幅过长,后续章节:数据开发


2.2 维度建模

数据仓库领域的另一位大师——Ralph Kimball 倡导的建模方法为维度建模。维度模型将复杂的业务通过事实和维度两个概念进行呈现。事实通常对应业务过程,而维度通常对应业务过程发生时所处的环境。

2.2.1 维度表

维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。如商品信息表,每一行表示一种商品的具体特征和概念(小米手机,128G,白色,4999元)。

 维表的特征:

  1. 维表的范围很宽(具有多个属性、列比较多)
  2. 跟事实表相比,行数相对较小:通常< 10万条
  3. 内容相对固定:编码表

2.2.2 事实表

事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等)。
每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。
如订单表(小明,小米手机,4999元,优惠券200元,下单时间2020-05-21 09:00)。

 事实表的特征:

  1. 非常的大
  2. 内容相对的窄:列数较少(主要是外键id和度量值)
  3. 经常发生变化,每天会新增加很多

 事实表分类:

  1. 事务型事实表
    事务事实表是维度建模事实表中最为常见、使用最为广泛的事实表。
    事务事实表通常用于记录业务过程的事件,而且是原子粒度的事件。事务事实表中的数据在事务事件发生之后,数据的粒度通常是每个事务一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改。比如用户注册,用户访问记录,用户评论等。
    通过事务事实表存储单次业务事件/行为的细节,以及存储与事件相关的维度细节,用户即可以单独或者聚合分析业务事件和行为。
  2. 周期型快照事实表
    所谓周期快照事实表,是指间隔一定的周期对业务的状态进行一次拍照并记录下来的事实表。最常见的例子是银行账户余额、销售库存等。
    与事务事实表的稀疏性不同(这里的稀疏性是相对的),周期快照事实表通常被认为是稠密的。因此事务事实表只有事务发生才会记录,但是周期快照则必须捕获当前每个实体的状态。
    比如,某个商品如果某天没有销售,那么这个商品不会存在于当天的事务事实表中的,但是为了记录其库存情况,即使没有销售行为,也必须再周期快照事实表中对其进行拍照。
    周期快照事实表的周期通常需要和业务方共同确定,最常见的周期是天、周和月等。
    周期快照事实表中的事实一般是半可加的,如商品的库存可以跨仓库、跨品类累加的,但是明显在时间上相加是没有意义的。
  3. 累计型快照事实表
    累计快照事实表非常适用于具有工作流或者流水线形式业务的分析,这些业务通常涉及多个时间节点或者有主要的里程碑事件,而累计快照事实表正是从全流程角度对其业务状态的拍照。例如,数据仓库中可能需要存储订单从下订单开始,然后接单,然后到达出发点,然后订单完成,然后支付等各个业务阶段的时间点数据来跟踪订单声明周期的进展情况。当这个业务过程进行时,事实表的记录也要不断更新。
    在这里插入图片描述

2.2.3 维度建模的三种模型

星型模型:事实表周围只有一层维度表。星型模型是非规范化的设计,在设计与建设过程中不受关系数据库范式规则的约束,简单的关联逻辑便可以支持高度复杂的维度组合需求,在查询性能方面具有明显的优势。

在这里插入图片描述

雪花模型:维度表有多个层级。雪花模型是将一个维度规范化成多个关联的表,规范化的过程就是将维表中冗余的数据进行解耦从而分离出一些新表,以减少数据冗余。

雪花模型和星型模型的区别:雪花模型会对维度表进一步细分和规范化。
在这里插入图片描述

星座模型:也被称作星系模型,有多张事实表。星座模型是由星型模型延伸而来,星型模型是基于一张事实表而星座模型是基于多张事实表,并且共享维度表信息,这种模型往往应用于数据关系比星型模型和雪花模型更复杂的场合。

星型模型和星座模型区别:星座模型有多个事实表,而星型模型只有一个事实表。
在这里插入图片描述

如何选择建模类型:
星型还是雪花取决于性能优先还是灵活优先,实际企业开发中不会绝对选一种,根据实际情况灵活组合,甚至并存。但整体而言,倾向于维度更少的星型,尤其是Hadopp生态,减少Join即可减少MR的shuffle,性能差距大。关系型数据库则依靠强大的主键索引。
如果业务比较复杂,则都会发展成星座模型。
2.2.4 小结
维度建模从需求出发,重点关注快速完成需求分析,围绕性能和易理解性构建模型,以事实表与维度表的形式重新组织数据。

 在OLAP应用中主要有两大优势:

  1. 前期建模成本较低,从业务需求出发,快速迭代;
  2. 查询性能高,通过数据冗余降低查询的复杂度。

 主要的劣势表现在:

  1. 通过降低规范化、尽可能多的冗余维度信息在一张“大宽表”之中,使整个模型臃肿,当遇到不断变化的业务时,数据的维护成本大;
  2. 由于数据的大量冗余,如何保证数据一致性也是一个问题,无疑增加了模型的管理成本。

因此,从整体来说维度建模的开发和使用成本较低,但是维护成本较高,比较适合在接近业务分析的数据集市层、分析层来使用。

维度建模源于Kimball提出的总线式的自下而上(DM-DW)的数据仓库架构,范式建模源于Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。两种建模方法对比如下:

在这里插入图片描述
在这里插入图片描述

3. 建模设计

本项目ODS层使用关系建模开发,DW层和ADS层采用维度建模开发。

3.1 ODS层

 数据类型:用户行为数据、业务数据
 规划处理:

  1. 保持数据源不做修改,起到备份数据的作用
  2. 数据采用压缩,减少磁盘存储空间
  3. 创建分区表,防止后续的全表扫描

3.2 DWD层

DWD层需构建维度模型,采用星型模型,呈现的状态为星座模型。

维度建模一般按照以下四个步骤:选择业务过程→声明粒度→确认维度→确认事实

  1. 选择业务过程
    在业务系统中,挑选业务方感兴趣的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一张事实表。
  2. 声明粒度
    数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。
    声明粒度意味着精确定义事实表中的一行数据表示什么,应该尽可能选择最小粒度,以此来应各种各样的需求。
    典型的粒度声明如下:
    订单事实表中一行数据表示的是一个订单中的一个商品项。
    支付事实表中一行数据表示的是一个支付记录。
  3. 确定维度
    维度的主要作用是:描述业务的事实情况。主要表示的是“谁,何处,何时”等信息。
    确定维度的原则是:后续需求中是否要分析相关维度的指标。例如,需要统计什么时间下的订单多,哪个地区下的订单多,哪个用户下的订单多。需要确定的维度就包括:时间维度、地区维度、用户维度。
  4. 确定事实
    此处的“事实”一词,指的是业务中的度量值(次数、个数、件数、金额,可以进行累加),例如订单金额、下单次数等。
    在DWD层,以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。事实表可做适当的宽表化处理。
    事实表和维度表的关联比较灵活,但是为了应对更复杂的业务需求,可以将能关联上的表尽量关联上。

3.3 DWS层

DWD层是以业务过程为驱动,DWS层以及ADS都是以需求为驱动。
通过以下案例进行阐述。
 问题引出:如果想统计一个司机一天的跑了多少单,挣了多少钱怎么算
 处理办法:
如果只是单单计算这一次,就可以直接将订单表进行处理后聚合,然后计算单量和金额。但是在企业中,很多指标都是要重复计算的。比如计算了天维度的单量和金额,还有计算周和月维度的单量和金额。如果每次都从明细去算,显然不现实,即浪费计算资源又容易造成数据不一致。针对上述场景,可以设计一张订单宽表(DWS),从DWD表进行轻度聚合得到,主要包含订单相关的指标,比如金额、数量、时间等,以后如果再有类似的指标计算都可以直接从这张表拿,从而减少重复计算,提高计算速度。

 总结:

  1. 需要建哪些宽表:以需求为主,需要分析哪些业务,需要分析哪些实体。
  2. 宽表里面的字段:一方面站在不同维度的角度去看事实表,另一方面关注事实表聚合后的度量值。

3.4 ADS层

这一层是最贴近需求的,基本的开发思路就是使用DWS和DWD的中间表,进行计算,得到需求需要的数据。其实也是基于星型模型来做的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/400653.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ssm+vue+uniapp的停车场小程序的设计与实现

开发语言&#xff1a;Java框架&#xff1a;ssmuniappJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;M…

sql语句优化(mysql select语句)-索引方式

1、上图是mysql user表的一小部分数据,一共有: 100万条数据 2、假如现在需要查询name列的某一条数据&#xff08;name‘user3’&#xff09; 3、下图是查询优化器评估的最佳方案&#xff0c;索引我删除了还走索引&#xff0c;还他呀的在&#xff0c;奇怪&#xff0c;就先不研究…

Review Learning : 推进一体化超高清图像恢复训练方法

Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method 摘要 一体化图像恢复任务变得越来越重要&#xff0c;特别是对于超高清&#xff08;UHD&#xff09;图像。 现有的一体机UHD图像恢复方法通常通过引入针对不同退化类型的即时…

Python,Spire.Doc模块,处理word、docx文件,极致丝滑

Python处理word文件&#xff0c;一般都是推荐的Python-docx&#xff0c;但是只写出一个&#xff0c;一句话的文件&#xff0c;也没有什么样式&#xff0c;就是36K。 再打开word在另存一下&#xff0c;就可以到7-8k&#xff0c;我想一定是python-docx的问题&#xff0c;但一直没…

加和分数、训练、测试

一、加和所有alignment的分数 1、路线图中 2、l_i只与token有关&#xff0c;有一个专门训练的网络&#xff1b;h_i变化只与null有关 3、distribution生成的概率不受路径影响&#xff0c;只要到达位置概率就是一样的 4、计算alignment分数的总和 &#xff08;1&#xff09;αi…

C 语言结构体赋值分析和其优点(使用方式和汇编分析)

1. 例子 #include <stdio.h> #include <stdlib.h> #include <string.h>struct Foo {char a;int b;double c; };int main() {// 定义结构体对象struct Foo foo1;struct Foo foo2;// 初始化为 0memset(&foo1, 0, sizeof(foo1));memset(&foo2, 0, size…

Kubernetes/K8s集群1.23.6搭建

1 集群规划 HostnameIP角色centos702192.168.131.102mastercentos704192.168.131.104nodecentos705192.168.131.105node 2 安装步骤 初始操作和安装基础软件每个节点都要执行。 2.1 初始操作 2.1.1 关闭防火墙 systemctl stop firewalld systemctl disable firewalld2.1.…

Science Robotics 受鳞片启发的可编程机器人结构,可同时进行形状变形和刚度变化

一、前言速览 生物有机体通常凭借复杂的结构表现出显著的多功能性&#xff0c;例如章鱼具有可以同时改变形状和刚度的能力。现有的仿生软体机器人要想实现这样的能力&#xff0c;往往需要繁琐的结构和复杂的控制系统。为此&#xff0c;来自新加坡南洋理工大学的研究人员从覆盖…

ARM高性能计算(HPC)处理器Neoverse介绍

思考: Neoverse系列中的N、V、E有什么区别? 这三个字母的缩写又是什么? ARM Neoverse架构是ARM专为服务器、数据中心、高性能计算(HPC)和网络基础设施设计的一系列处理器架构。Neoverse架构分为N系列、V系列和E系列,这些系列面向不同的应用场景,各自有不同的设计目标和…

44 个 React 前端面试问题

1.你知道哪些React hooks&#xff1f; useState&#xff1a;用于管理功能组件中的状态。useEffect&#xff1a;用于在功能组件中执行副作用&#xff0c;例如获取数据或订阅事件。useContext&#xff1a;用于访问功能组件内的 React 上下文的值。useRef&#xff1a;用于创建对跨…

人工智能新纪元

人类社会正式从信息科技时代步入了人工智能时代&#xff0c;相比信息科技革命&#xff0c;人工智能科技革命的影响要深远的多&#xff0c;在这新旧交替剧烈变革期&#xff0c;绝大多数人都有机会。 为了更好的理解人工智能科技革命&#xff0c;首先我们首先梳理一下技术的发展…

全网最最最详细的haproxy详解!!!

1 什么是负载均衡 负载均衡&#xff08;Load Balancing&#xff09;是一种将网络请求或工作负载分散到多个服务器或计算机资源上的技术&#xff0c;以实现优化资源使用、提高系统吞吐量、增强数据冗余和故障容错能力、以及减少响应时间的目的。在分布式系统、云计算环境、Web服…

ArkUI---Swiper、Grid、List组件简单介绍

前言&#xff1a;ForEach ForEach语法如下&#xff1a; ForEach(arr: Array,itemGenerator: (item: Array, index?: number) > void,keyGenerator?: (item: Array, index?: number) : string > string ) 参数1&#xff1a;数据源&#xff0c;为Array的数组 参数2&am…

KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS

文章目录 题目摘要简介KOLA 基准实验评估结论和未来工作道德声明 题目 KOLA&#xff1a;仔细对大型语言模型的世界知识进行基准测试 论文地址:https://arxiv.org/abs/2306.09296 项目地址:https://github.com/ranahaani/GNews 摘要 大型语言模型 (LLM) 的卓越性能要求评估方法…

Grok-2的Beta版发布

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

图论------Bellman-Ford算法求单源最短路径的优化

目录 前情回顾&#xff1a; 画图分析&#xff1a; 具体代码&#xff1a; 前情回顾&#xff1a; 大家是否还记得我们之前讲过的Bellman-Ford算法&#xff0c;如果忘记的话可以点击链接去复习一下&#xff1a;图论------贝尔曼-福德&#xff08;Bellman-Ford&#xff09;算法-…

8月13日学习笔记 LVS

一.描述以及工作原理 1. 什么是LVS linux virtural server的简称&#xff0c;也就是linxu虚拟机服务器&#xff0c;这是一个 由章文嵩博士发起的开源项目&#xff0c;官网是 http://www.linuxvirtualserver.org,现在lvs已经是linux内核标 准的一部分&#xff0c;使用lvs可以达…

杭州网络安全等保测评——数据守护者的金盾牌️

在数字化转型疾驰的杭州&#xff0c;网络疆域的每一次拓展都伴随着安全风险的增长。如何在创新与安全之间找到黄金平衡点&#xff1f;《杭州等保测评&#xff1a;守护网络安全的坚实屏障》一文&#xff0c;深入探索这座智慧城市如何依托等保测评体系&#xff0c;构建起一道道安…

【已EI检索会议】第五届新材料与清洁能源国际学术会议(ICAMCE 2024)

重要信息 会议官网&#xff1a;2024.icceam.com 接受/拒稿通知&#xff1a;投稿后1周内 收录检索&#xff1a;EI, Scopus 会议召开视频 见刊封面 EI检索页面 Scopus 检索页面 相关会议 第六届新材料与清洁能源国际学术会议&#xff08;ICAMCE 2025&#xff09; 大会官网&…

机器学习常用包numpy篇(二)数组属性与基本操作

目录 前言 数组属性 1.数组转置 2.数组元素的数据类型 3.数组元素的虚部 4.数组元素的实部 5.数组包含的元素个数 6.数组元素的字节数 7.数组元素的总字节 8.数组维度 9.数组形状 10.每个维度中步进的字节数组 11.数组维度和形状 数组基本操作 1.重设形状 2.数…