【数据仓库】数据仓库常见的数据模型——维度模型

文章部分图参考自:多维数据模型各种类型(星型、雪花、星座、交叉连接) - 知乎 (zhihu.com)

文章部分文字canla一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)-腾讯云开发者社区-腾讯云 (tencent.com)

目录

一、维度模型

(1)、星型模型(Star Schema)

(2)、雪花模型(Snowflake Schema)

(3)、星座模型(Galaxy Schema)

(4)、交叉连接

二、选择模型的考虑因素


一、维度模型

在数据仓库的设计和实施过程中,选择合适的数据模型对于优化查询性能提升数据分析效率至关重要。星型模型雪花模型星座模型是3种流行的数据仓库建模方法,它们各自具有独特的结构、优势和局限性。本文将深入探讨这三种模型的特点、适用场景以及如何根据业务需求进行选择。

维度建模四个步骤:

选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

1、星型模型(Star Schema)

星型模型是一种简单直观的数据模型。其主要目的是优化查询性能,使数据分析更加高效。星型模型的设计思路源自于对多维数据模型的需求,即通过简化数据结构来支持快速的查询操作。

1、结构:

星型模型由一个中心的事实表(Fact Table)和多个维度表(Dimension Tables)构成。中心事实表包含与业务过程相关的事实指标,维度表则描述了这些事实的上下文信息。事实表包含了可度量的数据,如销售额或利润,而维度表则包含了描述这些数据的属性,如时间、地点或产品类型。事实表与维度表之间通过外键连接,形成一个类似星形的结构。

 

2、优缺点:

优点:

  • 易于理解和查询:星型模型的结构简单明了,易于理解和查询,适用于简单的分析需求。
  • 性能较高:星型模型具有较好的查询性能,因为所有的维度信息都存储在维度表中,减少了表的连接操作,查询优化相对容易,能快速处理大量数据。

缺点:

  • 数据冗余:维度表可能存在数据冗余,也可能导致数据不一致性,也增加了存储空间的消耗。
  • 维护难度大:灵活性有限,星型模型对于新增维度的处理相对困难,需要进行表结构的修改

2、雪花模型(Snowflake Schema)

雪花模型是在星型模型的基础上进行了维度表的规范化,将维度表进一步分解为多个层次的规范化表。它的目的是通过数据规范化来减少冗余,并提升存储效率。雪花模型的名字源于其表结构的层次化外观,类似雪花的形状。

1.结构:

在雪花模型中,维度表被进一步分解成多个子表,形成一个层次结构。这种规范化使得维度数据被拆分到更细粒度的表中,从而减少数据冗余。例如,产品维度表可能会被拆分成产品类别和产品子类别表。

事实表:订单事实表(与星型模型相同)
维度表:日期维度表(与星型模型相同)
维度表:客户维度表(与星型模型相同)维度表:产品维度表
产品ID | 产品名称 | 类别 |··
规范化表:产品类别表
类别ID | 类别名称 | 父类别ID |··

2.优缺点:

优点:

  • 减少冗余数据:雪花模型通过规范化维度表,减少了数据冗余,节省了存储空间。
  • 灵活性高:雪花模型支持灵活的维度层次,适用于需要频繁变更或扩展维度的场景,有助于保持数据的一致性。

缺点:

  • 查询性能较差:由于表结构复杂,查询时需要进行多个连接,性能可能受影响。
  • 难以理解和维护:雪花模型的结构复杂,维度表的规范化可能增加了数据模型的理解和维护的复杂性。

3、星座模型(Galaxy Schema)

星座模型,又称为星型集合模型(Fact Constellation Schema),是对星型模型的一种扩展。它允许多个星型模型共享维度表,因此适用于需要整合多个业务领域的数据仓库。星座模型的出现满足了更复杂数据整合的需求。

1.结构:

星座模型由多个星型模型组成,这些星型模型共享某些维度表。例如,一个数据仓库可能同时包含销售和库存的星型模型,这些模型共享时间和产品维度表,从而形成一个星座结构。

2.优缺点:

优点:

  • 整合多个业务领域:适合处理复杂的业务数据,支持多角度分析。
  • 提高维度表的复用性:通过共享维度表,减少了数据重复。

缺点:

  • 设计复杂:涉及多个星型模型,设计和维护较为复杂。
  • 查询优化难度大:由于涉及多种业务数据,查询优化和性能调优比较复杂。

(4)、交叉连接

从一张表到另一张表有多条筛选路径彼此相连接,属于交叉连接模式

二、选择模型的考虑因素

1、数据复杂性:

如果业务需求较简单,维度层次不复杂,可以选择星型模型

如果业务需求复杂,维度层次较多,可以选择雪花模型

2、查询性能要求:

如果对查询性能有较高的要求,可以选择星型模型

如果对存储空间有较高的要求,可以选择雪花模型

3、可维护性和扩展性:

如果数据模型相对稳定,变更频率较低,可以选择星型模型。 

如果需要频繁变更或扩展维度,可以选择雪花模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/426209.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Comsol 利用多孔材料填充复合吸声器,拓宽低频完美吸声

参考文献:Cheng B , Gao N , Huang Y ,et al.Broadening perfect sound absorption by composite absorber filled with porous material at low frequency:[J].Journal of Vibration and Control, 2022, 28(3-4):410-424.DOI:10.1177/1077546320980214. 为了提高低…

MySQL基于GTID同步模式搭建主从复制

系列文章目录 rpmbuild构建mysql5.7.42版本的rpm包 文章目录 系列文章目录一、mysql-5.7.42RPM包构建二、同步模式分类介绍1.异步同步模式2.半同步模式2.1.实现半同步操作流程2.2.半同步问题总结2.3.半同步一致性2.4.异步与半同步对比 3.GTID同步 三、GTID同步介绍1.gtid介绍2…

C语言程序设计(进阶)

行到水穷处,坐看云起时。 中秋快乐呀! 数据在内存中的存储 1.数据类型的介绍 (1)基本的内置类型: char //字符数据类型 short //短整型 int //整型 long //长整型 …

【零基础速领】全套AI大模型入门指南(学习路线+PDF文档+面试)

已经有越来越多的人开始认识到学习AI的重要性了!可能是自主的认知,也可能是被身边的人卷的。总之,可能已经没有人不知道人工智能这个概念了,可能人人都已知道ChatGPT了,哪怕他没有用过。 ChatGPT发布后,很…

nginx实现https安全访问的详细配置过程

文章目录 前言什么是 HTTP?什么是 HTTPS?HTTP 和 HTTPS 的区别为什么 HTTPS 被称为安全的?配置过程配置自签名证书 前言 首先我们来简单了解一下什么是http和https以及他们的区别所在. 什么是 HTTP? HTTP,全称为“超…

LeetCode_sql_day24(1212.查询球队积分)

描述 表: Teams ------------------------- | Column Name | Type | ------------------------- | team_id | int | | team_name | varchar | ------------------------- team_id 是该表具有唯一值的列。 表中的每一行都代表一支独立足球队。表: Matches…

【Linux】探索文件I/O奥秘,解锁软硬链接与生成动静态库知识

目录 1、C文件接口 1.1什么是当前路径? 1.2程序默认打开的文件流: 2、系统文件I/O 2.1.接口介绍: 2.1.1open: 参数讲解; flags如何实现一个参数就可以有多个参数传参的效果? open函数的返回值: 3…

CentOS入门必备基础知识

CentOS(Community ENTerprise Operating System)是基于红帽企业版Linux(RHEL)的免费开源Linux发行版,它以稳定、安全和可靠性著称,被广泛应用于服务器环境。以下是CentOS入门时你必须掌握的基础知识。 1. C…

【技术调研】三维(3)-ThreeJs-几何体、材质、贴图、灯光及案例

几何体 ​ 几何体是构建模型的基础,模型=几何体+材质。threejs中已内置了很多几何体。这里不一一介绍。 BufferGeometry 是面片、线或点几何体的有效表述。包括顶点位置,面片索引、法相量、颜色值、UV 坐标和自定义缓存属性值。使用 BufferGeometry 可以有效减少向 GPU 传输…

报名开启!第七届“强网”拟态防御国际精英挑战赛正式官宣

向新向未来,顶赛启新篇!第七届“强网”拟态防御国际精英挑战赛正式官宣,暂定于2024年11月18日至21日在南京举办。 本届大赛旨在促进内生安全理念和技术在实践中的应用,吸引更多数字化产业加入内生安全产业生态圈,推动…

基于C++实现(MFC)职工工作量统计系统

题目:职工工作量统计系统设计 1、问题描述 职工包括姓名、职工号、性别、年龄、所在部门、联系方式等信息。 工作量包括职工号、完成的产品数量等信息。 该设计系统能够对职工的工作量进行统计,并排出名次。注意,一个职工的工作量是可以多次…

微信支付开发-前端api实现

一、操作流程图 二、代码实现 <?php /*** 数字人答题业务流* User: 龙哥三年风水* Date: 2024/9/11* Time: 14:59*/ namespace app\controller\shuziren; use app\controller\Base; use app\model\param\QuestionParam as PQPModel; use app\model\answer\QuestionBank; u…

【Java】【力扣】83.删除排序链表中的重复元素

题目 给定一个已排序的链表的头 head &#xff0c; 删除所有重复的元素&#xff0c;使每个元素只出现一次 。返回 已排序的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,1,2] 输出&#xff1a;[1,2]示例 2&#xff1a; 输入&#xff1a;head [1,1,2,3,3] 输出&#…

电脑录屏工具哪个好用?推荐新手几款实用工具介绍

现在不管是录个教学视频教教别人&#xff0c;还是直播游戏给粉丝看&#xff0c;或者是展示你的产品&#xff0c;都得用到它。但是市面上的录屏软件多得让人眼花缭乱&#xff0c;新手可能一看就懵了。别急&#xff0c;今天我就给你介绍几个特别好用的电脑录屏工具&#xff0c;不…

Java之线程篇四

目录 volatile关键字 volatile保证内存可见性 代码示例 代码示例2-&#xff08;volatile&#xff09; volatile不保证原子性 synchronized保证内存可见性 wait()和notify() wait()方法 notify() 理解notify()和notifyAll() wait和sleep的对比 volatile关键字 volati…

国家标准参编周期一般是多久?参编的流程有哪些?

在当今快速发展的时代&#xff0c;标准的重要性日益凸显。国家标准作为规范行业发展、保障产品质量、促进技术进步的重要依据&#xff0c;吸引着众多企业积极参与其中。而国家标准参编&#xff0c;为企业提供了一个提升自身竞争力、展示技术实力的良好平台。那么&#xff0c;国…

第k个排列 - 华为OD统一考试(E卷)

2024华为OD机试&#xff08;E卷D卷C卷&#xff09;最新题库【超值优惠】Java/Python/C合集 题目描述 给定参数n&#xff0c;从1到n会有n个整数:1,2,3,.,n&#xff0c;这n个数字共有 n!种排列。按大小顺序升序列出所有排列情况&#xff0c;并-一标记&#xff0c;当n3时,所有排列…

vscode任务配置之tasks.json

目录 用途说明 用途1&#xff1a;配置编译任务 1.生成task.json文件 2.编辑task.json文件 3.运行任务 用途2&#xff1a;给一个脚本文件配置任务 1.生成task.json文件 2.编辑task.json文件 3.运行任务 用途说明 在VS Code中配置任务主要涉及到task.json文件的编辑&am…

Java学习Day42:骑龙救!(springMVC)

springMVC与sevlet都是对应表现层web的&#xff0c;但是越复杂的项目使用SpringMVC越方便 基于Java实现MVC模型的轻量级web框架 目标&#xff1a; 小案例&#xff1a; 1.导入依赖 spring-context: 提供 Spring 框架的核心功能&#xff0c;如依赖注入、事件发布和其他应用上…

面试真题-TCP的三次握手

TCP的基础知识 TCP头部 面试题&#xff1a;TCP的头部是多大&#xff1f; TCP&#xff08;传输控制协议&#xff09;的头部通常是固定的20个字节长&#xff0c;但是根据TCP选项&#xff08;Options&#xff09;的不同&#xff0c;这个长度可以扩展。TCP头部包含了许多关键的字…