数仓模型设计方法论

在当今大数据时代,数据已经成为企业最重要的资产之一。而数据仓库作为企业数据管理和分析的核心基础设施,其设计方法论对于企业的数据治理和决策分析至关重要。本文将探索数仓模型设计的方法论,帮助读者更好地理解和应用数仓模型设计。

一、模型规划

1、模型层次规划

分层是以解决当前业务快速的数据支撑为目的,为未来抽象出共性的框架并能够赋能给其他业务线,同时为业务发展提供稳定、准确的数据支撑,并能够按照已有的模型为新业务发展提供方向,也就是数据驱动和赋能。

数仓分层要结合公司业务进行,并且需要清晰明确各层职责,一般采用如下分层结构:

ODS:Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区,同时又承担着基础数据的记录以及历史变化。

CDM:Common Data Model,公共维度模型层,又细分为DWD明细粒度事实层、DWS公共汇总粒度事实层和DIM公共维度层。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。

  • DIM公共维度层:可基于实际业务,存放逻辑模型的维度表;或存放概念模型的维度定义,通过定义维度,确定维度主键,添加维度属性,关联不同维度等操作,建立整个企业的一致性数据分析维表。 维度表推荐表名规范:dim_{业务分类}_{数据域}_{自定义内容}_{存储策略}。
  • DWD明细粒度事实层:以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。您可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当的冗余,即宽表化处理。推荐表名规范:dwd_{业务分类}_{数据域}_{业务过程}_{自定义内容}_{存储策略}。
  • DWS公共汇总粒度事实层:以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段来物理化模型。推荐表名规范:dws_{业务分类}_{数据域}_{自定义内容}_{时间周期}。

ADS:Application Data Service,应用数据层,以分析的主题对象作为建模驱动,基于公共粒度的汇总指标表,构建直接面向业务分析需求的业务分析指标表。 推荐表名规范:ads_{业务分类}_{数据集市}_{主题域}_{自定义内容}_{时间周期}。

2、模型设计原则

高内聚和低耦合

一个逻辑和物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法论中的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开存储。

核心模型与扩展模型分离

建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要。在必须让核心模型与扩展模型做关联时,不能让扩展字段过度侵入核心模型,以免破坏了核心模型的架构简洁性与可维护性。

公共处理逻辑下沉及单一

底层公用的处理逻辑应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑在多处同时存在。

成本与性能平衡

适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。

数据可回滚

处理逻辑不变,在不同时间多次运行数据的结果需确定不变。

一致性

相同的字段在不同表中的字段名必须相同。

命名清晰可理解

表命名规范需清晰、一致,表命名需易于下游的理解和使用。

二、维度建模方法论

1、维度表

维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。

维度表的基本设计方法

  • 第一步:选择维度或者新建维度。作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。
  • 第二步:确定主维度。主维表一般是ODS表,直接与业务系统同步。
  • 第三步:确定相关维表。数据仓库是业务源系统的数据整合,不同业务系统或者同一业务系统中的表之间存在关联性。根据对业务的梳理,确定哪些表和主维表存在关联关系,并选择其中的某些表用于生成维度属性。
  • 第四步:确定维度属性。本步骤主要包括两个阶段,其中第一个阶段是从主维表中选择维度属性或生成新的维度属性;第二个阶段是从相关维表中选择维度属性或生成新的维度属性。

2、事实表

事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。

事实表有三种类型:事务事实表、周期快照事实表和累积快照事实表。事务事实表用来描述业务过程,跟踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为“原子事实表”。周期快照事实表以具有规律性的、可预见的时间间隔记录事实,时间间隔如每天、每月、每年等。累积快照事实表用来表述过程开始和结束之间的关键步骤事件,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点,当过程随着生命周期不断变化时,记录也会随着过程的变化而被修改。

事实表设计原则

需统一规定不同的数据的数据类型,严格按照规定的数据类型执行:

事实表设计方法

  • 第一步:选择业务过程及确定事实表类型。在明确了业务需求以后,接下来需要进行详细的需求分析,对业务的整个生命周期进行分析,明确关键的业务步骤,从而选择与需求有关的业务过程。
  • 第二步:声明粒度。粒度的声明是事实表建模非常重要的一步,意味着精确定义事实表的每一行所表示的业务含义,粒度传递的是与事实表度量有关的细节层次。明确的粒度能确保对事实表中行的意思的理解不会产生混淆,保证所有的事实按照同样的细节层次记录。应该尽量选择最细级别的原子粒度,以确保事实表的应用具有最大的灵活性。同时对于订单过程而言,粒度可以被定义为最细的订单级别。
  • 第三步:确定维度。完成粒度声明以后,也就意味着确定了主键,对应的维度组合以及相关的维度字段就可以确定了,应该选择能够描述清楚业务过程所处的环境的维度信息。
  • 第四步:确定事实。事实可以通过回答“过程的度量是什么”来确定。应该选择与业务过程有关的所有事实,且事实的粒度要与所声明的事实表的粒度一致。事实有可加性、半可加性、非可加性三种类型,需要将不可加性事实分解为可加的组件。 
  • 第五步:冗余维度。在大数据的事实表模型设计中,考虑更多的是提高下游用户的使用效率,降低数据获取的复杂性,减少关联的表数量。所以通常事实表中会冗余方便下游用户使用的常用维度,以实现对事实表的过滤查询、控制聚合层次、排序数据以及定义主从关系等操作。

事务性事实表

事务性事实表可分为单事务事实表和多事务事实表。

单事务事实表,顾名思义,即针对每个业务过程设计一个事实表。这样设计的优点不言而喻,可以方便地对每个业务过程进行独立的分析研究。

多事务事实表,将不同的事实放到同一个事实表中,即同一个事实表包含不同的业务过程。多事务事实表在设计时有两种方法进行事实的处理:①不同业务过程的事实使用不同的事实字段进行存放;②不同业务过程的事实使用同一个事实字段进行存放,但增加一个业务过程标签。

  • 当不同业务过程的度量比较相似、差异不大时,可以采用第二种多事务事实表的设计方式,使用同一个字段来表示度量数据。但这种方式存在一个问题——在同一个周期内会存在多条记录。
  • 当不同业务过程的度量差异较大时,可以选择第一种多事务事实表的设计方式,将不同业务过程的度量使用不同字段冗余到表中,非当前业务过程则置零表示。这种方式所存在的问题是度量字段零值较多。

周期快照事实表

周期快照事实表,简称“快照事实表”。快照事实表在确定的间隔内对实体的度量进行抽样,这样可以很容易地研究实体的度量值,而不需要聚集长期的事务历史。

快照事实表的设计有一些区别于事务事实表设计的性质。事务事实表的粒度能以多种方式表达,但快照事实表的粒度通常以维度形式声明;事务事实表是稀疏的,但快照事实表是稠密的;事务事实表中的事实是完全可加的,但快照模型将至少包含一个用来展示半可加性质的事实。

累计快照事实表

对于类似于研究事件之间时间间隔的需求,采用累积快照事实表可以很好地解决。

三种事实表对比

事务事实表记录的事务层面的事实,用于跟踪业务过程的行为,并支持几种描述行为的事实,保存的是最原子的数据,也称为“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务一条记录。一旦事务被提交,事实表数据被插入,数据就不能更改,其更新方式为增量更新。

周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,如余额、库存、层级、温度等,时间间隔为每天、每月、每年等,典型的例子如库存日快照表等。周期快照事实表的日期维度通常记录时间段的终止日,记录的事实是这个时间段内一些聚集事实值或状态度量。事实表的数据一旦插入就不能更改,其更新方式为增量更新。

累积快照事实表被用来跟踪实体的一系列业务过程的进展情况,它通常具有多个日期字段,用于研究业务过程中的里程碑过程的时间间隔。另外,它还会有一个用于指示最后更新日期的附加日期字段。由于事实表中许多日期在首次加载时是不知道的,而且这类事实表在数据加载完成后,可以对其数据进行更新,来补充业务状态变更时的日期信息和事实。

三、实施方法论

1、业务调研

业务调研是了解企业当前业务运作情况、业务目标和业务流程的过程。在数据仓库建设过程中,业务调研有助于确立数据仓库的定位和目标,为后续的数据建模和ETL开发提供指导。

  • 确定调研范围:明确调研的具体范围和目的,包括调研的业务部门、业务流程和关键业务指标等。
  • 收集业务信息:与业务部门的相关人员进行沟通,了解他们的工作内容、业务需求和数据使用情况,同时收集相关的业务文档和报表等资料。
  • 分析业务流程:分析企业的业务流程,了解数据产生和流转的路径,找出数据仓库需要涵盖的业务过程和环节。
  • 识别关键业务指标:确定关键的业务指标和业绩考核指标,明确数据仓库需要支持的业务分析需求,为后续的数据建模和报表设计奠定基础。

2、数据域划分

划分数据域可以更好地管理数据,提高数据的利用率,降低数据冗余度、帮助企业更好地了解自己的业务。数据域面向业务分析,可以概括为一个个不可拆分的行为事件。在划分数据域时,既能涵盖当前所有业务需求,又能在新业务拓展时无影响的被包含进已有的数据域中和扩展新的数据域。

数据域示例:

数据域

说明

消费者域

包含访客注册、会员登录等相关行为的数据。

商品域

包含商家对商品进行入库、上架、下架等相关行为的数据。

交易域

包含所有消费者和商家之间的交易行为如加购、下单、支付等相关的数据。

3、构建总线矩阵

在进行充分的业务调研和需求调研后,就要构建总线矩阵了。需要做两件事情:明确每个数据域下有哪些业务过程;业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。 

如图所示是供应链管理业务过程示例

4、规范定义

规范定义主要定义派生指标体系。包括原子指标、修饰词修饰词时间周期和派生指标。

5、模型设计

模型设计主要包括维度及属性的规范定义,维表、总事实表的模型设计。

6、ETL开发阶段

  • 数据加工:编写ETL作业,对抽取的数据进行清洗、加工和转换,然后加载到数据仓库中。
  • 调试与优化:对ETL作业进行调试和优化,保证数据的质量和效率。

7、数据仓库搭建与优化阶段

  • 选型与搭建:选择合适的数据仓库工具,搭建数据仓库系统。
  • 性能优化:对数据仓库进行性能优化,包括索引优化、查询优化等,提高查询速度和准确性。

8、元数据管理与数据质量管理

  • 元数据管理:建立元数据管理系统,记录数据仓库中各个数据对象的定义和关系,方便数据的追溯和管理。
  • 数据质量监控:建立数据质量监控系统,对数据仓库中的数据进行监控和评估,及时发现并解决数据质量问题。
  • 数据质量改进:根据监控结果,持续改进和优化数据质量管理流程,提高数据的质量和价值。

9、上线运维与支持

  • 上线部署:将数据仓库系统上线,与业务系统进行集成。
  • 运维支持:建立数据仓库的运维体系,包括监控、故障处理、性能调优等,保证数据仓库系统的稳定运行。

10、持续改进与优化

  • 反馈与改进:定期与业务部门沟通,收集用户反馈,持续改进和优化数据仓库系统。
  • 技术更新:关注数据仓库技术的最新发展,及时进行技术更新和升级,提高数据仓库的竞争力和适应性。

以上就是数据仓库实施过程的主要阶段和方法,每个阶段都需要充分的规划和准备,同时需要与业务部门密切合作,持续改进和优化数据仓库系统,以满足企业不断变化的业务需求。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/268954.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

day06_菜单管理(查询菜单,添加菜单,添加子菜单,修改菜单,删除菜单,角色分配菜单,查询菜单,保存菜单,动态菜单)

文章目录 1 菜单管理1.1 表结构介绍1.2 查询菜单1.2.1 需求说明1.2.2 页面制作1.2.3 后端接口SysMenuSysMenuControllerSysMenuServiceMenuHelperSysMenuMapperSysMenuMapper.xml 1.2.4 前端对接sysMenu.jssysMenu.vue 1.3 添加菜单1.3.1 需求说明1.3.3 页面制作1.3.3 后端接口…

AI新工具(20240228) EMO - 阿里巴巴的表情驱动的音频到视频转换框架;DepthFlow;Globe Explorer等

EMO - 阿里巴巴的表情驱动的音频到视频转换框架 EMO(Emote Portrait Alive)是一个先进的表情驱动的音频到视频转换框架,可以通过音频(比如说话或唱歌的声音)和一张单独的参考图片,生成带有丰富面部表情和头…

【前端面试题5】利用 border 属性画一个三角形

举例1:利用 border 属性画一个三角形(小技巧) 完整代码如下: div{width: 0;height: 0;border: 50px solid transparent;border-top-color: red;border-bottom: none; }步骤如下: (1)当我们设…

es集群的详细搭建过程

目录 一、VM配置二、集群搭建三、集群配置 一、VM配置 VM的安装 VMware Workstation 15 Pro的安装与破解 VM新建虚拟机 VM新建虚拟机 二、集群搭建 打开新建好的服务器,node1,使用xshell远程连接 下载es:https://www.elastic.co/cn/down…

java中的set

Set Set集合概述和特点 不可以存储重复元素 没有索引,不能使用普通for循环遍历 哈希值 哈希值简介 是JDK根据对象的地址或者字符串或者数字算出来的int类型的数值 如何获取哈希值 Object类中的public int hashCode():返回对象的哈希码值。 哈希值的特点 同一个…

xss.haozi.me:0x0B

<svg><script>(1)</script>

【王道操作系统】ch1计算机系统概述-06虚拟机

文章目录 【王道操作系统】ch1计算机系统概述-06虚拟机01传统计算机02虚拟机的基本概念&#xff08;1&#xff09;第一类虚拟机管理程序&#xff08;2&#xff09; 第二类虚拟机管理程序&#xff08;3&#xff09; 两类虚拟机管理程序的对比 【王道操作系统】ch1计算机系统概述…

面试经典150题 -- 回溯 (总结)

总的链接 : 面试经典 150 题 - 学习计划 - 力扣&#xff08;LeetCode&#xff09;全球极客挚爱的技术成长平台 17 . 电话号码的字母组合 1 . 先创建一个下标 与 对应字符串映射的数组&#xff0c;这里使用hash表进行映射也是可以的 &#xff1b; 2 . 对于回溯 &#xff0c;…

live555学习 - 环境准备

环境&#xff1a;Ubuntu 16.04.7 ffmpeg-6.1 1 代码下载 最新版本&#xff1a; http://www.live555.com/liveMedia/public/ 历史版本下载 https://download.videolan.org/pub/contrib/live555/ 选择版本live.2023.01.19.tar.gz ps&#xff1a;没有选择新版本是新版本在…

用堆排序解决topk问题

topk问题 从一群数中取出前k高或者低的数。&#xff08;就好比要做一个像csdn热度榜一样的东西&#xff09; 堆的基础知识&#xff1a;【python】堆排序-CSDN博客 堆排序解决思路 1.先用列表的k个元素构建一个小根堆&#xff0c;小根堆最上面的元素就是最小的元素 2.依次拿…

(学习日记)2024.03.01:UCOSIII第三节 + 函数指针 (持续更新文件结构)

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

算法:动态规划

文章目录 引子&#xff1a;凑零钱一、斐波那契数列模型引例&#xff1a;第 N 个泰波那契数动态规划步骤空间优化 例题1 三步问题例题2&#xff1a;使用最小花费爬楼梯★例题3&#xff1a;解码方法 ★ 二、路径问题例题4&#xff1a;不同路径例题5&#xff1a;下降路径最小和例题…

[Android View] 可绘制形状 (Shape Xml)

一切以官方文档为主 官方文档https://developer.android.com/guide/topics/resources/drawable-resource?hlzh-cn#Shape 什么是可绘制形状 可以理解为用xml文件来描述一个简单的Drawable图形&#xff0c;比如说以下这段xml就可以用来描述一个白色的圆形&#xff1a; <?…

机器视觉——硬件选型

1、相机选型 在选择机器视觉相机时&#xff0c;通常需要考虑以下几个方面&#xff1a; 1、分辨率&#xff1a;相机的分辨率决定了其拍摄图像的清晰度和细节程度。根据具体的应用需求&#xff0c;可以选择适当的分辨率范围。 2、帧率&#xff1a;帧率表示相机每秒钟能够拍摄的…

[linux][xdp] xdp 入门

xdp 全称 eXpress Data Path&#xff0c;是 linux ebpf 中的一个功能。ebpf 在内核中预留了一些插入点&#xff0c;用户可以在这些插入点插入自己的处理逻辑&#xff0c;当数据路过插入点时可以做一些预期的处理&#xff0c;具体实现方式如下&#xff1a; ① 用户编写数据处理…

论文阅读_代码生成模型_CodeGeeX

英文名称: CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X 中文名称: CodeGeeX&#xff1a;一种用于代码生成的预训练模型&#xff0c;并在HumanEval-X上进行多语言评估 链接: https://arxiv.org/abs/2303.17568 代码: http…

【Java开发】Java实现调用微信机器人,发送企业微信通知

请直接看原文: 【Java开发】Java实现调用微信机器人&#xff0c;发送企业微信通知_java 企业微信推送机器人消息-CSDN博客 ------------------------------------------------------------------------------------------------------------------------------- 企业微信机器…

代码随想录day11(1)字符串:反转字符串中的单词 (leetcode151)

题目要求&#xff1a;给定一个字符串&#xff0c;将其中单词顺序反转&#xff0c;且每个单词之间有且仅有一个空格。 思路&#xff1a;因为本题没有限制空间复杂度&#xff0c;所以首先想到的是用split直接分割单词&#xff0c;然后将单词倒叙相加。 但如果想让空间复杂度为O…

算法day03_ 59.螺旋矩阵II

推荐阅读 算法day01_ 27. 移除元素、977.有序数组的平方 算法day02_209.长度最小的子数组 目录 推荐阅读59.螺旋矩阵 II题目思路解法 59.螺旋矩阵 II 题目 给你一个正整数 n &#xff0c;生成一个包含 1 到 n2 所有元素&#xff0c;且元素按顺时针顺序螺旋排列的 n x n 正方形…

基于 Amazon EKS 的 Stable Diffusion ComfyUI 部署方案

01 背景介绍 Stable Diffusion 作为当下最流行的开源 AI 图像生成模型在游戏行业有着广泛的应用实践&#xff0c;无论是 ToC 面向玩家的游戏社区场景&#xff0c;还是 ToB 面向游戏工作室的美术制作场景&#xff0c;都可以发挥很大的价值&#xff0c;如何更好地使用 Stable Dif…