数据仓库模式之详解 Inmon 和 Kimball

目录

一、前言

二、企业信息工厂(Inmon)

2.1 概念

2.2 主要组件

2.3 流程

三、多维数据仓库(Kimball)

3.1 概念

3.2 核心组件

3.3 流程

 四、异同及用途对比

4.1 异同对比

4.2 特征比较


一、前言

大部分关于数据仓库构建与讨论,都受到两位有影响力的思想领袖Bill Inmon和Ralph Kimball的影响,他们各有不同的数据仓库建模和实施方法。

  • Inmon把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据,又成为企业信息工厂
  • Kimball则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维数据仓库。

 在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。目前主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构本。文将详细介绍 Kimball 和 Inmon 理论在实际数据仓库建设中的应用。

二、企业信息工厂(Inmon)

Bill Inmon的企业信息工厂(Corporate Information Factory, CIF)是两种主要的数据仓库建设模式之一。Inmon关于数据仓库的组成是这样描述的:“面向主题的、整合的、随时间变化的、包含汇总 和明细的、稳定的历史数据集合”。

2.1 概念

Inmon 模式从流程上看是自顶向下的,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。对于Inmon模式,数据源往往是异构的,比如从自行定义的爬虫数据就是较为典型的一种,数据源是根据最终目标自行定制的。这里主要的数据处理工作集中在对异构数据的清洗,包括数据类型检验,数据值范围检验以及其他一些复杂规则。在这种场景下,数据无法从stage层直接输出到dm层,必须先通过ETL将数据的格式清洗后放入dw层,再从dw层选择需要的数据组合输出到dm层。

在Inmon模式中,并不强调事实表和维度表的概念,因为数据源变化的可能性较大,需要更加强调数据的清洗工作,从中抽取实体-关系。

2.2 主要组件

CIF的组成部分包括:

  • 1)应用程序。应用程序处理业务流程。应用程序产生的明细数据流转到数据仓库和操作型数据存储中,继而用作分析。
  • 2)数据暂存区。介于业务系统源数据库和目标数据仓库之间的一个数据库。暂存区是用于数据抽取、转换和加载的地方,对最终用户透明。暂存区中的大部分数据是短时留存的,通常只有相当少的一部分数据是持久性数据。
  • 3)集成和转换。在集成层,来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型。
  • 4)操作型数据存储(ODS)。操作型数据存储是业务数据的集成数据库。
  • 5)数据集市。数据集市为后续的数据分析提供数据。这里说的数据通常是数据仓库的子集,用于支持特定分析或特定种类的消费者。
  • 6)操作型数据集市(OpDM)。操作型数据集市是专注于运营决策支持的数据集市。
  • 7)数据仓库。数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、战略分析和规划。
  • 8)运营报告。运营报告从数据存储中输出。
  • 9)参考数据、主数据和外部数据。

数据仓库和操作性数据存储的区别:

  1. 操作性数据存储数据可能直接来源于应用系统,也可能来自其他数据库。
  2. 操作型数据存储中通常包括当前的或近期的(30~90天)数据,而数据仓库还包含历史(通常是很多年的)数据。
  3. 操作型数据存储的数据变化较快,而数据仓库的数据相对稳定。不是所有的组织都会建设操作型数据存储,操作型数据存储的存在满足了企业对低延迟数据的需求。
  4. 操作型数据存储可以作为数据仓库的主要来源,还可用于对数据仓库做审计。

2.3 流程

通常,Inmon都是以数据源头为导向。

  1. 首先,需要探索性地去获取尽量符合预期的数据,尝试将数据按照预期划分为不同的表需求。
  2. 其次,明确数据的清洗规则后将各个任务通过ETL由Stage层转化到DW层,这里DW层通常涉及到较多的UDF开发,将数据抽象为实体-关系模型。
  3. 接着,在完成DW的数据治理之后,可以将数据输出到数据集市中做基本的数据组合。
  4. 最后,将数据集市中的数据输出到BI系统中去辅助具体业务。
     

三、多维数据仓库(Kimball)

Kimball的多维数据仓库是数据仓库开发的另一个主要模式。Kimball将数据仓库简单地定义为“专为查询和分析而构建的事务数据的副本”(Kimball,2002)。但是,“副本”的说法并不精确。仓库数据存储在多维数据模型中。多维模型旨在方便数据使用者理解和使用数据,同时还支持更优的查询性能。它不是以实体关系模型的规范化要求组织的。

3.1 概念

Kimball 模式从流程上看是是自底向上的,即从数据集市到数据仓库再到数据源(先有数据集市再有数据仓库)的一种敏捷开发方法。对于Kimball模式,数据源往往是给定的若干个数据库表,数据较为稳定但是数据之间的关联关系比较复杂,需要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构,再放入数据集市中方便下一步的BI与决策支持。


3.2 核心组件

  • 1)业务源系统。企业中的操作型/交易型应用程序。这些应用程序产生数据,数据再被集成到操作型数据存储和数据仓库中。此组件等同于企业信息工厂图中的应用程序系统。
  • 2)数据暂存区域。Kimball的暂存区域包括需要集成的流程和用于展示的转换数据,可以与企业信息工厂的集成、转换和数据仓库组件的组合进行类比。Kimball的重点是分析类数据的高效终端交付,比 Inmon的企业管理数据范围要小。Kimball的企业数据仓库可以适配数据暂存区域架构。
  • 3)数据展示区域。与企业信息工厂中的数据集市类似,关键的架构差异在于“数据仓库总线”的集成范式,如应用于若干个数据集市的共享或一致的维度。
  • 4)数据访问工具。Kimball方法侧重于最终用户的数据需求。这些需求推动采用适当的数据访问工具

3.3 流程

通常,Kimball都是以最终任务为导向。

  1. 首先,在得到数据后需要先做数据的探索,尝试将数据按照目标先拆分出不同的表需求。
  2. 其次,在明确数据依赖后将各个任务再通过ETL由Stage层转化到DM层。这里DM层数据则由若干个事实表和维度表组成。
  3. 接着,在完成DM层的事实表维度表拆分后,数据集市一方面可以直接向BI环节输出数据了,另一方面可以先DW层输出数据,方便后续的多维分析。

Kimball往往意味着快速交付、敏捷迭代,不会对数据仓库架构做过多复杂的设计,在变换莫测的互联网行业,这种架构方式逐渐成为一种主流范式。

 四、异同及用途对比

4.1 异同对比

这两种结构的相似之处:

  • 一、都是假设操作型系统和分析型系统是分离的;
  • 二、数据源(操作型系统)都是众多;
  • 三、ETL整合了多种操作型系统的信息,集中到一个企业数据仓库。

最大的不同就是企业数据仓库的模式不同:

  • inmon是采用第三范式的格式,kimball采用了多维模型–星型模型,并且还是最低粒度的数据存储。
  • 其次,维度数据仓库可以被分析系统直接访问(这种访问方式毕竟在分析过程中很少使用)。
  • 最后就是数据集市的概念有逻辑上的区别,在kimball的架构中,数据集市用维度数据仓库的高亮显示的表的子集来表示。

4.2 特征比较

特征InmonKimball
开发周期漫长快速交付
开发难度
维护难度
技能要求专家级入门级
数据要求企业级特定业务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/205112.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件测试测试文档的编写和阅读

在软件测试中的流程中,测试文档也是一个重要的流程,所以测试人员也需要学习测试文档的编写和阅读。 一、定义: 测试文档(Testing Documentation)记录和描述了整个测试流程,它是整个测试活动中非常重要的文…

外包干了5个月,技术退步明显.......

先说一下自己的情况,大专生,18年通过校招进入武汉某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了四年的功能测…

基于算网大脑的探索和实践

2022年2月,国家正式发布消息,同意在内蒙古、贵州、甘肃、宁夏等地启动建设国家算力枢纽节点,标志着,”东数西算“工程已全面启动。 “东数西算”战略是一项长期的策略,并非是一时的热点,跟“南水北调”工程…

【古月居《ros入门21讲》学习笔记】08_发布者Publisher的编程实现

目录 说明: 1. 话题模型 图示 说明 2. 实现过程(C) 创建功能包 创建发布者代码(C) 配置发布者代码编译规则 编译并运行 编译 运行 3. 实现过程(Python) 创建发布者代码(…

【JavaEE初阶】 HTTP 请求 (Request)详解

文章目录 🍀序言🎄认识URL🚩URL 基本格式🚩query string🚩关于 URL encode 🌴认识 "方法" (method)🚩GET方法🚩POST 方法🚩 GET 和 POST 的区别 🎋…

云服务器-从零搭建前后端服务(自动化部署、数据库)

云服务器-从零搭建前后端服务(自动化部署、数据库) 免密登陆 第一步就是能免密快速登录到服务器 可以直接使用 FinalShell、MobaXterm 或 XShell 等进行连接 如下方法是直接用命令行操作 安装 Remote - SSH 插件,即可在 VSCode 中进行配置…

小辰的智慧树(差分+前缀和)

登录—专业IT笔试面试备考平台_牛客网 1.考虑总长度之和不能超过m,2考虑限制每棵树高度不能低于ci,如果用二分最短输能截到的高度,还要另外去判断,是否每棵树mid都能严格大于ci ,这样容易超时,换个角度&…

设计一个算法,将链表中所有结点的链接方向“原地”逆转,即要求仅利用原表的存储空间,换句话说,要求算法的空间复杂度为O(1)

设计一个算法,将链表中所有结点的链接方向“原地”逆转,即要求仅利用原表的存储空间,换句话说,要求算法的空间复杂度为O(1) 代码思路: 这里要求不用额外空间,那么就要考虑链表自身的…

西工大网络空间安全学院计算机系统基础实验一(45678)

接着来看第4个函数,int replaceByte(int x, int n, int c),看题目给出的例子,replaceByte(0x12345678,1,0xab) 0x1234ab78。我们可以多写几个例子,进而找出规律,比如: replaceByte(0x12345678,2,0xab) 0…

SASS的导入文件详细教程

文章目录 前言导入SASS文件使用SASS部分文件默认变量值嵌套导入原生的CSS导入后言 前言 hello world欢迎来到前端的新世界 😜当前文章系列专栏:Sass和Less 🐱‍👓博主在前端领域还有很多知识和技术需要掌握,正在不断努…

使用Terraform创建Docker镜像和容器

为了实现自动化操作,Terraform需要明确指定所使用的提供者。因此,在主要的main.tf文件中,需要提供提供者的名称、源和版本信息。对于Docker,可以在main.tf中使用以下代码块。 1 Terraform配置模块 使用块和资源创建Terraform脚本…

每日一题:LeetCode-202.面试题 08.06. 汉诺塔问题

每日一题系列(day 07) 前言: 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 🌈 &#x1f50e…

QT搭建的Ros/librviz的GUI软件

1.前言 开发初期学习了下面博主的文章,也报了他在古月局的课,相当于感谢吧。 ROS Qt5 librviz人机交互界面开发一(配置QT环境)-CSDN博客​​​​​​​r 软件前期也是参考他的开源项目 GitHub - chengyangkj/Ros_Qt5_Gui_App …

Java核心知识点整理大全22-笔记

目录 19.1.14. CAP 一致性(C): 可用性(A): 分区容忍性(P): 20. 一致性算法 20.1.1. Paxos Paxos 三种角色:Proposer,Acceptor,L…

【SpringBoot3+Vue3】五【完】【实战篇】-前端(配合后端)

目录 一、环境准备 1、创建Vue工程 2、安装依赖 2.1 安装项目所需要的vue依赖 2.2 安装element-plus依赖 2.2.1 安装 2.2.2 项目导入element-plus 2.3 安装axios依赖 2.4 安装sass依赖 3、目录调整 3.1 删除部分默认目录下文件 3.1.1 src/components下自动生成的…

GO 集成Prometheus

一、Prometheus介绍 Prometheus(普罗米修斯)是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundCloud公司开发的。随着发展,越来越多公司和组织接受采用Prometheus,社会也十分活跃,他们便…

re:Invent 2023:PingCAP 荣获亚马逊云科技 2023 年度合作伙伴奖项

2023 年 11 月 27 日 – 12 月 1 日, 2023 亚马逊云科技 re:Invent 在拉斯维加斯举办,亚马逊云科技合作伙伴奖项在合作伙伴颁奖晚会上颁布, PingCAP 荣获亚马逊云科技大中华区 “2023 年度 ISV 合作伙伴” 和 “2023 年度亚马逊云科技 Market…

离散时间信号的分析(数字信号处理实验1-2)

前言:该系列实验均使用matlab完成,实验课程为《数字信号处理》 文章目录 一.题目二.实验目的三.实验仪器四.实验原理实验所用的matlab函数解析离散时间信号实验原理: 五.实验步骤六.实验代码及实验结果完整代码1.线性卷积代码2.循环卷积运算…

WordPress 外链跳转插件

WordPress 外链跳转插件是本站开发的一款WordPress插件,能对文中外链添加一层过滤,有效防止追踪,以及提醒用户。 类似于知乎、CSDN打开其他链接的提示。 后台可以设置白名单 学习资料源代码:百度网盘 密码:123

前端已死?看看我的秋招上岸历程

背景 求职方向:web前端 技术栈:vue2、springboot(学校开过课,简单的学习过) 实习经历:两段,但都是实训类的,说白了就是类似培训,每次面试官问起时我也会坦诚交代&…