数据仓库 基础教程

数据仓库 基础教程

1. 数据仓库概述

Data Warehousing Tutorial

数据仓库(Data Warehouse,简称DW或者DWH)是通过集成来自多个异构数据源的数据来构建的。它支持分析报告、结构化和/或特别查询和决策制定。本教程采用循序渐进的方法来解释数据仓库的所有必要概念。


“数据仓库”一词最早是由Bill Inmon在1990年提出的。根据Inmon的说法,数据仓库是面向主题的、集成的、时变的、非易失性的数据集合。这些数据有助于分析人员在组织中做出明智的决策。

由于事务的发生,操作数据库每天都要经历频繁的变化。假设业务主管想要分析任何数据(如产品、供应商或任何消费者数据)的先前反馈,那么该主管将没有可用的数据来分析,因为先前的数据已经由于事务的变化而更新。

数据仓库在多维视图中为我们提供一般化和整合的数据。除了一般化和统一的数据视图外,数据仓库还为我们提供了在线分析处理(OLAP)工具。这些工具帮助我们在多维空间中进行交互式和有效的数据分析。这种分析的结果是数据泛化和数据挖掘。

将关联、聚类、分类、预测等数据挖掘功能与OLAP操作集成在一起,增强了多层次抽象知识的交互式挖掘。这就是为什么数据仓库现在已经成为数据分析和在线分析处理的重要平台。


理解数据仓库

  • 数据仓库是一个数据库,它与组织的操作数据库分开。
  • 数据仓库中不需要进行频繁的更新。
  • 它拥有统一的历史数据,这有助于组织分析其业务。
  • 数据仓库帮助管理人员组织、理解和使用他们的数据来制定战略决策。
  • 数据仓库系统有助于集成各种不同的应用系统。
  • 数据仓库系统有助于合并历史数据分析。

为什么要将数据仓库与操作数据库分开?

数据仓库与操作数据库需要分开的原因如下:

  • 操作数据库是为众所周知的任务和工作负载构建的,例如搜索特定记录、索引等。相较而言,数据仓库查询通常很复杂,它们呈现的是一种通用的数据形式。
  • 操作型数据库支持并发处理多个事务。操作数据库需要并发控制和恢复机制,以确保数据库的健壮性和一致性。
  • 操作数据库查询允许读取和修改操作,而OLAP查询只需要对存储的数据进行只读访问。
  • 操作数据库维护当前数据,而数据仓库维护历史数据。

数据仓库的特点

数据仓库的主要特性如下所述:

面向主题—数据仓库是面向主题的,因为它提供围绕主题的信息,而不是组织正在进行的操作。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库并不关注正在进行的操作,而是关注用于决策制定的数据建模和分析。

集成式:通过集成关系数据库、平面文件等异构数据源的数据来构建数据仓库。这种集成增强了对数据的有效分析。

时变性−数据仓库中收集的数据以特定的时间段标识。数据仓库中的数据从历史角度提供信息。

非易失性−非易失性是指添加新数据时不擦除原有数据。数据仓库与操作数据库保持分离,因此操作数据库的频繁更改不会影响数据仓库。

数据仓库不需要事务处理、恢复和并发控制,因为它是物理存储的,与操作数据库是分开的。


数据仓库的应用

如前所述,数据仓库帮助业务主管去组织、分析和使用他们的数据进行决策。数据仓库是企业管理 计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛应用于以下领域:−

金融服务

银行服务

消费品服务

零售部门

控制生产


数据仓库的类型

信息处理、分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用

信息处理−数据仓库可以对存储在其中的数据进行处理。数据可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理。

分析处理−数据仓库支持对存储在其中的信息进行分析处理。可以通过基本的OLAP操作来分析数据,包括切片分析、向下钻取(drill down)、向上钻取(drill up,)和旋转(pivoting)。

数据挖掘−数据挖掘通过发现隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以通过可视化工具呈现出来。

OLAP VS OLTP

Sr.No.Data Warehouse (OLAP)Operational Database(OLTP)
1它涉及信息的历史处理。它涉及到日常的处理。
2OLAP系统由知识工作者(如执行人员、经理和分析师)使用。OLTP系统由文员、dba或数据库专业人员使用。
3它被用来分析业务。它是用来经营业务的
4它关注的是信息输出。它关注的是数据输入。
5它基于星型模式、雪花模式和事实星座模式。它基于实体关系模型。
6它关注的是信息输出。它是面向应用的。
7它包含历史数据。它包含当前数据。
8它提供了汇总和合并的数据。它提供了原始的和非常详细的数据。
9它提供了数据的汇总和多维视图。它提供了详细而扁平的数据关系视图。
10用户数量数以百计。用户数量以千为单位。
11访问的记录数以百万计。访问的记录数以10计。
12数据库大小从100GB到100tb。数据库大小为100mb ~ 100gb。
13这些都是高度灵活的。它提供了高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/360419.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

热点观察 | 全球社交应用IAP收入持续上升,小游戏、短剧出海赛道火热!

2024年进度条即将过半,回顾上半年,“Sora横空出世”、“短剧出海”、“小游戏爆款不断"给了我们太多惊喜,虽说如今市场竞争激烈、行业日趋饱和,但新技术、新需求也在快速跟上。下面,我们就来盘一盘近期全球手游和…

网关助力边缘物联网

网关助力边缘物联网 在探讨网关如何助力边缘物联网(IoT)的议题时,我们不得不深入分析这一技术交汇点的复杂性与潜力。边缘计算与物联网的融合,通过将数据处理与分析能力推向网络边缘,即数据生成的地方,极大…

【日常记录】【JS】优雅检测用户是否在指定元素的外部点击

文章目录 1、界面基本布局2、代码实现3、参考链接 1、界面基本布局 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

51单片机STC89C52RC——8.1 8*8 LED点阵模块(点亮一个LED)

目录 目的/效果 一&#xff0c;STC单片机模块 二&#xff0c;8*8 LED点阵模块 2.1 电路图 2.1.1 8*8 点阵模块电路图 2.1.2 74HC595&#xff08;串转并&#xff09;模块 电路图 2.1.3 芯片引脚 2.2 引脚电平分析 2.3 74HC595 串转并模块 2.3.1 装弹&#xff08;移位…

如何实现element表格合并行?

前两天我一个朋友咨询我element表格合并行的问题,他研究了很久,已经开始怀疑是不是element UI出现了bug,然后跟我一阵沟通,最终解决了问题,他的问题在于他把事情想复杂了,接下来我们一起来看一下这个经典“案例”,很多人真的很有可能走入这个误区,当然老鸟就不用看了,…

PCL笔记二 之VS环境配置(不同版本Debug+Release编译)

PCL笔记二 之VS环境配置&#xff08;不同版本DebugRelease编译&#xff09; PCL官网&#xff1a;https://github.com/PointCloudLibrary/pcl/releases众所周知&#xff0c;PCL是一个用于点云处理并且依赖不少三方库的一个算法库&#xff0c;同时在编译配置环境时也很复杂&…

python爬虫需要什么HTTP代理?

用来爬虫的话&#xff0c;还是建议用高匿名代理&#xff0c;但显然题主用了高匿名代理还是出现了一部分问题&#xff0c;我们可以先找到问题关键再解决它&#xff0c;一般爬虫用了高匿名代理出现被封会有以下几种原因&#xff1a; 1.代理IP的质量不过关 一般来说每个网站都有…

攻击者开始使用 XLL 文件进行攻击

近期&#xff0c;研究人员发现使用恶意 Microsoft Excel 加载项&#xff08;XLL&#xff09;文件发起攻击的行动有所增加&#xff0c;这项技术的 MITRE ATT&CK 技术项编号为 T1137.006。 这些加载项都是为了使用户能够利用高性能函数&#xff0c;为 Excel 工作表提供 API …

微服务中不同服务使用openfeign 相互调用

首先 我们上文 已经知道了 nacos 的注册服务&#xff0c;现在 我们 在不同服务中相互调用就可以使用openfeign 直接调用&#xff0c;而不是 再写冗余的调用代码啦 首先 我们的微服务组件如下 因为我这个微服务是我在 员工登录demo 中 拆出来的&#xff0c;在userlogin模块中…

ActiViz集成到WPF中的空域问题

文章目录 一、场景1、WPF控件2、集成ActiViz或者VTK 二、问题1、需求2、空域问题 三、解决方案1、用WindowsFormsHost包裹住ElementHost&#xff0c;然后将WPF的控件放在ElementHost职中&#xff1a;2、用Window或者Popup去悬浮3、使用第三方库Microsoft.DwayneNeed&#xff08…

光泽正在褪去,所以我们又回到了人工智能领域。

光泽正在褪去&#xff0c;所以我们又回到了人工智能领域。 人工智能冬天将被私有化 自从“人工智能”这个流行词在20世纪50年代被创造出来以来&#xff0c;人工智能经历了几次繁荣和萧条周期。 一种新的技术方法看起来很有趣&#xff0c;并取得了一些成果。它被荒谬地炒作并获…

解锁小红书新玩法:中小企业出海营销的集成策略

随着全球数字化浪潮的推进&#xff0c;小红书作为生活方式分享平台的崛起&#xff0c;为中小企业提供了一个全新的营销舞台。NetFarmer&#xff0c;作为专注于企业数字化出海的服务商&#xff0c;深谙小红书的营销策略&#xff0c;并致力于通过HubSpot产品销售与实施&#xff0…

表单(forms)

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在app1文件夹下创建一个forms.py文件&#xff0c;添加如下类代码&#xff1a; from django import forms class PersonForm(forms.Form): first_na…

uniapp运行到模拟器(联想模拟器)

记录一下uniapp项目运行到联想模拟器的流程 先配置一下模拟器端口 填写对应的adb路径&#xff0c;也就是模拟器安装路径下的adb.exe的路径 然后打开模拟器的设置&#xff0c;搜索版本找到版本号&#xff0c;多次点击打开开发者模式 进入开发者选项&#xff0c;打开USB调试 …

智能合约开发的过程

智能合约是一种运行在区块链上的程序&#xff0c;可以自动执行预先设定的条款和条件。智能合约具有去中心化、透明、不可篡改等特点&#xff0c;因此被广泛应用于金融、供应链、物联网等领域。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流…

如何与ISSI建立EDI连接?

ISSI是一家总部位于美国的半导体公司&#xff0c;主要设计和销售高性能集成电路 (IC)&#xff0c;其产品包括DRAM、SRAM、闪存和模拟电路&#xff0c;广泛应用于汽车、通信、工业和医疗等领域。 和其他半导体行业的企业一样&#xff0c;ISSI通过EDI与其全球合作伙伴传输业务单据…

《C语言》编译和链接

文章目录 一、翻译环境1、预处理2、编译3、汇编4、链接 二、运行环境 一、翻译环境 在使用编译器编写代码时&#xff0c;编写的代码是高级语言&#xff0c;机器无法直接识别和运行&#xff0c;在编译器内部会翻译成机器可执行的机器语言。 编译环境由编译和链接两大过程组成。 …

【CT】LeetCode手撕—23. 合并 K 个升序链表

目录 题目1- 思路2- 实现⭐23. 合并 K 个升序链表——题解思路 3- ACM 实现 题目 原题连接&#xff1a;23. 合并 K 个升序链表 1- 思路 模式识别&#xff1a;合并 K 个链表 ——> 优先队列 思路 借助优先队列&#xff0c;每次从 k 个链表中&#xff0c;各取一个元素&…

【Docker】存储数据卷

目录 1、挂载数据卷到容器里 2、查询挂载文件 3、容器与主机之间映射共享卷 4、三个容器之间使用共享卷 5、卷数据的备份与恢复 5.1 备份 5.2 恢复 1、挂载数据卷到容器里 docker run -itd --name test02 -v /data nginx docker exec -it test02 bashls / docker inspe…

MySQL MVCC详解

目录 前言 MVCC实现原理 UndoLog版本链 ReadView MVCC是否可以解决不可重复读与幻读 隔离级别 READ UNCOMMITTED - 读未提交与脏读 READ COMMITTED - 读已提交与不可重复读 REPEATABLE READ - 可重复读与幻读 SERIALIZABLE - 串行化 小结 前言 为了提高数据库并发能力…