【数仓建设系列之一】什么是数据仓库?

一、什么是数据仓库?

数据仓库(Data Warehouse,简称DW)简单来讲,它是一个存储和管理大量结构化和非结构化数据的存储集合,它以主题为向导,通过整合来自不同数据源下的数据(比如各业务数据,日志文件数据等),解决企业数据孤岛,为企业提供统一的数据视图。通过构建不同时间范围或不同业务主题下的分析报告和数据报表等,为企业决策提供一定程度上的支持和帮助。
在这里插入图片描述

二、数据仓库的特点?
  • 主题性

传统的数据库,更多的可能是考虑到应用层面上的数据组织和结构,因此各个业务之间的数据可能相互独立,相互分离。而数据仓库是对业务系统中各业务数据通过不同主题域特征进行抽象,通过归纳和总结等手段,形成一个更高层次的主题和维度抽象。

  • 集成性

因为数据仓库与传统意义上的数据库不同,它需要接纳各种独立,异构的数据,因此它需要通过ETL(抽取、清洗、转换)功能,将这些数据统一处理并汇总到数据仓库中,而将全部的数据汇总的好处就是数仓中包含了企业所有数据,解决了企业数据孤岛问题,在后期可以为企业提供统一的数据视图。因此,数据入仓前的ETL是数仓建设中尤为关键且有非常复杂的一件事。

  • 稳定性

传统数据库更多的偏向于更新操作(CRUD),而数据仓库则是更多的提供一种可靠的,长久数据的查询和分析能力。在生产场景种,数据一旦写入到数据仓库,大概率会被长期保存且基本不进行修改操作,除非企业针对特定数据设置数据生命周期。因此基于这种更新频率几乎为零的设计再加上数仓的分布式存储与高可用的搭建,保证了数仓的稳定性和完整性。

  • 及时性

数仓不仅仅要存储了管理历史数据,同时还要能够实时接收新的集成数据,通过这种快速反应历史数据与新增数据差异对比的能力,能够快速给决策和分析人员提供参考依据,这也是数仓建设的最终目的。

三、为什么要建设数仓?

​ 随着移动互联网的快速发展,企业数据和数据复杂度也呈几何式增长。到目前为止,数据已经成为了众多企业的核心资产之一。但目前很多企业在不同的业务场景,都拥有众多数据源,企业数据也分布在不同的业务系统中,但决策者在决策时,通常是要结合全公司各个业务数据来综合分析考虑的,而一个高效可靠的数据仓库,能够汇集公司众多结构化和非结构化的数据,能够提供稳定高效的查询分析,能够帮助决策者更加高效的管理和分析企业发展现状与预测未来走势,同时,也能将公司的数据资源转换为真正的企业资产。

​ 接下来,我们将从数据仓库的分类与建模方法中展开讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/91641.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中科亿海微浮点数转换定点数

引言 浮点数转换定点数是一种常见的数值转换技术,用于将浮点数表示转换为定点数表示。浮点数表示采用指数和尾数的形式,可以表示较大范围的数值,但存在精度有限的问题。而定点数表示则采用固定小数点位置的形式,具有固定的精度和范…

Arraylist集合

保存数据会经常使用到数组,但数组存在以下几个缺陷: 长度固定;保存的必须为同一类型的元素,(基本数据类型,或引用数据类型);使用数组进行增加元素的步骤比较麻烦; 这个时候就需要用一…

人大进仓数据库ksql命令基础

测试环境信息: 系统为银河麒麟V10 数据库为Kingbase ES V8 数据库安装目录为/opt/Kingbase/ES/V8 ksql命令位于/opt/Kingbase/ES/V8/Server/bin下 使用--help获取帮助 续上图 1.查看数据库列表 ./ksql -U system -l 2.查看数据库版本 ./ksql -V 3.连接指定的数据库tes…

单芯片3路CC管理的VR转接器解决方案

VR眼镜即VR头显,也称虚拟现实头戴式显示设备,随着元宇宙概念的传播,VR眼镜的热度一直只增不减,但是头戴设备的续航一直被人诟病,如果增大电池就会让头显变得笨重影响体验,所以目前最佳的解决方案还是使用VR…

Idea的基本使用带案例---详细易懂

一.idea是什么 有专业人士说,idea是天生适合做微软,当时我还想肯定是夸大其词了,但当你用起来的时候确实很爽,😊😊 ntelliJ IDEA是一种集成开发环境(IDE),由JetBrains开发…

2023年7月京东美妆护肤品小样行业数据分析(京东数据挖掘)

如今,消费者更加谨慎,消费决策也更加理性。在这一消费环境下,美妆护肤市场中,面对动辄几百上千的化妆品,小样或体验装无疑能够降低消费者的试错成本。由此,这门生意也一直备受关注。 并且,小样…

汽车及汽车零部件行业云MES解决方案

汽配行业现状: 随着经济全球化进程加快,一直走在智能化改造,数字化转型前沿的汽车行业企业,面临的信息化需求也日益增加,不管德系,美系还是日系供应链的各大厂商,均将企业信息化,数字…

CSS3中的var()函数

目录 定义: 语法: 用法: 定义: var()函数是一个 CSS 函数用于插入自定义属性(有时也被称为“CSS 变量”)的值 语法: var(custom-property-name, value) 函数的第一个参数是要替换的自定义属性…

强制Edge或Chrome使用独立显卡【WIN10】

现代浏览器通常将图形密集型任务卸载到 GPU,以改善你的网页浏览体验,从而释放 CPU 资源用于其他任务。 如果你的系统有多个 GPU,Windows 10 可以自动决定最适合 Microsoft Edge 自动使用的 GPU,但这并不一定意味着最强大的 GPU。 …

开发者如何使用讯飞星火认知大模型API?

目录 1、申请星火API接口 2、使用星火API接口 3、测试编译效果 之前我们使用网页文本输入的方式体验了讯飞星火认知大模型的功能(是什么让科大讯飞1个月股价翻倍?),本篇博文将从开发者角度来看看如何使用讯飞星火认知大模型API…

LC-链表的中间节点(双指针)

LC-链表的中间节点(双指针) 链接:https://leetcode.cn/problems/middle-of-the-linked-list/description/ 描述:给你单链表的头结点 head ,请你找出并返回链表的中间结点。 如果有两个中间结点,则返回第二…

锐捷无线产品运维

目录 登录AP产品 Console登录(只可以现场登录) Web/Telnet/SSH登录(可以现场、远程登录) 配置AP的管理地址 通过Web界面远程登录 通过Telnet、SSH等命令行的方式登录 登录AC产品 Console登录(只可以现场登录&a…

09 - 连续的多个commit整理成1个

查看所有文章链接:(更新中)GIT常用场景- 目录 文章目录 将连续的多个commit整理成1个 将连续的多个commit整理成1个 将anranxiaohunzhang和xianglongshibazhang合并起来(将anranxiaohunzhang合并到降龙十八掌上,生成新…

AI绘画 | 一文学会Midjourney绘画,创作自己的AI作品(快速入门+参数介绍)

一、生成第一个AI图片 首先,生成将中文描述词翻译成英文 然后在输入端输入:/imagine prompt:Bravely running boy in Q version, cute head portrait 最后,稍等一会即可输出效果 说明: 下面的U1、U2、U3、U4代表的第一张、第二张…

ubuntu设置共享文件夹成功后却不显示找不到(已解决)

1.首先输下面命令查看是否真的设置成功共享文件夹 vmware-hgfsclient如果确实已经设置过共享文件夹将输出window下共享文件夹名字 2.确认自己已设置共享文件夹后输入下面的命令 //如果之前没有命令包则先执行sudo apt-get install open-vm-tools sudo vmhgfs-fuse .host:/ /mn…

PyTorch从零开始实现ResNet

文章目录 代码实现参考 代码实现 本文实现 ResNet原论文 Deep Residual Learning for Image Recognition 中的50层,101层和152层残差连接。 代码中使用基础残差块这个概念,这里的基础残差块指的是上图中红色矩形圈出的内容:从上到下分别使用…

【博客692】grafana如何解决step动态变化时可能出现range duration小于step

grafana如何解决step动态变化时可能出现range duration小于step 1、grafana中的step和resolution grafana中的 “step” grafana本身是没有提供step参数的,因为仪表盘根据查询数据区间以及仪表盘线条宽度等,对于不同查询,相同的step并不能…

win10下如何安装ffmpeg

安装ffmpeg之前先安装win10 绿色软件管理软件:scoop. Scoop的基本介绍 Scoop是一款适用于Windows平台的命令行软件(包)管理工具,这里是Github介绍页。简单来说,就是可以通过命令行工具(PowerShell、CMD等…

构建 LVS-DR 群集、配置nginx负载均衡。

目录 一、基于 CentOS 7 构建 LVS-DR 群集 1、准备四台虚拟机 2、配置负载调度器(192.168.2.130) 3、部署共享存储(192.168.2.133) 4、配置两个Web服务器(192.168.2.131、192.168.2.132) 测试集群 二…

广联达OA前台sql注入+后台文件上传漏洞复现分析

文章目录 前言资产特征前台sql注入后台文件上传解决办法 前言 最近看到广联达OA的前端sql注入和后端文件上传漏洞联动的poc 广联达科技股份有限公司以建设工程领域专业应用为核心基础支撑,提供一百余款基于“端云大数据”产品/服务,提供产业大数据、产业…