数仓--------简单了解

作者前言

🎂 ✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂
​🎂 作者介绍: 🎂🎂
🎂 🎉🎉🎉🎉🎉🎉🎉 🎂
🎂作者id:老秦包你会, 🎂
简单介绍:🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂🎂
喜欢学习C语言和python等编程语言,是一位爱分享的博主,有兴趣的小可爱可以来互讨 🎂🎂🎂🎂🎂🎂🎂🎂
🎂个人主页::小小页面🎂
🎂gitee页面:秦大大🎂
🎂🎂🎂🎂🎂🎂🎂🎂
🎂 一个爱分享的小博主 欢迎小可爱们前来借鉴🎂


数仓

  • **作者前言**
  • 什么是数仓
  • 数仓分层
  • 数仓类型
  • 数仓规范
  • 数据走向

什么是数仓

数仓,又称为数据仓库,是一个存放数据的仓库。这些数据需要按照一些结构、规则来组织和存放。作为数据基础,不仅需要满足基础数据的提供,也要允许经过需求计算之后的数据支持。数仓是一套体系,整合了多种技术,为某个项目或团体实现数据支持。

数仓工程师(数仓开发工程师),更加偏向业务与建模思维的结合。对整体的需求框架有清晰的认识,在保证阶段性数据成果的前提下,还能为以后的业务拓展留有空间。不仅需要对当前的数据任务做出判断,也需要紧跟项目发展。随着数据量的增大,同样需要对数仓环境进行升级优化,例如变更计算引擎、迁移数据库、分仓管理运行脚本等等。
在这里插入图片描述
我们可以想象一下,一个仓库里面有许多的小地方,存放不同的东西,数仓就相当于一个仓库,不同的数据存放在不同的地方,如果我们要找到某些数据还要知道在哪个地方,这就要求我们要标明类型了

数仓分层

集群:物理层架构
在这里插入图片描述
我们虚拟机的就相当于是下面一部分
原理就是我们通过客户端输入sql语句,传递到sql服务,然后具体化调度,让调度在数据库里面找数据,并返回,
计算引擎就是我们的cpu和内存,而我们虚拟机的计算引擎就是我们电脑里面的计算引擎
在这里插入图片描述
1、数据库一定是搭建在服务器上,专门的数据库服务器上只会搭建一个数据库
2、计算引擎是搭建在服务器上的,引擎不随调度使用,只用于对应的数据库
3、调度即为调用数据的工具,集群调度是将多个数据库统一管理,但数据库任然是单独运行的
简单的说就是两台服务器的连接要通过集群调度来连接,进行统一的调度
在这里插入图片描述
计算引擎我们还可以理解为是一台独立的服务器,使用其的cpu和内存,进行计算不会使用到服务器1和服务器2,这样就降低了这两个服务器的要求,这两个服务器只要保证能把数据调出去就可以了,至于怎么处理数据就看计算引擎了
4、可以通过统一的SQL服务操作不同调度的数据库,但是不能进行关联查询使用
5、数据库架构中的各个部分是允许单独替换的,在集群中,某一个数据库停止运行,并不会影响其他数据库的使用

总结:sql服务是可以控制多种调度,而调度可以控制数据库,而计算引擎和数据库是搭建在服务器上的,数据 的返回要通过计算引擎进行数据的计算返回

数仓类型

(逻辑层架构)
实时数仓: 通过即时返回的数据进行计算,不断更新数据库。好比是 mysql 中的视图,可以即时展现最新数据。

  • 即时处理,不断增长的、基本无限的数据流,对应到有限的计算资源。通过引擎的快速计算并返回
  • 无边界处理,持续的数据处理,针对每一次(每一个时间段)的新增数据进行合并计算
  • 低延迟,因为计算引擎的强力,可以保证高频的数据更新
    在这里插入图片描述
    看到这里就会有一些小可爱不理解了,为啥离线数据库会存在,因为有一些数据不需要实时更新,如姓名和性别这些,这样就很节约性能,还有可以把计算好的数据进行和未计算的数据保存到离线数据库
    计算引擎
    现在主流的实时计算引擎有Blink、Flink、Kylin,能够一定程度支持快速计算的数据流引擎有Presto、Spark。
    在这里插入图片描述
    这里就是计算引擎的大致结构,计算引擎是搭建在服务器上的
    数据流引擎
    细心的小可爱就会发现数据流引擎是啥,我们先来讲讲我们通过写sql语句把数据拿出来给计算引擎,然后把计算好的数据写入到数据库,如果我们拿出来的数据用不到,计算完才会写入数据库,内存的使用量就增加了,而数据流引擎就是为此产生的,计算是发生在内存中的,数据流引擎会把需要用到的数据再过滤,不需要的数据就写回数据库,然后需要的数据传输到内存,这样内存的空间就会剩余很大
    实时计算引擎
    简单的说就是物理上缩短了硬盘和内存上的传递距离,还会在内存不够用的时,把硬盘转换成内存,内存空间就会变大,处理速度就会变快,比数据流引擎快

离线数仓:不需要实时计算的数仓环境,通常使用的数仓环境。即为通过将历史数据(一般为T+1的数据)计算好后,同意保存在数据库,在对外展示。

  • 数据可靠,因为都是历史数据,只要SQL语句准确,不会出现计算的偏差。
  • 环境友好,就如同是一般的数据库,搭建十分简单。不需要其他优化。
  • 可控性强,即使SQL或者数据计算出错,同样有修改的时间
    在这里插入图片描述

数据库环境

  1. 数据库:数仓的基本环境,包括数据库类型、计算引擎、单独的内存与CPU。这里的ADB是构建在阿里云上的数据库,是专门为阿里云使用者提供的大数据计算的数据库。小型企业或私人,通常会使用hive作为自己的数据库。一般作为数仓使用的数据库,服务器性能最低要求是8核CPU,16G内存和1T硬盘容量。
  2. ODS: 操作性数据。作为数据库到数据仓库的一种过渡,数据结构一般与数据来源保持一致,便于减少ETL的工作复杂性,且数据周期较短。
  3. DW:数据仓库。是结果数据,保存ODS过来的数据,允许报错数据,而且这些数据不会被修改。为分析性报告和决策支持而创建,对多样的业务数据进行筛选与整合。指导业务、改进流程,控制时间、成本、质量。
  4. 同等效果的还会有DM数据集市、DL数据湖,其本质都是对数据的进一步处理与分类。

简单的说就是ODS里面是基础数据,这里会原模原样的输入输出,不会更改,数据在调度环境里通过python代码进行操作并写入回来,保存到ODS,数据仓库拿到数据再进行一系列的操作等

调度环境
6. 服务器:这里的服务器更像是一个容器,承载了脚本和ETL的运行环境。如果牵扯到即时数据和大数据的计算与清洗,需要对服务器的内存和CPU性能有一定要求。一般作为调度环境的服务器,性能基本要求是8核CPU,16G内存和1T硬盘容量。
7. ETL数据库:一般为MySQL,因为通用性强。可以搭建在调度环境上,但不要和数仓在同一环境。
8. 编辑器:以Jupyter为例,本身没有特别限制。主要是针对运行脚本的语言,如果是shell或者其他,也可以使用VScode等其他编辑器进行调试。通常是将代码在编辑器中调试好后再考虑进行部署。
9. ETL:任务调度服务。只是一个服务,理论上可以使用Linux中的crontab进行替代(需要自己写关联)。主要作用是监视任务的运行情况和进程。通过调度已经正常运行的脚本,完成任务。

简单的说就是另起一台服务器用来搭建ETL和python脚本,ETL有一个mysql数据库,是属于他的,我们在jupyterLab里面写脚本,在ETL调度,从数据库环境里的基础数据读数据python代码进行一系列的操作,然后再写入数据库环境

数仓规范

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这样就可以很明了的理解清楚了

  1. 从外界收集数据保存至基础数据库
  2. 保存的外界数据在基础数据库不做任何更改,可以通过简单的计算和聚合分成不同维度、不同标签的数据,另行保存到基础数据库
  3. 根据项目需求,从基础数据库取数并进行计算,得到满足业务需要的数据,保存在项目的数仓中
  4. 通过与中心数仓的交互,可以关联到更多维度的数据
  5. 将已经做好的业务数据写入应用层的应用数据库,供后端使用
    SCRM中台,集中展示业务数据的后台,一般只对内部开发。用于将具体的数据图像或表格化展示的平台,方便业务人员读取,根据展示数据进行下一步业务动作
  6. 对外展示,不仅是网页,也可以是移动端

数据走向

在这里插入图片描述

从DB到ODS会有简单的预处理,可以是增量数据,也可以是全量数据
ODS:操作数据,存储所有基础数据,简单清洗
dwd:明细数据,将所有维度数据细化,减少事实表与维度表的关联,提高明细表的易用性,相当于未处理的中间数据
dws:汇总数据,通过聚合,形成宽表,构建指标数据
dim:维度数据,不根据日期做区分,作为最基础的展示表
ads:应用数据,存放产品化的数据,主要为前端展现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/108168.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【坑】Vue中带有__ob__: Observer的数组无法遍历的问题

控制台可以打印出数据但是渲染不出结构 解决办法: setTimeout(() > {Bus.$emit(shareRes, this.result.filter(item > item.id id)) }, 500)替换 Bus.$emit(shareRes, this.result.filter(item > item.id id))总结 解决和总结 好像和__ob__.Observe无…

Android 11/12 app-lint 系统Update-API时Lint检查问题

有以下两种解决方法 1. 加SupressLint注解 这种方式你可以其他博客也有 但是要每个类和方法都加上SuppressLint 太麻烦了 我才不要这样呢 2. 添加 --api-lint-ignore-prefix 参数直接跳过代码检查 1. 打开 frameworks/base/Android.bp 文件 2. 搜索找到这个字段 metalava…

简述docker映射(Mapping)和挂载(Mounting)

映射的概念: 将容器内的端口映射到主机的端口上,这样就可以通过主机的网络接口与容器内部进行通信。主机上对应端口的请求会被转发到容器内部,从而实现对容器内部程序的通信访问(注意!这里提到的容器内部的端口并不一定…

PDFPrinting.Net Crack

PDFPrinting.Net Crack 它能够轻松灵活地预测完美的打印结果以及用户文件的示例性显示。在.NET的PDF打印中,可以快速浏览最关键的元素。如果用户需要获得更详细的概述,那么他可以查看快速入门手册,甚至现有文档的详细概述参考。 在这种情况下…

Maven聚合项目(微服务项目)创建流程,以及pom详解

一、创建流程 1、首先创建springboot项目作为父项目 只留下pom.xml 文件&#xff0c;删除src目录及其他无用文件 2、创建子项目 子项目可以是maven项目&#xff0c;也可以是springboot项目 3、父子项目关联 4、父项目中依赖管理 <?xml version"1.0" encoding…

为什么选择elasticsearch分布式搜索引擎

文章目录 &#x1f52d;什么是elasticsearch&#x1f320;ELK技术栈&#x1f320;elasticsearch和lucene&#x1f320;为什么不是其他搜索技术&#xff1f; &#x1f320;总结 &#x1f52d;什么是elasticsearch elasticsearch是一款非常强大的开源搜索引擎&#xff0c;具备非常…

C语言之函数题

目录 1.乘法口诀表 2.交换两个整数 3.函数判断闰年 4.函数判断素数 5.计算斐波那契数 6.递归实现n的k次方 7.计算一个数的每位之和&#xff08;递归&#xff09; 8.字符串逆序&#xff08;递归实现&#xff09; 9.strlen的模拟&#xff08;递归实现&#xff09; 10.求…

基于springboot学生社团管理系统/基于Java的高校社团管理系统的设计与实现

摘 要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时代&…

蚂蚁 SOFAServerless 微服务新架构的探索与实践

赵真灵&#xff08;有济&#xff09; 蚂蚁集团技术专家 Serverless 和微服务领域专家曾负责基于 K8s Deployment 的应用发布运维平台建设、K8s 集群的 Node/pod 多级弹性伸缩与产品建设。当前主要负责应用架构演进和 Serverless 相关工作。同时也是 SOFAArk 社区的开发和维护者…

搭建开发环境-WSL+Ubuntu(一键搭建开发环境)

概述 所谓工欲善其事必先利其器&#xff0c;搭环境往往是开发过程中卡出很多初学者的拦路虎。 对于很多老鸟来说&#xff0c;很多东西都已经习惯成自然&#xff0c;也就没有刻意和初学者说。但对于很多初学者&#xff0c;却是受益良多。 这个系列&#xff0c;先从操作系统开始…

fegin实现方法级别注解超时配置

fegin实现方法级别注解超时配置 测试的3.18新版本已经支持方法中参数带有Options 也可以自定义配置, Options options findOptions(argv);; 使用该注解方式需配合AOP使用! 原理是包装自己的client客户端, 替换框架的客户端! 应用到生产环境需自己充验证测试 1.0 注解 Target(…

C# .aspx网页获取RFID读卡器HTTP协议提交的访问文件Request获得卡号、机号,Response回应驱动读卡器显示响声

本示例使用的设备&#xff1a;RFID网络WIFI无线TCP/UDP/HTTP可编程二次开发读卡器POE供电语音-淘宝网 (taobao.com) 服务端代码&#xff1a; using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.UI; using System.Web.…

【QT】重写QAbstractLIstModel,使用ListView来显示多列数据

qt提供了几个视图来进行信息的列表显示&#xff0c;QListView可以用来显示继承QStractListModel的字符串列表中的字符串&#xff0c;默认的模型里面只包含一列的内容&#xff1a; 这里以qml为例子&#xff0c;先新建一个qml的项目&#xff0c;示例代码如下&#xff1a; 先创建一…

深度学习3. 强化学习-Reinforcement learning | RL

强化学习是机器学习的一种学习方式&#xff0c;它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。 目录 什么是强化学习&#xff1f; 强化学习的应用场景 强化学习的主流算法 强化学习(reinforcement learning) …

产品经理的六步路线图:快速制定你的产品计划

2023年的软件世界比以往任何时候都发展得更快&#xff0c;并充满了各种变量。而这将会以各种方式影响产品路线图的落地执行与实现。随着问题越来越多&#xff0c;世界需要不断发展的解决方案。因此&#xff0c;本文结合产品路线图当前存在的共性问题&#xff0c;借鉴企业的成功…

wxpython:wx.html2 是好用的 WebView 组件

wxpython : wx.html2 是好用的 WebView 组件。 wx.html2 是wxPython扩展模块中封装得干净漂亮的模块之一&#xff0c;它被设计为允许为每个端口创建多个后端&#xff0c;尽管目前只有一个可用。它与wx.html.HtmlWindow 的不同之处在于&#xff0c;每个后端实际上都是一个完整的…

图像检索,目标检测map的实现

一、图像检索指标Rank1,map 参考&#xff1a;https://blog.csdn.net/weixin_41427758/article/details/81188164?spm1001.2014.3001.5506 1.Rank1: rank-k&#xff1a;算法返回的排序列表中&#xff0c;前k位为存在检索目标则称为rank-k命中。 常用的为rank1&#xff1a;首…

官方项目《内容示例》中Common UI部分笔记: 1.1 Activatable Widgets

本文主要面向UMG以及Common UI的初学者 文章目录 效果展示概要Activate和Deactivate可见性绑定UI动画设置Common Activatable Widget的默认焦点 效果展示 概要 这个例子非常简单&#xff0c;定义了13个Common Activatable Widget CommonUI_ActivatableWidgets相当于一个容器包…

UITableView自定义TableHeader和TableFooter

UITableView自定义TableHeader和TableFooter 我猜你希望的效果是这样的 我猜你希望的效果是这样的 自定义页眉视图 让我们创建一个文件名 UITableViewHeaderFooterView 的 CustomerHeaderView 子类。 现在让我们创建视图的 Xib 文件并将其命名为 CustomHeaderView。 更改高度标…

第 360 场 LeetCode 周赛题解

A 距离原点最远的点 串中的 “_” 处要么都向左走要么都向右走 class Solution { public:int furthestDistanceFromOrigin(string moves) {int t 0;for (auto x: moves)if (x ! R)t--;elset;int res abs(t);t 0;for (auto x: moves)if (x ! L)t;elset--;res max(res, abs(t…