数据管理的四大支柱:揭秘数据中台、数据仓库、数据治理和主数据

文章目录

      • 一、数据中台:数据的“中央厨房”
      • 二、数据仓库:数据的“图书馆”
      • 三、数据治理:数据的“交警”
      • 四、主数据:数据的“身份证”
      • 五、定位与差异:协同作战的团队成员

在数字化时代,企业数据管理变得至关重要。昨天群里小伙伴@我,问这个问题。


看到了,我打算用一篇文章通俗解说下:

数据中台、数据仓库、数据治理和主数据这些概念对于很多人来说仍显得抽象。用一些通俗的语言和生活中的比喻,深入解析这些关键概念。

一、数据中台:数据的“中央厨房”

想象一下,你是一家大型餐厅的厨师长,每天需要处理从不同供应商那里采购的多种食材。为了确保食材的新鲜、卫生与高效利用,建立一个中央厨房就显得尤为重要。这个中央厨房的角色就是数据中台在企业中扮演的角色。

数据中台整合来自不同业务部门、系统和渠道的数据,对其进行清洗、加工和标准化处理,然后再将处理后的数据提供给业务部门使用。就像中央厨房确保食材的质量和一致性,数据中台则确保数据的质量、一致性和可用性,从而更好地支持企业的决策和运营。

二、数据仓库:数据的“图书馆”

假设你是一位图书馆管理员,每天的职责是管理和维护图书馆中的成千上万本书。你必须确保每本书按照类别、作者、出版日期整齐有序地摆放,以方便读者查找和借阅。数据仓库在企业中的作用就像这个图书馆。它存储了大量历史数据和结构化数据,并按照一定的规则和格式进行组织。与数据中台不同,数据仓库更注重数据的长期保存和查询分析,提供强大的数据查询和分析能力,帮助企业深入了解市场、客户和业务流程,从而发现潜在的机会和风险。

三、数据治理:数据的“交警”

城市交通中,交警的职责是维护交通秩序,确保车辆和行人遵循交通规则,防止交通拥堵和事故发生。在数据世界中,数据治理就好比这样的交警。数据治理是对数据进行全面管理和规范的过程,确保数据的准确性、一致性、安全性和可用性,同时防止数据滥用和泄露。数据治理还负责制定数据管理的规章制度,监督数据的采集、存储、处理和使用过程,确保数据在整个生命周期中都得到妥善管理。

四、主数据:数据的“身份证”

最后,我们来谈谈主数据。每个人都有自己的身份证,它是个人身份的证明。在数据世界中,主数据就像是数据的“身份证”。主数据是企业内部最关键、最核心的数据,描述了企业的核心业务实体,如客户、产品、供应商等。主数据具有唯一性和权威性,是企业内部各部门和系统之间共享和交换数据的基础。通过管理和维护好主数据,企业可以确保数据的一致性和准确性,从而提高业务处理效率和决策质量。

因此:

对于大数据平台来说,主数据是非常重要的一类数据,几乎出现在所有的数据处理和分析中,具体到批处理和实时处理又有所不同。

  • 对于批处理来说:

主数据可以同步自主数据管理系统的数据库,在数仓(数据仓库)体系下,几乎所有的主数据都是维度数据,需要建立相应的维度表以支撑业务查询和分析;

  • 对于实时处理来说:

在各种流式计算的过程中也需要获取主数据进行关联处理,而实时处理要求主数据的获取也必须是实时的,这对系统的架构设计提出了挑战。如果原始的主数据管理系统对外提供了获取主数据的 API,对于普通的应用系统这是很有利的条件,它们可直接通过API 实时获得主数据。但是对于大数据系统来说,情况就不那么乐观了,因为大数据处理过程中的巨大吞吐量和流计算处理中对主数据的使用频率都远远超过一般的应用系统。如果大数据平台通过主数据管理系统的API 获取主数据,无论是从并发压力还是从响应的及时性上都可能无法满足要求,还有可能给主数据管理系统带来过大的负载,导致其响应缓慢甚至宥机。

为满足实时计算对主数据的需求,有两种可选的技术方案。

(1)方案一:

如果主数据体量不大,变更也不频繁,可以考虑将这些数据通过 API 读取到大数据工作节点的内存中,在数据处理过程中直接使用,然后周期性地从主数据管理系统同步最新状态的主数据。

(2)方案二:

改造主数据管理系统,引入内存数据库,如Redis, 针对所有主数据,除常规
持久化的业务数据库外,再配备一个内存数据库的副本,将这个内存数据库开放给大数据平台使用。

方案一的优点是架构简单,易于实现,但是对主数据有预设条件,不能成为一种广泛使用的方案。方案二是一套很完备的技术方案,可以满足各种主数据获取需求,代价是架构比较复杂,如果企业正在构建的是一整套大数据平台,方案二是值得一试的,
从技术上讲,主数据管理系统是一个相对传统的Web 应用,负责维护主数据的增删查改,同时对外提供获取主数据的 API, 对于大数据平台,最好提供以内存数据库为依托的数据读取服务。综合这些因素,企业在建设大数据平台时应该结合现状灵活地选择方案。

五、定位与差异:协同作战的团队成员

通过以上的比喻,我们可以更好地理解这些概念的定位和差异。数据中台作为数据的“中央厨房”,负责数据的整合和加工;数据仓库作为数据的“图书馆”,负责数据的存储和查询分析;数据治理作为数据的“交警”,确保数据的规范和安全;而主数据作为数据的“身份证”,确保数据的权威性和一致性。这些概念在企业中相互协作,共同构成完整的数据管理体系。就像一支协同作战的团队,数据中台负责调度和整合数据资源,数据仓库提供数据存储和查询支持,数据治理确保数据的安全和规范,而主数据确保数据的准确性和一致性。这个团队共同为企业提供了强大的数据支持,帮助企业更好地应对市场挑战和抓住机遇。【请关注公众号:获取文档】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466059.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ 的集群

大家好,我是锋哥。今天分享关于【RabbitMQ 的集群】面试题?希望对大家有帮助; RabbitMQ 的集群 RabbitMQ 是一种流行的开源消息代理,广泛用于构建分布式系统中的消息队列。随着应用程序规模的扩大,单一的 RabbitMQ 实…

PostgreSQL核心揭秘(三)-元组结构

目录 概述 2. 堆元组介绍 1)HeapTupleHeaderData 结构 2)空值位图(Null Bitmap) 3)用户数据(User Data) 3. 元组增、删、改操作介绍 1)增(INSER…

在数据抓取的时候,短效IP比长效IP有哪些优势?

在数据抓取领域,代理IP的选择对于任务的成功率和效率至关重要。短效IP和长效IP各有其特点和适用场景,但在数据抓取过程中,短效IP因其独特的优势而受到青睐。本文将和大家一起探讨短效IP在数据抓取中相比长效IP的优势。 短效IP的定义与特点 …

Navicat for MySQL 错误:1251

mySql:8.4 Navicat for MySQL:11.0.10 企业版 绿色版 官网中关于mysql_native_password插件的说法:链接 1. 问题 连接数据库报错:1251 要求升级Navicat for MySQL 2. 原因 mysql中的mysql_native_password插件默认是关闭的 …

RabbitMQ 管理平台(控制中心)的介绍

文章目录 一、RabbitMQ 管理平台整体介绍二、Overview 总览三、Connections 连接四、Channels 通道五、Exchanges 交换机六、Queues 队列查看队列详细信息查看队列的消息内容 七、Admin 用户给用户分配虚拟主机 一、RabbitMQ 管理平台整体介绍 RabbitMQ 管理平台内有六个模块&…

【360】基于springboot的志愿服务管理系统

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装志愿服务管理系统软件来发挥其高效地信息处理的作用&#x…

Unity发布微信小程序-实战问题汇总

发布微信小程序 准备工作 我们是使用unity其他版本直接转出的微信小程序,而非团结引擎。 下载微信开发者工具:https://developers.weixin.qq.com/minigame/dev/devtools/download.html MiniGame插件:https://game.weixin.qq.com/cgi-bin/gamewxagwasms…

卖模版还能赚到钱吗?

说到赚钱,我想大部分人都会感兴趣。但如果告诉大家现阶段卖模板也能赚钱,可能还是有人不信。我要说说我的观察了。 本文可在公众号「德育处主任」免费阅读 我是一只临期程序猿,我最早接触到“模板能卖钱”这个概念是在模板王里。模板王平台上…

基于梧桐数据库的实时数据分析解决方案

一、背景 在当今信息时代,数据的价值不言而喻。然而,处理海量数据并将其转化为有意义的洞察力是一项艰巨的任务。传统的数据处理方法已经无法满足我们日益增长的需求。为了满足这一挑战,实时数据处理系统应运而生。 ​ 实时数据处理系统是一…

WireShark入门学习笔记

学习视频:WireShark入门使用教程 扩展学习:wireshark分析常见的网络协议 文章目录 WireShark介绍WireShark抓包入门操作WireShark过滤器使用WireShark之ARP协议分析WireShark之ICMP协议TCP连接的3次握手协议TCP连接断开的4次挥手协议WireShark抓HTTP协…

牛客网Java高频面试题(2024最新版含答案)

作为 Java 程序员,选择学习什么样的技术?什么技术该不该学?去招聘网站上搜一搜、看看岗位要求就十分清楚了,自己具备的技术和能力,直接影响到你工作选择范围和能不能面试成功。 如果想进大厂,那就需要在 Ja…

别名路径联想设置

如何使用/进行路径提示? 找到jsconfig.json文件,如何项目中没有的话,自行创建 {"compilerOptions": {"paths": {"/*": ["./src/*"]}},"exclude": ["node_modules", "dis…

【万字详解】如何在微信小程序的 Taro 框架中设置静态图片 assets/image 的 Base64 转换上限值

设置方法 mini 中提供了 imageUrlLoaderOption 和 postcss.url 。 其中: config.limit 和 imageUrlLoaderOption.limit 服务于 Taro 的 MiniWebpackModule.js , 值的写法要 ()KB * 1024。 config.maxSize 服务于 postcss-url 的…

不愧是阿里巴巴最新开源的Java面试笔记,30万字精华总结 + 面试1300问附答案整理

前言 作为一个 Java 程序员,你平时总是陷在业务开发里,每天噼里啪啦忙敲着代码,上到系统开发,下到 Bug 修改,你感觉自己无所不能。然而偶尔的一次聚会,你听说和自己一起出道的同学早已经年薪 50 万&#x…

C6.【C++ Cont】cout的格式输出

目录 1.头文件 2.使用 1.控制宽度和填充 setw函数(全称set field width设置字段宽度) setfill函数(全称Set fill character设置填充字符) 2.控制数值格式 3.控制整数格式 4.控制对齐方式 1.头文件 用cout进行格式化输出前,先引用头文件iomanip(全称input&output m…

基于SSM+小程序的高校寻物平台管理系统(失物1)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 本基于微信小程序的高校寻物平台有管理员,用户以及失主三个角色。 1、管理员功能有个人中心,用户管理,失主管理,寻物启示管理,拾…

视频——教学篇——拍摄和剪辑

文章目录 拍摄与录制。如何提升音质?如何提升画质?一、提升视频呈现的重点1.音质在很大程度上优先于画质2.在音质层面,环境可能比设备好坏更重要。3.提升视频画面方面,打光比买更好的相机更重要。4.画面的构图不如分镜的节奏来的重…

在线绘制带颜色标注的大脑脑区图

导读:大脑是人体最为复杂的器官之一,由多个功能特化的脑区构成。每个脑区承担着特定的生理和认知功能。通过应用定量数据映射技术,将数值以色彩编码的形式呈现于各个脑区,可以显著增强对不同脑区定量信息的视觉识别和理解。 《bio…

第十九周机器学习笔记:GAN的数学理论知识与实际应用的操作

第十九周周报 摘要Abstratc一、机器学习——GAN Basic Theory1. Maximum Likelihood Estimation2. 复习训练GAN的过程3. Objective function与JS散度相关性推导4. GAN的实际做法 总结 摘要 本周周报主要围绕生成对抗网络(GAN)的基础知识和理论进行深入探…

刷题小记11:栈队列

包括单调栈和优先队列 232. 用栈实现队列 用栈实现队列 两个栈 入队:向入队栈中加入元素 出队:从出队栈中出栈元素,如果出队栈为空,将入队栈所有元素入栈到出队栈。这样顺序就对了 225. 用队列实现栈 用队列实现栈 优化 …