【数据架构系列-03】数据仓库、大数据平台、数据中台... 我不太认同《DataFun数据智能知识地图》中的定义


关注DataFunTalk有2年多了,DataFun确实像创始人王大川讲的那样,践行选择、努力和利他原则,专注于大数据、人工智能技术应用的分享与交流,秉承着开源开放的精神,免费的共享了很多有营养的行业实践专业知识,对于这样有情怀的团队真心希望他们越办越好。2022年底DataFun发布《DataFun数据智能知识地图》,一看就做得很用心,内容涵盖数据采集与治理、数据架构、数据能力、数据应用等四大领域、15大数据模块,拆解了数据流转全流程。其中,就包含数据仓库、大数据平台、数据中台的定义,但是我确实不太认同这样的定义,引用原文如下:

数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务

  • 大数据平台:位于最底层,支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等场景的一套基础平台设施
  • 数据仓库:是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支持提供数据环境
  • 数据中台:是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的统一的数据应用服务

真的定义对了吗

乍一看就感觉不太对,怎么成了“洋葱模型”,大数据平台成了最里层。难道我们几年前称呼的大数据平台就没有了数据应用服务,也没有了面向主题的数据集合。我们还是找几篇以前的论文看看,看看那个时代我们对这些名词是怎样的认知。

下图是1995年发表在今日电子期刊的文章《“数据仓库”讲座》,从操作型系统抽取数据构建数据仓库,从而支撑分析型数据库;再看看2011年《架构大数据 :挑战 、现状与展望》一个典型的数据仓库架构,包括数据源、数据存储与管理、OLAP服务、前端展示。从90年代不就是和我们现在数据中台朴素的架构认知一样吗。

在这里插入图片描述
在这里插入图片描述

我们再看看大数据平台,2013年系统仿真学报收稿《大数据平台技术综述》,文章给出了大数据平台体系架构,如果换成“数据中台架构”这个词,你也挑不出大毛病吧,讲真,那时候真的没有数据中台这个词,人家不是抄袭。

在这里插入图片描述

我们回归到数据中台,在2019年发表在期刊数据与计算发展前沿中的《数据中台技术相关进展及发展趋势》,给出了数据中台整体架构图,这也是我认为定义的比较全面比较好的数据中台架构,要是把这个词换成大数据平台架构图也无可厚非,谁叫你出道晚,难免抄人家。

在这里插入图片描述

因此,数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务,是不对的,从上世纪90年代,我们对于数据仓库认知就是从数据抽取、汇聚、加工、整合、应用等等,每层都没少啊,千万不要掩耳盗铃,自以为是。

到底什么区别

我认为,从数据仓库到大数据平台再到数据中台不是包含和被包含的问题,而是由浅入深,有简入细的问题。这很好理解,90年代的数据仓库建设肯定也有数据治理范畴,这个工作我们潜移默化的在做,只不过没有提升到一个理论高度,没有形成一个专门的学科而已。随着技术的发展、数据量的增加、业务的需求、行业的重视,我们逐渐把工作做细,也就用新的名词来称呼。

数据仓库 VS 大数据平台

  1. 大数据平台存储计算能力更强:2005年前后Hadoop技术的出现,让数据存储能力更高,不但存储结构化、而且半结构化和非结构的数据来而不拒,同时计算能力更加强大。
  2. 大数据平台数据接入能力更强大:这源于强大的存储计算能力,以前数据仓库存储价值较高的数据,现在也可以存储低价值数据,如日志、传感器数据、埋点数据等等。
  3. 大数据平台更加强调开放和时效:数据来源多了,需要的人肯定也多了起来,相比与传统数仓,要把这些数据服务出去,各种SDK、API出来了,为了提供更加实时的数据,实时计算也出来了,Lambda、Kappa架构出来了。
  4. 大数据平台展示能力更丰富:移动互联网、前端技术的发展,让我们对数据的触达更多样,更多酷炫的数据展示。

大数据平台 VS 数据中台

  1. 数据中台更加强调数据治理,资产化思维:这源于把数据当做生产要素,把数据当做资产运营,没有标准、质量与安全,谈何数据增值,变现。
  2. 数据中台更加强调数据为业务赋能:我们要的更多,不单单BI,我们更要让数据为业务赋能,让数据参与到业务场景中,发挥数据价值,也催生出新的职业DataBP。
  3. 数据中台更加强调智能:这源于机器数据、人工智能的发展。结合业务、依托数据,我们构建算法模型,把算法能力封装成API服务出去,这不就是ChatGPT吗。
  4. 数据中台更加强调经济易用:以前大数据平台成本太高了,构建集群、搭建各种组件,还要运维,现在基于云计算,各种现成的工具开箱即用,比如现在火得数仓一体数据库组件。

未来应该还会出现新的名词,这一新名词肯定在老的名词中有迹可循,我们在肯定新名词背后工作的同时,看看前人走过的路,会有更清醒的认知。

参考文章

  1. 苏萌,贾喜顺,杜晓梦,高体伟.数据中台技术相关进展及发展趋势[J].数据与计算发展前沿,2019,1(05):116-126.
  2. 宫夏屹,李伯虎,柴旭东等.大数据平台技术综述[J].系统仿真学报,2014,26(03):489-496.DOI:10.16182/j.cnki.joss.2014.03.039.
  3. Doug Lowe,王澜,李朝虎.“数据仓库”讲座[J].今日电子,1995(11):73-76+89.
  4. 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35947.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VS2022配置OpenGL+GLAD

Glew(The OpenGL Extension Wrangler Library)是对底层OpenGL接口的封装,可以让你的代码跨平台。Glad与Glew作用相同,可以看作它的升级版。 Freeglut(OpenGL Utility Toolkit)主要用于创建并管理窗口和Ope…

chatMOSS的使用方法

1、开发者们在VScode界面找到应用商店扩展 2、搜索ChatMoss 并安装 3、CtrlF9快速唤醒使用 4、注册登录 字符数会更多(填:zgy999139.com 双方都会获得可用字符数)。 笔者体验用来写点小东西确实体验,加快效率,大家可以…

CoinMarketCap推出加密资产数据APP

点击上方 “蓝色字” 可关注我们! 暴走时评: 加密货币数据提供商CoinMarketCap推出了其首款Android应用程序并改进了其Apple iOS产品。 值得注意的是,该应用程序提供了CoinMarketCap网站上尚未提供的功能,包括投资组合跟踪&#x…

加密货币--Cryptocurrency

原文链接 Ever since Nas Daily’s video came out about how I earned over $400,000 with less than $10,000 investing in Bitcoin and Ethereum, I’ve been getting hundreds of questions from people around the world about how to get started with cryptocurrency i…

GIBXChange上线MT5交易平台:MT5 LP MAM+5A对冲模式强势来袭

引子 人类近代史就是一部金融的发展史,尤其21世纪更是金融的时代。金融市场的流动性带动着社会资源更广维度流动分配。交易的全球化,推动着地区资源和生产资料的全球化分配。尤其以外汇、期货市场的发展,携带着全球最大规模资金流通量的交易盘口,重构着全球金融市场的新秩…

Ubcoin市场:加密货币-商品交易平台

Ubcoin是一个区块链平台,使用例如亚马逊、Etsy和eBay所用的线上市场模型,打造全球首个真正有别于传统的加密货币交易平台。Ubcoin用户仅需售卖真实商品即可换取加密货币,并且能够使用加密货币购买商品,整条链上无需法定货币的参与…

印度尼西亚通过加密货币期货交易规则

点击上方 “蓝色字” 可关注我们! 暴走时评: 印度尼西亚贸易部下属的商品期货交易监管机构(Bappebti)于周一公布了该国期货交易所的加密资产交易新规则,规定加密货币期货交易所必须进行登记,获准后才能运营…

放弃几百万年薪的后续

厂长:和洋哥认识很久了,最近他从网易离职,放弃了几百万的年薪,全身心的投入AIGC,刚开始我得到这个消息很是诧异,在详谈之后才明白了洋哥背后的思考逻辑,刚好今天他也写了篇文章做了解释&#xf…

盘点一个AI你画我猜的小工具

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 寻声暗问弹者谁,琵琶声停欲语迟。 大家好,我是Python进阶者。 一、前言 前几天在【ChatGPT&AI破局俱乐部】知识星球发现了一…

不愧是比亚迪!

最近这段时间,因为我自己准备买车嘛,然后先后去试驾了比亚迪汉、小鹏P7i、蔚来ET5、智己LS7这几辆车,接下来想分4篇文章依次给大家分享一下这四个品牌的车试驾体验。 比亚迪汉 小鹏P7i 蔚来ET5 这四个品牌总共花了三天时间,也算是…

使用AI,做抖音漫画短视频,4个人2天的工作量,1人仅需5小时即可完成

3 天前 ChatGPT云炬学长 ​关注 ​之前仅用一个多月就在抖音涨粉25w,虽然涨粉速度还可以,但账号至少需要4~5个人,(其中包括1个文案,2个漫画师,一个剪辑师,一个运营)才能保证日更。…

雷军也入局了...

风口理论的发明者雷总最近也杀入大模型&AI领域了,早在10多天前雷军在微博就发过一段话: 这段话其实已经暗示了雷军和他的小米已经在研发大模型产品了,相信要不了多久小米的大模型产品就会面世。 这下国内几乎所有互联网巨头都杀入了大模型…

阿里放大招了...

昨天阿里放了个大招:宣布自研大模型“通义千问”发布,不过目前只邀请企业用户进行体验测试,用户可通过官网申请,符合条件的用户可参与体验。 我没还没拿到邀请码,申请了体验资格正在排队中。但看完第三方的评测还是充满…

我干了一件大事!

最近读者朋友们应该都知道我做了一个付费社群,马上就要突破10000人了。 我一口气推了10多篇文章,都是关于我的AI星球:ChatGPT破局俱乐部。有些读者抱怨我:洋哥是不是在割韭菜? 另一方面因为我这个星球发展实在太快了&a…

转身卷OpenAI,这才真的香!

ChatGPT爆火后,OpenAI逐渐进入人们的视野。据levels.fyi显示,最近OpenAI给AI/ML岗(L5)开出$900k的高薪👇 反观其他大厂lowball的现状,转身卷OpenAI,是真的香! HC多、面试难&#xff…

自注意力机制(Self-Attention)

目录 一、注意力机制和自注意力机制的区别 二、引入自注意力机制的目的 三、Self-Attention详解 3.1 单个输出 3.2 矩阵形式 四、Multi-head Self-attention 五、Positional Encoding 六、Self-Attention和RNN的区别 一、注意力机制和自注意力机制的区别 Attention机制与…

慌了!ChatGPT吃我饭,还要掀我碗?

ChatGPT面世,各种被AI取代“失业言论”笼罩在人们头顶,本文聚焦这一问题,推荐关注ChatGPT的小伙伴阅读。 一时间火爆全网的新晋网红——ChatGPT,就问:还有谁不认识? 谷歌计划在旗舰搜索引擎中添加对话式人…

GPT/GP2/GPT3

GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1AF411b7xQ?spm_id_from333.999.0.0&vd_source4aed82e35f26bb600bc5b46e65e25c22 笔记:李沐老师GPT系列讲解 - 知乎今天分享的是李沐大神讲解…

IT伦理与道德:Google的“不作恶”准则

不作恶(Do not be evil)是Google公司的一条不成文的口号和行为准则。对于这条准则,很多人是怀疑和嘲讽的态度,但“不作恶”确实是Google公司一直以来倡导和坚持的。在物欲横流的今天和尔虞我诈的商业竞争中,能够提倡这…

数智赋能 制造当自强

党的二十大报告指出,要“建设现代化产业体系”,“推动制造业高端化、智能化、绿色化发展”。随着新一代信息技术与制造业的持续深度融合,以高端化、智能化、绿色化为目标,为工业创新赋能既是大势所趋,又任重而道远。 制…