有了数据湖,数据仓库究竟能不能被取代?

ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源


数据湖是近两年中比较新的技术在大数据领域中,对于一个真正的数据湖应该是什么样子,现在对数据湖认知还是处在探索的阶段,像现在代表的开源产品有iceberg、hudi、Delta Lake。

那对于数据湖应该是什么样子,先来看数据湖的作者AWS来说明数据湖是什么东西,比如下图:

不懂数据的人也许会觉得数据湖很厉害,而懂数据的人也许会觉得仅是一堆数据仓库技术的堆砌包装而已,你看上面那张框架图,哪个专业词汇数据人士会不懂?凭什么数据湖被炒作成了一个新概念?

而对于数据湖的定义则是:

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

那么数据湖和我们早先的数据仓库究竟有什么样的区别呢:

数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

从介绍来看好像数据仓库和数据湖的最主要的区别就是对结构化的数据和非结构化数据的存储,但是真的仅仅是这样吗?

事实上,这种比较有较大逻辑漏洞:即是从结果出发来看差异,然后又用这个差异来说明区别,颠倒了因果。比如AWS的数据湖能够处理非结构化数据,而数据仓库无法处理非结构化数据,就认为这是数据湖与数据仓库的本质区别之一。

下面的文章中将来探索数据湖和数据仓库究竟有什么样的区别,学习一个新的事物要一步步的发现这个事物的本质是什么。

数据仓库和数据湖的处理流程可以用下图来示意,其中用红圈标出了5个对标的流程节点。

从图中可以看出来数据湖并不比数据仓库在处理流程上多出了什么内容,更多的在于结构性的变化,下面就从数据存储、模型设计、加工工具、开发人员和消费人员五个方面来进行比较。

(1)数据存储

数据仓库采集、处理过程中存储下来的数据一般是以结构化的形式存在的,即使原始数据是非结构化的,但这些非结构化数据也只是在源头暂存一下,它通过结构化数据的形式进入数据仓库,成了数据仓库的基本存储格式,这个跟数据仓库的模型(维度或关系建模)都是建立在关系型数据基础上的特点有关。

事实上,是传统的数据建模负担让数据仓库只处理结构化数据,其实谁都没规定过数据仓库只处理和存储结构化数据。

数据湖包罗万象,轻装上阵,结构化与非结构化数据都成为了数据湖本身的一部分,这体现了数据湖中“湖”这个概念。因为没有数据仓库建模的限制,当然什么东西都可以往里面扔,但这为其变成数据沼泽埋下了伏笔。

(2)模型设计

数据仓库中所有的Schema(比如表结构)都是预先设计并生成好的,数据仓库建设最重要的工作就是建模,其通过封装好的、稳定的模型对外提供有限的、标准化的数据服务,模型能否设计的高内聚、松耦合成了评估数据仓库好坏的一个标准,就好比数据中台非常强调数据服务的复用性一样。

你会发现,数据仓库很像数据领域的计划经济,所有的产品(模型)都是预先生成好的,模型可以变更,但相当缓慢。

数据湖的模型不是预先生成的,而是随着每个应用的需要即时设计生成的,其更像是市场经济的产物,牺牲了复用性却带来了灵活性,这也是为什么数据湖的应用更多强调探索分析的原因。

(3)加工工具

数据仓库的采集、处理工具一般是比较封闭的,很多采取代码的方式暴力实现,大多只向集中的专业开发人员开放,主要的目的是实现数据的统一采集和建模,它不为消费者(应用方)服务,也没这个必要。

数据湖的采集和处理工具是完全开放的,因为第(2)点提到过:数据湖的模型是由应用即席设计生成的,意味着应用必须具备针对数据湖数据的直接ETL能力和加工能力才能完成定制化模型的建设,否则就没有落地的可能,更无灵活性可言。

工具能否开放、体验是否足够好是数据湖能够成功的一个前提,显然传统数据仓库的一些采集和开发工具是不行的,它们往往不可能向普通大众开放。

(4)开发人员

数据仓库集中开发人员处理数据涵盖了数据采集、存储、加工等各个阶段,其不仅要管理数据流,也要打造工具流。

由于数据流最终要为应用服务,因此其特别关注数据模型的质量,而工具流只要具备基本的功能、满足性能要求就可以了,反正是数据仓库团队人员自己用,导致的后果是害苦了运营人员。

数据湖完全不一样,集中开发人员在数据流阶段只负责把原始数据扔到数据湖,更多的精力花在对工具流的改造上,因为这些工具是直接面向最终使用者的,假如不好用,数据湖就不能用了。

(5)应用人员

数据仓库对于应用人员暴露的所有东西就是建好的数据模型,应用方的所有角色只能在数据仓库限定好的数据模型范围内倒腾,这在一定程度上限制了应用方的创新能力。比如原始数据有个字段很有价值,但数据仓库集中开发人员却把它过滤了。

这种问题在数据仓库中很常见,很多取数人员只会取宽表,对于源端数据完全不清楚,所谓成也数据仓库,败也数据仓库。

数据湖的应用方则可以利用数据湖提供的工具流接触到最生鲜的原始数据,涵盖了从数据采集、抽取、存储、加工的各个阶段,其可以基于对业务的理解,压榨出原始数据的最大价值。

可以看到,数据仓库和数据湖,代表着两种数据处理模式和服务模式,是数据技术领域的一次轮回。

早在ORACLE的DBLINK时代,我们就有了第一代的数据湖,因为那个时候ORACLE一统天下,ORALCE的DBLINK让直接探索原始数据有了可能。

随着数据量的增长和数据类型的不断丰富,我们不得不搞出一种新的“数据库”来集成各种数据。

但那个时候搞出的为什么是数据仓库而不是数据湖呢?

主要还是应用驱动力的问题。

因为那个时候大家关注的是报表,而报表最核心的要求就是准确性和一致性,标准化、规范化的维度和关系建模正好适应了这一点,集中化的数据仓库支撑模式就是一种变相的计划经济。

随着大数据时代到来和数字化的发展,很多企业发现,原始数据的非结构化比例越来越高,前端应用响应的要求越来越高,海量数据挖掘的要求越来越对,报表取数已经满足不了数据驱动业务的要求了。

一方面企业需要深挖各种数据,从展示数据为主(报表)逐步向挖掘数据(探索预测)转变,另一方面企业也需要从按部就班的支撑模式向快速灵活的方向转变,要求数据仓库能够开放更多的灵活性给应用方,这个时候数据仓库就有点撑不住了。

数据湖就是在这种背景下诞生的。

其实早在数据湖出来之前,很多企业就在做类似数据湖的工作了,但是只不过大家更多的集中在数据仓库结构化的数据处理中,对于非结构化的数据日志等更多的则是将其存储起来,对于需要的时候再通过应用程序进行处理获取到自己想要的结果,只不过是没有系统化的处理而已。

ETL之所以不开放,主要是驱动力不够,其实我们没有那么多类型的数据要定制化抽取。

很多企业不搞可视化开发平台也是容易理解的,报表就能活得很好,干嘛业务人员要自己开发和挖掘。现在数据湖叫的欢的,大多是互联网公司,比如亚马逊,这是很正常的。

而最近比较新的概念湖仓一体,阿里提出的概念,下面这张图来看一下:

何谓湖仓一体?

  1. 湖仓一体是一种新的数据管理模式,将数据仓库和数据湖两者之间的差异进行融合,并将数据仓库构建在数据湖上,从而有效简化了企业数据的基础架构,提升数据存储弹性和质量的同时还能降低成本,减小数据冗余。

  2. 湖和仓的数据/元数据无缝打通,互相补充,数据仓库的模型反哺到数据湖(成为原始数据一部分),湖的结构化应用知识沉淀到数据仓库。

  3. 湖仓一体架构主要的一点是实现“湖里”和“仓里”的数据能够无缝打通,对数据仓库的弹性和数据湖的灵活性进行有效集成,在该架构中,主要将数据湖作为中央存储库,将机器学习、数据仓库、日志分析、大数据等技术进行整合,形成一套数据服务环,更好地分析、整合数据,让数据仓库和数据湖中的数据可以自由流动,用户可以更便捷地调取其中的数据,让数据“入湖”、“出湖”更为便捷。

  4. 湖仓一体化,是将数据仓库和数据湖的价值进行叠加,克服数据重力,让数据在服务之间流动起来,减少重复建设,让湖中的数据可以”流到“数据仓中,并能直接进行数据调用;而数据仓中的数据也可以保存于数据湖中,供未来数据挖掘使用。借助湖仓一体化,可快速处理数仓内的热数据与数据湖中的历史数据,并生成丰富的数据集,但无需在执行中做任何数据移动操作。

    那数据湖究竟应该是什么样子,需要在接下来的发展中获取到答案,但是以目前来看,典型的组织都需要数据仓库和数据湖,因为它们可满足不同的需求和使用诉求。所以数据湖和数据仓库的存在并不冲突,也并不是取代的关系,而是相互的融合关系。


ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12998.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DriveGPT自动驾驶大模型中国玩家首发!1200亿参数,毫末智行出品

贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI 早知道会有这一天,但没想到如此快: GPT技术,“上车”! DriveGPT,首个应用GPT模型和技术逻辑的自动驾驶算法模型,正式官宣,中文名雪湖海若。 可能你已…

写个AI虚拟主播:看懂弹幕,妙语连珠,悲欢形于色,以一种简单的实现

这不是你期望的介绍深度学习大模型的文章。而是使用人人都能理解、编程、运行的简单技术(包括机器学习和非机器学习技术),通过一系列工程进行整合、组装,从而实现一个 AI 虚拟主播的故事。 muvtuber 让 AI 成为虚拟主播&#xff…

chatgpt赋能python:Python遍历-一种高效的数据处理技术

Python 遍历 - 一种高效的数据处理技术 对于程序员来说,数据处理是一个常见的任务。而在处理数据时,遍历是最常用的技术之一。Python 是一种强大的编程语言,它提供了很多用于数据遍历的工具和函数。在本文中,我们将介绍 Python 中…

ChatGpt输出结果时,文字中间有一根长长的删除线标记是什么意思?(ChatGpt删除线标记)

如图,这根删除线的含义是: 表示该文字不可信或是不准确的,建议仔细核实其内容。 这是系统为了提醒用户注意文字中可能存在的错误,避免对实际操作产生误导。

Stack Overflow 临时禁用 ChatGPT 生成内容,网友:人类和AI快打起来!

如果有一天我们查询到的「知识」真假难辨,那这就太可怕了。 要问最近 AI 圈哪个模型最火爆,你不得不把 OpenAI 推出的 ChatGPT 排在前面。自从发布以来,这个对话模型可谓是出尽风头,很多人更是对其产生了一百个新玩法,…

chatgpt开发内核定时器模块的完整过程

描述任务需求后,几乎在同一时刻chatgpt给出响应,开始进入代码刷屏模式,coding过程中还不忘给代码添加注释。 要求它顺便将Makefile文件写好提供给我,刷完代码后,进跟着开始刷Makefie文件: 编译生成的代码时…

MyBatisX插件没有出现蓝色鸟

如题,新版1.5.~的MyBatisX插件下载后,只有xml文件前出现红色鸟,对应的mapper接口中没有蓝色鸟。 解决办法:在idea中卸载掉该插件,加入插件页面中给出的qq群号,去群文件里下载1.4版本的压缩包,并…

新概念2-课文名称和知识点

目录 一、新概念2课文特点 二、新概念2知识点 1、新概念2知识点思维导图 2、简单句的核心 3、简单句的扩展 4、复合句 三、新概念2课文明细 一、新概念2课文特点 1)总计96篇课文,4个单元,每个单元都是逐步加深知识点 2)一…

蓝鸟BIP-1300无线终端解锁未签名程序运行权限

我司有一批BIP-1300,安装WM6系统。因为机器服役时间过长,系统很慢,于是将其中两台机器恢复了出厂设置。(F6Reset) 但是出现了一个问题,重置后的系统拒绝执行未经签名的应用程序,也拒绝Windows …

ChatGPT 成学生“作弊神器”?教授:“我感到极度恐惧”

上线没到一个月,ChatGPT 已经被网友玩出了“花”:写诗、编剧本、写代码、做计算题……在 ChatGPT 获得颇多赞誉的同时,近来一些学术界教授却发现了它另一种令人担忧的用途:学生正在利用 ChatGPT 代写论文。 为此,弗曼…

ChatGPT已死?AutoGPT太强?

今天聊聊 AutoGPT。 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉…

Midjourney|文心一格 Prompt:完整参数列表、风格汇总、文生图词典合集

Midjourney|文心一格 Prompt:完整参数列表、风格汇总、文生图词典合集 1.Midjourney 完整参数列表 参数名称 调用方法使用案例注意事项V5V4V3niji版本在关键词后加空格,然后带上版本参数: --v 或者 —v –version 或者 —versionvibrant cali…

AI本地绘画软件(无需联网)+7Glatest模型+10G数据整合包

今年的AI技术实在太强了......AI对话、AI绘画...后面围绕AI演变出的无数产品正在跃跃欲试,颇有种让人跟不上时代的感觉;如果说ChatGPT是AI对话领域的老大哥,那么Midjourney就是全网最强的AI绘画平台,只要关键词描述得够好,它生成的…

元宇宙走进现实,被黑科技普照的生活日常真的来了

开年热播的《三体》,开启了对科技文明的全新想象。今年ChatGPT更是引发热议,人工智能、科技创新成为高频词汇,“元宇宙看两会”系列更是融合了比特数智人形象生成、AR互动技术、定位跟踪等技术,将科技互动感和沉浸感拉满。当下&am…

2023上海车展,智能汽车发烧友逛展攻略

来了,来了!我们来了! 2023上海国际汽车工业展览会,上海国家会展中心,一直持续到4月27日! 各大汽车先锋企业汇聚于此。诸多全球首发/国内首发新车首次展现锋芒,众多领先汽车科技集聚于此。 什…

巴比特 | 元宇宙每日必读:美国网红利用“AI版的自己”和网友谈恋爱,收费每分钟1美元,GPT时代,数字人会变得更加普及吗?...

摘要:据科技新知报道,国外拥有180万粉丝的Snapchat网红Caryn Marjorie,开发AI版本的自己,结合GPT-4,利用不同版本的Caryn AI和粉丝谈恋爱,按分钟收费。除了视频博主,线上讲师、带货主播、导游、…

想成为顶级 AI 绘画师?先让这 7 个平台帮你成为 Prompt 高手

ChatGPT 的流行使得 AI 成为 2023 最大的科技风口,同时驱动了各种类型的 AI 发展。这些 AI 正在改变甚至颠覆很多行业的业务模式。ChatGPT 推动了 生成式 AI 革命的到来,这正在彻底颠覆内容的生产方式。自PGC、UGC 之后,内容生成终于迎来下一…

用Cursor 来提升你的开发效率

背景 随着chatGPT的兴起引起了整个社会对于智能化的关注度,那么它究竟能做什么?对我们日常工作有哪些影响? 前言 作为团队TLor程序开发or测试开发,chatGPT能帮我们干什么事情 (1)代码注释不够阅读困难-…

人工神经网络在肺结核诊断中应用的研究进展

人工神经网络在肺结核诊断中应用的研究进展 作者:胡青云 指导老师:杭诚方、李舰 摘要:结核病是一种全世界致死率极高的传染性疾病,转染性极强,可通过空气传播。该病在亚洲和非洲发病率极高,尤其是在大多数低收入国家。…

女子用ChatGPT交1000+男友,聊天按分钟收费,一周收入50万

量子位 | 公众号 QbitAI 注意看,这个女人叫卡琳,靠着GPT-4,她现在同时谈着1000男朋友。 对,我知道事情听上去有些离谱。就连GPT-4自己,都直呼“我一个AI都觉得非常不常见”。 但是先别急,因为更让人挠头的事…