数据分析师应该了解的数据湖

数据湖

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

这是AWS给出的解释。

看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。比如电商网站的访问日志(埋点的时候是以JSON存储),物联网终端设备实时发送的数据等原始数据直接存储在数据仓库的ODS层。

数据湖为什么火了

做数据仓库已经有ODS数据了,那么怎么突然大家都在提数据湖了?

真正的原因在于数据分析和机器学习这两年成为了主流,可以看看现在的招聘网站,很多招聘数据分析师和算法工程师的岗位,笔者所在城市尤为明显。15年的时候大家都在建立各自的大数据平台,那时候你懂点Hadoop,已经很了不起了。现在各个大数据平台已经建设成熟,逐步为业务服务,越来越多的公司需要利用大数据服务于业务,提升变现能力。

基于大数据建设的数据仓库往往是各个维度的聚合数据,大多服务于传统的报表分析。而机器学习往往需要使用到原始数据,另外很多机器学习用到的也不至于格式化数据,用户的评论,图像等都可以应用到机器学习中。

为什么要有数据湖

在这里插入图片描述

可以看下上面的这个组织架构图。数据湖的存在更多的是改变部门的组织架构,毕竟现在大部分公司都更注重业务分析的价值。

传统企业的数据团队被当做IT体系,整天要求提数。现在,数据团队只需要负责提供简单易用的工具,业务部门直接进行数据的使用。这也就是人人具备数据分析能力(人人都是数据分析师)。

数据湖 vs 数据仓库

在这里插入图片描述

这是AWS给出的对比,还是比较中肯的。

传统的数据仓库工作方式是集中式的:业务人员给需求到数据团队,数据团队根据要求加工、开发成维度表,供业务团队通过BI报表工具查询或者业务分析系统展示。

数据湖是开放、自助式的:开放数据给所有人使用,数据团队更多是提供工具、环境供各业务团队使用,业务团队进行开发、分析。

和数据仓库不同的是,以前数据仓库都是先设计schema,然后灌入数据。数据湖的schema是随用随生成,随着分析场景不同而不同。关于数据湖的技术实现方面可以了解下 delta lake这个项目(我司的平台部分功能在delta lake这个项目出来之前已经实现了一些功能)。

数据湖对于数据分析师来说对数据的操控性更强,但是要求也更高,不光懂业务,懂sql,懂数据,还要懂大数据处理技术,每个人都在处理自己需要的数据,会造成很多冗余数据存储和计算资源浪费,无法形成共性的可复用的数据层,这方面数仓是有益的补充。数据湖并不是为了颠覆数据仓库,是为了满足数仓无法满足的数据需求,二者是互补的。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/64067.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析师获取数据的方式有哪些?

1、外部购买数据 有很多公司或者平台是专门做数据收集和分析的,企业会直接从那里购买数据或者相关服务给数据分析师,这是一种常见的获取数据的方式之一。 2、网络爬取数据 除了购买数据以外,数据分析师还可以通过网络爬虫从网络上爬取数据…

计算机网络b站里谁讲得好,除了罗翔,B站还有多少神仙老师?

本文由【哔哩哔哩】授权转载, 【作者:小尹 编辑:会厌】 【图片来自网络,若侵则删】 如果苏格拉底和孔子生活在这个时代,他们会不会上B站,并成为一名UP主呢? 提出这个问题的,是B站UP主、中国政法大学教授罗翔老师。罗翔的粉丝超过千万,是B站最受欢迎的老师之一。 此外,…

受害者有罪论——如何反驳

目录 一、那些「受害者有罪论」的说法 二、「受害者有罪论」的潜台词 三、如何反驳 反驳1:让受害者有罪论者感同身受 反驳2:说理 反驳3: 直接指出结论的错误 反驳4:与对方无关,不用多费唇舌 四、罪犯就是罪犯&…

李永乐老师讲一个量子计算机,别再只知道罗翔了!网上最受欢迎的14位老师,个个让人“开天眼”!...

除了推荐「学什么」,这次,我还要推荐「跟谁学」。 第一反应,是跟着大学老师学习! 虽然我是北大清华得不到的人,但是听听高校老师讲课,还是 ok 的。 这里借用一位网友的话: 经过在网络上长时间的…

罗翔老师的书单

编者按: 作为中国政法大学法学教授、B 站坐拥百万粉丝的法考讲师罗翔,在近期的一次访谈中提及他在天桥上帮助一位老人的故事,而这个故事也曾收入他2019年出版的随笔《圆圈正义》。除了讲授法律知识,罗翔也是读书路上一位可靠的引路…

九龙证券|突发黑天鹅,股价两日跌停,这只更名股或将被ST!

今年以来,上市公司定增募资额翻倍增加,北上资金出手加仓多只个股。 今天盘面上,以创新药为首的医药医疗板块全线爆发,首药控股20cm涨停,奥赛康、海思科封板。房地产板块迎来久别反弹,并带动家居家电股走高&…

零点有数董事长袁岳:算法产业化应更多聚焦中模型发展

文章来源:【零点有数科技】 【编者按】 袁岳,零点有数董事长,黑苹果青年公益理事长,飞马旅联合创始人,独立媒体人,发表关于数据科学、管理科学、社会群体研究等相关领域著作逾一千三百五十万字。2021年&am…

陕西省赛2023-部分Reverse复现

目录 我的upx -d怎么坏了 动调脱upx壳: babypython BadCoffee ob混淆: 我的upx -d怎么坏了 打开附件,发现是upx壳,应该是修改了区段名或者特征码 但是修改过还是不对.....(哭.jpg)应该还是改了其他 好学长告诉我直接动态调试…

爬虫实战(一)Python+selenium自动化获取数据存储到Mysql中

行话说得好,“爬虫学得好,牢饭吃到饱!”哈哈博主是因这句话入的坑,不为别的就为邀大家一起铁窗泪(bushi),本人虽小牛一只,但是喜爱捣鼓技术,有兴趣的小伙伴们可以共同探讨…

自学 AI 一年的体会(1):谈技术书籍出版的长长短短

自学AI近一年,发现打开了一片新的技术大门,不再局限于漏洞攻防这块地盘,更关键是AI可以应用于诸多领域,甚至已不局限于计算机领域了,能搞的事情更多了。在此期间,自己也使用NLP自然语言处理技术开发出多个模…

自学大语言模型之GPT

GPT火爆的发展史 2017年6月OpenAI联合DeepMind首次正式提出的:Deep Reinforcement Learning from Human Preferences,即基于人类偏好的深度强化学习,简称RLHF 2017年7月的OpenAI团队提出的对TRPO算法的改进:PPO算法 GPT-1&#…

考研党福利?ChatGPT秒杀了所有408考研编程题……

来源:新智元 本文均由ChatGPT生成 那么,ChatGPT可以解决408中的编程题吗? 直接结论:由ChatGPT给出的408代码90%可以拿满分 2023年408的编程题 哟,看着还行 2022年408编程题 解答题回答的也不错 2021年408编程题 ChatGP…

chatgpt赋能python:Python编程题怎么搜答案

Python编程题怎么搜答案 Python是一种高级编程语言,具有易读性、简洁性和可重用性等优点,因此越来越多的程序员选择使用Python开发应用程序。但是在面对Python编程题的时候,即使你已经有了10年的编程经验,可能也会遇到一些问题。…

利用ChatGPT学习编程,让你成为新时代程序员

大家好,我是静幽水,目前是一名大厂全栈工程师,擅长Java后端,Vue前端,小程序编程,Python编程,ChatGPT 提示词等技术。我会分享一些相关的干货知识,感兴趣的话就关注我吧,希…

活学活用虚拟环境,Python编程更高效

介绍4种在Python中使用虚拟环境的方法。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 本文将涵盖以下主题:什么是python中的虚拟环境?为什么需要虚拟环境?在Python中设置虚拟环境的4种不同方法。本文将…

用好这两个方法,解决Python中的线程同步问题

了解互斥锁和连接,实现Python中安全有效的多线程。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 同步的重要性是什么? 假设有一个共享的家庭银行账户,余额为50美元,属于你和你父亲。 爸爸挣…

了解Python编码风格,让你的代码更好看

和其他编程语言不同,Python有一套独特的编码风格,掌握Python的编码风格对于编写优美的代码至关重要。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 本文是一篇快速了解Python编码风格的指南,了解Python…

国家电网可视化平台完工交付给客户!

国家电网可视化平台完工交付给客户,助力电网信息化! 转载于:https://www.cnblogs.com/shuzikeji/p/7844358.html

2019年南方电网和国家电网考纲对比(通信类)

最近在准备关于国家电网和南方电网的校园招聘笔试,整理了如上内容,仅供参考,小结如下: 南方电网: 批次:南方电网校园招聘考试一般每年只有一批,比重:比较注重面试环节,面…