一步一个脚印,一天一道面试题。
数据仓库是比较常见的考点。今天就介绍一下数据仓库的分层。本篇文章会较多的图片是来自尚硅谷的。
数据仓库的背景和好处
数据仓库的诞生就和大数据的诞生有很大的相似。大数据的诞生是为了处理超大的数据,并在其中探索海量数据下的价值。而数据仓库的诞生是为了规范大数据初期蛮荒生长后的一套规范。(毕竟瞎搞大数据很浪费钱),有了数据仓库,我们能更有效率的在海量数据里找黄金,同时能避免不必要的浪费,减少成本。数据仓库再往后,我认为就是数据治理,但那就是后话了。
数仓分层
来张尚硅谷的数仓分层图先:
源数据层(ODS)
在这一层,通常存储原始数据,如日志、埋点数据等。这些数据往往包含了系统的全部操作记录,便于后续对数据进行追溯和分析。
数据明细层(DWD)
DWD 层通常存储经过清洗和分类的数据,包括统一单位、去除空值等处理后的数据。这一层的数据更加规范和准确,适合用于后续的计算和分析。
维度层(DIM)- 配置和信息表
维度层一般存储与业务相关的配置信息和维度表,用于描述业务实体的属性和特征。例如产品信息、客户信息、地理位置等。
数据轻度汇总层(DWS)
DWS 层存储经过轻度汇总后的数据,通常按照特定维度进行聚合,以方便生成报表和进行分析。这一层的数据已经具有一定的汇总和提炼,适合用于生成业务报表和指标分析。
数据应用层(ADS)
在应用层存储着最终用于应用和业务需求的数据,通常包括用户行为数据、业务指标数据、推荐结果等。这些数据通常被用于生成报表、展示数据分析结果,或支持业务决策和推荐系统运行。
结语: 数据仓库是我们大数据十分重要的组成部分,也能在这套规范里找到处理海量数据的智慧。(虽然很多公司即使用了数据仓库后还是有很多效率,浪费之类的问题,但那就是数据治理的后话了)
我是 jiweilai,祝你变的更强!