数据湖数据仓库数据集市数据清理以及DataOps

一提到大数据我们就知道是海量数据，但是我们并不了解需要从哪些维度去考虑这些数据的存储。比如数据湖、数据仓库、数据集市，以及数据自动化应用DataOps有哪些实现方式和实际应用，这篇文章将浅显的做一次介绍。

数据湖

数据湖是一种以自然/原始格式存储数据的系统或存储库， [ 1 ]通常是对象blob或文件。数据湖通常是单一数据存储，包括源系统数据、传感器数据、社交数据等的原始副本[ 2 ] ，以及用于报告、可视化、高级分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库的结构化数据（行和列）、半结构化数据（CSV、日志、XML、JSON）、非结构化数据（电子邮件、文档、PDF）和二进制数据（图像、音频、视频）。[ 3 ]数据湖可以建立在“本地”（组织的数据中心内）或“云端”（使用云服务）上。

背景

时任Pentaho首席技术官的 James Dixon在 2011 年创造了这个术语[ 4 ]，以将其与数据集市进行对比，数据集市是一个较小的存储库，其中包含来自原始数据的有趣属性。[ 5 ]在推广数据湖时，他认为数据集市有几个固有的问题，例如信息孤岛。普华永道(PwC) 表示，数据湖可以“终结数据孤岛”。[ 6 ]他们在数据湖研究中指出，企业“开始提取数据并将其放入基于 Hadoop 的单一存储库中进行分析”。

示例

许多公司使用云存储服务，例如Google Cloud Storage和 Amazon S3，或分布式文件系统，例如 Apache Hadoop分布式文件系统 (HDFS)。[ 7 ]学术界对数据湖的概念逐渐产生兴趣。例如，卡迪夫大学的 Personal DataLake是一种新型数据湖，旨在通过提供收集、组织和共享个人数据的单一点来管理个人用户的大数据。 [ 8 ]

早期的数据湖（例如 Hadoop 1.0）功能有限，因为它仅支持面向批处理的处理（Map Reduce）。与其交互需要 Java、map Reduce 和更高级工具（例如Apache Pig、Apache Spark和Apache Hive，它们最初也是面向批处理的）方面的专业知识。

批评

管理不善的数据湖被戏称为“数据沼泽”。[ 9 ]

2015 年 6 月，David Needle 将“所谓的数据湖”描述为“管理大数据的最具争议的方法之一”。[ 10 ] 普华永道在其研究中也谨慎地指出，并非所有数据湖计划都能取得成功。他们引用了Cambridge Semantics首席技术官 Sean Martin 的话：

我们看到客户创建大数据墓地，将所有数据转储到Hadoop 分布式文件系统(HDFS) 中，并希望将来能有所作为。但随后他们就忘记了那里有什么。主要的挑战不是创建数据湖，而是利用它提供的机会。[ 6 ]

他们描述说，构建成功数据湖的公司在弄清楚哪些数据和元数据对组织很重要时，会逐渐成熟他们的数据湖。

另一个批评是，“数据湖”一词没什么用，因为它的用法太多了。[ 11 ]例如，它可能被用来指代：任何不是数据仓库的工具或数据管理实践；特定的实施技术；原始数据储存库； ETL卸载的中心；或自助分析的中央枢纽。

虽然对数据湖的批评是有道理的，但在很多情况下，这些批评也适用于其他数据项目。[ 12 ]例如，“数据仓库”的定义也是不断变化的，而且并非所有数据仓库工作都取得了成功。针对各种批评，麦肯锡指出[ 13 ]，数据湖应被视为一种在企业内部提供业务价值的服务模式，而不是技术成果。

数据湖屋

数据湖屋是一种混合方法，可以像数据湖一样提取各种原始数据格式，同时提供ACID事务并像数据仓库一样强制执行数据质量。[ 14 ] [ 15 ]数据湖屋架构试图通过添加数据仓库功能（例如事务支持、模式实施、治理和对不同工作负载的支持）来解决对数据湖的几项批评。据 Oracle 称，数据湖屋结合了“数据湖中非结构化数据的灵活存储以及数据仓库的管理功能和工具”。[ 16 ]

数据仓库

在计算领域，数据仓库( DW或DWH )，也称为企业数据仓库( EDW )，是一种用于报告和数据分析的系统，是商业智能的核心组成部分。[ 1 ]数据仓库是从不同来源集成的数据的中央存储库。它们以有组织的方式存储当前和历史数据，以便于创建报告、查询和从数据中获取见解。[ 2 ]与数据库不同，它们旨在供分析师和管理人员使用，以帮助做出组织决策。[ 3 ]

数据仓库的基本架构
仓库中存储的数据是从运营系统（如营销或销售）上传的。数据可能会经过运营数据存储，并且可能需要进行数据清理以进行其他操作，以确保数据质量，然后才能在数据仓库中用于报告。

构建数据仓库系统的两种主要方法是提取、转换、加载（ETL）和提取、加载、转换（ELT）。

成分

数据仓库和数据集市的环境包括以下内容：

数据源系统（通常是公司的操作数据库，例如关系数据库[ 3 ]）
数据集成技术和流程，从源系统中提取数据，转换数据，并将其加载到数据集市或仓库中[ 3 ] ;
在仓库或集市中存储数据的架构；
适合不同用户的工具和应用程序；
元数据、数据质量和治理流程。元数据包括数据源（数据库、表和列名）、刷新计划和数据使用情况指标。[ 3 ]

数据仓库和数据集市之间的区别
属性	数据仓库	数据集市
数据范围	企业	部门
学科领域数量	多种的	单身的
建造难度有多大	难的	简单的
所需内存	更大	有限的

变体

提取和加载

典型的基于提取、转换、加载(ETL) 的数据仓库使用暂存层、数据集成层和访问层来容纳其主要功能。暂存层或暂存数据库存储从每个不同的源数据系统提取的原始数据。集成层通过转换来自暂存层的数据来集成不同的数据集，通常将转换后的数据存储在操作数据存储(ODS) 数据库中。然后，将集成的数据移至另一个数据库（通常称为数据仓库数据库），在该数据库中，数据被排列成层次结构组（通常称为维度）以及事实和聚合事实。事实和维度的组合有时称为星型模式。访问层帮助用户检索数据。[ 6 ]

数据的主要来源是经过清理、转换和分类，然后提供给管理人员和其他业务专业人员进行数据挖掘、联机分析处理、市场研究和决策支持。[ 7 ]但是，检索和分析数据、提取、转换和加载数据以及管理数据字典的方法也被视为数据仓库系统的基本组成部分。许多对数据仓库的引用都使用了这个更广泛的背景。因此，数据仓库的扩展定义包括商业智能工具、提取、转换和加载数据到存储库的工具以及管理和检索元数据的工具。

数据集市

数据集市是数据仓库环境特有的结构 / 访问模式，用于检索面向客户的数据。数据集市是数据仓库的一个子集，通常面向特定的业务线或团队。数据仓库具有企业范围的深度，而数据集市中的信息则属于单个部门。在某些部署中，每个部门或业务部门都被视为其数据集市的所有者，包括所有硬件、软件和数据。[ 1 ] 这使每个部门能够隔离其数据的使用、操作和开发。在使用一致维度的其他部署中，此业务部门所有者不适用于客户、产品等共享维度。

建立仓库和数据集市是因为数据库中的信息没有以一种易于访问的方式组织起来。这种组织方式需要的查询过于复杂、难以访问或占用大量资源。

事务数据库旨在更新，而数据仓库或集市则是只读的。数据仓库旨在访问大量相关记录。数据集市允许用户访问他们最常需要查看的特定类型的数据，并以支持一组用户的集体视图的方式提供数据，从而缩短最终用户的响应时间。

数据集市基本上是数据仓库的精简版，更集中化，反映了组织内每个业务部门的规章制度和流程规范。[ 2 ]每个数据集市专用于特定的业务功能或区域。此数据子集可能涵盖企业的许多或所有功能主题领域。通常使用多个数据集市来满足每个业务部门的需求（可以使用不同的数据集市来获取企业各个部门的特定信息，例如会计、营销、销售等）。

相关术语电子表格市场是一个贬义词，它描述了这样一种情况：一个或多个业务分析师开发了一个链接电子表格系统来执行业务分析，然后将其规模和复杂程度扩大到几乎无法维护的程度。这种情况的术语是“Excel 地狱”。[ 3 ]

数据集市与数据仓库

数据仓库：

涵盖多个学科领域
拥有非常详细的信息
致力于整合所有数据源
不一定使用维度模型但提供维度模型。

数据集市：

通常只涉及一个主题领域 - 例如财务或销售
可能包含更多汇总数据（尽管也可能包含完整细节）
专注于整合来自给定主题领域或一组源系统的信息
以使用星型模式的维度模型为中心进行构建。

设计模式

星型模式——相当流行的设计选择；使关系数据库能够模拟多维数据库的分析功能
雪花模式
活动模式——基于时间序列的模式

创建数据集市的原因

轻松访问常用数据
由一组用户创建集体视图
缩短最终用户的响应时间
易于创作
比实施完整数据仓库的成本更低
与完整数据仓库相比，潜在用户的定义更为明确
仅包含业务基本数据，不太混乱。
它包含关键数据信息

依赖数据集市

根据Inmon数据仓库学派的说法，依赖数据集市是大型数据仓库的逻辑子集（视图）或物理子集（提取），由于以下原因之一而被隔离：

需要更新特殊的数据模型或模式：例如，为OLAP进行重组。
性能：将数据集市卸载到单独的计算机以提高效率，或者消除在集中式数据仓库上管理工作负载的需要。
安全性：有选择地分离授权的数据子集。
便利性：绕过在企业数据仓库中合并新应用程序所需的数据管理和授权。
试验场：在将应用程序迁移到企业数据仓库之前，展示其可行性和投资回报率 (ROI) 潜力。
政治：当某个用户群体的影响力大于资金，或者在集中式数据仓库中不是一个好公民时，IT（信息技术）的应对策略。
政策：在数据仓库团队无法创建可用数据仓库的情况下，数据消费者的应对策略。

按照 Inmon 数据仓库学派的说法，数据集市固有的缺点包括有限的可扩展性、数据重复、与其他信息孤岛的数据不一致、以及无法利用企业数据源。

数据仓库的另一种学派是Ralph Kimball的学派。在他看来，数据仓库不过是所有数据集市的联合。这种观点有助于降低成本并加快开发速度，但可能会创建不一致的数据仓库，尤其是在大型组织中。因此，Kimball 的方法更适合中小型企业。[ 4 ]

数据清理

不要与清理（机密信息）或数据清理相混淆。

数据清理是从记录集、表或数据库中检测并更正（或删除）损坏或不准确记录的过程，是指识别数据中不完整、不正确、不准确或不相关的部分，然后替换、修改或删除脏数据或粗数据。[ 1 ]数据清理可以与数据整理工具交互执行，也可以通过脚本或数据质量防火墙以批处理形式执行。

清理后，数据集应与系统中其他类似数据集保持一致。检测到或删除的不一致可能最初是由用户输入错误、传输或存储损坏或不同商店中类似实体的不同数据字典定义引起的。数据清理与数据验证不同，因为验证几乎总是意味着数据在输入时被系统拒绝，并且在输入时执行，而不是对数据批次执行。

数据清理的实际过程可能涉及删除印刷错误或根据已知实体列表验证和更正值。验证可能很严格（例如拒绝没有有效邮政编码的任何地址），也可能使用模糊或近似字符串匹配（例如更正与现有已知记录部分匹配的记录）。一些数据清理解决方案将通过与已验证的数据集进行交叉检查来清理数据。一种常见的数据清理做法是数据增强，通过添加相关信息使数据更加完整。例如，在地址后附加与该地址相关的任何电话号码。数据清理还可能涉及数据的协调（或规范化），即将“不同文件格式、命名约定和列”的数据汇集在一起[ 2 ]并将其转换为一个有凝聚力的数据集的过程；一个简单的例子是缩写的扩展（“st、rd 等”到“街道、道路等”）。

动机

管理上不正确、不一致的数据可能导致错误的结论，并误导公共和私人层面的投资。例如，政府可能希望分析人口普查数据，以决定哪些地区需要在基础设施和服务上进一步支出和投资。在这种情况下，获取可靠的数据以避免错误的财政决策非常重要。在商业世界中，不正确的数据代价高昂。许多公司使用客户信息数据库来记录联系信息、地址和偏好等数据。例如，如果地址不一致，公司将承担重新发送邮件甚至失去客户的成本。

数据质量

高质量的数据需要通过一系列质量标准。这些标准包括：

有效性：度量符合已定义的业务规则或约束的程度（另请参阅有效性（统计））。当使用现代数据库技术设计数据捕获系统时，有效性相当容易确保：无效数据主要出现在遗留环境中（软件中未实施约束）或使用不适当的数据捕获技术（例如，电子表格，如果不使用单元格验证，则很难限制用户选择输入单元格的内容）。数据约束分为以下几类：

数据类型约束：特定列中的值必须属于特定数据类型，例如布尔值、数字（整数或实数）、日期。
范围约束：通常，数字或日期应在一定范围内。也就是说，它们具有最小和/或最大允许值。
强制约束：某些列不能为空。
唯一性约束：一个字段或多个字段的组合在数据集中必须是唯一的。例如，没有两个人可以拥有相同的社会保障号码。
集合成员约束：列的值来自一组离散值或代码。例如，一个人的性别可能是女性、男性或非二元性别。
外键约束：这是集合成员资格的更常见情况。列中的值集在包含唯一值的另一个表的列中定义。例如，在美国纳税人数据库中，“州”列必须属于美国定义的州或领地之一：允许的州/领地集合记录在单独的州表中。术语“外键”借用自关系数据库术语。
正则表达式模式：有时，文本字段必须以这种方式进行验证。例如，电话号码可能需要采用 (999) 999–9999 的模式。
跨字段验证：某些利用多个字段的条件必须成立。例如，在实验室医学中，白细胞分类计数各成分的总和必须等于 100（因为它们都是百分比）。在医院数据库中，患者的出院日期不能早于入院日期。

准确度：测量值与标准或真值的符合程度 - 另请参阅准确度和精度。准确度通常很难通过数据清理实现，因为它需要访问包含真值的外部数据源：这种“黄金标准”数据通常不可用。在某些清理环境中，尤其是客户联系数据，通过使用将邮政编码与地理位置（城市和州）匹配的外部数据库，并帮助验证这些邮政编码内的街道地址是否确实存在，可以实现准确度。
完整性：所有必需措施的已知程度。不完整性几乎不可能用数据清理方法来解决：人们无法推断最初记录相关数据时未捕获的事实。（在某些情况下，例如访谈数据，可以通过返回原始数据源（即重新采访对象）来解决不完整性问题，但即使这样也不能保证成功，因为存在回忆问题 - 例如，在收集食物消费数据的访谈中，没有人可能记得六个月前吃过什么。在坚持某些列不应为空的系统的情况下，可以通过指定表示“未知”或“缺失”的值来解决问题，但提供默认值并不意味着数据已完成。）
一致性：一组度量在跨系统之间的等效程度（另请参阅一致性）。当数据集中的两个数据项相互矛盾时，就会出现不一致：例如，两个不同的系统记录一个客户有两个不同的当前地址，其中只有一个是正确的。修复不一致并不总是可行的：它需要多种策略 - 例如，确定哪些数据是最近记录的，哪个数据源可能最可靠（后者的知识可能特定于特定组织），或者只是尝试通过测试两个数据项（例如，致电客户）来找到真相。
一致性：一组数据在所有系统中使用相同测量单位指定的程度（另请参阅测量单位）。在从不同地区汇集的数据集中，重量可能以磅或公斤为单位记录，必须使用算术转换将其转换为单一测量单位。

完整性这一术语涵盖了准确性、一致性和验证的某些方面（另请参阅数据完整性），但由于其不够具体，因此很少在数据清理上下文中单独使用。（例如，“引用完整性”是指上述外键约束的实施。）

过程

数据审计：使用统计和数据库方法对数据进行审计，以检测异常和矛盾：最终指出异常的特征及其位置。一些商业软件包将允许您指定各种约束（使用符合标准编程语言的语法，例如 JavaScript 或 Visual Basic），然后生成代码来检查数据是否违反这些约束。此过程在下面的“工作流规范”和“工作流执行”中提到。对于无法使用高端清理软件的用户，Microsoft Access 或 File Maker Pro 等微型计算机数据库软件包也将允许您以交互方式逐个约束执行此类检查，在许多情况下几乎不需要编程。
工作流规范：异常的检测和消除是通过对数据进行一系列操作（称为工作流）来执行的。它是在审核数据的过程之后指定的，对于获得高质量数据的最终产品至关重要。为了实现正确的工作流程，必须仔细考虑数据中异常和错误的原因。
工作流执行：在此阶段，工作流的规范完成并验证其正确性后执行。即使在处理大量数据时，工作流的实施也应高效，这不可避免地会带来权衡，因为执行数据清理操作的计算成本可能很高。
后处理和控制：执行清理工作流后，检查结果以验证正确性。如果可能，将手动更正工作流执行期间无法更正的数据。结果是数据清理流程中的新循环，其中再次审核数据，以允许指定其他工作流，通过自动处理进一步清理数据。

优质源数据与“数据质量文化”息息相关，必须由组织高层发起。这不仅仅是在输入屏幕上实施严格的验证检查的问题，因为几乎无论这些检查有多严格，用户仍然可能绕过它们。对于希望提高数据质量的组织，这里有一个九步指南：[ 3 ] [ 4 ]

宣布对数据质量文化的高层承诺
推动高管层面的流程再造
花钱改善数据输入环境
花钱改善应用程序集成
花钱改变流程运作方式
提升端到端团队意识
促进部门间合作
公开庆祝数据质量卓越
持续测量并提高数据质量

其他包括：

解析：用于检测语法错误。解析器决定一串数据是否在允许的数据规范内是可接受的。这与解析器处理语法和语言的方式类似。
数据转换：数据转换允许将数据从给定格式映射到相应应用程序所需的格式。这包括值转换或翻译函数，以及规范化数值以符合最小值和最大值。
重复消除：重复检测需要一种算法来确定数据是否包含同一实体的重复表示。通常，数据会按键排序，以便将重复条目更紧密地放在一起，以便更快地进行识别。
统计方法：通过使用平均值、标准差、范围或聚类算法的值来分析数据，专家可以找到意外的错误值。尽管由于不知道真实值而难以纠正此类数据，但可以通过将值设置为平均值或其他统计值来解决。统计方法还可用于处理缺失值，这些缺失值可用一个或多个合理值替换，这些合理值通常通过广泛的数据增强算法获得。

系统

该系统的主要工作是在修复脏数据和将数据尽可能接近源生产系统的原始数据之间找到适当的平衡。这对提取、转换、加载架构师来说是一个挑战。该系统应提供一种架构，可以清理数据、记录质量事件并测量/控制数据仓库中数据的质量。一个好的开始是进行彻底的数据分析，这将有助于确定数据清理系统所需的复杂性，并了解源系统中当前的数据质量。

优质展示

数据清理系统的一部分是一组称为质量筛选的诊断过滤器。它们各自在数据流中实施测试，如果测试失败，则会在错误事件模式中记录错误。质量筛选分为三类：

列筛选。测试单个列，例如，检测意外值（如NULL值）、应为数字的非数字值、超出范围的值等。
结构筛选。这些筛选用于测试同一表或不同表中的列（通常是外键/主键）之间不同关系的完整性。它们还用于测试一组列是否根据其应遵循的某些结构定义有效。
业务规则筛选。这是三项测试中最复杂的一项。它们测试数据（可能跨多个表）是否遵循特定的业务规则。例如，如果客户被标记为特定类型的客户，则应遵守定义此类客户的业务规则。

当质量屏幕记录到错误时，它可以停止数据流处理，将错误数据发送到目标系统以外的其他地方，或者标记数据。后一种选择被认为是最佳解决方案，因为第一种选择要求每次发生问题时都必须有人手动处理，而第二种选择意味着目标系统中缺少数据（完整性），并且通常不清楚这些数据应该如何处理。

对现有工具和流程的批评

大多数数据清理工具在可用性方面存在局限性：

项目成本：通常为数十万美元
时间：掌握大型数据清理软件非常耗时
安全性：交叉验证需要共享信息，使应用程序能够跨系统访问，包括敏感的遗留系统

错误事件架构

错误事件模式保存质量屏幕抛出的所有错误事件的记录。它由一个错误事件事实表组成，该表带有指向三个维度表的外键，这些维度表表示日期（时间）、批处理作业（地点）和屏幕（谁产生了错误）。它还保存有关错误发生的确切时间和错误严重程度的信息。此外，还有一个错误事件详细信息事实表，该表带有指向主表的外键，主表包含有关错误发生在哪个表、记录和字段以及错误条件的详细信息。

DataOps数据自动化

DataOps 是一种实践或技术，结合了集成的、面向流程的数据与自动化，以提高数据质量、协作和分析。

file

它主要涉及数据科学家、数据工程师和其他数据专业人员之间的合作。DataOps 与 DevOps 的比较。

概念与核心价值

DataOps是一种数据管理方法论，旨在提高数据分析效率和数据质量。它源于DevOps的理念，将敏捷开发的方法应用于数据处理和管理，实现更快速、更可靠的数据服务。DataOps的核心价值在于：

提高数据分析效率：通过自动化和标准化数据处理流程，降低数据分析门槛，提高团队间的协作效率。
提升数据质量：通过严格的流程管理和质量控制，确保数据的准确性、完整性和一致性。
增强数据安全性：通过对数据的全程监控和管理，降低数据泄露风险，保证数据的安全性。

发展历程

DataOps的概念最初由比利时的数据科学家和工程师所提出，旨在解决数据工程师和数据分析师之间沟通协作的难题。随着大数据技术的不断发展，DataOps逐渐成为一种独立的方法论，被广泛应用于各行各业的数据管理实践中。

实现方式

要实现DataOps，需要从以下几个方面入手：
标准化数据处理流程：制定统一的数据处理规范和标准，确保各个团队按照相同的流程进行数据处理。
工具化与平台化：通过工具和平台提供的数据管理功能，实现自动化、智能化的数据处理和管理。
加强团队间协作：建立跨部门的协作机制，加强数据工程师、数据分析师、业务人员之间的沟通与合作。
数据质量监控：建立数据质量监控体系，对数据进行全程监控和管理，及时发现并解决数据质量问题。
数据安全保障：通过加密、备份、权限控制等手段，保障数据的安全性和隐私性。

实际应用

DataOps的应用场景十分广泛，涵盖了金融、医疗、电商等多个行业。以金融行业为例，银行可以通过DataOps建立统一的数据管理平台，实现客户画像、风险控制、精准营销等业务的快速响应和高效执行。同时，通过自动化和智能化的数据处理流程，确保数据的准确性和完整性，提高风险控制能力和客户满意度。
在医疗行业，DataOps可以帮助医疗机构建立统一的数据管理平台，实现患者信息、医疗资源、药品管理等业务的数字化转型。通过自动化和智能化的数据处理流程，提高医疗服务的效率和质量，为患者提供更好的医疗体验。
总结来说，DataOps作为一种新兴的数据管理方法论，正逐渐改变着我们的数据管理实践。通过标准化、工具化、协作化等手段，DataOps旨在提高数据分析效率和数据质量，为企业创造更大的商业价值。在未来，随着大数据技术的不断发展和应用的深入，DataOps将会在更多领域得到广泛应用和推广。