如今,许多数字企业都认为自己是数据驱动的。通过各种软件解决方案,数据无处不在,收集起来也非常方便,这使得企业能够被动地收集大量数据,并将其应用于决策制定。
然而,人们往往很容易在不考虑数据质量的情况下查看仪表盘和工具。Gartner 估计 数据质量低下导致企业损失平均每年1290万美元。
一、数据质量差的真正代价
数据质量很难评估,因为它只是关于现实世界的信息。没有任何基本原则可以表明系统中存储的信息是不准确的数据,除非字段缺失或为零。
因此,你很容易相信仪表板上显示的数据是准确且高质量的。如果随后用这些数据得出结论,这些决策将基于不完整的数据。基于劣质数据的决策可能会导致企业将重点放在错误的产品或服务上,从而导致收入损失。
此外,很难发现决策是基于低质量数据做出的。大多数决策和策略都需要时间才能实施,结果可能更晚才会出现。由于决策和结果之间有很长的延迟,低质量数据可能会影响大量业务运营。
不良数据还会产生间接影响。由于决策可能导致企业专注于一个领域和收入来源,因此在决策过程中总会错失一些机会。这些错失的机会可能比基于不良数据的任何机会都更有利可图或更具可行性。
在某些情况下,数据质量差还会导致公司声誉或士气受损。基于不准确数据做出的错误决策会削弱高层管理人员和员工的信任,导致长期整体绩效下降。
二、什么原因导致数据质量差?
数据质量差可能是由多种因素造成的,从人为错误到各种技术故障。通常,存在不良数据相关问题的企业会同时参与多个流程,这使得发现最紧迫的原因变得更加困难。
1.人为错误
人为错误是导致数据质量不佳的最简单和最常见的原因之一。即使手动执行的工作很少,人为错误也可能发生在数据质量管理流程的任何阶段。
大多数错误发生在数据输入阶段。这些错误会随着必须执行的手动工作量而迅速增加。因此,应尽可能减少手动数据输入。
此外,人为错误还可能发生在流程的其他阶段,例如在转换、移动、复制或重新格式化数据时。然而,这些错误通常更容易被注意到,因为受影响的数据集更大。
2.缺乏数据标准化
数据科学家和工程师经常会谈到标准化的重要性。标准化不足的一个常见例子是数据库可能使用不同的方式来表示相同的信息(例如在同一组中使用“USA”、“US”和“United States of America”)。
缺乏标准化会导致重复条目,从而导致数据质量低下。在大型数据集中,对“美利坚合众国”的定量分析可能会返回不正确的数据,因为它会遗漏其他符号(“USA”、“US”)。
幸运的是,对于小型企业来说,在这方面提高数据质量相对容易。标准化信息集和实体 ID 或名称将大大降低出现不良数据的可能性。对于大型企业和公司来说,则需要制定数据治理策略。
3.数据治理不力
数据治理是通过实施最佳实践和流程来管理公司内部信息的实践。在大型组织中,数据科学家和工程师只是直接参与管理信息的人员中的一小部分。
随着利益相关者数量的增加,尤其是数据质量管理领域以外的人员,出现各种错误的可能性也会增加。这些错误可能包括但不限于数据输入、转换或不一致的更新问题。
4.数据整合乏善可陈
在大型企业中维护高质量数据意味着要从各种来源收集信息。大多数这些来源将使用不同的符号和格式,因此需要各种流程来维护高质量的数据。
如果数据是从内部自动来源加载的,这些问题可能相对较小。每当包含手动输入的信息(例如客户数据)时,问题可能会变得更加紧迫,因为错误可能会显著增加。
最后,外部来源(例如通过网络抓取)可能会导致数据完整性问题。大多数此类数据都是非结构化的,需要进行大量的转换工作。即使出于最好的意图,数据科学家和分析师在整合此类信息时也必须格外小心。
三、如何提高数据质量?
良好的数据质量是一个定义问题。很少有企业能够在收集和分析过程中始终保持高质量的数据。因此,通常建议从外部数据质量指标开始。
因此,提高数据质量首先要定义数据的用例。目前,常见示例包括开发机器学习或 AI 模型、制定业务战略以及优化资源管理。
一旦定义了用例,利益相关者就可以讨论所有数据质量问题。例如,不良数据是否会导致机器学习模型无法达到准确度基准,或者管理不当的客户数据是否会导致利益相关者在制定销售策略时效率低下?
这些问题通常指向内在数据质量指标。以客户数据为例,可能存在准确性或完整性问题,这导致了潜在问题。额外的数据验证步骤可以完全解决这些问题。
这样的流程有助于公司挑选出需要关注的内在数据质量指标。然而,有时内在数据质量指标可能不是问题所在。根据问题的不同,外在数据质量指标也可能存在问题。
例如,如果用户不断要求澄清解释,那么可能就没有必要提高数据质量本身。数据科学家可能会以混乱的方式呈现其工作的最终结果,使非技术用户更难理解。
结论
不良数据可能是许多组织问题的罪魁祸首,从简单的错误到重大的收入损失。维护高质量的数据不仅对有效决策至关重要,而且对维护对数据本身的信任也至关重要。
虽然坏数据会给公司带来沉重的负担,但优质数据却能带来巨大的好处。许多组织都陷入了一个陷阱——将数据视为不需要维护的商品。它和其他资产一样,也是资产,因为数据会贬值并变得毫无用处。在某些情况下,它甚至可能变得有害,因此,需要非常小心地管理它。