数据质量差的代价是什么?

如今,许多数字企业都认为自己是数据驱动的。通过各种软件解决方案,数据无处不在,收集起来也非常方便,这使得企业能够被动地收集大量数据,并将其应用于决策制定。

然而,人们往往很容易在不考虑数据质量的情况下查看仪表盘和工具。Gartner 估计 数据质量低下导致企业损失平均每年1290万美元。

一、数据质量差的真正代价

数据质量很难评估,因为它只是关于现实世界的信息。没有任何基本原则可以表明系统中存储的信息是不准确的数据,除非字段缺失或为零。

因此,你很容易相信仪表板上显示的数据是准确且高质量的。如果随后用这些数据得出结论,这些决策将基于不完整的数据。基于劣质数据的决策可能会导致企业将重点放在错误的产品或服务上,从而导致收入损失。

此外,很难发现决策是基于低质量数据做出的。大多数决策和策略都需要时间才能实施,结果可能更晚才会出现。由于决策和结果之间有很长的延迟,低质量数据可能会影响大量业务运营。

不良数据还会产生间接影响。由于决策可能导致企业专注于一个领域和收入来源,因此在决策过程中总会错失一些机会。这些错失的机会可能比基于不良数据的任何机会都更有利可图或更具可行性。

在某些情况下,数据质量差还会导致公司声誉或士气受损。基于不准确数据做出的错误决策会削弱高层管理人员和员工的信任,导致长期整体绩效下降。

二、什么原因导致数据质量差?

数据质量差可能是由多种因素造成的,从人为错误到各种技术故障。通常,存在不良数据相关问题的企业会同时参与多个流程,这使得发现最紧迫的原因变得更加困难。

1.人为错误

人为错误是导致数据质量不佳的最简单和最常见的原因之一。即使手动执行的工作很少,人为错误也可能发生在数据质量管理流程的任何阶段。

大多数错误发生在数据输入阶段。这些错误会随着必须执行的手动工作量而迅速增加。因此,应尽可能减少手动数据输入。

此外,人为错误还可能发生在流程的其他阶段,例如在转换、移动、复制或重新格式化数据时。然而,这些错误通常更容易被注意到,因为受影响的数据集更大。

2.缺乏数据标准化

数据科学家和工程师经常会谈到标准化的重要性。标准化不足的一个常见例子是数据库可能使用不同的方式来表示相同的信息(例如在同一组中使用“USA”、“US”和“United States of America”)。

缺乏标准化会导致重复条目,从而导致数据质量低下。在大型数据集中,对“美利坚合众国”的定量分析可能会返回不正确的数据,因为它会遗漏其他符号(“USA”、“US”)。

幸运的是,对于小型企业来说,在这方面提高数据质量相对容易。标准化信息集和实体 ID 或名称将大大降低出现不良数据的可能性。对于大型企业和公司来说,则需要制定数据治理策略。

3.数据治理不力

数据治理是通过实施最佳实践和流程来管理公司内部信息的实践。在大型组织中,数据科学家和工程师只是直接参与管理信息的人员中的一小部分。

随着利益相关者数量的增加,尤其是数据质量管理领域以外的人员,出现各种错误的可能性也会增加。这些错误可能包括但不限于数据输入、转换或不一致的更新问题。

4.数据整合乏善可陈

在大型企业中维护高质量数据意味着要从各种来源收集信息。大多数这些来源将使用不同的符号和格式,因此需要各种流程来维护高质量的数据。

如果数据是从内部自动来源加载的,这些问题可能相对较小。每当包含手动输入的信息(例如客户数据)时,问题可能会变得更加紧迫,因为错误可能会显著增加。

最后,外部来源(例如通过网络抓取)可能会导致数据完整性问题。大多数此类数据都是非结构化的,需要进行大量的转换工作。即使出于最好的意图,数据科学家和分析师在整合此类信息时也必须格外小心。

三、如何提高数据质量?

良好的数据质量是一个定义问题。很少有企业能够在收集和分析过程中始终保持高质量的数据。因此,通常建议从外部数据质量指标开始。

因此,提高数据质量首先要定义数据的用例。目前,常见示例包括开发机器学习或 AI 模型、制定业务战略以及优化资源管理。

一旦定义了用例,利益相关者就可以讨论所有数据质量问题。例如,不良数据是否会导致机器学习模型无法达到准确度基准,或者管理不当的客户数据是否会导致利益相关者在制定销售策略时效率低下?

这些问题通常指向内在数据质量指标。以客户数据为例,可能存在准确性或完整性问题,这导致了潜在问题。额外的数据验证步骤可以完全解决这些问题。

这样的流程有助于公司挑选出需要关注的内在数据质量指标。然而,有时内在数据质量指标可能不是问题所在。根据问题的不同,外在数据质量指标也可能存在问题。

例如,如果用户不断要求澄清解释,那么可能就没有必要提高数据质量本身。数据科学家可能会以混乱的方式呈现其工作的最终结果,使非技术用户更难理解。

结论

不良数据可能是许多组织问题的罪魁祸首,从简单的错误到重大的收入损失。维护高质量的数据不仅对有效决策至关重要,而且对维护对数据本身的信任也至关重要。

虽然坏数据会给公司带来沉重的负担,但优质数据却能带来巨大的好处。许多组织都陷入了一个陷阱——将数据视为不需要维护的商品。它和其他资产一样,也是资产,因为数据会贬值并变得毫无用处。在某些情况下,它甚至可能变得有害,因此,需要非常小心地管理它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/448104.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新手爬虫DAY1

这个错误信息表明在你的Python程序中,re.search() 函数没有找到预期的匹配项,因此返回了 None。当你尝试在 None 对象上调用 group(1) 方法时,Python 抛出了一个 AttributeError。 具体来说,错误发生在 pc.py 文件的第6行&#x…

【实战篇】用SkyWalking排查线上[xxl-job xxl-rpc remoting error]问题

一、组件简介和问题描述 SkyWalking 简介 Apache SkyWalking 是一个开源的 APM(应用性能管理)工具,专注于微服务、云原生和容器化环境。它提供了分布式追踪、性能监控和依赖分析等功能,帮助开发者快速定位和解决性能瓶颈和故障。…

excel筛选多个单元格内容

通常情况下,excel单元格筛选时,只筛选一个条件,如果要筛选多个条件,可以如下操作: 字符串中间用空格分隔就行。

IDEA中git如何快捷的使用Cherry-Pick功能

前言 我们在使用IDEA开发时,一般是使用GIT来管理我们的代码,有时候,我们需要在我们开发的主分支上合并其他分支的部分提交代码。注意,是部分,不是那个分支的全部提交,这时候,我们就需要使用Che…

使用OpenCV实现基于FisherFaces的人脸识别

引言 随着人工智能技术的发展,人脸识别已经成为日常生活中不可或缺的一部分。在众多的人脸识别算法中,FisherFaces 方法因其简单易用且具有良好的识别效果而备受青睐。本文将详细介绍如何使用Python和OpenCV库实现基于FisherFaces的人脸识别系统&#x…

【SpringBoot】13 XML格式的请求和响应

介绍 可扩展标记语言 (Extensible Markup Language, XML) ,标准通用标记语言的子集,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 XML是标准通用标记语言 可扩展性良好,内容与形式分离,遵循严格的语法…

OPC UA与PostgreSQL如何实现无缝连接?

随着工业4.0的推进,数据交换和集成在智能制造中扮演着越来越重要的角色。OPC UA能够实现设备与设备、设备与系统之间的高效数据交换。而PostgreSQL则是一种强大的开源关系型数据库管理系统,广泛应用于数据存储和管理。如何将OPC UA与PostgreSQL结合起来&…

【力扣刷题实战】合并两个有序链表

大家好,我是小卡皮巴拉 文章目录 目录 力扣题目:合并两个有序链表 题目描述 示例 1: 示例 2: 示例 3: 解题思路 问题理解 算法选择 具体思路 解题要点 完整代码(C语言) 兄弟们共勉…

Palo Alto Networks Expedition 未授权SQL注入漏洞复现(CVE-2024-9465)

0x01 产品介绍: Palo Alto Networks Expedition 是一款强大的工具,帮助用户有效地迁移和优化网络安全策略,提升安全管理的效率和效果。它的自动化功能、策略分析和可视化报告使其在网络安全领域中成为一个重要的解决方案。 0x02 漏洞描述&am…

图像处理(二)——MDPI特刊推荐

特刊征稿 01 期刊名称: Computer Vision and Image Processing, 2nd Edition 截止时间: 投稿截止日期:2024年12月31日 目标及范围: 感兴趣的主题包括但不限于: 用于图像分类和识别的深度学习 对象检测和跟…

Chromium HTML5 <svg>对应c++接口说明

一、SVG:可缩放矢量图形 开始学习 SVG 可缩放矢量图形(Scalable Vector Graphics,SVG)基于 XML 标记语言,用于描述二维的矢量图形。 作为一个基于文本的开放网络标准,SVG 能够优雅而简洁地渲染不同大小的…

c高级10月15日

1,思维导图

鸿蒙版微信正式上架,国产化软件抱团进化多样化生态圈

微信鸿蒙版已经在2024年10月12日正式上架鸿蒙应用市场,并且开始公测。根据报道,上架后鸿蒙版微信的公测名额在很短的时间内就被抢光,显示出用户对于这款应用的极大热情。腾讯高管张军宣布,自10月12日起,每晚在鸿蒙应用…

3D Slicer 教程三 ---- 坐标系

上篇提到3D Slicer 教程二 ---- 数据集-CSDN博客 3d slicer的坐标系与大多数医学影像软件使用LPS(左、后、上)坐标系统不太一样, 今天就仔细介绍一下坐标系的区别,复盘一下在影像处理中遇到的坐标问题(集中在坐标处理相关的,图像插值,图像处理, 定位线,翻…

薪资管理系统原型PC端+移动端 Axure原型 交互设计 Axure实战项目

薪资管理系统原型PC端移动端 Salary Management System Prototype 薪资管理系统原型图是一种以图形化方式展示系统界面和功能交互的设计图形。该原型图旨在呈现薪资管理系统的整体架构、界面布局和用户交互流程,为开发团队和利益相关者提供一个清晰而具体的概念。…

安全生产玩手机检测系统 玩手机识别系统 玩手机监测预警系统 使用 Python 和 OpenCV 库实现

在生产作业过程中,员工玩手机是一种极其危险的行为。它会分散员工的注意力,使其无法专注于工作任务。生产现场往往存在各种潜在的危险因素,如机械设备的运转、高空作业、化学品的使用等,一旦员工分心,就很容易忽视这些…

mongodb-7.0.14分片副本集超详细部署

mongodb介绍: 是最常用的nosql数据库,在数据库排名中已经上升到了前六。这篇文章介绍如何搭建高可用的mongodb(分片副本)集群。 环境准备 系统系统 BC 21.10 三台服务器:192.168.123.247/248/249 安装包&#xff1a…

AI LLM 利器 Ollama 架构和对话处理流程解析

Ollama 概述 Ollama 是一个快速运行 LLM(Large Language Models,大语言模型)的简便工具。通过 Ollama,用户无需复杂的环境配置,即可轻松与大语言模型对话互动。 本文将解析 Ollama 的整体架构,并详细讲解…

FFmpeg的简单使用【Windows】

目录 一、视频生成图片 静态图片 转码过程 动态图片gif 二、图片生成视频 三、FFmpeg常用参数命令 3.1 主要参数 3.1.1、-i 3.1.2、-f 3.1.3、-ss 3.1.4、-t 3.2 音频参数 3.2.1、-aframes 3.2.2、 -b:a 3.2.3、-ar 3.2.4、-ac 3.2.5、-acodec 3.2.6、-an 3…

desmos和webgl绘制线条

目录 desmos绘制 webgl绘制 将线段坐标生成三角化坐标 处理斜接线段 处理圆角 尖角 先在desmos上面完成线条lineJoin绘制的,再将代码和公式转到js用webgl绘制. desmos绘制 示例 desmos计角斜接角时,需要用到的一些函数。在desmos定义成公共函数&#xff0c…