数据治理之数据标准管理及实践方法

什么是数据标准?提到数据标准大家肯定会想到我们公司也有相关的产品设计的标准、质量检验的标准、安全环保的标准,对于金融企业的话,还有市场监管相关的一些标准。些标准其实都不是我们要讲的数据标准,以上的标准最多只能被称作规范。

在笔者看来,其实数据标准不能只停留在文件层面上的内容,数据标准更应当是为业务运营和管理决策提供相应的保障。中国信通院在《数据标准管理实践白皮书》中对数据标准给出了定义,笔者个人认为定义是非常贴切的,但是好多小伙伴反应定义感觉有点不太理解,怎么通俗的去理解数据标准?根据笔者自己的理解,数据标准是企业各部门、各利益干系人在数字化环境中使用的一种共同的语言,就像我们大家交流的语言一样,是在数字化环境中使用的一种语言。

数据标准为什么重要?中国有一种传统文化——大一统文化。大一统文化的前提,或者叫背后支撑的钥匙,就是标准化。在国家治理层面,从秦始皇统一六国,他统一了货币、统一了文字、统一了度量衡,废弃分封制,建立郡县制,加强中央集权。他采取了一系列国家治理的措施,我们可以发现他做的最核心的一件事情——标准化。所谓的车同轨、书同文,把以前七零八落的、没有统一的东西都统一起来。到我们建国以后,包括普通话的推广,它其实也是国家治理的一部分内容。我们试想一下,如果大家在一间屋里面开会,你说四川话,他说东北话,有的说闽南话,有的说粤语。先不提会议能不能达成共识?起码会议的效率肯定会大打折扣的。这就是标准化在国家治理层面上的重要性。

刚才我们说了中国的故事,关于标准化不仅在中国有故事,在国外也有。传说古时候全天下所有的人都说同一种语言。在向东迁移的时候,走到施娜,古巴比伦的一个城市。走到这个地方,发现了111片平原,就住了下来。人们开始修建一座通往天堂的高塔,高塔就叫通天塔,以显示人们的团结跟力量。但是上帝知道了这件事情,特别不喜欢他们的做法和目的。

于是在塔快要建成的时候,上帝教会了人们说不同的语言,使人们之间无法正常的交流,塔就没能继续修建下去。后来些人散到世界各地,各自说各自的语言,就导致了我们现在人类的语言没有统一,可见语言还有文字在国家治理过程中的重要性。其实笔者还有一种观点就是语言、文字的标准化在国家治理中有多重要,数据标准在企业数字化环境中就有多重要。

说到数据治理我们不得不提一下DAMA体系,其实笔者本身也是DAMA的忠实粉丝,给笔者的工作提供了指导。细心的小伙伴会发现,刚才我们提到数据标准,既然它在企业数字化环境中那么重要,为什么DAMA没有专门拿出数据标准作为知识领域专门去写。笔者也特意对比了DAMA-DMBOK1和DAMA-DMBOK2确实是没有数据标准体系。但是你看过那本书,就会发现其实在DAMA的体系里面,在各个领域都包含了数据标准的一些内容。

但在笔者看来,数据治理它是顶天立地的事情。笔者认为数据战略是天,数据战略为企业的数字化转型、为企业的数据治理,指明了整个的方向。所谓的数据标准,就像我们盖房子打地基一样,做数据建模也好,做数据仓库也好,还是做数据质量,做数据安全也好,还是做原数据管理,那么数据标准都是其他领域的基础,它是核心的基础。

  • 第一数据标准是所有数据指令关键领域的基础
  • 第二数据标准为我们建立业务系统或者是操作性系统分析新系统提供数据之间的依据
  • 第三数据标准是用原数据来体现的。在这套体系里原数据管理的章节,更多的是体现了数据标准相关的一些概念
  • 第四数据标准管理,笔者认为它是包含了主数据与参考数据管理
  • 第五数据标准其实为企业数据质量管理提供了规则和约束,也要做数据质量结合,数据标准是给我提供相关的一些规则。
  • 第六数据标准对数据安全的分类对数据的分级也提供了相关的参考和依据。
  • 第七数据标准跟数据模型的关系,它是指导企业来构建数据模型,同时在建模的过程中又可以为数据标准的制定提供相应的参考。
    那有人就会问,数据标准到底包含哪些内容?那么在聊这个问题之前,我们先看一看企业数据环境都包含哪些内容?
    其实我们在说企业的数据环境的时候,总会说企业有多少个业务域,其实每个业务域都有对应的数据。比如说财务与人力资源管理与生产、销售、采购等等,都是相关的数据域。数据下面还有相应的数据主题。比如说市场营销、市场领域、营销领域,包括了市场、销售、回款等等些数据的一些主题。数据主题下面涵盖了相应的数据的属性。

  • 如果我们把企业数据资源看作是一棵树的话,我认为基础数据是它的数干,基础数据描述企业核心业务对象的数据。它具有一致且统一的属性,是企业开展业务的基础,我们叫它基础数据。比如说现在提到的产品基础数据、客户基础数据、供应商基础数据,还有一些所谓的代码基础数据,也是基础数据的一部分内容。
  • 业务数据是树叶。业务数据是在业务活动过程中产生的交易数据,每发生一笔业务交易,就会产生一条交易数据,它的变化频率是比较大的。比如说营销活动的一些数据,销售订单的一些数据等等。
  • 第三个部分是果实,我们叫它指标数据。种指标数据是用于统计分析,为管理决策提供参考。比如说新增客户数、客户的转化率、投资回报率等等。我们把它叫做指标数据。
    那数据标准到底涵盖哪些部分?业内一般会认为,数据标准涵盖了两个部分,第一部分是基础数据,第二部分是指标数据。有人会问业务数据能不能做标准化?其实如果做过数据标准化的项目,你会发现只要你把基础数据做好,业务数据自然而然就会规范了,一般不会针对某业务去定义标准。
    刚才我们讲了数据标准的四个层面,从数据域到数据的主题或者叫数据分类,再到数据的实体,再到数据的属性,是数据标准梳理的四个层面。那我们怎么去完成数据标准化,还有三个四角。


一般来说,我们会从以下三个维度去分析数据标准:

  • 第一是业务维度。从业务维度的话,数据标准一般包含业务的定义、标准的名称、标准的分类、标准的业务含义,还有业务的规则等等。
  • 第二个是技术视角。包括了数据的类型、长度、格式、编码规则等等。
  • 第三个是管理视角。从管理的视角看,数据标准的管理者是谁,新增人员是谁,修改人员是谁,谁来使用,来源的系统,使用的系统等等。
    说到数据标准的三个维度可能有人就会联想到元数据,元数据一般也会提到业务元数据,技术元数据,管理元数据,跟我讲的数据标准的三个视角是完全对应的。接下来看如何去制定标准,其实是非常复杂的过程。
    首先你要了解企业为何要去制定标准?企业的需求是什么?现状是什么?外部环境的要求是什么?建标准的时候,有没有相关的一些参考?有没有相关的国家标准?行业标准的一些参考?如果没有的话,行业有没有最佳实践可以拿过来参考。要结合以上的些需求去规划数据标准的体系,首先要把范围先确定出来。因为做数据标准也好,做数据治理也好,最大的误区就会陷入庞大的侵权。
    首先,要基于业务的一些痛点,最需要解决哪些问题,先把些要解决的问题找到,再针对要解决的些问题去梳理,到底哪些业务与哪些数据的主题,哪些数据的实体来定数据的标准?


在定准过程中一般有以下的业务步骤:

  • 第一资料收集。做it的人员都很清楚要收集现有的一些材料,包括数据的质量情况、数据的管理情况、数据的标准化情况等等。
  • 第二个调研访谈。要解决做项目或者数据,你是要解决样的业务问题?
  • 第三个分析评估。对整体的情况做分析评估,评估和最佳实践或者最理想情况的标准的差距是多少?
  • 第四个标准制定。根据上述的些条件来定义数据,制定标准。
  • 第五个意见征集。标准定义完之后,形成的标准文件还需要下发到各个业务单位去收集意见,再根据意见的反馈情况,修订标准。
  • 第六步标准发布。
    那标准发布了是不是数据标准化的工作就完成了?其实标准发布才是做数据标准化48000米走出的第一步,后续的重点工作其实需要把标准真正的用起来,要在业务过程中、业务系统中能够使用起来标准,数据标准的固安标跟应用就显得十分重要。在标准冠标和应用的过程中,又会发现标准定义的不准确。指标的含义定了有二人性,那还需要对标准进行迭代和更新。


在这里穿插一种数据标准的梳理方法,叫BOR法。刚才讲数据标准的四个层面,从数据域到数据主题,到数据活动,那到了活动之后该怎么去梳理、提炼数据的标准。根据每个业务活动,比如说销售的活动,那就会提炼出销售业务相关的数据对象;比如说客户、销售的产品、销售订单,这些都是相应的实体数据。实体的数据都有相应的属性信息,需要把它的每一项属性信息从三个角度,业务角度、技术角度、管理角度,进行统一的梳理,最后归纳出来与实体之间的关系,形成数据的整体模型。


那刚才笔者前面讲的数据标准,包括两个部分内容,部分叫基础数据标准,另部分叫做指标数据标准。基础数据标准的话,从三个维度去看,包括业务、技术和管理属性。右边有具体的示例,比如说企业的组织部门人员,机构、客户供应商人员、组织等等,这些都是基础数据。


其实跟主数据是十分相似的,讲主数据的时候,也经常讲主数据是企业的空间数据,是企业需要被共享的在各个业务系统、各个部门之间的具有高价值的数据。其中主数据,它下面包含了参考数据。拿人员为例,那它的参考数据,包括性别、民族、学历、职级、岗位等等,都是参考数据。在做数据标准化的过程中,除了要定义实体,还需要把参考数据进行标准化。比如1代表男,2代表女,那就不能用F、N去代表男和女。笔者认为基础数据标准是包含主数据和参考数据的。基础数据一旦被共享,那就可以把它当作主数据去看待。


接下来是指标数据的标准。指标数据该从哪几方面进行标准化?其实也包含三个层面。

  • 第一个方面业务属性。比如说指标分类、指标的名称、指标的定义、指标的计算规则、指标的应用场景,部分的内容是需要业务人员来定义出来的。
  • 第二个方面是技术属性。包括数据的来源、数据的值域、统计周期、统计维度、计算精度,是it人员需要提供的。
  • 第三个方面是管理属性。比如指标的归口部门是哪?数据提供部门是哪?虽然负责管理,指标是从哪个系统生成的?到哪个系统进行使用?也是为后续的整个元数据管理或者建议指标库提供支撑。
    接下来如何管理好数据标准。笔者觉得有一张图六边形图给出来很好的方法论,叫数据治理的基本环境要素,是把之前展示的车轮图加上六边形图的六大基本要素组成矩阵,就形成了针对每域的数据治理的方案。基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术等等。


笔者认为数据标准完全可以作为域去独立管理,当然你也可以把数据标准放到其他的解决方案中去处理。因为DAMA体系引领到中国,笔者觉得中国人对标准还是有一定的情怀在里面,不过去做数据项目第提到的数据标准化,到底该如何去构建标准的体系?
接下里说一下数据标准的落地办法,其实刚才我们已经提到,把基础数据的标准库还有指标数据的标准库搭建出来了,最终还是要用到系统中来,用到信息化的环境中来。信息化的环境一般分成两个部分去看,一部分是操作型系统,一部分是分析型系统。


操作型系统我们经常看的企业的ERP系统、CRM系统、SRM系统,这些系统有的用的是套装软件,有的是自己开发的。梳理好数据标准要落地的时候主要有以下三种解决方案:

  • 第一个解决方案就是刚才我们提到的主数据的解决方案。主数据的解决方案解决机构系统之间的数据统一的问题,要实现一码一目一数一元,统一数据来源。这是数据标准落地的解决方案,主数据是解决方案。
  • 第二个解决方案是构建标准数据库。新业务系统来了,所有的需要运行的基础数据都可以从数据标准库里面来取,通过数据服务厂把数据标准提供出去,为业务系统的构建提供相应的支撑。
  • 第三个解决方案是在分析性系统。将来要做数据分析的时候,要解决分析指标透明不透明的问题,也需要调指标库,有的企业叫指标中心,有的企业叫指标库。指标中心为数据仓库、报表平台、智能分析平台提供了维度和度量,数据标准其实为数据分析提供了重要的支撑。

最后结合自己的工作实践介绍下数据标准管理的四个实践。

第一个实践叫业务主导。这也是很多客户或者很多人提问最多的问题,我们在做数据治理或者在做数据标准的时候,到底谁来主导?是业务来主导还是it来主导?到底是科技部门来主导还是业务部门来主导。如果从书上看,大家都会建议你由业务来主导,因为业务更懂数据。其实不是it特别擅长的。但是在实践的过程中,你会发现做这个事情往往都是老板拍下来,事情就交给it来做。

那这时候我们该怎么做?那其实笔者一般会给我们的客户提供两个建议,一个叫借势,一个叫造势。

所谓的借势,既然企业想做出数据,那一定会找到支持状况,也就是说一定有领导支持你才会立项目,也一定会找到比较积极的业务部门。那你到时候就可以借他们的势去做数据标准梳理的工作,哪个业务部门积极那我们就先梳理哪个业务部门的,这是一个层面。第二层面,刚才我们讲的各个政策,跟国家相关的一些政策,一些驱动的因素,去借这个势去说服老板和领导。

第三个从技术的角度,目前数据治理是我们数字化转型的基础,不管是在推进国有企业数字化转型通知上也好,还是在各个数据体系分析的报告上来说,数据治理其实都是最核心的基础。我们可以借技术趋势的势去引导数据治理的工作,来把数据标准制定出来。

第三个层面,我们还是要学会造势。我们可以请一些外国的专家甚至是咨询公司给我们的领导来做相关的一些宣传,带他去参观相关行业的标杆。

第二个实践叫循序渐进。因为数据治理的事情绝对不是一口吃不出个胖子的事情,一下子是解决不了所有的数据问题的。我们要从企业的整个主价值链,从业务的角度去分析,哪些业务是紧迫需要的,哪些数据标准对业务的影响程度是比较大的?哪些数据在各个系统之间共享程度是比较高的?以及数据在实施过程中的难易程度。我们要把所有的治理需求优先级排出来,给到我们的领导。比如说先治理营销领域,因为现在说实话,转型最提倡的就是数字营销,因为营销更贴近于客户,更容易成功,更容易见效。另外,可以从内部管理,比如说先治理财务的人员,或者先治理生产的人员都是可以的,要根据企业的优先级来进行排序。

第三个实践叫数据标准的动态管理。因为整个外部环境是动态变化的,不管是商业环境还是技术环境都是变化的,数据标准也要与时俱进。比如今天制定好的标准,明天可能就会发生相关的一些变化,那就不能定了标准以后所有的业务都按照标准执行。前提是标准合不合理,合不合规。如果不能与事俱进的话,就会面临项目的数据标准用不起来。我们要建立好数据标准的更新机制和更新机制配套相关的组织管理流程、相关的管理办法。

第四个实践是应用为王。最后数据标准还是要应用起来,需要贯彻到各个业务系统里面去,那我们给出来的建议是以对现有系统影响最小为原则去落地数据标准。不要为了落地标准把所有的系统都打乱都重新来一遍,笔者觉得是很不现实的事情。

尾声

企业数据治理的成效很大程度上取决于数据标准的合理性和统一实施的程度。企业数据标准体系的建设应既满足当前的实际需求,又能着眼未来与国际、国内的数据标准接轨。企业数据标准主要包括数据模型标准(元数据标准)、主数据标准与参考数据标准、数据指标标准等,每类数据标准都可以作为是一个独立主题实施。

数字化的特点是“数据驱动”,而实现“数据驱动”的前提是数据必须是标准的、规范的、消除了大部分数据质量问题的。统一的数据标准,能够让业务人员轻松获取数据,从而让业务人员自助式地进行数据分析、数据探索提供了可能。因此,数据标准是实现“数据驱动管理”、“数据驱动创新”的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/279890.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV系列文章目录(持续更新中......)

引言: OpenCV是一个开源的计算机视觉库,由英特尔公司开发并开源的一组跨平台的C函数和少量的C函数组成,用于实时图像处理、计算机视觉和机器学习等应用领域。OpenCV可以在包括Windows、Linux、macOS等各种操作系统平台上使用,具…

OPENCV(0-1之0.2)

OPENCV-0.2 学习安排图像基础像素访问和修改像素值 色彩空间转换RGB到灰度的转换RGB到HSV的转换 图像操作裁剪缩放旋转和翻转 图像滤波平滑和模糊图像边缘检测 图像变换仿射变换透视变换 总结 官方文档 学习安排 图像基础 像素:了解像素的概念,包括像素…

大厂面试--是否熟悉Node, 主要做过哪些业务,平时用过什么包?

什么是Node ​ Node是一个让Javascript运行在服务端的开发平台,它让Javascript成为了与PHP、Python、Perl、Ruby等服务器语言平起平坐的脚本语言。目前Nodejs已发展成一个成熟的开发平台,吸引了许多开发者。有许多大型高流量网站都采用Nodejs进行开发&a…

Linux——程序地址空间

我们先来看这样一段代码&#xff1a; #include <stdio.h> #include <unistd.h> #include <stdlib.h>int g_val 0;int main() {pid_t id fork();if(id < 0){perror("fork");return 0;}else if(id 0){ //child,子进程肯定先跑完&#xff0c;也…

牛客网-SQL大厂面试题-2.平均播放进度大于60%的视频类别

题目&#xff1a;平均播放进度大于60%的视频类别 DROP TABLE IF EXISTS tb_user_video_log, tb_video_info; CREATE TABLE tb_user_video_log (id INT PRIMARY KEY AUTO_INCREMENT COMMENT 自增ID,uid INT NOT NULL COMMENT 用户ID,video_id INT NOT NULL COMMENT 视频ID,start…

单片机LED灯闪烁

延时函数计算&#xff08;相关代码生成&#xff09;&#xff1a; #include "reg52.h" #include <INTRINS.H> void Delay500ms() //11.0592MHz {unsigned char i, j, k;_nop_();_nop_();i 22;j 3;k 227;do{do{while (--k);} while (--j);} while (--i); }vo…

Elasticsearch实战:索引阻塞 —— 数据保护的终极武器

文章目录 1、索引阻塞的种类2、什么时候使用阻塞&#xff1f;场景1&#xff1a;进行系统维护场景。场景2&#xff1a;保护数据不被随意更改场景。场景3&#xff1a;优化资源使用的场景。场景4&#xff1a;遵守安全规则场景。 3、添加索引阻塞API4、解除设置 API5、小结6、参考 …

网络编程:包头分析

一、以太网头 以太网中封装了源mac地址以及目的mac地址&#xff0c;还有ip类型&#xff0c;以太网又称为mac头 0X0800 只接收发往本机的mac的ipv4类型的数据帧 0X0806 只接收发往本机的ARP类型的数据帧 0x8035 只接受发往本机的RARP类型的数据帧 0X0003 接收发往本机的MAC所…

Android分区存储到底该怎么做

文章目录 一、Android存储结构二、什么是分区存储&#xff1f;三、私有目录和公有目录三、存储权限和分区存储有什么关系&#xff1f;四、我们应该该怎么做适配&#xff1f;4.1、利用File进行操作4.2、使用MediaStore操作数据库 一、Android存储结构 Android存储分为内部存储和…

好就业三种专业#信息安全#云计算#网络工程

一、信息安全专业 根据2021年网络安全宣传周白皮书的观察结果&#xff0c;网络安全产业对于人才的需求正以高速增长的趋势呈现&#xff0c;当前网络安全行业存在着巨大的人才缺口&#xff0c;平均供求比例约为1:2。这一现象导致了资深人才的储备不足&#xff0c;并且新人才的培…

Python通过Ctypes调用C++类,实测有效

文章目录 前言创建vs dll工程添加外部库编辑代码编译测试参考 前言 在软件开发中&#xff0c;有时候需要Python与C相结合&#xff0c;以充分发挥两者的优势 。Python作为一种高级编程语言&#xff0c;具有简洁易读的特点&#xff0c;适用于快速开发和原型设计。而C则是一种性能…

活动图高阶讲解-03

1 00:00:00,000 --> 00:00:06,260 刚才我们讲了活动图的历史 2 00:00:06,260 --> 00:00:11,460 那我们来看这个活动图 3 00:00:11,460 --> 00:00:15,260 如果用来建模的话怎么用 4 00:00:15,260 --> 00:00:20,100 按照我们前面讲的软件方法的工作流 5 00:00:20…

网络工程师之路由交换技术篇

网络工程师之路由交换技术篇 路由交换之技术篇ARPICMPBPDUIPv6IP编址MAC其他技术点参考 以下均为个人笔记&#xff0c;摘录到csdn做备份 路由交换之技术篇 ARP Operation Code指定了ARP报文的类型&#xff0c; 包括ARP request 和ARP reply&#xff1b;取值为1或者2 &#x…

1.3抽象数据类型的表现和实现

1、实例 &#xff1a; #include<stdio.h> #include<stdio.h> #include<string.h> #pragma warning(disable:4996) ADT Complex{D {r1,r2 | r1,r2 都是实数}S {<r1&#xff0c;r2> | r1是实部&#xff0c;r2是虚部}assign(&C, v1, v2)初始条件:空…

解决谷歌浏览器最新chrome94版本CORS跨域问题

项目场景&#xff1a; 谷歌浏览器升级到chrome94版本出现CORS跨域问题 问题描述 解决谷歌浏览器最新chrome94版本CORS跨域问题。 CORS跨域问题&#xff1a; 升级谷歌浏览器最新chrome94版本后&#xff0c;提示Access to XMLHttpRequest at ‘http://localhost:xxxx/api’ fro…

MISC:常见编码

一、字符编码 1.ASCII码 使用指定7位或8位二进制数组合表示128-256种可能。 常⻅考点&#xff1a;解题过程中给出十进制或十六进制的连续数值。 进制转换工具&#xff1a; ASCII text,Hex,Binary,Decimal,Base64 converter (rapidtables.com) 2.Base64编码 ASCII编码以8个比特…

【Datawhale组队学习:Sora原理与技术实战】使用KAN-TTS合成女生沪语音频

Sambert-Hifigan模型介绍 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用&#xff0c;故此处仅涉及参数法。 参数TTS系统可分为两大模块&#xff1a;前端和后端。 前端包含文本正则、分词、多音字预测、文本转音素和韵律预测等模块&am…

Vue组件中引入jQuery

两种在vue中引入jQuery的方式 1、普通html中使用jQuery 将jQuer的文件导入到项目中&#xff0c;然后直接使用<script src"jQuery.js"></script>即可。 <script src"jQuery.js"></script> 2、vue组件中使用jQuery 安装依赖 c…

unity报错出现Asset database transaction committed twice!

错误描述&#xff1a; 运行时报错 Assertion failed on expression: ‘m_ErrorCode MDB_MAP_RESIZED || !HasAbortingErrors()’Asset database transaction committed twice!Assertion failed on expression: ‘errors MDB_SUCCESS || errors MDB_NOTFOUND’ 解决办法&…

数据库字段类似 longblob,Navicat里看不到数据,看到的是BLOB。如何看到?

SELECT cast(库对应的字段 as char) FROM sys_notice; 例如&#xff0c;我的直接这样写 SELECT cast(notice_content as char) FROM sys_notice; 最后就能看到信息了