数据治理在学术上的发展史以及未来展望

        数据治理是大数据领域中非常重要的一环,从早期的学术研究到如今的各大企业落地实践,经历了漫长的过程,数据治理的实践落地本身也是一场马拉松。

        从百度学术通过精确关键词匹配,搜索中文期刊的“数据治理” 和外文期刊的“data governance”查看1980年以来的论文发布数量,2000年之前没有收录记录。2000-2009年有少量收录,2010年之后开始指数级上升。当然,百度学术的数据不一定完全,只能反映一部分情况,只能做一个简单的参考。

        从论文搜索数量,以及全球各个组织机构对数据治理的研究成功来看,可以将数据治理分为三个阶段,分别是1988-1999的早期探索阶段,2000-2009你的逐步完善阶段,以及2010年之后的蓬勃发展阶段。 

第一阶段 :早期探索1988-1999

1.1 MIT启动TDQM

        1988年,麻省理工学院的启动了全面数据质量管理TDQM (Total Data Quality Management Program)计划,其目的是希望通过建立数据质量管理领域坚实的理论基础,以及数据管理所需的工具等帮助企业来提高数据质量。

TDQM 研究计划主要由三个部分组成:数据质量的定义、分析和改进。

数据质量定义:主要侧重于如何定义和计量数据质量。

数据质量分析:主要侧重于两方面,①鉴别和计算影响数据质量的因素。②好的数据质量对提升企业经营的好处。

数值质量改进:借助新的技术手段和重构业务系统来提高公司的数据质量。

TDQM认为需要从经济,技术和组织三个维度着手来改进数据质量。

TDQM正如他的名字那样,定义了一套全面的数据质量管理的框架,也奠定了数据治理领域的理论研究基石。

TDQM的小组成员也在不断改进,Wang R Y, Strong D M在1996年提出多维数据质量度量框架。将15个数据质量指标划分为四大维度:

  • 内在数据质量(Intrinsic Data Quality):

可信度(Believability)

准确性(Accuracy)

客观性(Objectivity)

信誉度(Reputation)

  • 上下文数据质量(Contextual Data Quality):

数据增值性(Value-Added)

相关性(Relevancy)

时效性(Timeliness)

完整性(Completeness)

适量性(Appropriate Amount of Data)

  • 获取数据质量(Representational Data Quality):

可解释性(Interpretability)

易理解性(Ease of Understanding)

可代表性(Representational)

一致性(Consistency)

简洁性(Concise representation)

  • 可访问性数据质量(Accessibility Data Quality):

可访问性(Accessibility)

访问安全性(Access Security)

这15大指标和四大分类对数据质量建设提供了重要的指导意义,对后续的研究影响颇深。

1.2 DAMA选出第一届董事会 

        同样是1988年,国际数据管理协会DAMA(The Global Data Management Community)正式选出了第一届董事会,DAMA初期在数据治理领域还没有太多的贡献和影响力,而如今DAMA已经在领域内人尽皆知,成为了最主流的数据治理体系。

第二阶段 :逐步完善 2000-2009

        在这个阶段,数据治理概念首次出现,DGI成立,DAMA也发布了DMBOK V1,数据治理体系开始逐步完善。

2.0 “数据治理”概念首次出现

        在第一阶段里,TDQM等研究机构提出的都是数据管理的概念,主要侧重在数据的全生命周期管理。而数据治理(Data Governance)的概念首次提出是在2002年,美国学者发表了一篇论文《Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina》[1],探讨了数据仓库治理在Blue Cross 和Blue Shield两家公司的最佳实践,在这两家公司成立了专门的数据治理小组来体系化的进行数据治理的工作。

2.1 DGI 成立

        2003年DGI(国际数据治理研究所)成立,并在2004年提出了DGI数据治理框架,该框架完整的描述了我们为什么要数据治理(Why)? 谁(Who)在什么情况(Where)下,使用什么方法(How),如何实施(What)的整个过程。如下图

  • 数据生命周期的7个阶段:

1. 确定数据治理的价值(Develop a value statement 

2. 准备执行路线图(Prepare a roadmap 

3. 制定计划和资金准备(Plan and fund 

4. 设计(Design

5. 部署(Deploy 

6. 治理(Govern 

7. 监控、检测、报告(Monitor, measure, report 

  • 数据治理的10个通用组件:

Rules and Rules of Engagement

1. 使命愿景(Mission and Vision)

2. 目标,治理指标,成功举措和投资策略(Goals, Governance Metrics and

Success Measures, and Funding Strategies)

3. 规则,定义和政策(Data Rules and Definitions) 

4. 决策权(Decision Rights)

5. 问责制(Accountabilities)

6. 控制(Controls)

People and Organizational Bodies

7. 数据利益相关者(Data Stakeholders)

8. 数据治理办公室(A Data Governance Office)

9. 数据管理委员会(Data Stewards)

Processes

10. 主动,被动和持续的数据治理流程(Proactive, Reactive, and Ongoing Data Governance Processes)

  • 数据治理的12个步骤:

1. 调整政策、要求和控制(Aligning Policies, Requirements, and Controls)

2. 建立决策权(Establishing Decision Rights)

3. 建立问责制(Establishing Accountability)

4. 执行管理(Performing Stewardship)

5. 管理变革(Managing Change)

6. 定义数据(Defining Data)

7. 解决问题(Resolving Issues)

8. 规定数据质量要求(Specifying Data Quality Requirements)

9. 将治理融入技术(Building Governance Into Technology)

10. 关注利益相关者(Stakeholder Care)

11. 交流(Communications)

12. 衡量和报告价值(Measuring and Reporting Value)

2.2 DAMA-DMBOK发布

        2009年,DAMA-DMBOK的发布对数据治理领域影响深远。它将数据治理的工作梳理成了一套体系化的标准策略,对数据治理人员起到了很好的指导作用。它体系化的定义了数据治理成功的六大核心要素和九大数据管理职能,这些都概况在一张广泛流传的DMBOK轮子图里。 

  • 六大核心要素:

战略(Strategy)

组织和角色(Organization & Roles)

政策和标准(Policies & Standards)

项目和服务(Projects & Services)

问题(Issues)

估值(Valuation)

  • 九大数据管理职能:

数据架构管理:企业数据模型、价值链分析、相关的数据架构

数据开发:数据分析、建模、设计、实施

数据操作管理:获取、恢复、调优、保留、清理

数据安全管理:标准、分类、管理、授权、审计

参考数据和主数据管理:外部规范、内部规范、客户数据、产品数据、维度管理

数据仓库与商务智能管理:架构、实施、培训和支持、监控和调优

文档和内容管理:获取和存储、备份和恢复、内容管理、检索、保留

元数据管理:架构、整合、控制、交付

数据质量管理:规范、分析、度量、改进

第三阶段:蓬勃发展 2010-至今

        在这个阶段,数据治理的理论框架已经比较成熟,各国政府、行业机构、开始全面推动数据治理行业的规范发展。大量的企业组织也开始进行数据治理的实践落地。 

3.1 IBM 数据治理统一流程

        2010年9月,IBM发布了《数据治理统一流程》,将数据治理分为目标、支持条件、核心规程和支持规程四个层次。

        IBM的数据治理统一流程列出了10个必要步骤和4个可选的专题

4个可选专题是:主数据治理、分析治理、安全和隐私以及信息生命周期治理。

3.2数据治理白皮书

        2015年5月,中国代表团在SC40/WG1第三次工作组会议上正式提交了《数据治理白皮书》国际标准研究报告。

        白皮书阐述了数据治理的核心概念:数据通过服务产生价值,确定了数据是资产的理念。在数据转换成价值的过程中对其进行控制、评价和指导是数据治理的基本概念。

        同时白皮书还提出来数据治理模型和框架:模型有三个框架组成:原则、范围、实施和评估

3.3 中国数据治理标准化元年 [2018]

  • 2018年3月15日,国家标准化管理委员会:国家标准《数据管理能力成熟度评估模型》(DCMM)

        DCMM数据管理能⼒成熟度评估模型从组织、制度、流程和技术四个维度定义了数据战略、数据治理、数据架构、数据应⽤、数据安全、数据质量、数据标准和数据⽣存周期⼋个核⼼能⼒域。见图111,并对每项能力域进行了二级过程项(28个过程项)见图222,和发展等级的划分(5个等级)以及相关功能介绍和评定指标(441项指标)的制定。

  • 2018年5月21日|中国银行业监督管理委员会:《银行业金融机构数据治理指引》

  • 2018年,国家市场监督管理总局,中国国家标准化管理委员会. 发布《信息技术服务 治理 第5部分:数据治理规范》GB/T 34960.5-2018。

3.4 DAMA-DMBOK V2 发布

        2020年,DAMA正式发布了DMBOKV2,在2017年,DAMA对DMBOK进行了更新,指导2020年才正式发布V2版本。这个版本相比11年前的V1版本,更加体系化,还增加了大数据模块。

相较于V1版本,车轮图里面的管理职能新增了数据集成与互用性(Data integration &  Interoperability)

基于DMBOKV2的车轮图,Peter Aiken 开发了定义这些功能区域之间关系的 DMBOK 金字塔,描述了各个管理职能之间的关系。

金字塔的顶端是数据分析和大数据,目的是为了实现业务价值。而数据治理则在最底端,数据治理是整个数据系统的基座。

DMBOKV2围绕数据治理的八大环境,构建了进化版车轮图

3.5 中国的继续探索

《数据治理标准化白皮书(2021年)》 推出4W1H模型

展望未来

        过去学者也业界专家们对数据治理领域做出了巨大的贡献,如今数据治理已经成为大数据领域火热的话题之一,将来的数据治理该如何发展,面临哪些挑战和机遇呢?个人认为主要有两个,一个是精益数据治理,一个是多模态数据治理。

数据治理的挑战与机遇

挑战1:

        无论是国外的DGI、DAMA 还是国内的DCMM等数据治理框架,都是非常庞大,要实施起来需要投入巨大的人力物力,并且需要较长期才能看到价值,整体来说,这些框架的落地面临投资大,周期长的问题。

机遇1:

        缺乏一套精益数据治理模型,来像《精益创业》一样,以最小化代价来验证数据治理的价值,再一步一步的迭代的模型和方法论。

挑战2:

        如今AI的已经成指数级的速度发展,特别是ChatGPT的爆火,将AI推向了高潮,企业纷纷进行AI布局,AI背后是大量的数据支撑,而AI对数据的质量要求更高,只有高质量的数据,才能训练出更强大的AI。

        AI的数据来源更加多元化,文本、音频、视频、图像等多模态数据都是AI的来源和应用,这些数据质量的控制还是一个难题

机遇2:

        面向AI多模态的数据治理模型和技术

部分参考资料:

[1] Watson H J ,  Fuller C ,  Ariyachandra T . Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina[J]. Decision support systems, 2004, 38(3):p.435-450.

[2] DAMA官网https://www.dama.org/

[3] DGI官网https://datagovernance.com/

[4] DCMM 官网 http://www.dcmm.org.cn/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16656.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

于变革时代探寻破局之光 | LeaTech全球CTO领导力峰会圆满落幕

引言 2023 年 3 月 4 日,腾讯云 TVP 与 51CTO 联合主办的 LeaTech 全球 CTO 领导力峰会于上海扬子江丽笙精选酒店圆满落幕。 本届峰会聚集了腾讯云 TVP 技术专家、TVP 行业大使、CTO 训练营导师、CTO 训练营历届校友,以及来自各个领域和行业的技术领导者…

【原创】理解ChatGPT之注意力机制和Transformer入门

作者:黑夜路人 时间:2023年4月27日 想要连贯学习本内容请阅读之前文章: 【原创】理解ChatGPT之GPT工作原理 【原创】理解ChatGPT之机器学习入门 【原创】AIGC之 ChatGPT 高级使用技巧 GPT是什么意思 GPT的全称是 Generative Pre-trained …

新传专业需要计算机二级吗,大学生有必要去考取计算机二级证书吗?

满意答案 JKSNX 2020.09.22 采纳率:41% 等级:12 已帮助:4161人 这是个很常见的问题。每年总有两个月,学校的教务会发一则“计算机二级报考通知”,大家便开始讨论计算机二级有没有用,身体却很诚实地交上7…

跨考安大计算机研究生难吗,关于跨考安大新传这件事,你现在纠结的问题我们都知道!...

灵魂拷问:你为什么想要跨考新传? 因为兴趣…?热爱…?新闻理想…? 还是因为…? (开玩笑啦)即便有以上因素存在,大家选择了新传也有大部分原因是因为喜欢,比如说我,虽然综合…

新传工作运用计算机吗,Windows 7正式退休,这些解决办法你必须了解

2020年1月14日,微软Windows 7系统正式停止技术支持,你的计算机将不会中断或停止工作,但如果你的Windows 7计算机出现问题,它将不再收到任何问题的技术支持、软件更新、安全更新或修复。 现在微软在官方网站上公布了最新的Windows …

新传工作运用计算机吗,计算机等现代办公技术运用给文秘工作带来的新思考1...

电子计算机技术的运用发展被称为人类科学技术发展的"第三次革命",计算机技术在办公室的普及运用也使秘书工作由"笔杆子"向"键盘子"转变,计算机的运用操作成为了现代从业秘书的必备技能,与运而生的办公自动化大…

新传要不要学计算机,大学新生入学要带电脑吗?学长给出建议,不知道的会很“吃亏”...

教之而不受,虽强告之无益。譬之以水投石,必不纳也,今夫石田虽水润沃,其干可立待者,以其不纳故也。——张载 01前言 今年高考结束已经走了一段时间了,虽然成绩都还没有被公布,但相信很多考生的心…

服开与编排,老兵新传

前段时间,有同学问:编排与服开是什么关系?现在运营商都建设编排系统,那是不是服务开通以后就退出 OSS 舞台了?为什么会出现编排?这些问题对于行业老兵来说感慨万千,而对于新兵来说就要通过追溯其…

考研最卷的专业,我提名新传

不少专业的研究生统招考试都是一场“千军万马过独木桥”的残酷竞争,只是有的专业卷得明明白白,而有的专业多少让人意想不到 ——“钱途”一般,却也能卷上天,比如新传。 新传,指的是新闻传播类学科,除了主要…

Hitachi Vantara老兵新传

Hitachi Vantara正在书写一部“老兵新传”! 所谓“老”,是指Hitachi Vantara的前身HDS(Hitachi Data Systems)资历老,它曾是企业级存储市场的领导者;何为“新”?Hitachi Vantara于2017年9月才正…

计算机知识讲座图片,计算机ppt辅导讲座

原标题:计算机ppt辅导讲座 2020年11月4日下午1:30,在竞秀南楼304,润园书院学习部请到了赵燕飞老师为大家带来了一次细致实用的计算机关于ppt的辅导讲座。同时也是为了丰富同学们的计算机知识,教同学们熟练运用计算机知识制作精美的ppt。本次讲…

【简单】使用ChatGPT和QT从零开始构建一个计算器应用

在这篇博文中,我将向大家展示如何使用ChatGPT和Qt来构建一个完整的计算器应用。我们将从零开始,逐步引导您完成整个项目,包括需求分析、软件设计、代码编写等环节。该项目代码全部由GPT编写,10分钟完成。 一,项目概述 本项目旨在…

太突然了,不会ChatGPT就被淘汰,很多公司开始行动了!

上周末分别和两拨朋友约了饭局。周六约的是国内最大ERP厂商的朋友,饭桌上大家聊的最多的话题就是ChatGPT,他们上面领导发话了,让尽快引入ChatGPT,寻求突破。周日约见的是一波搞游戏开发的朋友,聊的最多话题也是ChatGPT…

ChatGPT 大浪潮下,哪些行业会被淘汰?

在 ChatGPT 大浪潮下,随着新技术的不断涌现和应用,一些传统行业或者是不适应发展节奏的行业可能会被淘汰。 我们先来看看,以下是可能受到影响的一些行业: 1、银行和金融行业:区块链技术的发展和数字货币的出现使得原本…

chatgpt赋能python:如何用Python打包项目不卡顿

如何用Python打包项目不卡顿 随着Python语言的普及和不断发展,越来越多的开发者选择使用Python作为主要的开发语言来开发应用程序。然而,许多Python开发者不知道如何打包他们的项目,或者他们打包后的项目存在性能问题。在本文中,…

告别卡顿困扰:IDEA 性能优化设置

大家好,我是老赵 在我们日常使用IDEA进行开发时,可能会遇到许多卡顿的瞬间,明明我们的机器配置也不低啊?为什么就会一直卡顿呢? 原来这是因为IDEA软件在我们安装的时候就设置了默认的内存使用上限(通常很小…

chatgpt赋能python:Python卡顿怎么办?这里有十年经验告诉你

Python卡顿怎么办?这里有十年经验告诉你 Python是一种高级编程语言,并且是一种面向对象、动态类型的脚本语言。它在科学计算、爬虫、人工智能等领域有着广泛的应用。然而,有时在使用Python进行开发时,可能会遇到卡顿或运行缓慢的…

chatgpt 逐字输出 使用fetch/eventSource/fetchEventSouce进行sse流式处理

前端使用vue 1.逐字输出 闪动css样式 <span id"response_row" class"result-streaming">{{ item.assistantContent }}</span>.result-streaming:after {-webkit-animation: blink 1s steps(5, start) infinite;animation: blink 1s steps(5,…

【python】数据预处理:分位数归一化 Quantile Normalization + INSCODE AI创作助手测试

文章目录 写在前面标准化/归一化z-score标准化示例 python模块qnorm实现分位数归一化R代码实现分位数归一化分位数归一化 - NSCODE AI创作助手的回答*Q1&#xff1a;Quantile Normalization是什么&#xff1f;**Q2-1: 什么时候用Quantile normalization&#xff1f;**Q2-2: 什么…

解决Postman发起请求一直转圈加载没有反应的问题

问题描述 Postman像下面这样一直在发起请求&#xff0c;等待响应 可能的原因 路径写错了&#xff0c;找不到路径存在跨域问题 第一个问题很容易排查&#xff0c;这里说下第二个问题&#xff0c;跨域问题通常有两种解决方案&#xff0c;如下&#xff1a; (1)CORS技术 : 现…