在刚刚结束的2023数据治理新实践峰会上,Datablau数语科技联合创始人&CTO朱金宝先生分享了对数据治理产品发展趋势的深度思考及Datablau新产品预览,并在现场发布了两款最新工具。
以下是朱金宝先生的演讲实录,为了方便阅读,小编做了一些字句修改和文本优化。
大家好,今天我主要聚焦数据治理产品的趋势,向大家介绍过去一两年内Datablau产品的最新进展和新产品发布。
数据治理产品的发展趋势
首先看一下近些年来数据治理的新概念和发展方向。
第一个是数据的民主化,数据民主化的概念大概在2010年左右被提出,数据民主化的核心思想是数据应该被更多的人来使用,正是在这个概念之下产生了敏捷BI、数据资产目录等,这才有今天数据治理比较火热的局面。
第二个是Active Data Governance(主动数据治理),主要针对静态数据治理。所谓的静态数据治理其实是更早的一个概念,是指数据治理在静态中等待问题被发现的过程,针对问题发现或按需治理都属于偏静态的数据治理。主动数据治理指的是在数据的产生、流转、应用等过程中主动对数据进行治理。在国内,包括我们Datablau推出的「源端模型治理和管控」,其实都属于 Active Data Governance的一种场景。
第三个是Data Fabric,也是最近两年在西方比较火热的一种治理架构,它是基于主动元数据去赋能数据全生命周期,尤其是在多云多部署的场景之下,在数据开发或者应用中基于主动元数据来做好数据治理。它其实是主动数据治理更加泛化的一种理念。
第四个是数据安全合规,这部分就不展开了。最近比较热门的就是和ChatGPT相关,各个国家对ChatGPT的数据安全产生了慌乱,对此,ChatGPT也增加了在回答问题时禁止对客户的问题做训练的选项。
第五个是DataOps & Modern Data Stack,这两个关概念是有一定的相关性的。Modern Data Stack是指把数据的架构能够去解耦,以便于对其中一些零部件更好的部署和应用,进而更好地去支持我们DataOps这个概念,它其实主要应对的是西方有些大企业的all in one的系统,不支持在里面进行扩展的场景。
第六个是AI赋能的Data Automation,Data Aumation在西方其实也有很多年的发展了,但是过去的发展主要是偏工具层,现在更偏知识型,就是AI 赋能的数据自动化。
以上是回归到数据本质当中看到的一些数据治理产品发展趋势。这些趋势有很多都已经落地到实践当中了,尤其是我们Datablau的产品也是沿着这个趋势来做整个产品的演进。
Datablau产品体系包含了四大产品,分别是:数据模型管控平台(DDM)、数据资产管理平台(DAM)、数据资产目录服务平台(DDC)和数据安全治理平台(DDS)。目前我们又基于整体产品做了架构的优化,从横向上对产品进行解耦,从纵向上对产品进行分层。同时基于我们的产品能力也会抽象出通用的组件,比如说血缘解析工具,安全网关等专门的应用工具。
Datablau产品发展思路
下图所示,Datablau的数据治理产品是从纵向和横向两个维度发展,形成了我们最新的端到端,全域,面向数据资产的治理和运营平台。
纵向也就是从上到下的数据治理,上面是指数据语义层的治理,包括架构、标准、目录等。下面主要是数据关键点的治理,包括数据认责、数据质量、数据安全、入户管理和血缘管理等。横向则是沿着数据流转,从源端到入湖到仓库再到指标等整个数据流转过程中的数据治理。
横向:数据流转中的数据治理
1、源端数据治理
数据流转过程中,数据的源端治理是第一步。源端治理的概念在18年左右由Datablau在国内主要推动,起到了非常好的效果。为什么要重视源端治理?因为数据治理治的主要是业务规则和数据的关系,以及在业务规则之下的数据质量,这是两个主旨的方向。我们的业务规则或者业务知识主要是从业务架构、数据架构以及数据标准而来,而这些信息主要在源端摄入的比较多。因此,没有源端的治理,实际上数据治理是大打折扣的。
那么,如何进行源端治理?
在源端,我们主要是把标准融入到源端模型,这个源端的模型不是源端的表结构,而是源端的模型容纳了前面我们说的架构类的信息、管理类的信息、业务知识等,然后与TP的元数据保持一致,主要是保持有效性。
2、入湖数据治理
安全分类是源端到入湖必做的一件事。国内通常把入湖分为两个流派,简单总结:一种叫无管理的入湖,一种叫有管理的入湖。无管理的入湖把数据当做资源来看,这里的入湖入的只是一些资源,因此没有太多要求。有管理的入湖,是要对源端的资产安全、规则标准等做一定的约束。最有价值的点我认为在于它把数据治理的前置性推到了源端。
我们可以把入湖看作是关键的检查。入湖之后就需要对数据质量进行评估,数据质量分为两个阶段,一种是面向问题的质量,还有一种叫面向需求的质量。面向需求的质量主要通过做入湖的数据质量评估,来判断这个数据是不是能满足需求。
3、仓库资产治理
数据仓库资产的治理主要就是做整合建模,整合建模的核心是数据标准,依据数据标准建立数据标准化的模型。
4、指标与集市治理
数据治理也是分为偏基础型和面向需求型的,指标与集市之后就是面向需求的治理,指标与集市主要就是做好数据的出口,其中的关键点就是我们的维度模型和宽表,基于维度模型和宽表出来的指标,我们称之为指标集市的资产。
5、数据服务和数据产品治理
主要是对于我们出口的数据产品进行治理。
纵向:上下结合的业务规则治理
从上到下的治理我们统称语义层的治理,语义层主要管理的是数据和业务之间的语义关系。数据治理的核心我认为其实主要就是语义,如果数据不符合业务的语义,说明这个过程当中其实是少了上层的管理。我大概列了一下,包括架构层知识以及架构层衍生的一些知识,其中涵盖了企业级模型和数据目录。然后标准层是更细的一些细则,这些细则代表了上面业务的一些规则。最下面是物理层治理。这就是从上到下的数据治理。
Datablau产品最新进展和新产品预览
数据架构:企业级模型工具
DDM Archy架构资产管理工具是基于Datablau DDM推出的一个架构模块。从经典理论来说,如下图所示,TOGAF从横向和竖向对架构进行了分层。其中,我认为对数据治理影响比较大的主要是业务架构和数据架构,因为数据来源于业务,数据资产目录是业务架构的一个视角,也就是说数据架构的视角更偏向于对业务对象的一个总结。总之,数据治理的很多事情其实都在这个大的网格之下。
关于国内数据架构的实践,最早是建行在2011年左右通过构建A、B、C、D 的一个四层架构的企业级模型来实现整个企业的架构管理。华为则是基于自身的实践,构建了一个5层数据分层结构来实现整个企业的架构管理。同时在下图当中可以看到衍生出了数据资产目录,它是业务架构的一个衍生,但是用数据来表达。
Datablau推出的DDM Archy架构资产管理工具可以基于建行的方法论也可以基于华为的方法论来实施,这两者都是基于TOGAF的架构实践,我们将它抽象出了通用的产品化能力。
DDM Archy架构资产管理工具是可以将建行与华为两种截然不同的方法论拉通,核心就是把企业级模型分为两个主要的方向,一个是业务侧的建模,就是以业务领域为代表的概念和逻辑,另外一个是以业务对象为代表的建模,主要是从业务侧到数据一侧,它在实体级的抽象和落地,数据架构通常指的就是这条线。
通过DDM Archy架构资产管理工具将华为的架构和建行的ABCD模型架构拉通可以起到一个正向的结果,那就是数据仓库的逻辑其实是可以从业务对象的逻辑进行指导。数据仓库的逻辑模型,其实是业务对象模型面向仓库的一个实现。
源端治理
Datablau与华为从17年开始共同打造应用和中台的一体化建模体系,其中的核心就是把模型在源端的建设资产化。如下图所示,底部都是模型建设的部分,其中的关键点是它有一个模型验证,模型验证主要是从模型到TP元数据的一个融合,然后通过模型的发布,能够把模型当中的业务信息带到数据资产,进而才能做有管理的入湖。
下图是Datablau DDM与CICD以及DataOps之间的集成关系。值得关注的是模型评审,模型评审是正式把模型信息在企业级进行推广并评审上线的一个关键的流程。同时,模型与元数据一致也是关键的流程,这里的一致指的是:第一模型是可以代替元数据,第二模型的信息可以流转到元数据,进而可以推动整个数据按照业务的方式来做入湖、挖掘等,它是一个关键的连接点。
下面是Datablau DDM最新的一些进展,DDM将模型的能力辐射到整个企业开发、运用到各个环节中。同时,在原来客户端模型设计器的基础上,又延伸了两端:一是面向web端的建模,web端建模有70%- 80%客户端的能力。二是基于API的单体建模能力,它适用的场景比如是在单表建模当中,尤其是指标宽表和在其他一些敏捷场景当中,基于维度建模就有可能建立基于事实的几个维度,它可以把整个的模型服务都整合到同一个模型库中,各个端都可以互相交换实现融合统一。
接下来就是数据资产注册,注册的核心思想主要是用模型来管理它的业务信息,用元数据来合并成资产,本质上来说资产是代表了业务对数据规划、管理和使用的一种制度的实现。这也就是说在数据治理当中要有认责,数据本身是一种权利,在这个过程就要有管理的义务。因此,数据需要完成资产注册才能去使用,这是数据管理的基本出发点。
资产入湖治理
不管是数据自动入湖还是有管理的入湖,其实主要是为了明确数据的信息。自动入湖工具主要是由业务驱动的一种主动入湖,同时它也可以面对整个的需求;主动入湖是逻辑层的,然后需求层主要是物理的入湖,这样的话就把业务资产管理和物理资产管理进行了一定的隔离,进而实现敏捷化。
入湖之后需要做质量的评估,通常叫数据质量的自动化。数据质量的自动化主要来源于我们对基础数据的一些约束,它的主要来源是数据标准,数据标准会把业务侧对数据的要求进行规则和结构化,因此,只要推动标准就行。通过标准我们能够自动化地去检核到数据质量的问题以及推动数据质量的改善。
数据仓库建模
我们对于数据仓库管理也做了一些规划,让我们的DDM工具能够更好地去建设数据仓库。如下图所示,整个模型建设时,在DW这一层,是面向一致性的主数据和事实数据,DWD层和DWS层主要是面向原子指标这一层,ADS面向是派生指标这层。
模型在DataOps当中是一个重要的环节。我们把模型的设计和代码的开发经过了两阶段的整合,下图所示,整个界面我们的模型设计一侧主要是对接需求,然后数据开发主要是根据数据来满足需求,能够把整个流程整合到一个体系进行管理,形成一体化仓库管理开发闭环。
下图所示,我们新开发的DDM Web端的建模可以和各家数据开发平台进行集成。在模型这一侧,模型设计师和数据开发工程师可以用不同的管理流程,然后通过这个管理流程,我们可以把数据的知识融入到整个开发过程中。
模型资产管理的目标就是把模型的资产能够整合好,模型不要只有一堆脚本,而是需要有知识层,或者叫模型主题层,能够让模型标准规范,能够参与到整个评审当中。偏向仓库主题的建模也会进入到模型当中,通过把管理的工作融入到整个设计工作中,从而自动实现数据仓库分层分域。
指标与集市治理
指标是数据治理中比较重要的一环,很多企业都很重视。指标要进行标准化,它有一个宽表的标准化,下边还有一个集市的标准化。下图是指标的全生命周期,我们集中把它分为两段,前面是需求的管理阶段,需求管理主要是做模型的设计,同时需要在这个阶段把需求、指标等定义出来。在开发过程中,主要是把指标和表进行关联,然后就是查询和应用,也就是指标如何去指导BI 、报表等通过工具化的方式采集信息。
基于数据治理的数据安全管理
数据安全在国内非常热,但纷杂的情况也比较多,因为大家对于数据安全这件事的理解是不太一致的,我们主要是说基于数据治理的数据安全。我们的数据安全管理工具框架可以分为四大环节,第一个环节就是分类分级,我们需要知道哪些数据是敏感的,因此需要解决分类分级这个问题。第二个环节是授权,数据安全最终需要在数据的安全和分享引用之间取得一个平衡,既要保证安全,又要使用,那授权必然是下一步要做的事情。第三个环节是访问控制,授权过程当中要通过访问的控制把数据推送给相应的人。最后是审计。
数据分类分级经过了三个阶段,第一个阶段就是人工盘点,盘点的时候发现花费不少人力但只能盘点几套系统。所以这个时候到第二阶段,就是写一些规则,比如说正则,但后来发现写正则的时间其实也是蛮长的,它就近似于无限穷举。现在应该是到了第三阶段,主要是以AI学习为代表,Datablau在这方面也做了很多的探索,包括我们对行业知识的理解,对企业内部已经分类的再学习,通过不断的迭代,目前取得了非常不错的效果。
数据是流动的资产,它和普通资产最大的区别就是它是流动的,是无成本或者低成本拷贝的,因此,它的流动非常宽泛,这对于数据的安全是最大的一个挑战。如何在数据流动中做好数据安全?这就需要做数据血缘管理,这是基础,有了这个基础我们才能基于数据分类分级来判断数据流动过程当中的安全。这也是Datablau数据治理整体方案中非常必要的一环。
数据安全网关
接下来介绍的是一款新工具Data Gateway,如下图所示,做好分类分级的下一步必然是做好数据的授权。数据授权目前主要是两个方案,第一个是Ranger网关,它基本上可以覆盖大区平台内的安全。因为它是基于Hadoop的一个分布式计算,据测算,它有网关比没网关的访问速度要降低10倍以上,所以速度是非常慢的。但在数据的生命周期中,我们必然还要到访问速度比较快的关系型数据库当中去满足实时访问的需求。所以对于分类分级的授权控制,我们就研发了一个新的数据安全网关Data Gateway。
基于分类分级和授权依据不同的场景,Data Gateway可以使用Ranger网关,也可以使用数据网关,最终能够达到的效果是我们的分类分级和授权能够在这些网关上去落地和执行,它能做到行极脱敏和列级脱敏以及在访问过程当中的动态脱敏。同时基于在国内的一些实践,我们又做了定岗定级的权限管理。也就是企业可以依据业务的管理来进行业务授权。授权之后,我们会落地到网关之上,能够让合适的人可以访问到合适的数据,而且管理成本是可接受的。
SQLink 血缘解析工具
最后,再介绍一下SQLink血缘解析工具,在我们的官网上可以在线测试(http://lineage.datablau.cn:28080/#/)。SQLink血缘解析工具是自主研发的,在我们很多大型客户中都已经实践过,所以我们才把它独立出来用于服务更多的客户,因为我们也有客户在自研数据治理平台和数据资产平台,从技术和产品侧来说,血缘工具是核心要需要突破的。
数据血缘在数据治理当中非常重要,数据像河流一样,数据血缘就是地图,数据血缘的主要难点在于数据的加工过程是多样化的,多样化以至于这个脉络在不同的工具当中容易丢失,然而人工去做成本又比较高,所以血缘工具是非常重要的。基于我们多年的积累,在这个方向我认为可以达到一定的行业通用程度,所以也把它独立出来,希望能和其他的开放平台去集成。它的集成方式主要是可以通过API方式和Jar包的方式,这个Jar包就是以Spring Boot的微服务方式与企业的平台集成,成功率可以达到90%以上,数据指标基本上达到了国外同行的先进水平。
纵观Datablau整体的产品发展路径和最新的产品动向,不难发现我们一直秉承持续创新的精神,在稳固中不断快速变革。如今在产品上取得的这一系列成果自然离不开Datablau前瞻性的理念指导与强大的研发实力加持。可以预见的是,随着研发广度不断拓宽和研发深度持续加深,Datablau今后势必会迭代出更多更智能化的数据治理产品,而这些产品也将继续成为推动整个产业加速变革的重要影响因素。最后,如果您对我们任何产品感兴趣,请您联系:sale@datablau.com 免费申请试用!