朱金宝:数据治理产品发展趋势及Datablau产品最新动态

在刚刚结束的2023数据治理新实践峰会上,Datablau数语科技联合创始人&CTO朱金宝先生分享了对数据治理产品发展趋势的深度思考及Datablau新产品预览,并在现场发布了两款最新工具。

以下是朱金宝先生的演讲实录,为了方便阅读,小编做了一些字句修改和文本优化。

大家好,今天我主要聚焦数据治理产品的趋势,向大家介绍过去一两年内Datablau产品的最新进展和新产品发布。

数据治理产品的发展趋势

首先看一下近些年来数据治理的新概念和发展方向。

第一个是数据的民主化,数据民主化的概念大概在2010年左右被提出,数据民主化的核心思想是数据应该被更多的人来使用,正是在这个概念之下产生了敏捷BI、数据资产目录等,这才有今天数据治理比较火热的局面。

第二个是Active Data Governance(主动数据治理),主要针对静态数据治理。所谓的静态数据治理其实是更早的一个概念,是指数据治理在静态中等待问题被发现的过程,针对问题发现或按需治理都属于偏静态的数据治理。主动数据治理指的是在数据的产生、流转、应用等过程中主动对数据进行治理。在国内,包括我们Datablau推出的「源端模型治理和管控」,其实都属于 Active Data Governance的一种场景。

第三个是Data Fabric,也是最近两年在西方比较火热的一种治理架构,它是基于主动元数据去赋能数据全生命周期,尤其是在多云多部署的场景之下,在数据开发或者应用中基于主动元数据来做好数据治理。它其实是主动数据治理更加泛化的一种理念。

第四个是数据安全合规,这部分就不展开了。最近比较热门的就是和ChatGPT相关,各个国家对ChatGPT的数据安全产生了慌乱,对此,ChatGPT也增加了在回答问题时禁止对客户的问题做训练的选项。

第五个是DataOps & Modern Data Stack,这两个关概念是有一定的相关性的。Modern Data Stack是指把数据的架构能够去解耦,以便于对其中一些零部件更好的部署和应用,进而更好地去支持我们DataOps这个概念,它其实主要应对的是西方有些大企业的all in one的系统,不支持在里面进行扩展的场景。

第六个是AI赋能的Data Automation,Data Aumation在西方其实也有很多年的发展了,但是过去的发展主要是偏工具层,现在更偏知识型,就是AI 赋能的数据自动化。

在这里插入图片描述

以上是回归到数据本质当中看到的一些数据治理产品发展趋势。这些趋势有很多都已经落地到实践当中了,尤其是我们Datablau的产品也是沿着这个趋势来做整个产品的演进。

Datablau产品体系包含了四大产品,分别是:数据模型管控平台(DDM)、数据资产管理平台(DAM)、数据资产目录服务平台(DDC)和数据安全治理平台(DDS)。目前我们又基于整体产品做了架构的优化,从横向上对产品进行解耦,从纵向上对产品进行分层。同时基于我们的产品能力也会抽象出通用的组件,比如说血缘解析工具,安全网关等专门的应用工具。

在这里插入图片描述

Datablau产品发展思路

下图所示,Datablau的数据治理产品是从纵向和横向两个维度发展,形成了我们最新的端到端,全域,面向数据资产的治理和运营平台。

纵向也就是从上到下的数据治理,上面是指数据语义层的治理,包括架构、标准、目录等。下面主要是数据关键点的治理,包括数据认责、数据质量、数据安全、入户管理和血缘管理等。横向则是沿着数据流转,从源端到入湖到仓库再到指标等整个数据流转过程中的数据治理。

在这里插入图片描述

横向:数据流转中的数据治理

1、源端数据治理

数据流转过程中,数据的源端治理是第一步。源端治理的概念在18年左右由Datablau在国内主要推动,起到了非常好的效果。为什么要重视源端治理?因为数据治理治的主要是业务规则和数据的关系,以及在业务规则之下的数据质量,这是两个主旨的方向。我们的业务规则或者业务知识主要是从业务架构、数据架构以及数据标准而来,而这些信息主要在源端摄入的比较多。因此,没有源端的治理,实际上数据治理是大打折扣的。

那么,如何进行源端治理?

在源端,我们主要是把标准融入到源端模型,这个源端的模型不是源端的表结构,而是源端的模型容纳了前面我们说的架构类的信息、管理类的信息、业务知识等,然后与TP的元数据保持一致,主要是保持有效性。

2、入湖数据治理

安全分类是源端到入湖必做的一件事。国内通常把入湖分为两个流派,简单总结:一种叫无管理的入湖,一种叫有管理的入湖。无管理的入湖把数据当做资源来看,这里的入湖入的只是一些资源,因此没有太多要求。有管理的入湖,是要对源端的资产安全、规则标准等做一定的约束。最有价值的点我认为在于它把数据治理的前置性推到了源端。

我们可以把入湖看作是关键的检查。入湖之后就需要对数据质量进行评估,数据质量分为两个阶段,一种是面向问题的质量,还有一种叫面向需求的质量。面向需求的质量主要通过做入湖的数据质量评估,来判断这个数据是不是能满足需求。

3、仓库资产治理

数据仓库资产的治理主要就是做整合建模,整合建模的核心是数据标准,依据数据标准建立数据标准化的模型。

4、指标与集市治理

数据治理也是分为偏基础型和面向需求型的,指标与集市之后就是面向需求的治理,指标与集市主要就是做好数据的出口,其中的关键点就是我们的维度模型和宽表,基于维度模型和宽表出来的指标,我们称之为指标集市的资产。

5、数据服务和数据产品治理

主要是对于我们出口的数据产品进行治理。
在这里插入图片描述

纵向:上下结合的业务规则治理

从上到下的治理我们统称语义层的治理,语义层主要管理的是数据和业务之间的语义关系。数据治理的核心我认为其实主要就是语义,如果数据不符合业务的语义,说明这个过程当中其实是少了上层的管理。我大概列了一下,包括架构层知识以及架构层衍生的一些知识,其中涵盖了企业级模型和数据目录。然后标准层是更细的一些细则,这些细则代表了上面业务的一些规则。最下面是物理层治理。这就是从上到下的数据治理。

在这里插入图片描述

Datablau产品最新进展和新产品预览

数据架构:企业级模型工具

DDM Archy架构资产管理工具是基于Datablau DDM推出的一个架构模块。从经典理论来说,如下图所示,TOGAF从横向和竖向对架构进行了分层。其中,我认为对数据治理影响比较大的主要是业务架构和数据架构,因为数据来源于业务,数据资产目录是业务架构的一个视角,也就是说数据架构的视角更偏向于对业务对象的一个总结。总之,数据治理的很多事情其实都在这个大的网格之下。

在这里插入图片描述
关于国内数据架构的实践,最早是建行在2011年左右通过构建A、B、C、D 的一个四层架构的企业级模型来实现整个企业的架构管理。华为则是基于自身的实践,构建了一个5层数据分层结构来实现整个企业的架构管理。同时在下图当中可以看到衍生出了数据资产目录,它是业务架构的一个衍生,但是用数据来表达。
在这里插入图片描述
Datablau推出的DDM Archy架构资产管理工具可以基于建行的方法论也可以基于华为的方法论来实施,这两者都是基于TOGAF的架构实践,我们将它抽象出了通用的产品化能力。

DDM Archy架构资产管理工具是可以将建行与华为两种截然不同的方法论拉通,核心就是把企业级模型分为两个主要的方向,一个是业务侧的建模,就是以业务领域为代表的概念和逻辑,另外一个是以业务对象为代表的建模,主要是从业务侧到数据一侧,它在实体级的抽象和落地,数据架构通常指的就是这条线。

通过DDM Archy架构资产管理工具将华为的架构和建行的ABCD模型架构拉通可以起到一个正向的结果,那就是数据仓库的逻辑其实是可以从业务对象的逻辑进行指导。数据仓库的逻辑模型,其实是业务对象模型面向仓库的一个实现。
在这里插入图片描述

源端治理

Datablau与华为从17年开始共同打造应用和中台的一体化建模体系,其中的核心就是把模型在源端的建设资产化。如下图所示,底部都是模型建设的部分,其中的关键点是它有一个模型验证,模型验证主要是从模型到TP元数据的一个融合,然后通过模型的发布,能够把模型当中的业务信息带到数据资产,进而才能做有管理的入湖。
在这里插入图片描述
下图是Datablau DDM与CICD以及DataOps之间的集成关系。值得关注的是模型评审,模型评审是正式把模型信息在企业级进行推广并评审上线的一个关键的流程。同时,模型与元数据一致也是关键的流程,这里的一致指的是:第一模型是可以代替元数据,第二模型的信息可以流转到元数据,进而可以推动整个数据按照业务的方式来做入湖、挖掘等,它是一个关键的连接点。

在这里插入图片描述

下面是Datablau DDM最新的一些进展,DDM将模型的能力辐射到整个企业开发、运用到各个环节中。同时,在原来客户端模型设计器的基础上,又延伸了两端:一是面向web端的建模,web端建模有70%- 80%客户端的能力。二是基于API的单体建模能力,它适用的场景比如是在单表建模当中,尤其是指标宽表和在其他一些敏捷场景当中,基于维度建模就有可能建立基于事实的几个维度,它可以把整个的模型服务都整合到同一个模型库中,各个端都可以互相交换实现融合统一。

在这里插入图片描述
接下来就是数据资产注册,注册的核心思想主要是用模型来管理它的业务信息,用元数据来合并成资产,本质上来说资产是代表了业务对数据规划、管理和使用的一种制度的实现。这也就是说在数据治理当中要有认责,数据本身是一种权利,在这个过程就要有管理的义务。因此,数据需要完成资产注册才能去使用,这是数据管理的基本出发点。
在这里插入图片描述

资产入湖治理

不管是数据自动入湖还是有管理的入湖,其实主要是为了明确数据的信息。自动入湖工具主要是由业务驱动的一种主动入湖,同时它也可以面对整个的需求;主动入湖是逻辑层的,然后需求层主要是物理的入湖,这样的话就把业务资产管理和物理资产管理进行了一定的隔离,进而实现敏捷化。
在这里插入图片描述
入湖之后需要做质量的评估,通常叫数据质量的自动化。数据质量的自动化主要来源于我们对基础数据的一些约束,它的主要来源是数据标准,数据标准会把业务侧对数据的要求进行规则和结构化,因此,只要推动标准就行。通过标准我们能够自动化地去检核到数据质量的问题以及推动数据质量的改善。

数据仓库建模

我们对于数据仓库管理也做了一些规划,让我们的DDM工具能够更好地去建设数据仓库。如下图所示,整个模型建设时,在DW这一层,是面向一致性的主数据和事实数据,DWD层和DWS层主要是面向原子指标这一层,ADS面向是派生指标这层。

在这里插入图片描述
模型在DataOps当中是一个重要的环节。我们把模型的设计和代码的开发经过了两阶段的整合,下图所示,整个界面我们的模型设计一侧主要是对接需求,然后数据开发主要是根据数据来满足需求,能够把整个流程整合到一个体系进行管理,形成一体化仓库管理开发闭环。
在这里插入图片描述
下图所示,我们新开发的DDM Web端的建模可以和各家数据开发平台进行集成。在模型这一侧,模型设计师和数据开发工程师可以用不同的管理流程,然后通过这个管理流程,我们可以把数据的知识融入到整个开发过程中。
在这里插入图片描述
模型资产管理的目标就是把模型的资产能够整合好,模型不要只有一堆脚本,而是需要有知识层,或者叫模型主题层,能够让模型标准规范,能够参与到整个评审当中。偏向仓库主题的建模也会进入到模型当中,通过把管理的工作融入到整个设计工作中,从而自动实现数据仓库分层分域。
在这里插入图片描述

指标与集市治理

指标是数据治理中比较重要的一环,很多企业都很重视。指标要进行标准化,它有一个宽表的标准化,下边还有一个集市的标准化。下图是指标的全生命周期,我们集中把它分为两段,前面是需求的管理阶段,需求管理主要是做模型的设计,同时需要在这个阶段把需求、指标等定义出来。在开发过程中,主要是把指标和表进行关联,然后就是查询和应用,也就是指标如何去指导BI 、报表等通过工具化的方式采集信息。

在这里插入图片描述

基于数据治理的数据安全管理

数据安全在国内非常热,但纷杂的情况也比较多,因为大家对于数据安全这件事的理解是不太一致的,我们主要是说基于数据治理的数据安全。我们的数据安全管理工具框架可以分为四大环节,第一个环节就是分类分级,我们需要知道哪些数据是敏感的,因此需要解决分类分级这个问题。第二个环节是授权,数据安全最终需要在数据的安全和分享引用之间取得一个平衡,既要保证安全,又要使用,那授权必然是下一步要做的事情。第三个环节是访问控制,授权过程当中要通过访问的控制把数据推送给相应的人。最后是审计。

在这里插入图片描述
数据分类分级经过了三个阶段,第一个阶段就是人工盘点,盘点的时候发现花费不少人力但只能盘点几套系统。所以这个时候到第二阶段,就是写一些规则,比如说正则,但后来发现写正则的时间其实也是蛮长的,它就近似于无限穷举。现在应该是到了第三阶段,主要是以AI学习为代表,Datablau在这方面也做了很多的探索,包括我们对行业知识的理解,对企业内部已经分类的再学习,通过不断的迭代,目前取得了非常不错的效果。
在这里插入图片描述
数据是流动的资产,它和普通资产最大的区别就是它是流动的,是无成本或者低成本拷贝的,因此,它的流动非常宽泛,这对于数据的安全是最大的一个挑战。如何在数据流动中做好数据安全?这就需要做数据血缘管理,这是基础,有了这个基础我们才能基于数据分类分级来判断数据流动过程当中的安全。这也是Datablau数据治理整体方案中非常必要的一环。
在这里插入图片描述

数据安全网关

接下来介绍的是一款新工具Data Gateway,如下图所示,做好分类分级的下一步必然是做好数据的授权。数据授权目前主要是两个方案,第一个是Ranger网关,它基本上可以覆盖大区平台内的安全。因为它是基于Hadoop的一个分布式计算,据测算,它有网关比没网关的访问速度要降低10倍以上,所以速度是非常慢的。但在数据的生命周期中,我们必然还要到访问速度比较快的关系型数据库当中去满足实时访问的需求。所以对于分类分级的授权控制,我们就研发了一个新的数据安全网关Data Gateway。
在这里插入图片描述
基于分类分级和授权依据不同的场景,Data Gateway可以使用Ranger网关,也可以使用数据网关,最终能够达到的效果是我们的分类分级和授权能够在这些网关上去落地和执行,它能做到行极脱敏和列级脱敏以及在访问过程当中的动态脱敏。同时基于在国内的一些实践,我们又做了定岗定级的权限管理。也就是企业可以依据业务的管理来进行业务授权。授权之后,我们会落地到网关之上,能够让合适的人可以访问到合适的数据,而且管理成本是可接受的。

SQLink 血缘解析工具

最后,再介绍一下SQLink血缘解析工具,在我们的官网上可以在线测试(http://lineage.datablau.cn:28080/#/)。SQLink血缘解析工具是自主研发的,在我们很多大型客户中都已经实践过,所以我们才把它独立出来用于服务更多的客户,因为我们也有客户在自研数据治理平台和数据资产平台,从技术和产品侧来说,血缘工具是核心要需要突破的。
在这里插入图片描述
数据血缘在数据治理当中非常重要,数据像河流一样,数据血缘就是地图,数据血缘的主要难点在于数据的加工过程是多样化的,多样化以至于这个脉络在不同的工具当中容易丢失,然而人工去做成本又比较高,所以血缘工具是非常重要的。基于我们多年的积累,在这个方向我认为可以达到一定的行业通用程度,所以也把它独立出来,希望能和其他的开放平台去集成。它的集成方式主要是可以通过API方式和Jar包的方式,这个Jar包就是以Spring Boot的微服务方式与企业的平台集成,成功率可以达到90%以上,数据指标基本上达到了国外同行的先进水平。
在这里插入图片描述
纵观Datablau整体的产品发展路径和最新的产品动向,不难发现我们一直秉承持续创新的精神,在稳固中不断快速变革。如今在产品上取得的这一系列成果自然离不开Datablau前瞻性的理念指导与强大的研发实力加持。可以预见的是,随着研发广度不断拓宽和研发深度持续加深,Datablau今后势必会迭代出更多更智能化的数据治理产品,而这些产品也将继续成为推动整个产业加速变革的重要影响因素。最后,如果您对我们任何产品感兴趣,请您联系:sale@datablau.com 免费申请试用!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18770.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIGC文生图:stable-diffusion-webui部署及使用

1 stable-diffusion-webui介绍 Stable Diffusion Web UI 是一个基于 Stable Diffusion 的基础应用,利用 gradio 模块搭建出交互程序,可以在低代码 GUI 中立即访问 Stable Diffusion Stable Diffusion 是一个画像生成 AI,能够模拟和重建几乎…

Elastic 发布 Elasticsearch Relevance Engine™ — 为 AI 革命提供高级搜索能力

作者:Matt Riley 今天我们将向大家介绍 Elasticsearch Relevance Engine™(ESRE™),这是一种创建高度相关的 AI 搜索应用程序的新功能。ESRE 建立在 Elastic 在搜索领域的领导地位以及超过两年的机器学习研究和开发基础之上。Elas…

人工智能轨道交通行业周刊-第45期(2023.5.15-5.21)

本期关键词:动车洗澡、热备列车、火车司机室、无缝线路、图像分割、自动标注 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通RailMetro轨道…

利用ChatGPT完成深度学习分类任务

利用ChatGPT完成深度学习分类任务 一、任务背景 ​ 关于早期诊断NEC(坏死性小肠结肠炎(Necrotizing enterocolitis,NEC))和及时干预一直是临床关注的重点和难点问题。现在手上有相关的临床数据集,我们想要…

chatgpt赋能python:如何使用Python绕过反爬虫机制提高SEO排名

如何使用Python绕过反爬虫机制提高SEO排名 在现代互联网时代,网站把自己的内容都用高墙围了起来,就是防止别人复制内容或者爬虫程序对网站造成损害。但是, SEO优化却需要搜索引擎对网站爬取,并且通过搜索引擎渠道引入流量&#x…

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!

Datawhale干货 AI生成检测器,编辑:机器之心 AI 造假的成功率很高,前几天「10 分钟骗 430万」还上了热搜。在最热门的大语言模型上,研究人员最近探索了一种识别方法。 随着生成式大模型的不断进步,它们生成的语料正逐步…

chatgpt赋能python:Python如何绕过检测封号的技巧

Python如何绕过检测封号的技巧 Python作为目前最受欢迎的编程语言之一,广泛应用于各种领域。在SEO领域中,Python也发挥着重要的作用,但是在不当的使用下,可能会被搜索引擎检测到并封号。在本文中,我们将介绍几种Pytho…

无际Ai官网ChatGPT4和3.5的真实功能测评

生活是我们每个人都必须面对的现实。它涵盖了各种方面,包括我们的工作、家庭、朋友和爱好等等。在这个充满挑战和机遇的世界中,我们必须学会如何平衡自己的需求和责任,并适应不断变化的环境。无论你处于生命的哪个阶段,生活都是一…

2022机器学习阶段性复盘

2022机器学习阶段性复盘 文章目录 2022机器学习阶段性复盘一、业务洞察1.1 业务调研1.2 采样策略 一、特征工程1.1 特征筛选之iv_psi1.2 特征筛选之启发式搜索1.3 时间特征的曲率变换1.4 多重共线性特征的剔除1.5 什么样的特征适合树模型或LR模型1.5 什么样的特征是稳定可泛化特…

音乐推荐算法+ChatGPT歌词创作

不知道有没有小伙伴喜欢这个项目,今天刚完成,哈哈哈。 体验地:http://make.forwardforever.top:614 账号:root 密码:123 账号:root2 密码:456 主页: 曲库: 评论功能: …

使用LSTM预测股价,特征:19个指标5天历史数据

LSTM介绍 LSTM是具有时间特性的神经网络,我们利用LSTM预测时间序列——股价。 从文本到股价,LSTM的输入特征和网络结构都有哪些变化呢? 我们先看一个简单的RNN结构。与普通的全连接层神经网络的权重更新沿着一层层隐藏层网络不同&#xff0c…

北大朱松纯教授:做智能时代的先知、先觉、先行者

本文转发自北京大学智能学院,文章根据朱松纯教授2023年7月1日在北京大学智能学院2023年毕业典礼上的即兴讲话整理而成。 做智能时代的 先知、先觉、先行者 ——在智能学院2023届毕业典礼上的讲话 朱松纯 2023年7月1日 尊敬的各位来宾、各位老师,毕业班同…

谷歌周彦祺:LLM浪潮中的女性科学家多面手丨智源大会嘉宾风采

导读 大模型研发竞赛如火如荼,谷歌紧随OpenAI其后推出PalM2、Gemini等系列模型。Scaling Law是否仍然适用于当下的大模型发展?科技巨头与初创企业在竞争中各有哪些优势和劣势?模型研究者应秉持哪些社会责任? 2023智源大会「基础模…

AI巨头争相推出,企业对话场景应用量暴增1000%,究竟发生了什么?

采访嘉宾 | 中关村科金AI 平台能力中心 作者 | 刘燕 大模型构建人机协同的新型生产关系 对话式 AI 产品拥抱大模型 一个大胆的决定 自 2014 年成立以来,中关村科金就选择专注于企业服务赛道提供对话场景服务,聚焦生成式 AI 技术,包括领域大…

深聊丨“紫东太初”大模型背后有哪些值得细读的论文(一)

原创:谭婧 没有人想等待,没有人想落伍。 新鲜论文时兴火热,成为大模型发展迅猛的标志之一,人们用“刷论文”这个游荡意味的动词替代另一个颇为严肃的动作,“读论文”。 论文被当作“教材”和“新知识”,在a…

紫东太初:造一个国产大模型,需用多少篇高质量论文?

原创:谭婧 “视觉自监督算法这轮,你是不是没跟上?” 我面前这位年薪近七十万,互联网大厂AI算法工程师的好友, 他用一个反问句回答了我的关心: “自监督这个玩意咋跟上?” 他抬了抬头&#xff0c…

一场九年前的“出发”:奠基多模态,逐鹿大模型

原创:谭婧 全球AI大模型的技术路线,没有多少秘密,就那几条路线,一只手都数得过来。 而举世闻名的GPT-4浑身上下都是秘密。 这两件事并不矛盾。为什么呢? 这就好比,回答“如何制造一台光刻机?”。…

独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将...

文丨谭婧 以ChatGPT为代表的AI大模型是2023年的科技C位。 2023年3月27日,ChatGPT引发的“抓马连续剧”,又有新剧更新。 前情提要: 前美团联合创始人、高级副总裁王慧文发文宣布进入AI领域,称将打造中国的OpenAI。 新闻标题一&…

对话AI顶尖大牛周明老师:大模型的机遇和挑战?

Datawhale学习 分享人:周明老师,Datawhale 特邀嘉宾 这次 Datawhale开源学习 特别邀请了周明老师分享: 周明,澜舟科技创始人兼CEO,中国计算机学会 CCF 副理事长、NLP和大模型领域的顶尖大牛。 1991年就从NLP重镇哈工大…

对话李彦宏:AI 大模型时代,应用开发机会比移动互联网大十倍

AI 2.0 时代,ChatGPT 的出现,让大模型引发的诸神之战正式打响。百度作为中国首个推出真实应战“武器”的公司,其基于千亿量级数据炼就而成的“文心一言”背后,蕴藏哪些鲜为人知的故事?这种打破人类对过往 NLP 之智能对…