01
数据资产中的数据治理
随着数据资源被提高到数据资产的高度,数据治理成为确保有效管理和利用数据资产的一组流程和技术,而数据资产目录是包含企业数据资产的全息描述信息的存储库,并充当有效管理数据资产的(逻辑上的)单一事实来源。组织中的分析师和数据科学家有效地使用数据资产目录来回答业务问题,数据治理专员通过数据资产目录实施数据治理策略,并促进数据的正确使用。
通过资产目录发布的数据资产,通过以下数据治理能力达成资产认证:
- 数据质量保障 :数据资产是在有效数据质量监控下的有效数据,通过业务规则承袭,业务用数需求等建设数据治理度量规则,确保用户在使用数据时,或者数据管道搬运数据时,系统把数据质量问题及时提醒数据分析师,以便评估数据质量对数据分析的可用性。
- 权威源头认证:数据资产目录帮助我们识别哪些数据集是数据的权威源头,并通过认证的方式发布资产,并跟踪数据所有权和认证随时间的变化。
- 数据分类分级:数据安全治理要求根据数据敏感度、PII 以及其他关键元数据对数据进行数据安全的分类分级。数据安全等级是数据资产如何共享和流通的依据,是数据资产必备的属性。
- 数据血脉关系:在使用数据集之前,分析师必须首先了解基础数据的来源。数据血缘关系图是对数据来源的可视化展示,为数据集成建立了完整的数据加工流向说明,可以帮助用户确定数据是否具有正确信息,以帮助回答特定业务问题。
- 指标与标准:如果一个组织对关键企业指标和业务属性没有一套一致的定义,那么随着时间的推移,不同的分析师总是会使用一组不同的规则来衡量同一个指标。这种不一致给企业带来了一组相互矛盾的分析结果,并导致对数据缺乏信任。
- 其它重要信息:使用情况统计信息是从基础 BI 工具中收集的,并在数据治理工具中呈现给用户。这些统计信息标识了业务用户对每个数据集的使用程度,并由业务用户来确定哪些数据集在用户群中获得了使用,哪些数据集则尚未发掘业务应用。
02
数据资产与企业级BI
数据资产目录提供的丰富业务元数据,对于数据分析师和数据科学家来说是非常宝贵的,因为他们可以了解更多的数据上下文信息,并决定在分析中使用哪些现有资产。不过,只靠这个工具还不能完全满足组织的完整治理需求,因为它们无法支持企业中所有数据使用者的需求。典型的业务用户不会将数据目录工具用作其日常工作的一部分,市场上的BI和分析工具通常没有与数据资产进行有效集成,用户不会从其中包含的大量信息中受益。因此,许多组织都难以从维护这些工具中的治理数据所需的大量持续投资中实现业务价值。
另一方面,随着数据管理的发展,企业级BI成为企业数据管理要求,越来越多的企业要求数据分析在数据安全可靠,可管可控的背景下开展:
- 数据安全和合规性: 受管理的BI解决方案包括强大的数据安全措施,以确保敏感数据的保护。这有助于确保企业数据不会被未经授权的人访问。此外,它还有助于确保企业符合法规和合规性要求,如数据安全法,个保法等。
- 数据整合和质量控制: 受管理的企业级BI解决方案通常包括数据整合和质量控制功能,以确保数据的一致性和准确性。这有助于减少数据错误和冗余,提高数据可信度。
- 用户权限和访问控制: 受管理的企业级BI解决方案允许企业管理员配置用户权限和访问控制,以确保只有授权人员能够访问特定数据和报表。这有助于保护数据的安全性。
综上所述,数据资产的治理和BI可视化分析是相辅相成的关系,将两者结合起来,可以让BI的自服务能力更强,惠及更多业务用户。同时也让数据治理有的放矢,数据资产落地可用,发挥数据治理的显性价值。
下面我分享一下Datablau的探索。
03
数据分析治理一体化方案
数据与分析(D&A)治理方案是一种组织内部的框架和策略,用于确保数据和分析活动在组织内部有效管理、保护和利用。一个健全的D&A治理方案有助于确保数据的质量、合规性、安全性和可用性,以支持决策制定和业务运营。
整个方案涉在产品和工具上,主要达到这几个点:
3.1 数据视图统一
数据资产的统一编目,可以按照业务的架构关系或者分析主题,将数据进行分类,非常便于用户找到有用的数据。BI工具中通常从数据库中采集到的元数据,是没有业务视角的技术元数据,业务用户需要在技术人员的帮助下,将数据进行分类并进行补全,这在一个企业级发生时,对企业整体分析造成很大的阻碍,不利于数据驱动的数据分析。
在我们的产品中,通过BI的接口,我们将元数据的业务语义等信息写入BI数据集中,并将数据目录和数据权限信息同步到用户视角之下,这对于最终用户是非常好的体验,也是数据治理组织应该赋能的方式。
(以FineBI为例)
3.2 数据权限统一
数据安全与合规是企业级数据管理的关键要求。在数据资产的定义中,完善了数据的所有者,技术管理者,参与者等干系人信息。同时也定义了数据的安全类别和等级。最后我们需要定义数据和组织间的数据访问策略和授权体系,这使得数据具备了标准化的流通和共享,同时在安全体系的审计和监控之下。
传统BI应用都采用了主题集市,这是一个分布式的以部门为单位的数据使用模式。这种模式之下,数据的授权和复制是很难追踪的。
现在企业的数据授权,大多是基于权限电子流的授权体系,这在数据比较少的情况下,还可以运转,但是一旦多到授权部门无法执行的地步,我们可能会被迫放松甚至放开数据权限的管理。这在过去很多企业都发生过。
根据这些痛点,Datablau发布了基于企业岗权体系统一数据访问的方案。
(基于岗权体系的数据授权与访问)
在这个方案中,个人对数据的访问,完全由所在岗位决定。数据的权限粒度到行级和列级,按照对岗位的授权,进行RBAC粒度的权限绑定。最后数据的访问完全由数据网关进行控制。
这个方案的优点是管理简单,融入到岗位体系中。最终用户无感知,权限约束由数据网关完成。
(数据网关技术架构)
3.3 建立可用数据资产开发流程
数据资产的可用性(Availebility)是保持数据资产活力的重要指标。业界过去进行了大量的数据资产盘点的工作,对数据的业务实体进行了整合定义(参见华为L3-L4实体定义),这对于推动业务对数据的理解和管理,数据的业务化连接等方面起很大的作用。然而这对于本文的数据资产与企业BI的一体化运营,还是远远不够的。
此项工作的问题主要是盘点的数据资产是一个初级产品,距离可交付的数据产品,还需要大量的工作。
在我们的实践中,将数据资产的逻辑层盘点和数据交付进行了拉通,确保发布到BI的数据资产是可应用的数据,并对此进行的专项管理。
通过对数据资产的分类,我们将数据资产分为物理态,逻辑态,以及可交付。通过将数据资产和BI数据交付融入到一个体系中,更好的服务了用户。也是我们践行主动数据治理的理念,发挥数据治理的价值。
04
总结
BI工具是我们业务部门最重要的数据分析工具,通过这个集成方案,达到数据资产的赋能,更有利于提高业务部门数据分析能力。同时这也是数据治理非常好的机会,融治于用的主动治理方法,让数据治理价值显性化,提高了组织的业务可连接性。
Datablau的产品矩阵和解决方案,为以上方案提供支撑,经过数个案例验证,取得不错效果,希望对您有借鉴意义。
图片