【精选】数据治理项目实施(合集)05——解码“数据架构”,数据架构包含哪些内容?

        上一篇讲到了数据治理项目的前期调研工作,继数据调研工作完成之后,就要开始关于治理工作的各项方案设计,整体方案设计包括数据架构、元数据、主数据、数据质量、数据安全、指标标签体系、数据生命周期管理和管理评价等内容。这一篇重点讲一下数据架构的具体内容。

        数据架构与企业的其他架构(如应用架构、技术架构、业务架构等)密切相关,它们共同构成了企业的整体架构体系。数据架构是这些架构中的桥梁,将不同的系统、应用和业务领域连接起来,实现数据的共享和协同。

01 数据架构的定义

        那么首先来说,什么是数据架构?关于架构的定义有很多种说法。在国际标准ISO/IEC/IEEE 42010:2011当中,架构的定义为系统的基本结构,具体体现在架构构成中 的组件、组件与组件之间的相互关系,以及管理其设计和演变的原则。数据架构的定义,主流的有DAMA和国标DCMM当中的定义。

        DAMA体系中认为,数据架构是识别企业的数据需求(无论数据结构如何),设计和维护总蓝图以满足这些需求。使用总览图来指导数据集成、控制数据资产,并使数据投资与业务战略保持一致。内容包括企业数据模型和数据流的设计。

        DCMM(GB T 36073-2018 数据管理能力成熟度评估模型)定义的数据架构是通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。内容包括数据模型、数据分布、数据集成与共享、元数据管理。

         从实施层面而言,关于数据架构的定义还有华为的《数据治理之旅》,其中定义了信息架构(Information Architecture):以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。信息架构包括数据资产目录、数据标准、级数据模型和数据分布四个组件。

        数据资产目录编制: 厘清本单位的数据信息资源ꎬ 支撑数据标准、数据模型、元数据与主数据管理。

        数据标准管理: 规范业务对象在信息系统中的定义和应用ꎬ 支撑数据使用和交换的一致性和准确性。

        数据模型构建: 对业务模式和业务规则的数据需求进行分析和重新组织,支撑应用系统设计和开发。

         数据模型分布: 数据在业务流程、系统和数据源之间的流转关系。

        数据架构规划一般包含这四个步骤:

  1. 明确业务需求:在规划数据架构之前,需要明确企业的业务需求和数据需求,了解企业的业务目标、战略方向、组织架构等。

  2. 设计数据资产目录:根据业务需求,设计数据资产目录,列出企业所有的数据资产,包括数据的来源、类型、格式、用途等。

  3. 制定数据标准:制定数据标准,定义数据的格式、命名规则、编码方式等,确保数据的一致性和准确性。

  4. 设计数据模型和数据分布:根据业务需求和数据资产目录,设计数据模型和数据分布方案,实现数据的高效存储和查询。

01 数据资产目录的定义

         数据资产目录是数据架构的基础,它列出了企业所有的数据资产,包括数据的来源、类型、格式、用途等。数据资产目录有助于企业清晰地了解自身的数据资源,为数据的利用和管理提供依据。

        常用的数据资产编目方式包含数据资源、数据主题、数据来源部门、数据管理对象等方式进行编目,编目的内容设计数据的流通属性、管理属性、业务属性、物理属性和逻辑属性。以上编目的内容大部分都可以从数据前期调研的内容中进行获取。

       (一)、数据资产目录的创建步骤

        数据资产目录的创建步骤一般分为六步:首先结合前期调研的情况,对数据资产进行盘点,形成数据资产目录,再从业务角度、技术角度、管理角度对目录信息进行补充,其实这部分内容也属于元数据的一部分,最后再明确数据资产组织信息。

        关于数据资产目录的内容,各个行业都有对应的目录标准,这里以政务数据目录为例,主要包括数据的信息项、共享属性、信息资源分类方式、业务属性、安全属性等内容。具体可以参考当前行业的相关标准进行统计。

(二)、数据资产主题分类方式

        数据资产目录中明确了数据资产的层级结构,便于对数据资产进行分层分级的管理,包括五个层级,主题域分组(L1)、主题域(L2)、业务对象(L3)、逻辑数据实体(L4)和属性(L5)。

02 数据模型定义

        为什么要做数据模型?为了解决架构设计和数据开发不一致,而对数据开发中的表名、字段名等规范进行约束。数据模型在数据标准和数据开发之间起到一个承上启下的作用,即数据模型需要依赖数据标准指导数据开发中的表名、字段名等标准规范的落地。

        数据模型的设计一般分为概念模型、逻辑模型、物理模型,三者的关系并不是严格的顺序关系,实际项目当中可能直接从概念模型过度到逻辑模型。

(一 )、数据模型的建设模式

        数据模型的建设模式一般从两个视角进行建设,一是从企业架构视角进行建模,这种方式主要是由组织层面发起,通过对数据的宏观把握和分析,梳理和整合不同部门和系统之间的业务逻辑和数据关系。二是从应用场景视角进行建模,从某个特定的业务场景出发,通过对数据的深入挖掘和分析,梳理和分析具体场景中的数据关系和业务逻辑。

        基于企业架构视角的数据模型建设方式,通常适合于跨部门或系统的业务需求较多的组织。这种方式主要是由组织层面发起,通过对数据的宏观把握和分析,梳理和整合不同部门和系统之间的业务逻辑和数据关系,通常实施开发周期较长,适合于组织重构数据模型或创新业务模式的时期。

        基于应用场景视角的数据模型建设方式,则通常适合于精细化分析的业务需求较多的组织。这种方式主要是从某个特定的业务场景出发,通过对数据的深入挖掘和分析,梳理和分析体场景中的数据关系和业务逻辑,实施开发周期与业务场景及需求有关,适合于组织对已有数据模型进行改造或升级的时期。

(二 )、数据模型的建设步骤

        数据模型的建设步骤依据企业架构视角和应用场景一般分为五个步骤。

          从企业架构视角建模

        第一步,识别需求。通过研讨会、访谈、业务手册等方式,识别业务重点关注的内容。

        第二步,构造业务对象。提取相关名词形成候选核心实体,并基于核心实体形成业务对象。

        第三步,界定数据范围。提炼业务数据,界定系统的数据范围。

        第四步,划分主题域。对业务数据进行分类,抽象业务对象,最终梳理出业务实体,及实体间的业务关联规则。

        第五步,完善业务对象清单。结合流程模型验证已识别业务对象的正确性和完整性,识别完善与细化业务对象清单。

 从应用场景视角建模

        第一步, 识别需求。明确需要建模的业务场景及模型应用诉求, 例如风险评估、客户分析等场景。

        第二步,系统调研。对现有源系统进行信息调研,获取相关数据源、数据分布等信息。

        第三步,数据梳理。基于业务需求梳理数据项,包括数据指标、业务实体等,并逐步迭代定义实体关,标识实体属性。

        第四步,建立映射。在实施过程中与底层库表建立完善的映射关系,持续优化建立描述各业务场景的数据模型。

(三)、资源库和主题库设计

        数据建模完成后,需要规划数据资源库、主题库以及数据分层的设计。

        原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库。

        资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库。

        主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用。

        知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务库进行挖掘,可反哺和进一步完善知识库。

(四 )、数据模型的分层设计

       数据分域应业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法:各级主题命名应能准确表达主题的含义和功能。业务主题域命名一般采用动宾结构的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。

03 数据标准的定义

        为什么要做数据标准,这个话题得从秦始皇说起,从秦始皇统一六国,他统一了货币、统一了文字、统一了度量衡,废弃分封制,建立郡县制,加强中央集权。他采取了一系列国家治理的措施,我们可以发现他做的最核心的一件事情——标准化。同样,我们做数据治理的一个目的也是要对数据进行标准化,这个数据标准的定义有很多种来源

        数据的命名、定义、结构和取值的规则。——GB T 36073-2018 数据管理能力成熟度评估模型。

        是保障数据的内外部使用和交换的一致性和准确性的规范性约束。——大数据技术标准委员会《数据标准管理实践白皮书1.0》。

        并非是一个专有名词,而是一系列“规范性约束”的抽象。但是,数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。 ——大数据技术标准委员会《数据资产管理实践白皮书6.0》。

        数据标准管理的目标是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程管控、技术工具等手段,推动数据的标准化,进一步提升数据质量。 ——大数据技术标准委员会《数据资产管理实践白皮书6.0》。

        标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和 管理属性的统一定义。业务属性包括中文名称、业务定义、业务规则等,技术属性包括数据类型、数据格式等,管理属性包括数据定义者、数据管理者等。——JR/T0105-2014 银行数据标准定义规范。

        在DAMA体系中,数据标准没有单独拿出来作为一个活动的内容来阐述,这是因为DAMA认为,数据标准贯穿与数据治理的各项活动当中。

        做数据标准前,首先要考虑三个问题:

        问题1:什么数据需要制定哪些标准?

        并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。如:基础通用型数据(国家标准、行业标准、企业标准)、主数据类数据、类型和维度数据(分类码、维度码)、报送类(指标、标签)。

        问题2:什么系统落什么标准?

        核心业务系统、重点业务系统,通过试点逐步推进标准建设,也可反推源头标准化改造。

        问题3:什么人与什么时间执行?

        数据标准的统一最直接的影响就是数据使用方和提供方,什么时候执行标准,执行哪些标准,按什么方式来执行是需要慎重考虑的问题。

        通过下面表格的内容,可以发现数据标准从源头落地,会减少数据的处理成本,提高数据应用的效益,缺点是对于存量系统和外购系统存在较大改动风险和成本。
        如果从数据的仓库层进行落标,比较容易着手处理,落标后的下游数据系统则自动统一数据标准,然而数仓层的报表应用与业务系统的报表存在口径不一致性在所难免,仍然需要源数据层进行必要调整。无论从哪一层入手,模型的优良设计环节都是必要条件,否则整个落标过程会没有抓手,流程将不顺畅。

04 数据分布的定义

        数据分布主要记录这几项内容:数据在业务流程中的应用、某个环境中的数据存储或数据库、网段(用于安全映射)、业务角色(描述哪些角色有职责创建、更新和删除数据)等。

        数据在业务流程中的应用可以用数据流的方式进行表达,通过二维矩阵或数据流图的方式呈现。通过矩阵可以清晰地展现创建和使用数据的过程。采用矩阵方法显示数据需求的优势是可以清晰看出数据不是只在一个方向上流动。在复杂数据使用场景中,数据交换是多对多的,并会在多种地方出现,而且通过矩阵方法可以明确流程中的数据获取职责及数据依赖关系,反过来也可以促进流程的制定。只需要将流程轴转变为系统能力,对业务熟悉的人便可以很容易上手使用。

 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

 数据治理实施交付物合集


 

 

  数据治理行业合集


 

 

   数据治理方案合集


 

 

           ———— 更多资讯请添加公众号————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/362215.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊一聊UDF/UDTF/UDAF是什么,开发要点及如何使用?

背景介绍 UDF来源于Hive,Hive可以允许用户编写自己定义的函数UDF,然后在查询中进行使用。星环Inceptor中的UDF开发规范与Hive相同,目前有3种UDF: A. UDF--以单个数据行为参数,输出单个数据行; UDF&#…

为什么说展厅数字人是展览未来的趋势?

展厅数字人是利用数字化、智能化和网络化等信息技术手段提升展厅展览服务和游览体验的全新载体。随着人工智能和虚拟现实技术的应用发展,展厅数字人已成为展厅展览转型升级的重要趋势。 展厅数字人凭借其创新性、强可塑性,成为展厅新名片,为各…

趣测系统搭建APP源码开发,娱乐丰富生活的选择!

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 趣测系统提供了一个集合多种有趣测试的平台,如心理测试和星座测试等,这些测试内容富有趣味性和娱乐性,能够帮助大众在忙碌的生活中找到放松和娱乐的时刻…

Vite 动态导入警告问题解决方案

如上图我要实现从后台获取权限菜单并动态导入进行渲染 但由于 vite 暂时不支持这种导入方式 图中也给出了提示 本人也是这么去做了 但并没什么卵用 后来参考了 vite 的 import.meta.glob 这种方式 我在处理菜单权限控制的菜单里进行了如下操作: …

Hyperf 在 NginxProxyManager 如何配置 websocket?

新建代理 填写域名等服务信息&#xff0c;选择支持WebSockets。 创建 SSL 编写nginx配置 location /message.io{proxy_pass http://<你的ip>:<对应端口号>;proxy_http_version 1.1;proxy_set_header Upgrade $http_upgrade;proxy_set_header Connection "Upg…

会计报表分析

目录 一. 会计报表的种类 \quad 一. 会计报表的种类 \quad 反应财务状况的是资产负债表 反应经营成果的是利润表 有时间点的就是静态表 动态表就是有一个区间的, 比如一年, 一个季度等

学习笔记——动态路由——RIP(RIP路由汇总介绍)

四、RIP路由汇总介绍 当网络中路由器的路由条目非常多时&#xff0c;可以通过路由汇总&#xff08;又称路由汇聚或路由聚合&#xff09;来减少路由条目数&#xff0c;加快路由收敛时间和增强网络稳定性。 路由汇总的原理是&#xff0c;同一个自然网段内的不同子网的路由在向外…

Django 如何使用视图动态输出 CSV 以及 PDF

Django 如何使用视图动态输出 CSV 以及 PDF 这一篇我们需要用到 python 的 csv 和 reportLab 库&#xff0c;通过django视图来定义输出我们需要的 csv 或者 pdf 文件。 csv文件 打开我们的视图文件 testsite/members/views.py 。新增一个视图方法&#xff1a; import csv …

活用变量,让Postman的使用飞起来

在 Postman 中使用变量是一种非常强大的功能&#xff0c;它可以极大地增强 API 测试和开发的灵活性和效率。 Postman变量的类型 变量在 Postman 中可以在多个层次设置和使用&#xff0c;包括 全局变量环境变量集合变量局部变量&#xff08;如在脚本中暂时创建的变量&#xf…

Clickhouse 的性能优化实践总结

文章目录 前言性能优化的原则数据结构优化内存优化磁盘优化网络优化CPU优化查询优化数据迁移优化 前言 ClickHouse是一个性能很强的OLAP数据库&#xff0c;性能强是建立在专业运维之上的&#xff0c;需要专业运维人员依据不同的业务需求对ClickHouse进行有针对性的优化。同一批…

想问一下stm32学习哪些东西才算入门并且能做项目?

STM32&#xff08;所有的MCU都一样&#xff09;归根结底只是一个工具&#xff0c;能做的事情也很多&#xff0c;如果只谈性能&#xff0c;不考虑稳定性等因素&#xff0c;那么103估计做个导弹控制器&#xff0c;火箭控制器都没有问题&#xff0c;阿波罗登月的主控主频才多少&am…

kafka 消费者 API 使用总结

前言 应用程序使用KafkaConsumer向Kafka订阅主题&#xff0c;并从订阅的主题中接收消息。不同于从其他消息系统读取数据&#xff0c;从Kafka读取数据涉及一些独特的概念和想法。如果不先理解这些概念&#xff0c;则难以理解如何使用消费者API。本文将先解释这些重要的概念&…

Attention步骤

一个典型的Attention思想包括三部分&#xff1a;Qquery、Kkey、Vvalue。 Q是query&#xff0c;是输入的信息&#xff1b;key和value成组出现&#xff0c;通常是原始文本等已有的信息&#xff1b;通过计算Q与K之间的相关性a&#xff0c;得出不同的K对输出的重要程度&#xff1b;…

数据结构与算法基础(王卓)--学习笔记

1 数据结构分类 1.1 逻辑结构分类 集合结构线性结构&#xff1a;线性表、栈、队列、串树形结构图形结构 1.2 物理结构分类 逻辑结构在计算机中的真正表示方式&#xff08;又称为映射&#xff09;称为物理结构&#xff0c;也可叫做存储结构 顺序存储结构&#xff1a;数组链…

百度安全X盈科全球数据合规服务中心:推进数据安全及合规智能化创新领域深化合作

6月19日&#xff0c;百度安全与盈科全球数据合规服务中心举行合作签约仪式&#xff0c;双方将充分发挥各自优势&#xff0c;在数据安全及合规智能化创新领域深化合作&#xff0c;在遵守国家法律法规和顺应市场规则的前提下&#xff0c;推动地方经济社会发展&#xff0c;促进企业…

【财经研究】并购重组的“不可能三角”

伴随着沪深IPO景气度下滑后&#xff0c;并购重组正受到市场的关注。 近期监管层正频频为并购重组发声 6月20日&#xff0c;证监会主席吴清在陆家嘴论坛上指出&#xff1a;“支持上市公司运用各种资本市场工具增强核心竞争力&#xff0c;特别是要发挥好资本市场并购重组主渠道作…

鸿蒙NEXT开发知识:工具常用命令—ohpm config

设置ohpm用户级配置项。 命令格式 ohpm config set <key> <value> ohpm config get <key> ohpm config delete <key> ohpm config list 说明 配置文件中信息以键值对<key> <value>形式存在。 功能描述 ohpm 从命令行和 .ohpmrc 文件中…

vue3 【提效】自动路由(含自定义路由) unplugin-vue-router 实用教程

不再需要为每一个路由编写冗长的 routes 配置啦&#xff0c;新建文件便可自动生成路由&#xff01; 使用方法 1. 安装 unplugin-vue-router npm i -D unplugin-vue-router2. 修改 vite 配置 vite.config.ts import VueRouter from unplugin-vue-router/viteplugins 中加入 V…

C++——时间戳转年月日时分秒格式

#include <stdio.h> #include <time.h> int main() { // 获取当前时间&#xff08;以秒为单位的时间戳&#xff09; time_t rawtime; time(&rawtime); // 将时间戳转换为本地时间&#xff08;struct tm&#xff09; struct tm * timeinfo localtime(&…

C++实现一个简单的Qt信号槽机制

昨天写这个文章《深入探讨C的高级反射机制&#xff08;2&#xff09;&#xff1a;写个能用的反射库》的时候就在想&#xff0c;是不是也能在这套反射逻辑的基础上&#xff0c;实现一个类似Qt的信号槽机制&#xff1f; Qt信号槽机制简介 所谓的Qt的信号槽&#xff08;Signals …