DAMA学习笔记(十一)-元数据管理

1.引言

  元数据最常见的定义是“关于数据的数据”。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量。元数据有助于处理、维护、集成、保护和治理其他数据。一个组织没有元数据,就如同一个图书馆没有目录卡片。元数据对于数据管理和数据使用来说都是必不可少的。所有大型组织都会产生和使用大量的数据,在整个组织中,不同的人拥有不同层面的数据知识,但没有人知道关于数据的一切。元数据可以确保组织识别私有的或敏感的数据,能够管理数据的生命周期,以实现自身利益,满足合规要求,并减少风险敞口。

在这里插入图片描述

1.业务驱动因素

  数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:

  • 1)通过提供上下文语境和执行数据质量检查提高数据的可信度。
  • 2)通过扩展用途增加战略信息(如主数据)的价值。
  • 3)通过识别冗余数据和流程提高运营效率。
  • 4)防止使用过时或不正确的数据。
  • 5)减少数据的研究时间。
  • 6)改善数据使用者和IT专业人员之间的沟通。
  • 7)创建准确的影响分析,从而降低项目失败的风险。
  • 8)通过缩短系统开发生命周期时间缩短产品上市时间。
  • 9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
  • 10)满足监管合规。

  元数据管理不善容易导致以下问题:

  • 1)冗余的数据和数据管理流程。
  • 2)重复和冗余的字典、存储库和其他元数据存储。
  • 3)不一致的数据元素定义和与数据滥用的相关风险。
  • 4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。
  • 5)怀疑元数据和数据的可靠性。

2.目标和原则

  元数据管理的目标包括:

  • 1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性。
  • 2)收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异。
  • 3)确保元数据的质量、一致性、及时性和安全。
  • 4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据。
  • 5)推广或强制使用技术元数据标准,以实现数据交换。

  成功实施元数据解决方案应遵循以下指导原则:

  • 1)组织承诺。确保组织对元数据管理的承诺,将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
  • 2)战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。战略能推动需求,这些需求应在评估、购买和安装元数据管理产品之前定义。元数据战略必须与业务优先级保持一致。
  • 3)企业视角。从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值。
  • 4)潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。
  • 5)访问。确保员工了解如何访问和使用元数据。
  • 6)质量。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责。
  • 7)审计。制定、实施和审核元数据标准,以简化元数据的集成和使用。
  • 8)改进。创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。

3.基本概念

3.1 元数据与数据

  元数据也是一种数据,应该用数据管理的方式进行管理。为了管理元数据,组织不用关注理论上的区别, 重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据

  • 如何在元数据和非元数据之间划分界限?
    • 从概念上讲,这条边界与数据所代表的抽象级别有关。例如,报告美国国家安全局对美国人使用电话的监控情况时,电话号码和通 话时间通常被称为“元数据”,这意味着“真实”数据只包括电话交谈的内容,常识是电话号码和通话时间也只是普通数据。
    • 从经验来说,一个人的元数据,可能是另一个人的数据。即使是看似元数据的东西(如一列字段名称),也可能是普通数据。例如,该数据可以作为输入,满足多个不同组织理解数据和分析数据的需求。
3.2 元数据的类型

  元数据通常分为三种类型:业务元数据、技术元数据和操作元数据。元数据的类型有助于用户理解属于元数据总体框架下的信息范围,以及元数据的产生过程。就使用而言,元数据不同类型之间的区别并不严格,技术和操作人员既可以使用“业务”元数据,也可以使用其他类型元数据。

1. 业务元数据
  • 业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。
  • 业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。 业务元数据的示例包括:
    • 1)数据集、表和字段的定义和描述。
    • 2)业务规则、转换规则、计算公式和推导公式。
    • 3)数据模型。
    • 4)数据质量规则和检核结果。
    • 5)数据的更新计划。
    • 6)数据溯源和数据血缘。
    • 7)数据标准。
    • 8)特定的数据元素记录系统。
    • 9)有效值约束。
    • 10)利益相关方联系信息(如数据所有者、数据管理专员)。
    • 11)数据的安全/隐私级别。
    • 12)已知的数据问题。
    • 13)数据使用说明。
2. 技术元数据
  • 技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:
    • 1)物理数据库表名和字段名。
    • 2)字段属性。
    • 3)数据库对象的属性。
    • 4)访问权限。
    • 5)数据CRUD(增、删、改、查)规则。
    • 6)物理数据模型,包括数据表名、键和索引。
    • 7)记录数据模型与实物资产之间的关系。
    • 8)ETL作业详细信息。
    • 9)文件格式模式定义。
    • 10)源到目标的映射文档。
    • 11)数据血缘文档,包括上游和下游变更影响的信息。
    • 12)程序和应用的名称和描述。
    • 13)周期作业(内容更新)的调度计划和依赖。
    • 14)恢复和备份规则。
    • 15)数据访问的权限、组、角色。
3. 操作元数据
  • 操作元数据(Operational Metadata)描述了处理和访问数据的细节,例如:
    • 1)批处理程序的作业执行日志。
    • 2)抽取历史和结果。
    • 3)调度异常处理。
    • 4)审计、平衡、控制度量的结果。
    • 5)错误日志。
    • 6)报表和查询的访问模式、频率和执行时间。
    • 7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
    • 8)备份、保留、创建日期、灾备恢复预案。
    • 9)服务水平协议(SLA)要求和规定。
    • 10)容量和使用模式。
    • 11)数据归档、保留规则和相关归档文件。
    • 12)清洗标准。
    • 13)数据共享规则和协议。
    • 14)技术人员的角色、职责和联系信息。
3.3 ISO/IEC 11179元数据注册标准

  ISO的元数据注册标准ISO/IEC 11179中提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。该标准由以下几部分组成:

  • 第1部分:数据元素生成和标准化框架。
  • 第2部分:数据元数据分类。
  • 第3部分:数据元素的基本属性。
  • 第4部分:数据定义的形成规则和指南。
  • 第5部分:数据元素的命名和识别原则。
  • 第6部分:数据元素的注册。
3.4 非结构化数据的元数据

  从本质上来说,所有数据都是有一定结构的,但并非所有数据都是以行、列的形式在我们熟悉的关系型数据库中进行记录的。相比结构化数据的管理,元数据对非结构化数据的管理来说可能更为重要。非结构化数据的元数据包括:描述元数据,如目录信息和同义关键字;结构元数据,如标签、字段结构、特定格式;管理元数据,如来 源、更新计划、访问权限和导航信息;书目元数据,如图书馆目录条目;记录元数据,如保留策略;保存元数据,如存储、归档条件和保存规则。

3.5 元数据来源

  大多数组织都没有在应用层面很好地管理元数据,因为元数据通常是作为应用程序处理的副产品而不是最终产品创建的(它不是为消费而创造的)。大多数操作元数据是在处理数据时生成的。使用这类元数据的关键是以一种可用的形式进行收集,并确保负责解释它的人拥有他们需要的工具。管理数据库所需的大部分技术元数据和使用数据所需的业务元数据,可以作为项目工作的一部分进行收集和开发。定义良好的业务元数据可以在不同的项目中重复使用,并促进在不同数据集的业务概念得到一致理解。元数据的来源如下:

  • (1)应用程序中元数据存储库 – 元数据存储库指存储元数据的物理表,这些表通常内置在建模工具、BI工具和其他应用程序中。
  • (2)业务术语表 – 业务术语表(Business Glossary)的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。业务词汇表应用程序的构建需满足三个核心用户的功能需求:1)业务用户 2)数据管理专员 3)技术用户 每个业务术语表的实施都应该有一组支持治理过程的基本报告。建议组织不要“打印术语表”,因为术语表的内容不是静态的。
  • (3)商务智能工具 – 商务智能工具生成与商务智能设计相关的各类元数据,包括概述信息、类、对象、衍生信息和计算的项、过滤器、报表、报表字段、报表展现、报表用户、报表发布频率和报表发布渠道。
  • (4)配置管理工具 – 配置管理工具或数据库(CMDB)提供了管理和维护与IT资产、它们之间的关系以及资产的合同细节相关的元数据的功能。
  • (5)数据字典 – 数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。数据字典可用于管理数据模型中每个元素的名称、描述、结构、特征、存储要求、默认值、关系、唯一性和其他属性。
  • (6)数据集成工具 – 数据集成工具提供了应用程序接口(API),允许外部元数据存储库提取血缘关系信息和临时文件元数据。
  • (7)数据库管理和系统目录 – 数据库目录是元数据的重要来源,它们描述了数据库的内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性。
  • (8)数据映射管理工具 – 映射管理工具用于项目的分析和设计阶段,它将需求转换为映射规范,然后由数据集成工具直接使用或由开发人员用来生成数据集成代码。映射文档通常也存储在整个企业的Excel文档中。
  • (9)数据质量工具 – 数据质量工具通过验证规则来评估数据质量。
  • (10)字典和目录 – 数据字典和术语表包含有关术语、表和字段的详细信息,但是字典或目录包含有关组织内数据的系统、源和位置的信息。
  • (11)事件消息工具 – 事件消息工具在不同系统之间移动数据,需要大量的元数据,并生成描述此移动的元数据。
  • (12)建模工具和存储库 – 数据建模工具用于构建各种类型的数据模型:概念模型、逻辑模型和物理模型。元数据存储库可以提取由这些工具创建的模型,并将导入的元数据整合到存储库中。
  • (13)参考数据库 – 参考数据记录各种类型的枚举数据(值域)的业务价值和描述,在系统中的上下文中使用。
  • (14)服务注册 – 服务注册是从面向服务的架构(SOA)角度管理和存储有关服务和服务终端的技术信息,如定义、接口、操作、输入和输出参数、制度、版本和示例使用场景。
  • (15)其他元数据存储 – 特定格式的清单,如事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发、存储库的存储库和业务规则。
3.6 元数据架构的类型

  从概念上讲,所有元数据管理解决方案都包含与元数据生命周期相对应的架构层次:

  • 1)元数据创建和采集。
  • 2)元数据在一个或多个存储库中存储。
  • 3)元数据集成。
  • 4)元数据交付。
  • 5)元数据使用。
  • 6)元数据控制和管理。
1. 集中式元数据架构

  集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本。
在这里插入图片描述

  • ① 集中式存储库的优点有:
    • 1)高可用性,因为它独立于源系统。
    • 2)快速的元数据检索,因为存储库和查询功能在一起。
    • 3)解决了数据库结构问题,使其不受第三方或商业系统特有属性 的影响。
    • 4)抽取元数据时可进行转换、自定义或使用其他源系统中的元数 据进行补充,提高了元数据的质量。
  • ② 集中式存储库的缺点有:
    • 1)必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。
    • 2)维护集中式存储库的成本可能很高。
    • 3)元数据的抽取可能需要自定义模块或中间件。
    • 4)验证和维护自定义代码会增加对内部IT人员和软件供应商的要求。
2. 分布式元数据架构

  完全分布式的架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库。
在这里插入图片描述

  • ① 分布式元数据架构的优点包括:
    • 1)元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的。
    • 2)查询是分布式的,可能会提高响应和处理的效率。
    • 3)来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量。
    • 4)自动化元数据查询处理的开发可能更简单,只需要很少的人工干预。
    • 5)减少了批处理,没有元数据复制或同步过程。
  • ② 分布式元数据架构的缺点包括:
    • 1)无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项。
    • 2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据。
    • 3)查询功能受源系统可用性的影响。
    • 4)元数据的质量完全取决于源系统。
3. 混合式元数据架构

  混合架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据。

4. 双向元数据架构

  允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。 该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加 以解决;必须构建和维护附加的一系列处理接口,以将存储库的内容回 写至元数据源。
在这里插入图片描述

2.活动

2.1 定义元数据战略

  元数据战略包括定义组织元数据架构蓝图和与战略目标匹配的实施步骤。步骤包括:

  • 1)启动元数据战略计划。启动和计划的目的是保证元数据战略团队可以定义出短期和长期目标。关键利益相关方应参与计划制订。
  • 2)组织关键利益相关方的访谈。通过对业务人员和技术人员的访谈,可以得到元数据战略的基础知识。
  • 3)评估现有的元数据资源和信息架构。评估确定解决元数据和系统问题的难度,对关键IT员工做进一步访谈,审查系统架构、数据模型等文档。
  • 4)开发未来的元数据架构。优化和确认未来愿景,开发可以满足管理现阶段元数据环境长期目标的元数据架构。这个阶段必须考虑战略组成部分,如组织架构、与数据治理所需的管理人员一致、受控的元数据架构、元数据交付架构、技术架构和安全架构。
  • 5)制订分阶段的实施计划。从访谈和数据分析中验证、整合、确定结果的优先级,发布元数据战略,并定义分阶段的、可以从当前状态迈向未来受控的元数据环境的实施方法。

2.2 理解元数据需求

  元数据需求的具体内容是:需要哪些元数据和哪种详细级别。例如,需要采集表和字段的物理名称和逻辑名称。元数据综合解决方案由以下功能需求点组成:

  • 1)更新频次。元数据属性和属性集更新的频率。
  • 2)同步情况。数据源头变化后的更新时间。
  • 3)历史信息。是否需要保留元数据的历史版本。
  • 4)访问权限。通过特定的用户界面功能,谁可以访问元数据,如何访问。
  • 5)存储结构。元数据如何通过建模来存储。
  • 6)集成要求。元数据从不同数据源的整合程度,整合的规则。
  • 7)运维要求。更新元数据的处理过程和规则(记录日志和提交申 请)。
  • 8)管理要求。管理元数据的角色和职责。
  • 9)质量要求。元数据质量需求。
  • 10)安全要求。一些元数据不应公开,因为会泄露某些高度保密数 据的信息。

2.3 定义元数据架构

  元数据管理系统必须具有从不同数据源采集元数据的能力,系统必须支持手工更新元数据、请求元数据、查询元数据和被不同用户组查询。 元数据架构应为用户访问元数据存储库提供统一的入口,该入口必须向用户透明地提供所有相关元数据资源,这意味着用户可以在不关注数据源的差异的情况下访问元数据。

    1. 创建元模型 – 创建一个元数据存储库的数据模型,也叫元模型。可以根据需求开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性,描述了模型组成元素和处理过程。
    1. 应用元数据标准 – 元数据解决方案应遵循在元数据战略中已定义的对内和对外的标准,数据治理活动应监督元数据的标准遵从情况。
    1. 管理元数据存储 – 实施控制活动以管理元数据环境。存储库的控制活动是由元数据专家执行的元数据迁移和存储库更新的控制。本质是可管理的、可监控的、可报告的、可预警的、有作业日志的,同时可以解决各种已实施的元数据存储库环境的各种问题。

元数据存储库的控制活动包括:1)作业调度和监控。 2)加载统计分析。 3)备份、恢复、归档、消除。 4)配置修改。 5)性能调优。 6)查询统计分析。 7)查询和报表生成。 8)安全管理。

元数据质量控制活动包括:1)质量保证,质量控制。 2)数据更新频率——与时间表匹配。 3)缺失元数据报告。 4)未更新的元数据报告。

元数据管理活动包括:1)加载、探测、导入和标记数据资产。 2)记录与源的映射和迁移关系。 3)记录版本。4)用户界面管理。 5)连接数据集的元数据维护——为NOSQL提供支持。 6)数据与对内数据采集建立连接——自定义连接和作业元数据。 7)外部数据源和订阅源的许可。 8)数据增强元数据,如关联GIS。

元数据培训活动包括: 1)教育和培训用户和数据专员。 2)生成和分析管理指标。 3)对控制活动、查询、报告进行培训。

2.4 创建和维护元数据

  好的元数据不是偶然产生的,而是认真计划的结果。元数据管理的几个一般原则描述了管理元数据质量的方法:

  • 1)责任(Accountability)。认识到元数据通常通过现有流程产生(数据建模,SDLC,业务流程定义),因此流程的执行者对元数据的 质量负责。
  • 2)标准(Standards)。制定、执行和审计元数据标准,简化集成过程,并且适用。
  • 3)改进(Improvement)。建立反馈机制保障用户可以将不准确或已过时的元数据通知元数据管理团队。
1. 整合元数据

  集成过程中从整个企业范围内收集和整合元数据,包括从企业外部获取的数据中的元数据。元数据存储库应将提取的技术元数据与相关的业务、流程和管理元数据集成在一起。对元数据存储库的扫描有两种不同的方式:1)专用接口。采用单步方式,扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载到元数据存储中。2)半专用接口。采用两步方式,扫描程序从来源系统中采集元数据,并输出到特定格式的数据文件中。

扫描程序产生和使用多种类型文件: 1)控制文件。包含数据模型的数据源结构信息。 2)重用文件。包含管理装载流程的重用规则信息。 3)日志文件。在流程的每一阶段、每次扫描或抽取操作生成的日志。 4)临时和备份文件。在流程中使用或做追溯流程所使用的文件。

2. 分发和传递元数据

  元数据可传递给数据消费者和需要处理元数据的应用或工具。传递机制包括:1)元数据内部网站,提供浏览、搜索、查询、报告和分析功能。2)报告、术语表和其他文档。3)数据仓库、数据集市和BI(商务智能)工具。 4)建模和软件开发工具。 5)消息传送和事务。 6)Web服务和应用程序接口(API)。 7)外部组织接口方案(如供应链解决方案)。

2.5 查询、报告和分析元数据

  元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需要。提供给业务用户的应用界面和功能与提供给技术用户和开发人员的界面和功能有所不同,后者可能会包括有助于新功能开发(如变更影响分析)或有助于解决数据仓库和商务智能项目中数据定义问题(如数据血缘关系报告)的功能。

3.工具

  管理元数据的主要工具是元数据存储库。元数据存储库包括整合层和手工更新的接口。处理和使用元数据的工具集成到元数据存储库中作 为元数据来源。

4.方法

4.1 数据血缘和影响分析

  发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息。基于程序编码的当前版本的血缘称为“实现态血缘(As Implemented Lineage)”, 映射规范文档中描述的血缘称为“设计态血缘(As Designed Lineage)”。数据血缘创建的局限性在于元数据管理系统的覆盖范围。

  元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充。将数据血缘的各个部分连接起来的过程称为“拼接”,“拼接”结果是 一个表示数据从原始位置(数据源或记录系统)转移到最终位置的全景视图。要想成功发现数据血缘关系,需要兼顾业务焦点和技术焦点。1)业务焦点。根据业务优先级寻找数据元的血缘关系。从目标位置回溯到具体数据起源的源系统。2)技术焦点。从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。

4.2 应用于大数据采集的元数据

  数据湖中的成功数据管理依然依赖于管好元数据。

5.实施指南

  使用渐进的步骤建设实施受控的元数据管理环境,可减少组织的风险,并便于用户接受。使用开源的关系型数据库平台来实施元数据存储,可以应对实施存储库项目开始时可能无法预料的各种控制和接口问题。 存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计。

5.1 就绪评估/风险评估

  拥有坚定的元数据战略,有助于所有人进行更高效率的决策。首要的是,所有人应意识到不管理元数据的风险。评估缺失高质量元数据可能带来的影响如下:

  • 1)因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断。
  • 2)暴露敏感数据,使客户或员工面临风险,影响商业信誉和导致 法律纠纷。
  • 3)如果了解数据的那些领域专家们离开了,那么他们了解的知识 也随之被带走了。

  元数据战略是整体数据治理战略的一部分,是实现有效数据治理的第一步。元数据评估应该通过对现有元数据的客观检查来进行,包括对关键利益相关方的访谈。风险评估的交付成果包括元数据战略和实施线路。

  组织准备情况的评估解决方法为:对元数据相关活动现状进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管理成熟度和其他方面。评估的结果与业务优先级一致,将为改进元数据管理实践的战略方法提供基础。正式的评估结果也为业务案例、赞助和筹集资金提供基础。

5.2 组织文化变革

  元数据从非托管环境转移到托管环境需要工作和规范,而即使大多数人已认识到可靠元数据的价值,也不容易做到这一点。企业数据治理战略的实现需要高级管理层的支持和参与,要求业务人员和技术人员能够以跨职能的方式紧密合作。

6.元数据治理

6.1 过程控制

  数据管理团队应负责定义标准和管理元数据的状态变化(通常使用工作流或协作软件),同时可以负责组织内的质量提升活动、培训计划或实际培训活动。 需要将元数据战略集成到软件开发的生命周期中,确保变更过的元数据及时得到收集,以确保元数据保持最新。

6.2 元数据解决方案的文档

  。元数据资源面向技术及业务用户,可发布到用户社区,并可作为“元数据在哪里”的指引, 告知用户能够满足他们的以下需求: 1)元数据管理实施状态。 2)源和目标元数据存储。 3)元数据更新的调度计划信息。 4)留存和保持的版本。 5)内容。 6)质量声明或警告(如缺失的值)。7)记录系统和其他数据源状态(如数据内容历史加载、删除或更 新标志)。 8)相关的工具、架构和人员。 9)敏感信息和数据源的移除或脱敏策略。

6.3 元数据标准和指南

  指导方针包括模板、相关示例、有关预期输入和更新的培训,以及“不使用术语定义术语”等规则和完整性声明。针对不同类型的元数据 开发不同的模板,部分由所选的元数据解决方案驱动。持续监测指导方针的有效性和必要更新是治理责任。元数据的ISO标准为工具开发人员提供了指导,但不太可能成为使用商业工具的组织所关注的问题,因为工具应该满足这些标准。

6.4 度量指标

  元数据管理实施的有效性可以根据元数据本身的完整性、与其关联的日常管理操作以及元数 据的使用情况来度量。元数据管理环境的建议指标包括:

  • 1)元数据存储库完整性。将企业元数据(范围内的所有产品和实例)的理想覆盖率与实际覆盖率进行比较。参照元数据管理范围定义的策略。
  • 2)元数据管理成熟度。根据能力成熟度模型(CMM-DMM)的成熟度评估方法,开发用于判断企业元数据成熟度的指标。
  • 3)专职人员配备。通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
  • 4)元数据使用情况。可以通过存储库的访问次数衡量用户对元数据存储库的使用情况和接受程度。在业务实践中,用户引用元数据是一个很难跟踪的指标,可能需要定性的调研措施获取评估结果。
  • 5)业务术语活动。使用、更新、定义解析、覆盖范围。
  • 6)主数据服务数据遵从性。显示SOA解决方案中数据的重用情况。主数据服务上的元数据帮助开发人员决定新的开发任务可以使用哪些现有服务。
  • 7)元数据文档质量。一个质量指标是通过自动和手动两种方式评估元数据文档的质量。自动评估方式包括对两个源执行冲突逻辑的比对、测量二者匹配的程度以及随时间推移的变化趋势。另一个度量指标是度量具有定义的属性的百分比,以及随着时间的推移而发生变化的趋势。手动评估方式包括基于企业质量定义进行随机或完整的调查。质量度量表明存储库中元数据的完整性、可靠性、通用性等。
  • 8)元数据存储库可用性。正常运行时间、处理时间(批处理和查询)。

7.总结

  • 元数据 metadata:定义和描述其它数据的数据。
  • 元数据可以帮助组织理解其自身的数据、系统和流程,帮助用户评估数据质量,对数据库与其他应用程序的管理不可或缺。
  • 元数据确保组织能识别私有或敏感的数据,能管理数据的生命周期,满足合规需要,减少风险敞口。
  • 技术元数据成为数据迁移和集成方法中不可或缺的一部分。没有人知道关于数据一切。
  • 在 GB/T 18391 中,元数据是定义和描述其他数据的数据。只有在特定的环境下、出于特定的目的或从特定的角度来看,数据才成为元数据
  • 数据用作元数据的环境、目的或角度的集合称为语境。因此,在一定的语境中,元数据就是关于数据的数据。
  • 描述元数据的模型常常被称为元模型
  • 元数据:包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。
  • 元数据描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。
  • 活动1.定义元数据战略。2.理解元数据需求。3.定义元数据架构。4.创建和维护元数据。5.查询、报告和分析元数据。
  • 业务驱动因素
    • 良好的元管理有助于: 1)通过提供上下文语境和执行数据质量检查提高数据的可信度。2)通过扩展用途增加战略信息(如主数据)的价值。3)通过识别冗余数据和流程 提高运营效率。4)防止使用过时或不正确的数据。5)减少数据的研究时间。6)改善数据使用者和 IT 专业人员之间的沟通。7)创建准确的影响分析,从而降低项目失败的风险。8)通过缩短系统开发生命周期时间缩短产品上市时间。9)通过全面记录数据背景、历史和来源降低培训 成本和员工流动的影响。10)满足监管合规。
    • 管理不善容易导致以下问题: 1)冗余的数据和数据管理流程。2)重复和冗余的字典、存储库和其他元数据存储。3)不一致的数据元素定义和 与数据滥用的相关风险。4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。 5)怀疑元数据和数据的可靠性。
  • 目标:1)记录和管理与数据相关的业务术语的知识体系,以确保理解和使用数据内容的一致性。2)收集和整合来自不同来源的元数据,以确保了解来自不同部门的数据的相似与差异。3) 确保元数据的质量、一致性、及时性和安全。4)提供标准途径,使元数据使用者可以访问元数据。5)推广或强制使用技术元数据标准,以实现数据交换。
  • 原则1)组织承诺。 2)战略。 3)企业视角。 4)潜移默化。 5)访问。 6)质量。 7)审计。8)改进。
  • 如何在元数据和非元数据之间划分界限?? 从经验来说,一个人的元数据,可能是另一个人的 数据。不应担心理论上的区别,而重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据。
  • 元数据的类型: 业务元数据、技术元数据和操作元数据。在图书馆或信息科学中,可分为描述元数据、结构元数据、管理元数据。
  • 业务元数据(Business Metadata):主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
  • 技术元数据(Technical Metadata):提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
  • 操作元数据(Operational Metadata):描述了处理和访问数据的细节。
  • 非结构化数据的元数据:从本质上看,所有数据都是有一定结构的,但并非都以行、列形式呈现。元数据对非结构化数据的管理可能更重要。
  • 元数据通常是作为应用程序处理的副产品而不是最终产品创建的。
  • 元数据来源: (1)应用程序中元数据存储库 (2)业务术语表 (3)商务智能工具 (4)配置管理工具 (5)数据字典 (6)数据集成工具 (7)数据库管理和系统目录 (8)数据映射管理工具 (9)数据质量工具 (10)字典和目录 (11)事件消息工具 (12)建模工具和存储库 (13)参考数据库 (14)服务注册 (15)其他元数据存储
  • 业务术语表应包含业务术语属性,例如: 1)术语名称、定义、缩写或简称,以及任何同义词。 2)负责管理与术语相关的数据的业务部门和/或应用程序。 3)维护术语的人员姓名和更新日期。 4)术语的分类或分类间的关联关系(业务功能关联)。 5)需要解决的冲突定义、问题的性质、行动时间表。 6)常见的误解。 7)支持定义的算法。 8)血缘。 9)支持该术语的官方或权威数据来源。
  • 元数据生命周期: 创建和采集、存储、集成、交付、使用、控制和管理。
  • 元数据架构的类型: (1)集中式元数据架构 (2)分布式元数据架构 (3)混合式元数据架构 (4)双向元数据架构
  • 集中式存储库的优点有:1)高可用性,因为它独立于源系统。2)快速的元数据检索,因为存储库和查询功能在一起。3)解决了数据库结构问题,使其不受第三方或商业系统特有属性 的影响。4)抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。
  • 集中式存储库的缺点: 1)必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。2)维护集中式存储库的成本可能很高。3)元数据的抽取 可能需要自定义模块或中间件。4)验证和维护自定义代码会增加对内部 IT 人员和软件供应商的要求。
  • 分布式元数据架构的优点 :1)元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的。2)查询是分布式的,可能会提高响应和处理的效率。3)来自专有系统的元数 据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维 护所需的工作量。4)自动化元数据查询处理的开发可能更简单,只需要很少的人工干预。5)减少了批处理,没有元数据复制或同步过程。
  • 分布式元数据架构的缺点:1)无法支持用户自定义或手动插入的元数据项,因为没有存储库可以放置这些添加项。2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据。3)查询功能受源系统可用性的影响。4)元数据的质量完全取决于源系统。
  • 【活动 1】定义元数据战略。元数据战略包括定义组织元数据架构蓝图和与战略目标匹配的实施步骤。步骤:1)启动元数据战略计划。 2)组织关键利益相关方的访谈。 3)评估现有的元数据资源和信息架构。 4)开发未来的元数据架构。 5)制订分阶段的实施计划。
  • 【活动 2】理解元数据需求。需求组成:1)更新频次。2)同步情况。3)历史信息。4)访问权限。5)存储结构。6)集成要求。7)运维要求。8)管理要求。9)质量要求。10)安全要求。
  • 【活动 3】定义元数据架构。 内容:1.创建元模型。 2.应用元数据标准。 3.管理元数据存储。
  • 元数据存储库的控制活动:1)作业调度和监控。2)加载统计分析。3)备份、恢复、归档、消除。4)配置修改。5)性能调优。6)查询统计分析。7)查询和报表生成。8)安全管理。
  • 元数据质量控制活动:1)质量保证,质量控制。2)数据更新频率——与时间表匹配。3)缺失元数据报告。4)未更新的元数据报告。
  • 元数据管理活动:1)加载、探测、导入和标记数据资产。2)记录与源的映射和迁移关系。3)记录版本。4)用户界面管理。5)连接数据集的元数据维护——为 NOSQL 提供支持。6)数 据与对内数据采集建立连接——自定义连接和作业元数据。7)外部数据源和订阅源的许可。8)数据增强元数据,如关联 GIS。
  • 元数据培训活动:1)教育和培训用户和数据专员。2)生成和分析管理指标。3)对控制活动、查询、报告进行培训。
  • 【活动 4】创建和维护元数据。 元数据管理的几个一般原则:1)责任(Accountability)2)标准(Standards)。3) 改进(Improvement)
  • 【活动 4-1】创建和维护元数据-整合元数据。 对元数据存储库的扫描的方式:1)专用接口。2) 半专用接口。
  • 扫描程序产生和使用多种类型文件1)控制文件。2)重用文件。3)日志文件。4)临时和备份文件。
  • 【活动 4-2】创建和维护元数据-分析和传递元数据。 元数据可传递给数据消费者和需要处理元数据的应用或工具。
  • 【活动 5】查询、报告和分析元数据。 应具有前端应用程序,支持查询和获取。
  • 元数据管理工具: 元数据存储库。元数据存储库包括整合层和手工更新的接口。
  • 元数据管理方法:1.数据血缘和影响分析。 2.应用大于数据采集元数据。
  • 实施指南: 使用渐进的步骤建设实施受控的元数据管理环境,可减少组织的风险,并便于用户接受。
  • 元数据治理。1.过程控制。 2.元数据解决方案的文档。 3.元数据标准和指南。
  • 度量指标:1)元数据存储库完整性。2)元数据管理成熟度。 3)专职人员配备。4)元数据使用情况。5)业务术语活动。6)主数据服务数据遵从性。7)元数据文档质量。8)元数据存储库可用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/393413.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL注入(闯关游戏)

目录 关卡1 关卡2 关卡3 关卡4 关卡5 关卡6 关卡7 关卡8 关卡9 关卡10 关卡11 关卡12 关卡13 关卡14 关卡15 关卡16 关卡17 关卡18 关卡19 关卡20 关卡21 关卡22 关卡23 关卡24 关卡1 (联合查询) ?gid1 第一件事情就是逃脱单引号的控制——》为了闭…

表字段显示tip

需求背景: 生成的报表,前端只展示字段名称,计算逻辑没有解释,使用方频繁“骚扰”,实在受不了,增加一个字段tip,实现效果(下图): 代码 结合使用el-table-colu…

[Unity实战]Mirror网络与Addressable场景管理

前言 很遗憾,Mirror包括UNET的场景管理不支持Addressables。我做手机游戏,需要实现服务器广播场景切换,但主程序没有场景,热更代码和资源都在AB包里。我已经在Google上搜索了一段时间,没有找到有用的解决方案。 Redd…

unity VR项目3DUI:人物头部旁“说话框”,功能:1.永远朝向相机 2.打字效果 3.UI不会被模型遮挡 4.切换位置 5.文字自动根据内容扩充

提示:文章有错误的地方,还望诸位大神不吝指教! 文章目录 前言一、UI搭建1.创建基节点2.创建Canvas3.添加永远看向相机代码4.创建UI背景,设置相关操作1.锚点设置2.添加组件:Vertical Layout Group、Content Size Fitter…

上海冷链配送新篇章 华鼎冷链科技以卓越服务餐饮品牌

在快速发展的上海餐饮连锁行业中,冷链运输作为保障食品安全与品质的关键环节,正迎来前所未有的发展机遇与挑战。华鼎冷链科技作为该领域的佼佼者,正引领着上海乃至全国冷链运输行业的新风尚。 华鼎冷链科技的成功并非一蹴而就。首先&#xff…

视频融合技术

三维视频融合技术遵循数字孪生多源数据融合的原则,比视频窗口、矩阵更加直观高效,省去了人脑理解空间的时间,可有效提升数字孪生城市在物联感知操作、虚实融合交互等方面的能力,动静一体、虚实结合,让三维场景“动起来…

MATLAB基础应用精讲-【数模应用】配对样本Wilcoxon检验(附MATLAB、R语言和python代码实现)

目录 知识储备 常用的统计假设检验的方法 算法原理 什么是Wilcoxon符号秩检验? 何时使用Wilcoxon符号秩检验 适用条件 SPSS-符号秩检验 一统计理论 二实例分析 三拓展知识 SAS --配对样本Wilcoxon符号秩检验 SPSSAU 配对样本Wilcoxon检验案例 1、背景 2、理论 …

SQL注入sqli-labs-master关卡一

本文环境搭建使用的是小皮,靶机压缩包:通过百度网盘分享的文件:sqli-labs-php7-master.zip 链接:https://pan.baidu.com/s/1xBfsi2lyrA1QgUWycRsHeQ?pwdqwer 提取码:qwer 下载解压至phpstudy的WWW目录下即可。 第一…

无缝协作的艺术:Codigger 视频会议(Meeting)的用户体验

在当今数字化的时代,远程协作已经成为工作和学习中不可或缺的一部分。然而,远程协作也面临着诸多挑战,如沟通不畅、信息同步不及时、协作工具的复杂性等。而 Codigger 视频会议(Meeting)作为一款创新的工具&#xff0c…

计算机的错误计算(五十四)

摘要 回复网友关于正确计算计算机的错误计算(五十一)与(五十二)中所述案例时的 3点注意事项。 问:对于计算机的错误计算(五十一)中的案例 ,由(五十二)知&a…

数据结构第九讲:二叉树

数据结构第九讲:二叉树 1.实现链式结构二叉树1.1二叉树的节点结构1.2创建二叉树节点1.3前中后序遍历1.3.1前序遍历1.3.2中序遍历1.3.3后序遍历1.3.4总结 1.4二叉树结点的个数1.4.1错误示范1.4.2实现方法 1.5二叉树叶子结点的个数1.6二叉树第k层结点的个数1.7二叉树的…

计算机语言-CSP初赛知识点整理

历年真题 [2020-CSP-J-第2题] 编译器的主要功能( ) A. 将源程序翻译成机器指令代码 B. 将源程序重新组合 C. 将低级语言翻译成高级语言 D. 将一种高级语言翻译成另一种高级语言 [2021-CSP-J-第1题] 以下不属于面向对象程序设计语言的是()。 A. C B. Pyt…

CLOS架构

CLOS Networking CLOS Networking 是指使用 Clos 网络拓扑结构(Clos Network Topology)进行网络设计的一种方法。该方法是由贝尔实验室的工程师 Charles Clos 在1950年代提出的,以解决电路交换网络的可扩展性和性能问题。随着现代计算和网络…

P33-模拟实现字符串相关函数

模拟实现strcpy strcpy函数是C语言中的字符串拷贝函数,用于将一个字符串复制到另一个字符串中。 函数原型如下: char* strcpy(char* destination, const char* source);参数说明: destination:目标字符串的指针,用于存…

北大和鹏城实验室联合推出的图像视频统一多模态大模型Chat-UniVi(CVPR 2024)

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding 论文信息 paper:CVPR 2024 code:https://github.com/PKU-YuanGroup/Chat-UniVi 训练130亿大模型仅3天,北大提出Chat-UniVi…

Tomcat 漏洞

一.CVE-2017-12615 1.使用burp抓包 把get改成put jsp文件后加/ 添加完成后访问 木马 然后木马的网址 在哥斯拉测试并且添加 添加成功 然后我们就成功进去啦、 二.弱口令 点击后输入默认用户名、密码:tomcat/tomcat 登陆之后上传一个jsp文件 后缀改成war 然后访问我…

android compose设置圆角不起作用

进度条progress设置背景圆角不起作用: 源码: Composablefun CircularProgress(modifier: Modifier, vm: TabarCmpViewModel?) {if (vm?.showLoading?.value ! true) returnBox(modifier modifier.background(Color(0x99000000)).defaultMinSize(minW…

【深度学习】【语音TTS】OpenVoice v2,测评,中英文语料,Docker镜像,对比GPT-SoVITS、FishAudio、BertVITS2

https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md 实际体验OpenVoice v2的TTS效果。 文章目录 环境启动 jupyter代码代码分析主要模块和功能测试一些别的中文和中英文混合总结优点缺点对比GPT-SoVITS、FishAudio、BertVITS2使用我的Docker镜像快速体验OpenVo…

4.7.深层循环神经网络

深层循环网络 ​ 就是更深了,因为之前的网络都只有一层隐藏层,弄多一点 ​ 我们将多层循环神经网络堆叠在一起,通过对几个简单层的组合,产生了一个灵活的机制。上图展示了一个具有 L L L个隐藏层的深度循环神经网络,每…

【C++】STL | vector 详解及重要函数的实现

目录 前言 总代码 vector类框架建立(模板与成员变量) 构造、析构、swap 与 赋值重载 构造 析构 swap 赋值重载 reserve 扩容(重要!!)、size、capacity operator[ ]重载 insert 插入 逻辑讲解 i…