1 数据集成是什么
数据集成(Data Intergration),也称为数据整合,是通过将分布式环境中的异构数据集成起来,为用户提供统一透明的数据访问方式。该定义中的集成是指从整体层面上维护数据的一致性,并提高对数据的利用和共享,而透明指的是用户不需要关心数据的存储方式以及如何与数据交互。数据集成的目的是对各种分布式异构数据源提供统一的表示和访问,将各种数据源在物理和逻辑上存在的差异进行屏蔽。
2 数据集成的三种方法
目前数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。
(1)联邦模式
该模式构建的数据集成系统是由自治的多个数据库系统的协作组成,各个数据源之间提供相互访问的接口。该架构的集成系统以全局模式整合各异构数据源的数据视图。全局模式描述异构数据源的数据结构、语义和操作,是虚拟的数据源的数据视图,能够让用户透明地进行数据访问。用户根据全局模式向系统发出访问请求,系统将这些请求变换为各个异构数据源在自治系统内能够执行的操作。构建全局模式与异构数据源数据视图间的映射关系和处理用户在全局模式查询请求是该模式需要解决的两个关键问题。
(2)中间件模式
在中间件模式的数据整合系统中,中间件一般位于数据层和应用层的中间,向下可以对不同的数据库系统进行协调,向上可以向不同的应用提供统一的访问接口和数据模式,中间件系统主要是为分布式环境中的异构多数据源提供统一的检索服务,各个数据源仍然具有各自的独立性。中间件模式的架构通常由中介器和包装器组合构成。其中,中介器能够将针对全局模式的查询进行分解后,生成为针对不同异构数据源的子查询交由包装器执行,查询结束后将所有子查询的结果汇总后以统一的格式返回给用户;针对不同数据源的包装器,可以将不同数据源中的异构数据转换成整合系统可以处理的统一格式的数据
(3)数据仓库模式
数据仓库是面向主题的、集成的、和时间相关的数据集合,数据被归类为广义的、功能独立的、没有重叠的主题,用于数据分析和决策支持的系统,也是针对企业应用提出一种数据整合方法。该模式采用在单一的数据仓库中存储多个异构数据源的副本的方式,定期的由ETL(Extract,Transform,Load)工具从不同数据源中对数据进行抽取、转换,然后将其装载到数据仓库中,在数据仓库的基础上构建数据管理系统,处理用户的数据访问请求
3 大型集团企业数据集成现状
目前国内的集团企业纷纷踏上数字化转型之路,通过搭建大数据平台等方式进行数据集成,但数据范围更多聚焦在单国境数据或单一法人内数据。大型集团企业在进行集团数据集成过程中面临三大挑战。首先,最大的挑战来自于各国的数据政策约束,体现在多方关注促使跨境数据管理日益严格、多方监管政策限制关键业务数掘流动,各国网络信息安全以及个人隐私保护要求限制跨境数据流动等。其次数据安全保护政策出台较晚,缺乏指导落地的下位制度,可借鉴的同业经验少;第三大型集团企业业态复杂,跨境混业的经营模式,加剧了数掘集成的合规难度
以上是关于数据集成的相关知识,更多信息请关注三个皮匠报告的行业知识栏目
来源:IBM:绳趋尺步 蓄数待发:大型集团企业数据集成攻略(2022)(12页).pdf