在现代数据湖架构中,语义层通过向数据添加有意义的上下文来发挥至关重要的作用,否则这些上下文会丢失。此层充当现代数据湖(数据仓库和查询引擎)处理层中未整理的原始数据与利用此数据的工具和应用程序之间的桥梁。此服务对 AI 特别有用,因为这些关系和模式对于训练准确的模型至关重要。强大的语义层可确保数据干净且经过整理,为模型训练做好准备。如果需要进一步的特征工程,语义层可以为特征存储提供信息,在其中可以共享工程特征。问题在于,要使通用语义层真正扎根,整个组织需要发展以使用它的语义——工具链中的每个工具都需要与所述语义层紧密耦合。如果只有少数数据源使用语义层,那么您又回到了原点,有了另一个工具来照看。因此,为工作选择合适的工具至关重要。这篇博文简要概述了专为现代数据湖设计或与现代数据湖配合使用的工具。
语义层的作用
语义层通过提供数据视图来增强现代数据湖,其中大部分复杂性已被抽象化。此层中数据产品的主要功能包括:
-
元数据管理:此功能对数据资产进行编目,跟踪其来源、格式、使用情况以及随时间的变化。在 AI 中,元数据管理对于理解数据沿袭至关重要,这是训练和优化机器学习模型的关键因素。准确的元数据可确保 AI 系统获得可靠的数据,从而促进更好的预测和见解。
-
数据治理和安全:语义层是强制执行数据访问策略并保护敏感信息的地方。这些功能对于保持对现代数据保护法规的遵守至关重要。在 AI 的背景下,强大的治理和安全性对于管理 AI 应用程序的道德影响和防止未经授权访问 AI 模型至关重要。合成数据的最新创新也在数据治理方面取得了长足的进步,实现了数据共享,而不会危及敏感信息。
-
质量和一致性:此功能可确保整个组织的数据保持一致且高质量,这对于可靠的 AI 操作至关重要。人工智能系统需要高质量的数据来避免“垃圾进,垃圾出”的困境,即糟糕的输入数据会导致有缺陷的输出。通过减少冗余和增强数据可靠性,语义层支持更准确、更有效的 AI 分析。
这一层中的一些产品专注于一个特定的功能,而另一些产品则声称提供一套工具来解决多个问题。需要注意的是,虽然对象存储可以支持广泛的数据,但通常语义层中的产品只能对结构化数据进行操作。
语义层的实际应用示例
1 . Amundsen:由 Lyft 开发的开源数据发现和元数据引擎。Amundsen 帮助索引数据集、管理元数据,并为跨现代数据湖的数据发现提供搜索界面。它与 Delta Lake 和 Apache Iceberg 等开放表格式集成。
2 . DataHub:一个开源元数据平台,用于数据资产的发现、自动化和操作化。DataHub支持元数据收集和搜索功能,与开放表格式集成,以提供对数据沿袭和使用情况的可见性。
3 . DBT(数据构建工具):一种数据转换工具,允许数据分析师和工程师更有效地转换仓库中的数据。它可以使用开放表格式,并确保记录数据转换并进行版本控制。
4 . Apache Atlas:一组可扩展且可扩展的核心基础治理服务,使企业能够在开放表格式的数据仓库中有效且高效地满足其合规性要求。Atlas提供元数据管理和治理功能。
5 . Collibra:用于数据治理、编目和数据质量管理的数据智能云平台。Collibra 与开放表格式集成,有助于管理数据策略、跟踪数据沿袭并确保数据质量和合规性。
与他人合作良好
无论您为语义层选择哪种工具,要使其成功,都需要在组织的数据生态系统中完全集成。通过采用统一的数据策略,组织可以提高其语义层的有效性,确保所有数据源都有助于形成一个有凝聚力和治理良好的数据环境。成功集成的一部分要求工具链中的所有工具都在云运营模型下进行设计。这意味着,无论您的工具位于私有云、公有云还是边缘,它都是可扩展的、高性能的,并且专为现代工作负载而构建。这个工具链的一个重要基础是现代数据湖,它使用高性能的 Kubernetes 原生对象存储(如 MinIO)构建。
湖中的背景
语义层是现代数据湖架构的重要组成部分。它不仅简化了数据管理,还增强了数据的安全性、质量和可用性;成功实施 AI 的关键特征。借助此架构,组织可以确保其现代数据湖不仅是信息存储库,而且是推动业务增长和创新的宝贵资产。