大数据开发治理平台~DataWorks(核心功能汇总)

目录

数据集成

功能概述

使用限制

功能相关补充说明

数据开发

功能概述

数据建模

功能概述

核心技术与架构

数据分析

功能概述

数据治理

 数据地图

功能概述

数据质量

功能概述

数据治理资产

功能概述

使用限制

数据服务

功能概述


数据集成

        DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

功能概述

DataWorks的数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。其中:

  • 离线同步场景下,支持设置离线同步任务的调度周期。

  • 支持关系型数据库、数仓、非关系型数据库、文件存储、消息队列等近50多种不同异构数据源之间的数据同步。

  • 支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通。

  • 支持安全控制与运维监控,保障数据同步的安全、可控。

使用限制

  • 数据同步

    支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute

  • 网络连通

    支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。 部分地域之间可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。

  • 数据传输

    数据集成仅完成数据同步(传输),本身不提供数据流的消费方式

  • 数据一致性

    数据集成同步仅支持at least once,不支持exact once,即不能保证数据不重复只能依赖主键+目的端能力来保证。

  • 数据集成作业创建

    不支持批量创建数据集成作业。

注意

        同步任务源端和目标端字段类型需要注意精度,如果目标端字段类型最大值小于源端最大值(或最小值大于源端最小值,或精度低于源端精度),可能会导致写入失败或精度被截断的风险。(不区分源端和目标端类型,也不区分离线还是实时同步)。

功能相关补充说明

网络连通方案

支持的数据源及同步方案

数据开发

        DataWorks的数据开发(DataStudio)是数据加工的开发平台,运维中心是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。

功能概述

DataWorks的数据开发的亮点功能如下。

  • DataStudio支持MaxCompute、EMR、CDH、Hologres、AnalyticDB、Clickhouse等多种计算引擎,支持在统一的平台上进行各类引擎任务的开发、测试、发布和运维等操作。

  • DataStudio支持智能编辑器、可视化依赖编排,调度能力经过阿里集团内调度任务、复杂业务依赖的反复验证。

  • DataStudio提供隔离的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控、操作审计等配套功能,帮助企业规范地完成数据开发。

  • 运维中心支持数据时效性保障、任务诊断、影响分析、自动运维、移动运维等功能。

数据建模

        智能数据建模是阿里云DataWorks自主研发的智能数据建模产品,沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践,包含数仓规划、数据标准、维度建模数据指标四大模块,帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的能力,并通过数据建模快速构建企业数据资产。

功能概述

智能数据建模产品包含数仓规划数据标准维度建模数据指标四大产品模块。

  • 数仓规划:数仓规划支持数仓分层、数据域、数据集市等的规划,支持设置模型设计空间,不同部门可共享一套数据标准和数据模型。

  • 数据标准:数据标准字段标准、标准代码、度量单位、命名词典的定义,支持标准代码自动生成质量规则,落标检查不再难。

  • 维度建模:维度建模支持逆向建模,解决现有数仓的建模冷启动难题,支持可视化数仓维度建模,支持通过Excel文件导入模型和通过FML(一种类SQL的DSL)快速构建模型,支持与数据开发DataStudio无缝打通,自动生成ETL代码。

  • 数据指标:数据指标支持原子指标、派生指标的定义与构建,与维度建模无缝打通,可根据原子指标和不同维度批量创建派生指标。

核心技术与架构

数据分析

        DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。

功能概述

数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。

数据治理

 数据地图

 DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。

数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。

功能概述

        数据地图是在元数据基础上提供的企业数据目录管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。

数据质量

        DataWorks的全流程数据质量监控功能为您提供35种预设表级别、字段级别和自定义的监控模板。

        数据质量帮助您第一时间感知到源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。

功能概述

        数据质量以数据集(DataSet)为监控对象,支持监控MaxCompute数据表和DataHub实时数据流。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量进行分析和定级。

        数据质量可以解决如下问题:

  • 数据库频繁变更问题
  • 业务频繁变化问题
  • 数据定义问题
  • 业务系统的脏数据问题
  • 系统交互导致质量问题
  • 数据订正引发的问题
  • 数据仓库自身导致的质量问题

数据治理资产

        数据资产治理是统一资产治理系统,针对多个治理领域,通过数据领域规则沉淀自动识别资产待优化问题项覆盖事后及事前的治理优化策略等方式,帮助用户主动式、体系化完成数据治理工作。

功能概述

        数据资产治理(原数据治理中心)可根据预先配置的治理计划,自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,还提供业务资产管理、资产分析、任务资源消耗明细、费用预估等功能,帮助您有效掌握各类资源的使用详情。

使用限制

  • 版本限制

    目前仅支持DataWorks企业版及以上版本使用数据资产治理。DataWorks各版本介绍,详情请参见DataWorks各版本详解;购买DataWorks,详情请参见购买指引。

  • 地域限制

    目前仅支持华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、西南1(成都)、中国香港、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)地域使用数据资产治理。

  • 权限限制

        使用数据资产治理的用户角色主要如下,其权限限制如下。

角色

权限说明

相关参考

租户级数据治理管理员

租户级数据治理管理员可使用全局视角查看治理评估报告、治理项问题、检查项事件等,执行相应的整改操作。

  • 授权操作,详情请参见管理租户成员角色权限。

  • 数据治理管理员的详细权限,请参见数据治理。

空间管理员

可使用工作空间视角查看治理评估报告。如您需使用该视角查看某工作空间的治理评估报告,需被授权为该空间的空间管理员。

  • 授权操作,详情请参见添加空间成员并管理成员角色权限。

  • 查看治理评估报告,详情请参见查看治理评估报告。

空间级数据治理管理员

该角色可以查看并管理该角色所属空间的数据治理相关内容。

说明

该角色不能通过全局视角查看当前地域所有空间下的治理情况,且无法针对全局的治理操作(例如全局允许启用检查项)进行管控。若要允许RAM用户通过全局视角执行上述操作,请授予其租户级数据治理管理员角色。

  • 授权操作,详情请参见添加空间成员并管理成员角色权限。

  • 空间级数据治理管理员角色具体支持的功能详情,请参见数据治理。

普通用户

数据治理工作中实际处理待治理问题的整改人员,可使用个人视角查看检查项事件及治理项问题,并执行整改操作。如您需整改租户下存在的问题,则需被授权为该空间的成员。

说明

通常,除阿里云主账号和具有AliyunDataWorksFullAccess权限的RAM用户外,其他租户内成员默认均为普通用户。

授权操作,详情请参见添加空间成员并管理成员角色权限。

        目前仅支持阿里云主账号或具有AliyunDataWorksFullAccess权限的RAM用户(即子账号)使用数据资产治理的全部功能。如您需使用数据资产治理的全部功能,则可授予RAM用户该权限,授权详情,请参见为RAM用户授权DataWorks相关管理权限。

  • 计算资源限制

        目前仅支持MaxCompute、E-MapReduce和Hologres计算资源。

数据服务

        DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。

功能概述

        作为数据仓库与上层应用系统间的“桥梁”,DataWorks数据服务为企业搭建统一的服务总线,帮助企业统一创建及管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里”,加速数据的流动和共享。

  • 数据服务支持通过零代码或自助SQL的双模式,将各类数据源下的数据表生成数据API,同时支持函数计算来辅助加工API的请求参数及返回结果。

  • 数据服务采用Serverless架构,用户无需关心运行环境等基础设施,即可将API服务一键发布至API网关。


        这篇博客到这里就接近尾声了,希望我的分享能给您带来一些启发和帮助,别忘了点赞、收藏。您的每一次互动、鼓励是我持续创作的动力!期待与您再次相遇,共同探索更广阔的世界!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21058.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVA生产环境(IDEA)排查死锁

使用 IntelliJ IDEA 排查死锁 IntelliJ IDEA 提供了强大的工具来帮助开发者排查死锁问题。以下是具体的排查步骤: 1. 编写并运行代码 首先,我们编写一个可能导致死锁的示例代码: public class DeadlockExample {private static final Obj…

【DeepSeek】Mac m1电脑部署DeepSeek

一、电脑配置 个人电脑配置 二、安装ollama 简介:Ollama 是一个强大的开源框架,是一个为本地运行大型语言模型而设计的工具,它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运…

挑战一星期复现一个项目——安全帽项目

本项目为识别安全帽项目,基于yoloV5模型,接下来,我将一步一步展示我的完整复现过程以及遇到的问题和解决方案。 前言 我们在利用GPU进行深度学习的时候,都要去NVIDIA的官网下载CUDA的安装程序和cudnn的压缩包,然后再…

基于java新闻管理系统,推荐一款开源cms内容管理系统ruoyi-fast-cms

一、项目概述 1.1 项目背景 在信息高速流通的当下,新闻媒体行业每天都要处理和传播海量信息。传统的新闻管理模式依赖人工操作,在新闻采集、编辑、发布以及后续管理等环节中,不仅效率低下,而且容易出现人为失误。同时&#xff0…

.NET SixLabors.ImageSharp v1.0 图像实用程序控制台示例

使用 C# 控制台应用程序示例在 Windows、Linux 和 MacOS 机器上处理图像,包括创建散点图和直方图,以及根据需要旋转图像以便正确显示。 这个小型实用程序库需要将 NuGet SixLabors.ImageSharp包(版本 1.0.4)添加到.NET Core 3.1/ …

图论(四):图的中心性——度中心性介数中心性紧密中心性

图的中心性:描述节点在图中有多“中心” 度中心性 以节点的度数度量中心性 用nx.degree_centrality(G)计算 介数中心性 量化节点在图中承担“桥梁”程度。计算 节点v 出现在其他任意两个节点对 (s,t) 之间的最短路径的次数(下式V 是无向图节点集合。(…

在项目中调用本地Deepseek(接入本地Deepseek)

前言 之前发表的文章已经讲了如何本地部署Deepseek模型,并且如何给Deepseek模型投喂数据、搭建本地知识库,但大部分人不知道怎么应用,让自己的项目接入AI模型。 文末有彩蛋哦!!! 要接入本地部署的deepsee…

DeepSeek服务器繁忙 多种方式继续优雅的使用它

前言 你的DeepSeek最近是不是总是提示”服务器繁忙,请稍后再试。”,尝试过了多次重新生成后,还是如此。之前DeepSeek官网连续发布2条公告称,DeepSeek线上服务受到大规模恶意攻击。该平台的对话框疑似遭遇了“分布式拒绝服务攻击”&#xff0…

利用亚马逊AI代码助手生成、构建和编译一个游戏应用(下)

在上篇文章中中,我们介绍了如何通过亚马逊AI代码生成助手 - Amazon Q Developer代理的代码生成、构建和测试功能,让开发者可以更高效地交付高质量代码项目,同时减少代码中bug错误,提升整体开发体验。在本篇中,我们将通…

网络安全技术pat实验 网络安全 实验

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 网络安全实验3 前言Kali 常用指令工具教程 ettercap 基本使用 一、口令破解 John the ripper 破解 linux 密码l0phtcrack7 破解 windows 密码John 破解 zip 压…

网络行为管理系统是什么?有什么功能?

​简单来说,网络行为管理系统就是对网络进行有效的规范约束和调整,关于网络行为管理系统的相关问题整理了一些详细介绍供大家参考。 一、什么是网络行为管理系统? 在数据网络和数据通信业务发展非常迅速,在数据网络和通信业务迅…

毕业设计—基于Spring Boot的社区居民健康管理平台的设计与实现

🎓 毕业设计大揭秘!想要源码和文章?快来私信我吧! Hey小伙伴们~ 👋 毕业季又来啦!是不是都在为毕业设计忙得团团转呢?🤔 别担心,我这里有个小小的福利要分享给你们哦&…

垃圾回收器

一、GC分类与性能指标 1.垃圾回收器概述: 垃圾收集器没有在规范中进行过多的规定,可以由不同的厂商、不同版本的JVM来实现。 由于JDK的版本处于高速迭代过程中,因此Java发展至今已经衍生了众多的GC版本。 从不同角度分析垃圾收集器,可以将…

Java基础——代理模式

代理模式是一种比较好理解的设计模式。简单来说就是 我们使用代理对象来代替对真实对象(real object)的访问,这样就可以在不修改原目标对象的前提下,提供额外的功能操作,扩展目标对象的功能。 一、代理模式的主要作用 控制访问:通…

微软宣布 Windows 11 将不再免费升级:升级需趁早

大家都知道如果你现在是Windows 10 系统,其实可以免费升级到正版 Windows 11,只要你的电脑配置满足 TPM2.0要求。 而最近微软已经公布了 Windows 10 的最后支持时间,也就是今年10月14日,在这之后微软将不再对Windows 10负责&#…

django连接mysql数据库

1.下载mysqlclient第三方库 2.在settings.py里连接数据库(提前建好) DATABASES {default: {ENGINE: django.db.backends.mysql,NAME: 学生信息,USER: root,PASSWORD: 999123457,HOST: localhost,POST: 3306,} } 3.在models.py里创建一个类&#xff0…

滤波器 | 原理 / 分类 / 特征指标 / 设计

注:本文为 “滤波器” 相关文章合辑。 未整理去重。 浅谈滤波器之 —— 啥是滤波器 原创 RF 小木匠 射频学堂 2020 年 03 月 25 日 07:46 滤波器,顾名思义,就是对信号进行选择性过滤,对不需要的信号进行有效滤除。按照其传输信…

v4l2子系统学习(一)V4L2应用程序编程

文章目录 1、声明2、前言3、数据采集流程3.1、buffer的管理3.2、完整的使用流程 4、应用程序编写5、测试 1、声明 本文是在学习韦东山《驱动大全》V4L2子系统时,为梳理知识点和自己回看而记录,全部内容高度复制粘贴。 韦老师的《驱动大全》&#xff1a…

NAC网络接入控制三种认证方式802.1X认证、MAC认证和Portal认证

NAC网络接入控制三种认证方式802.1X认证、MAC认证和Portal认证 1.NAC简介2.802.1X认证3. MAC认证4. Portal认证 1.NAC简介 NAC(Network Access Control)称为网络接入控制,通过对接入网络的客户端和用户的认证保证网络的安全,是一…

vscode远程报错:Remote host key has changed,...

重装了Ubuntu系统之后,由20.04改为22.04,再用vscode远程,就出现了以上报错。 亲测有效的办法 gedit ~/.ssh/known_hosts 打开这个配置文件 删掉与之匹配的那一行,不知道删哪一行的话,就打开第一行这个 /.ssh/confi…