介绍
DataWorks 是阿里云推出的一体化大数据开发与治理平台,曾用名"数据工厂""大数据开发套件"
最新版本是3.0
它是一套基于MaxCompute(原ODPS)的DW(数据仓库)解决方案,它集成了阿里多年的DW实施经验,提供数据集成、数据开发、数据治理、数据分享功能,并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
应用场景
构建数据仓库
功能
数据集成: 拥有ETL功能, 是更稳定高效更弹性收缩的平台
数据集成
多数据源快速上云
基本上市面上的都支持, 包括但不限于MySQL、MaxCompute、Hologres、OSS、Kafka等几十种数据源,各数据源支持的同步方案及读写插件不同。此外,DataWorks支持的数据源类型还包括关系型数据库、非结构化存储、大数据存储、消息队列等,通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、半结构化数据源之间的数据传输
多种配置方式
向导方式;脚本方式
多种同步方式
全量, 增量, 批量上传,多任务频发等等
任意数据源、任意网络环境数据抽取
数据开发
多引擎工作流混编
可以把多个处理程序上的引擎串起来, 形成一个跨引擎的长流程
SQL智能编辑器
智能地提示语法错误, 动态搜索查找字段, 补齐,排版等
科学规范的项目模式
生产开发分离的模式
业务流程与解决方案
可以从业务角度创建业务流程, 可以把多个业务流程组合成解决方案
任务运维
主要是离线任务的运维管理,
运维大屏
以可视化图表,报表的形式, 来展示任务的整体运行情况,
周期,手动任务运维
开发的数据处理任务, 经过调度系统运行以后,会产生示例----周期的示例,手动的示例,
任务运维是对任务实例的操作,处理
智能监控
对任务的运行情况进行监控: 通过设置监控规则,根据任务运行情况决定是否报警, 给谁报警等
及时报警减少事故发生风险
任务发布
实现代码从开发环境到生产环境的部署, 管理
项目克隆
数据治理
数据质量
通过设定核查规则, 在一张数据表的数据产生之后, 用校验规则去校验数据, 如果不符合规则,就属于数据故障,不满足质量要求,发生报警
可以设定橙色报警和红色报警
橙色报警: 只发报警, 任务不停;
红色报警: 任务会停止, 可以避免数据质量问题的扩散
数据地图
编排数据目录, 数据探查, 数据血缘分析, 数据溯源等, 可以方便数据表的组织管理, 数据表的查找, 以及数据表之间的来源与去向,
安全中心
数据权限管理: 提供数据权限的申请和审批的功能, 提高数据的安全性
数据保护伞
数据安全与管理的一个产品名称, 对敏感数据,比如手机号,身份证号进行智能的识别,敏感等级分级,对敏感数据进行脱敏, 对敏感数据的访问情况进行详细记录, 统计访问情况.
设置审计规则: 比如某个用户对敏感数据的访问触犯了审计规则, 会被记录为风险操作, 发出报警>>可以及时发现用户对敏感数据的不合规操作, 帮助安全管理人员对数据进行安全管理,防止敏感数据泄漏的风险
数据服务
把数据平台分析出的结果,报表封装成服务的API, 进行数据分享,数据变现,
还可以为企业搭建统一的数据服务总线, 实现对内对外的统一管理,
Serverless构建方式
即无服务器架构, 好处: 只需要关注API本身的查询逻辑, 不用关心运行环境,基础设施
可以实现弹性扩展,降低运维成本
过滤器与函数
附加功能: 可以对查询结果进行二次的加工过滤,
支持编写函数,并将函数关联至API,使函数可以作为API的过滤器使用,对API的请求参数或返回结果进行加工处理。数据服务支持的函数类型包括Aviator函数、Python函数,用户可以在数据服务中创建函数、测试函数、发布函数,发布后的函数可被进一步关联至API,作为API的过滤器。如果将函数设置为API的前置过滤器,当API被调用时,函数可以对API的请求参数进行预先处理;如果将函数设置为API的后置过滤器,当API被调用时,函数可以对API的返回结果进行二次加工和改造。
服务编排
允许用户按照业务逻辑以串行、并行和分支等结构编排多个API及函数服务为工作流。这种服务编排为用户提供了拖拽式、可视化的工作流编排能力,从而可以轻松管理复杂的任务工程。此外,数据服务基于业务流程实现以业务为单元的API开发,并基于业务流程对API、函数和服务编排进行组织管理
简单管理API生命周期
支持一键发布API至API网关,从而实现对API设计、开发、测试、发布、运维监测、安全管控以及下线等全生命周期管理。API网关提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理,并围绕API提供了权限管理、流量控制、访问控制等服务,帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据
一键打通商业模式
支持一键发布API至API网关,实现对API设计、开发、测试、发布、运维监测、安全管控以及下线等全生命周期管理。同时,您也可以将API上架至阿里云API市场,快速实现数据价值的变现,最终形成商业闭环。通过这种方式,DataWorks的数据服务帮助企业快速实现数据价值变现,最终形成商业闭环,从而一键打通商业模式
数据应用
数据分析
可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。DataWorks的数据分析功能为企业提供了全面的数据分析和服务共享能力,可便捷地连接多种数据源、支持SQL查询,并提供电子表格等多样化的数据分析工具,以满足企业日常的数据提取和分析需求
应用开发 App Studio
App Studio是一款数据开发工具,用户无需下载、安装本地IDE和配置环境变量,只需一个浏览器即可编写、运行和调试应用程序,体验和本地IDE一样的编程效果,在线发布应用。App Studio提供了丰富的前端组件,通过自由拖拽,即可简单快速搭建前端应用。