今天继续给大家分享主流大数据调度工具DolphinScheduler,以及数据的ETL流程。
一:调度工具DS
主流大数据调度工具DolphinScheduler,
其定位:解决数据处理流程中错综复杂的依赖关系
任务支持类型:支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。
二,数据ETL流程(调度流程)
今天分享一个把数据从人大金仓数据库采集到大数据hive的案例。
0,业务概念
数据采集:指的是从其他的数据库,Oracle,MySQL,kingbase里的数据同步到hive大数据。
采集原理:本次分享的数据采集,其底层实现逻辑是sqoop。
数据同步都是有严格的规范性。
1,先在数据库查询该表的数据信息
2,在hive里创建表以备数据同步用
红色方框里是从数据库同步过来的数据,
蓝色方框里是系统自动生成的数据。
3,确认hive该表暂无数据
4,首先创建工作流
5,配置工作流信息
6,参数设置
7,核心是脚本开发
注明源数据库系统名,数据库名,表名等。
sync_type = 1 是全量同步,传参到shell脚本里。
从其他数据库同步到hive大数据,名称都是有规范的。
可以看到target_tab_name,名字是由源系统名,源库名,源表名,给拼接起来的。
至于原理为什么说是sqoop,是因为sync_data_to_hive_ods.sh 里面调用的sqoop的数据同步方法。当然也可以在里面开发采用datax的数据同步方式。
8,执行之后,看日志
发现日志是成功的。
9,检查数据是否同步到hive数仓
10,仔细看看系统自动生成的数据长什么样
好啦,今天这篇主要介绍主流调度工具DS的数据采集的全流程,工作实战。
希望你看得尽兴,学得开心。不难,但很重要。
下次再见!