主流大数据调度工具DolphinScheduler之数据采集

主流大数据调度工具DolphinScheduler之数据采集

news/2024/12/30 2:34:38/文章来源:https://blog.csdn.net/wowulita123/article/details/140467722

今天继续给大家分享主流大数据调度工具DolphinScheduler，以及数据的ETL流程。

一：调度工具DS

主流大数据调度工具DolphinScheduler，

其定位：解决数据处理流程中错综复杂的依赖关系

任务支持类型：支持传统的shell任务，同时支持大数据平台任务调度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二，数据ETL流程(调度流程)

今天分享一个把数据从人大金仓数据库采集到大数据hive的案例。

0，业务概念

数据采集：指的是从其他的数据库，Oracle，MySQL，kingbase里的数据同步到hive大数据。

采集原理：本次分享的数据采集，其底层实现逻辑是sqoop。

数据同步都是有严格的规范性。

1，先在数据库查询该表的数据信息

2，在hive里创建表以备数据同步用

红色方框里是从数据库同步过来的数据，

蓝色方框里是系统自动生成的数据。

3，确认hive该表暂无数据

4，首先创建工作流

5，配置工作流信息

6，参数设置

7，核心是脚本开发

注明源数据库系统名，数据库名，表名等。

sync_type = 1 是全量同步，传参到shell脚本里。

从其他数据库同步到hive大数据，名称都是有规范的。

可以看到target_tab_name，名字是由源系统名，源库名，源表名，给拼接起来的。

至于原理为什么说是sqoop，是因为sync_data_to_hive_ods.sh 里面调用的sqoop的数据同步方法。当然也可以在里面开发采用datax的数据同步方式。

8，执行之后，看日志

发现日志是成功的。

9，检查数据是否同步到hive数仓

10，仔细看看系统自动生成的数据长什么样

好啦，今天这篇主要介绍主流调度工具DS的数据采集的全流程，工作实战。

希望你看得尽兴，学得开心。不难，但很重要。

下次再见！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/381394.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

人工智能增强的心电图推导的身体质量指数作为未来心脏代谢疾病预测指标| 文献-基于人工智能(AI base)医学影像研究与疾病诊断

人工智能增强的心电图推导的身体质量指数作为未来心脏代谢疾病预测指标| 文献-基于人工智能(AI base)医学影像研究与疾病诊断

Title 题目 Artificial intelligence-enhancedelectrocardiography derived body massindex as a predictor of futurecardiometabolic disease 人工智能增强的心电图推导的身体质量指数作为未来心脏代谢疾病预测指标 01 文献速递介绍心电图（ECG）可…

阅读更多...

ubuntu系统vscode调试c/c++大中型项目

ubuntu系统vscode调试c/c++大中型项目

文章目录 1. 插件2. 项目工程3. vsode的配置setting.jsonc_cpp_properties.json 4. 启动调试前置阅读 vscode调试第一篇 1. 插件 c/c, cmake, cmake tools 2. 项目工程对于我的项目需要用到很多的三方库，三方库的版本又会有很多，一般都是用cmake编译…

阅读更多...

项目笔记| 基于Arduino和IR2101的无刷直流电机控制器

项目笔记| 基于Arduino和IR2101的无刷直流电机控制器

本文介绍如何使用 Arduino UNO 板构建无传感器无刷直流 （BLDC） 电机控制器或简单的 ESC（电子速度控制器）。无刷直流电机有两种类型：有传感器和无传感器。有感无刷直流电机内置3个霍尔效应传感器，这些传感…

阅读更多...

MLIR的TOY教程学习笔记

MLIR的TOY教程学习笔记

MLIR TOY Language 文章目录 MLIR TOY Language如何编译该项目ch1: MLIR 前端IR解析ch2: 定义方言和算子 (ODS)1. 定义方言2. 定义OP3. OP相关操作4. 定义OP ODS (Operation Definition Specification)1. 基本定义2. 添加文档3. 验证OP4. 新增构造函数5. 定义打印OP的格式 ch3:…

阅读更多...

降雨量预测 | Matlab基于ARIMA-RBF降雨量预测

降雨量预测 | Matlab基于ARIMA-RBF降雨量预测

目录效果一览基本介绍程序设计参考资料效果一览基本介绍降雨量预测 | Matlab基于ARIMA-RBF降雨量预测注：程序和数据放在一个文件夹。程序语言为matlab，程序可出预测效果图，指标图; 代码特点：参数化编程、参数可方便更改、代…

阅读更多...

浅聊 Three.js 屏幕空间反射SSR-SSRShader

浅聊 Three.js 屏幕空间反射SSR-SSRShader

浅聊 Three.js 屏幕空间反射SSR(2)-SSRShader 前置基础渲染管线中的相机和屏幕示意图 -Z (相机朝向的方向)||| -------------- <- 屏幕/投影平面| | || | || | (f) | <- 焦距| | ||…

阅读更多...

前端vue框架的项目文件创建及常见Vue指令运用

前端vue框架的项目文件创建及常见Vue指令运用

前言本文介绍前端Vue框架，先从npm工具创建的Vue项目开始，对项目结构的一些文件用途进行说明，随后对Vue文件编写所用的两种风格（选项式API和组合式API风格）做了区分，同时对编写代码中常见的生命周期钩子函…

阅读更多...

Pytorch使用前期准备

一、检查英伟达驱动和CUDA Toolkit是否正确安装 1.任务管理器性能选项卡中能正确显示显卡型号则表示显卡驱动正确安装 2. CUDA Toolkit会跟随pytorch自动安装二、虚拟环境的准备 Miniconda — Anaconda documentationhttps://docs.anaconda.com/miniconda/ 1.安装anaconda或者…

阅读更多...

腾讯元宝上线“3D角色梦工厂”：快速生成专属3D角色！

腾讯元宝上线“3D角色梦工厂”：快速生成专属3D角色！

7月16日，腾讯旗下大模型应用“腾讯元宝”上线“3D角色梦工厂”，允许用户通过上传一张五官清晰的正面头像，并选择不同的角色模板，迅速生成个人3D角色！ 技术特点 “3D角色梦工厂”将大模型生成技术与3D应用相结合&#…

阅读更多...

大模型(LLM)选择指南：AI解决方案的12个决策点

大模型(LLM)选择指南：AI解决方案的12个决策点

今天我们来看看国外各家领先的大型语言模型（LLM），这些模型来自OpenAI、Google、Anthropic、Cohere、Meta、Mistral AI以及Databricks等不同的供应商。我们会根据几个关键因素来评估这些模型，包括性能（涵盖价格、质量和…

阅读更多...

NET 语言识别，语音控制操作、语音播报

NET 语言识别，语音控制操作、语音播报

System.Speech. 》》System.Speech.Synthesis; 语音播报》》System.Speech.Recognition 语音识别 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Speech.Recog…

阅读更多...

在 Windows 上运行 Linux：WSL2 完整指南（二）

在 Windows 上运行 Linux：WSL2 完整指南（二）

系列文章目录在 Windows 上运行 Linux：WSL2 完整指南（一）🚪 在 Windows 上运行 Linux：WSL2 完整指南（二）🚪 文章目录系列文章目录前言四、常见问题及解决方法问题二：0…

阅读更多...

昇思25天学习打卡营第17天|LLM-基于MindSpore的GPT2文本摘要

昇思25天学习打卡营第17天|LLM-基于MindSpore的GPT2文本摘要

打卡目录打卡环境准备准备阶段数据加载与预处理 BertTokenizer 部分输出模型构建 gpt2模型结构输出训练流程部分输出部分输出2（减少训练数据） 推理流程环境准备 pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspo…

阅读更多...

AV1技术学习：Affine Motion Compensation

AV1技术学习：Affine Motion Compensation

一、Affine Model Parameter 除了传统的平移运动补偿，AV1 还支持仿射变换模型，将当前像素点 (x, y) 通过以下方式投影到参考帧中的预测像素点 (x, y). 参数 (h13, h23) 对应于平移模型中使用的常规运动向量。参数 h11 和 h22 控制垂直和水平轴上的比例…

阅读更多...

Spring后端框架复习总结

Spring后端框架复习总结

之前写的博客太杂，最近想把后端框架的知识点再系统的过一遍，主要是Spring Boot和Mybatis相关，带着自己的理解使用简短的话把一些问题总结一下，尤其是开发中和面试中的高频问题，基础知识点可以参考之前写java后端专栏，这篇不再赘述。目录 Spring什么是AOP？底层原理？事务…

阅读更多...

【HarmonyOS NEXT】网络请求 - 分页加载

【HarmonyOS NEXT】网络请求 - 分页加载

分页加载关键字：onReachEnd 一、申请网络权限在 module.json5 文件中，添加网络权限： {"module": {..."requestPermissions": [{"name": "ohos.permission.INTERNET","usedScene": {&qu…

阅读更多...

K8S实战进阶

K8S实战进阶

title ‘K8S实战进阶’ date 2024-04-02T16:57:3608:00 draft true 一、搭建Kubernetes集群 1.1 搭建方案 1.1.1 minikube minikube 是一个工具， 能让你在本地运行 Kubernetes。 minikube 在你的个人计算机（包括 Windows、macOS 和 Linux PC&…

阅读更多...

图像生成（Text-to-Image）发展脉络

图像生成（Text-to-Image）发展脉络

这篇博客对图像生成（image generation） 领域的经典工作发展进行了梳理，包括重要的一些改进，目的是帮助读者对此领域有一个整体的发展方向把握，并非是对每个工作的详细介绍。脉络发展（时间顺序&#xff0…

阅读更多...

WGS84经纬度坐标 GCJ02火星坐标 BD09百度坐标互相转换

WGS84经纬度坐标 GCJ02火星坐标 BD09百度坐标互相转换

WGS84经纬度坐标 GCJ02火星坐标 BD09百度坐标互相转换背景：uniapp做的微信小程序，使用到了相机拍照并获取位置坐标信息；在腾讯地图上展示坐标点位置信息； 由于业务需要我们的PC端用的不是腾讯地图，需要使用WGS84坐标或…

阅读更多...

uniapp判断h5/微信小程序/app端+实战展示

uniapp判断h5/微信小程序/app端+实战展示

文章目录导文使用条件编译的基本语法常见的平台标识符示例实战展示使用场景举例注意事项导文这里是导文当你在开发Uni-app时，需要根据不同的平台（比如App端、H5端、微信小程序等）来执行不同的代码逻辑，可以使用条件编译来实现…

阅读更多...

最新文章

推荐文章