ETL中双流合并和多流合并的区别

一、ETL工具

ETLCloud数据集成平台集实时数据集成和离线数据集成以及API发布为一体的数据集成平台。与其他开源数据集成工具相比,采用轻量化架构、具有更快的部署速度、更快的数据传输速度、更低的运维成本,同时支持多租户的团队协作能力,能够满足企业各种复杂的数据处理需求。含有丰富的ETL操作相关的组件,通过拉取的方式来搭建流程,对于小白和非开发人员来说非常的友好。

image

image

今天我们要介绍两个在ETL过程中经常使用的组件,双流join合并组件和多流UnionAll合并组件。

二、组件演示

1、双流join合并组件

首先创建好流程,在数据运算组件中找到双流合并组件,顾名思义这个组件是将两边的数据流合并在一起,join就是我们sql语法中的内连接和外连接了,所以我们需要拉取两个输入组件,这里我们拉取库表输入组件,流程设计如下:

image

库表输入配置,只需要配置好相关数据源,选择库表,设置输入字段即可

image

双流join组件,点击组件打开配置页面,需要理解了sql语法中的join操作即可上手。

image

在join模式中有三个选项,分别是左连接,内连接,笛卡尔积,

  • LEFT JOIN 会返回左边表(左表)的所有行,以及右边表(右表)中与左表匹配的行。如果右表中没有匹配的行,则会返回 NULL 值。

  • INNER JOIN 是最常用的连接操作,它根据两个表之间的共同列的值将两个表进行连接。只返回符合连接条件的行,即两个表中通过连接条件关联起来的行。

  • 笛卡儿积是指将两个表中的每一行都与另一个表中的每一行进行组合,返回的结果集大小为两个表行数的乘积。

image

通过leftjoin举例说明,根据自己的需求决定左右表对应的数据流,

image

关联条件配置,即符合条件的数据就保留

image

字段配置可以决定哪些字段保留哪些去掉,A表合并后的数据将以此字段配置为准,没有配置在本字段列表中的字段将被删除

image

指定B表需要加入到A表中的字段,不需要加入的字段请删除

image

点击保存,运行结果如下,数据会根据我们所配置的输出。

image

2**、多流合并组件**

拉取多流Uinon合并组件,创建如下流程,多流合并组件相比双流join组件有两个不同点,一个是把多个流合并成一个流的数据,将不同节点的数据组合为新的数据。

image

打开多流Union合并配置页,可以发现就是单纯把需要的字段保留不需要的去掉,然后把多条流的数据合并输出。

image

字段配置中,我们选择我们需要的字段。

image

合并运行查看日志可以看出

image

双流join是会根据join条件而合并的,多流union会对每条流的数据进行字段合并,然后统一输出成新的数据。

image

三、总结

在ETL过程中经常使用的两个组件是双流join合并组件和多流UnionAll合并组件。

双流join合并组件:用于将两边的数据流合并在一起,支持左连接、内连接和笛卡尔积。用户可以根据需要选择左连接保留左表所有行、内连接返回符合条件的数据行,或笛卡尔积返回两表所有可能组合的行。配置简单直观,根据关联条件和字段配置进行数据合并,并输出结果。

多流UnionAll合并组件:用于将多个数据流合并成一个流的数据,将不同节点的数据组合为新的数据。用户可以选择需要的字段进行保留,然后将多条流的数据合并输出。在字段配置中选择所需字段,然后合并运行查看日志即可输出合并后的数据。

总的来说,双流join合并组件适用于根据条件合并数据流,而多流UnionAll合并组件适用于将多条流数据合并成一个新的数据流。这些组件在ETLCloud中提供了强大的数据处理功能,方便用户进行数据集成和处理操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/315667.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencv_17_翻转与旋转

一、图像翻转 1)void flip_test(Mat& image); 2)void ColorInvert::flip_test(Mat& image) { Mat dst; //flip(image, dst, 0); //上下翻转 flip(image, dst, 1); //左右翻转 // flip(image, dst, -1); //180度翻转 imsho…

JAVA读取从WPS在Excel中嵌入的图片资源

读取从WPS在Excel中嵌入的图片资源 引言 许多数据文件中可能包含嵌入式图片,这些图片对于数据分析和可视化非常重要。然而,从 WPS 在 Excel 中读取这些图片可能会有一些技术挑战。在本文中,我将展示如何从 WPS Excel 文件中读取嵌入的图片&am…

Jmeter Beanshell 设置全局变量

//获取token import com.alibaba.fastjson.JSONObject; import com.alibaba.fastjson.JSONArray; import java.util.*; import org.apache.jmeter.util.JMeterUtils; //获取可上机机器 String response prev.getResponseDataAsString(); JSONObject responseObect JSONObjec…

【CANoe示例分析】TCP Chat(CAPL) with TLS encription

1、工程路径 C:\Users\Public\Documents\Vector\CANoe\Sample Configurations 15.3.89\Ethernet\Simulation\TLSSimChat 在CANoe软件上也可以打开此工程:File|Help|Sample Configurations|Ethernet - Simulation of Ethernet ECUs|Basic AUTOSAR Adaptive(SOA) 2、示例目…

秋招后端开发面试题 - JVM底层原理

目录 JVM底层原理前言面试题Java 对象的创建过程?什么是指针碰撞?什么是空闲列表?/ 内存分配的两种方式?JVM 里 new 对象时,堆会发生抢占吗?JVM 是怎么设计来保证线程安全的?/ 内存分配并发问题…

tokio多任务绑定cpu(绑核)

tokio 是 rust 生态中流行的异步运行时框架。在实际生产中我们如果希望 tokio 应用程序与特定的 cpu core 绑定该怎么处理呢? 首先我们先写一段简单的多任务程序。 use tokio; use tokio::runtime; use core_affinity;fn tokio_sample() {let rt runtime::Builde…

网络安全的防护措施有哪些?

1. 安全策略和合规性 2. 物理和网络安全 3. 数据加密 4. 软件和系统更新 5. 访问控制 6. 威胁监测和响应 7. 员工培训和安全意识 8. 备份和灾难恢复 零基础入门学习路线 视频配套资料&国内外网安书籍、文档 网络安全面试题 网络安全的防护措施多种多样&#xff0c…

开源相机管理库Aravis例程学习(五)——camera-api

开源相机管理库Aravis例程学习(五)——camera-api 简介例程代码函数说明arv_camera_get_regionarv_camera_get_pixel_format_as_stringarv_camera_get_pixel_formatARV_PIXEL_FORMAT_BIT_PER_PIXEL 简介 本文针对官方例程中的:03-camera-api…

甘特图是什么?利用甘特图来优化项目管理流程

在现代项目管理中,图表是一种强大而直观的工具,可以帮助项目经理和团队成员清晰地了解并掌控整个项目进程。其中,甘特图是最常用和最有效的图表之一。 甘特图是一种条形图,可以用来直观地展示项目中各个任务的进度、持续时间和相互关系。它由一个横轴和一个纵轴组成。横轴代表时…

centos 7使用源码编译安装Python 3.12.2(最新版本)

(一)、说明 在centos 7上,默认安装出来的python是:2.7.5版本 1.查看python版本: python --version 2.通过yum安装出来的,适合当前操作系统的,最新的python版本是:3.6.8 python3…

linux的压缩与备份

一、打包 格式&#xff1a;tar -参数 <打包文件名> <打包的目标> 作用&#xff1a;将文件或者目录打包 重要参数&#xff1a;-f 使用归档文件&#xff0c;一定要加上这个参数 -c 新建打包文件 -x 解包文件 -t 可以不用解包就能查看包文件内容 -v 打包和解包时显…

02.Kafka部署安装

1 Linux 安装 Kafka 1.1 安装前的环境准备 由于 Kafka 是用 Scala 语言开发的&#xff0c;运行在 JVM 上&#xff0c;因此在安装Kafka之前需要先安装JDK。 yum install java-1.8.0-openjdk* -y kafka 依赖 zookeeper&#xff0c;所以需要先安装 zookeeper。 wget https://ar…

MongoDB 使用

一、引用依赖包 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-mongodb</artifactId></dependency> 二、 配置文件配置mongodb资料 MongoDB连接信息 spring.data.mongodb.host 192.16…

一款pdf工具

下载链接&#xff1a;点击跳转&#xff1b; 它是一个installer&#xff0c;下好它之后&#xff0c;把网断掉&#xff0c;然后双击它&#xff0c;他会默认安装在C盘&#xff0c;安装时&#xff0c;浏览器可能会有一个弹窗&#xff0c;直接关掉并进入任务管理器杀掉所有smallerp…

deepflow grafana plugin 编译问题解决

修改tsconfig.js 增加"noImplicitAny": false&#xff0c;解决代码类型没有指定&#xff0c;显示Any 错误 To solve the error, explicitly set the parameters type to any, use a more specific type or set noImplicitAny to false in tsconfig.json. https://b…

《面向云计算的零信任体系第1部分:总体架构》行业标准正式发布

中华人民共和国工业和信息化部公告2024年第4号文件正式发布行业标准&#xff1a;YD/T 4598.1-2024《面向云计算的零信任体系 第1部分&#xff1a;总体架构》&#xff08;后简称“总体架构”&#xff09;&#xff0c;并于2024年7月1日正式施行。 该标准由中国信通院牵头&#xf…

pycharm 安装“通义灵码“并测试

过程&#xff1a;“File>setting>Plugins” 提示&#xff1a; 翻译之后&#xff1a; 点击"接受"之后&#xff0c;提示一下图片&#xff0c;点击ok 安装完成&#xff1a; 安装完"通义灵码"之后&#xff0c;需要登陆&#xff0c;登陆后测试 参考…

Python快速入门1数据类型(需要具有编程基础)

数据类型&#xff1a; Python 3.0版本中常见的数据类型有六种&#xff1a; 不可变数据类型可变数据类型Number&#xff08;数字&#xff09;List&#xff08;列表&#xff09;String&#xff08;字符串&#xff09;Dictionary&#xff08;字典&#xff09;Tuple&#xff08;元…

错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决?

&#x1f3c6;本文收录于「Bug调优」专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收藏&&…

Linux基本指令(2)

目录 mv指令&#xff1a; cat&#xff1a; more指令&#xff1a; less指令&#xff1a; head指令&#xff1a; tail指令&#xff1a; mv指令&#xff1a; 说明&#xff1a; mv命令是move的缩写&#xff0c;可以用来移动文件或者文件改名(move(rename)files),是linux系统下…