DataOps驱动数据集成创新:Apache DolphinScheduler SeaTunnel on Amazon Web Services

file

引言

在数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。DataOps作为一种文化、流程和实践的集合,旨在提高数据管道的质量和效率,从而加速数据从源头到消费的过程。白鲸开源科技,作为DataOps领域的领先开源原生公司,由Apache成员成立,80%的员工都是Apache Committer,主导着两个Apache顶级开源项目:Apache DolphinScheduler和Apache SeaTunnel。这些项目在全球6000多家企业中得到实践和使用,展现了DataOps的优势。

Apache DolphinScheduler:云原生时代的高稳定可视化调度平台

Apache DolphinScheduler是一个云原生的可视化工作流调度平台,它解决了企业级场景中的多个痛点,如任务单元多、执行频率高、数据量和任务量大、存在依赖关系等。与传统的老旧调度引擎相比,DolphinScheduler支持多任务类型、集群化部署与拓展,去中心分布式设计,高稳定可用,开源数据组件更新升级频率高,以及多云异构数据的管理能力。

特点

  • 开源数据组件:更新升级频率高,保持技术栈的先进性。
  • 多云异构数据管理:适应不同云环境和数据源的需求。
  • 任务稳定运行:支持百万数据量级的任务稳定运行。

Apache SeaTunnel:新一代实时多源数据同步工具——大数据高速公路

Apache SeaTunnel是一个实时多源数据同步工具,支持上百种源数据库/地点和目标数据库/地点,包括MySQL、PostgreSQL、Kafka、MongoDB、Elastic、Hive等。SeaTunnel的性能比原有解决方案快50%-2倍,甚至在某些情况下快30倍。它支持批量数据全量、增量集成以及实时数据集成,为大数据提供了高速公路。

特点

  • 性能卓越:SeaTunnel性能快50%-2倍,某些情况下快30倍。
  • 数据同步与集成:支持批量数据全量、增量集成以及实时数据集成。

WhaleStudio简介

WhaleStudio是白鲸开源科技根据全球最佳实践发布的商业版版本,

file

file

调度模块产品功能

工作流编排能力

它支持各类计算任务组件,如Amazon DMS、Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等,以及各类云数据库和计算架构,支持K8S、MLDB。平台采用插件式设计,支持自由扩展数据源支持,可视化的数据源管理,大大减少了配置修改带来的工作量。

file

file

  • 工作流基本配置:包括标签设置、租户、牌、全局变量和超时告警。
  • 执行策略:可以是并行、串行等待或串行优先。
  • 数据开发能力:包括在线IDE&集成,实现DataOps。
数据开发能力

WhaleStudio可以实现在线 IDE & 集成 ,实现 DataOps.

file

产品功能详解
  • SQL任务 在源中心创建数据源连接,在任务中指定数据源,在脚本中编写SQL语句,支持读写混合和多行SQL,支持设置多个前置SQL语句,支持调试。

file

  • 跨项目依赖任务 依赖检查任务,跨工作流检查,支持时间日期检查,支持自循环检查,依赖策略包括失败-继续和失败-等待。

  • 资源中心 – git打通 Git文件功能允许用户将整个Git仓库作为资源文件上传到资源中心,执行任务时下载脚本文件,并提供更新接口。

file

  • 数据任务血缘关系影响分析 工作流定义和任务定义的影响分析,查看任务加工的影响深度和广度,工作流实例和任务实例的影响分析。

file

  • 源中心 统一管理所有数据源,控制数据源的读写权限,重要信息加密显示,多种使用场景。

file

同步模块产品功能

WhaleTunnel支持160种数据源接口,多种数据集成方式,包括批量数据全量、增量集成和实时数据集成。它支持商业数据库实时CDC,包括Mysql cdc、PostgreSQL cdc等。

离线同步任务定义

离线同步任务定义包括Source和Sink,Source用来定义数据的来源,Sink用来定义数据同步的目标。支持选择同步字段、全表同步、已有表结构处理、已有数据处理和保障数据一致性。

file

实时同步任务定义

实时同步任务定义包括创建数据源、Source和任务设置。支持历史数据阶段每次读取的行数、作业启动模式、在快照读取阶段读取增量日志并去重数据、并行度设置等。

file

数据转换及处理–Transform

WhaleTunnel提供多种数据转换节点,可以在数据同步管道中对表属性或数据进行转换处理,包括单列复制多列、单列拆分为多列、字段删除、字段重命名、字段值替换、数据变更处理、自定义sql脚本等。

Transform可适配实时同步中的DDL变更,如根据表达式匹配的transform会自动对新增字段进行处理。

表DDL变更检查–刷新表元数据

WhaleTunnel支持对同步任务中配置的表进行表结构变更检查,以获取尤其是离线同步任务中的表结构变化。支持主动批量检查发现表结构变更和定时批量检查发现表结构变更。

file

实时数据同步支持DDL变更触发暂停、报警以及延迟告警

实时数据处理支持多种实时数据监测处理,包括DDL变更暂停、DDL变更告警、DDL暂停加表、DDL手工处理等。

产品功能
  • 数据质量校验

数据质量支持多种数据源,包括正则表达式、表行数校验、两表值比对、空值检测、使用Spark实现、及时性校验、多表准确性、字段长度校验、枚举值校验、自定义SQL、唯一性校验。

file

  • 数据质量场景

数据质量比对类型包括两表值比对,场景如计算语文成绩详情表yunwen_list所有人的总分和成绩汇总表chengji中语文总成绩,两者差值在1分以内,否则就阻断工作流执行。

file

Demo

下面是一个Demo,详细演示如何从Aurora CDC实时数据同步到Redshift:

https://www.bilibili.com/video/BV19zq2YpEFd/

src="//player.bilibili.com/player.html?isOutside=true&aid=113632822167469&bvid=BV19zq2YpEFd&cid=27285128673&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true">

结语

Apache DolphinScheduler和Apache SeaTunnel作为全球领先的开源原生DataOps平台,不仅提供了强大的数据集成和调度能力,还通过其商业版本WhaleStudio,帮助企业智能化地完成多数据源、多云及信创环境的数据集成、数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题。这些工具的全球应用案例证明了它们在数据集成领域的创新和领导地位。随着技术的不断进步和企业需求的日益增长,DataOps将继续引领数据管理的未来。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/492840.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大模型】GraphRAG技术原理

核心概念 GraphRAG 的核心在于用大模型构建知识图谱知识图谱聚类社区化RAG RAG就是输入(问题知识)到大模型 1-大模型自动从海量数据中构建知识图谱(提取合并实体关系) 2-聚类算法从知识图谱中聚类社区并生成社区摘要 3-输入问题…

揭秘区块链隐私黑科技:零知识证明如何改变未来

文章目录 1. 引言:什么是零知识证明?2. 零知识证明的核心概念与三大属性2.1 完备性(Completeness)2.2 可靠性(Soundness)2.3 零知识性(Zero-Knowledge) 3. 零知识证明的工作原理4. 零…

王佩丰24节Excel学习笔记——第十二讲:match + index

【以 Excel2010 系列学习,用 Office LTSC 专业增强版 2021 实践】 【本章小技巧】 vlookup与match,index 相结合使用match,index 结合,快速取得引用的值扩展功能,使用match/index函数,结合照相机工具获取照片 一、回顾…

探秘C语言:从诞生到广泛应用的编程世界

引言 在编程的广袤天地里,C 语言宛如一颗璀璨的恒星,持久而耀眼地散发着光芒。自诞生以来,它就以独特的魅力和强大的功能,深深扎根于软件开发的各个层面。无论是构建复杂的操作系统,还是操控微小的嵌入式设备&#xff…

【Python】pandas库---数据分析

大学毕业那年,你成了社会底层群众里,受教育程度最高的一批人。 前言 这是我自己学习Python的第四篇博客总结。后期我会继续把Python学习笔记开源至博客上。 上一期笔记有关Python的NumPy数据分析,没看过的同学可以去看看:【Pyt…

常见异构程序设计语言

目录 一、OpenMP 二、MPI 三、CUDA/HIP 四、OpenACC 五、Athread 六、OpenCL 七、oneAPI 20世纪80年代,异构计算技术就已经诞生了。异构就是CPU、DSP、GPU、ASIC、协处理器、FPGA等各种计算单元、使用不同的类型指令集、不同的体系架构的计算单元&#xff0c…

番外篇 Git 的原理与使用

PS:本篇是个长篇,但是阅读完,可以基本了解 Git 在实际开发中的绝大部分常用操作。 前言:什么是Git 我们在日常工作 / 学习时,对于某些文档 / 代码,可能会存在多个版本需要维护,但是随着版本的…

音频开发中常见的知识体系

在 Linux 系统中,/dev/snd 目录包含与声音设备相关的文件。每个文件代表系统中的一部分音频硬件或音频控制接口。以下是你列出的文件及其含义: 一.基本术语 样本长度(sample):样本是记录音频数据最基本的单位,计算机对每个通道采…

我的工作会被AI替代吗?

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益: 了解大厂经验拥有和大厂相匹配的技术等 希望看什么,评论或者私信告诉我! 文章目录 一…

‌HBase是什么,‌HBase介绍

‌官方网站:Apache HBase – Apache HBase Home HBase是一个分布式的、面向列的NoSQL数据库,主要用于存储和处理海量数据。‌它起源于Google的​​​​​​​BigTable论文,是Apache Hadoop项目的子项目。HBase设计用于高可靠性、高性能和可伸…

【C 语言指针篇】指针的灵动舞步与内存的神秘疆域:于 C 编程世界中领略指针艺术的奇幻华章

文章目录 【C 语言篇】指针的灵动舞步与内存的神秘疆域:于 C 编程世界中领略指针艺术的奇幻华章前言一 、指针的介绍与使用1. 指针的介绍1.1指针表示1.2指针变量1.3空指针 2. 使用指针2.1交换两个变量的值2.2计算输出最小值和最大值 二、野指针的介绍与使用1. 野指针…

网络视频监控平台/安防监控/视频综合管理Liveweb视频汇聚平台解决方案

一、当前现状分析 当前视频资源面临以下问题: 1)不同单位在视频平台建设中以所属领域为单位,设备品牌众多,存在的标准不一,各系统之间也没有统一标准; 2)各单位视频平台建设分散、统筹性差&am…

【从零开始入门unity游戏开发之——C#篇08】逻辑运算符、位运算符

文章目录 一、逻辑运算符1、**&&(逻辑与)**语法:示例: 2、**||(逻辑或)**语法:示例: 3、**!(逻辑非)**语法:示例: 4、**^&…

CEF127 编译指南 MacOS 篇 - 编译 CEF(六)

1. 引言 经过前面的准备工作,我们已经完成了所有必要的环境配置。本文将详细介绍如何在 macOS 系统上编译 CEF127。通过正确的编译命令和参数配置,我们将完成 CEF 的构建工作,最终生成可用的二进制文件。 2. 编译前准备 2.1 确认环境变量 …

环境变量的知识

目录 1. 环境变量的概念 2. 命令行参数 2.1 2.2 创建 code.c 文件 2.3 对比 ./code 执行和直接 code 执行 2.4 怎么可以不带 ./ 2.4.1 把我们的二进制文件拷贝到 usr/bin 路径下,也不用带 ./ 了 2.4.2 把我们自己的路径添加到环境变量里 3. 认识PATH 3.…

从0-1开发一个Vue3前端系统页面-9.博客页面布局

本节主要实现了博客首页界面的基本布局并完善了响应式布局,因为完善了响应式布局故对前面的页面布局有所改动,这里会将改动后的源码同步上传。 1.对页面头部的用户信息进行设计和美化 布局设计参考 :通常初级前端的布局会通过多个div划分区域…

Nginx中Server块配置的详细解析

Nginx中Server块配置的详细解析 一、Server块简介 在Nginx配置文件中,server块是非常关键的部分。它用于定义虚拟主机,一个server块就代表一个虚拟主机。这使得我们可以在一台Nginx服务器上通过不同的配置来处理多个域名或者基于不同端口的服务请求。 …

C# Winform双色纸牌接龙小游戏源码

文章目录 一、设计来源双色纸牌接龙小游戏讲解1.1 主界面1.2 游戏界面1.3 游戏界面快成功了 二、效果和源码2.1 动态效果2.2 源代码 源码下载更多优质源码分享 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/144419994 …

Linux环境下 搭建ELk项目 -单机版练习

前言 ELK 项目是一个由三个开源工具组成的日志处理和分析解决方案,ELK 是 Elasticsearch、Logstash 和 Kibana 的首字母缩写。这个项目的目标是帮助用户采集、存储、搜索和可视化大量的日志和事件数据,尤其是在分布式系统中。下面是每个组件的概述&…

Java写URI网址唤醒APP小程序等NDEF信息

本示例使用的发卡器:https://item.taobao.com/item.htm?spma21dvs.23580594.0.0.52de2c1bvCxCPM&ftt&id615391857885 import com.sun.jna.Library ; import com.sun.jna.Native; import java.io.IOException;interface CLibrary extends Library {//DLL绝…