[实时计算flink]CREATE DATABASE AS(CDAS)语句

CDAS支持整库级别的表结构和数据的实时同步,还支持表结构变更的同步。本文为您介绍CREATE DATABASE AS(CDAS)的使用方法,并提供了多种使用场景下的示例。

背景信息

CDAS是CTAS语法的一个语法糖,用于实现整库同步、多表同步的功能。阿里云Flink引擎会将CDAS语句中每个需要同步的表翻译成一个对应的CTAS语句。因此,CDAS还拥有CTAS的数据同步和表结构变更同步的能力,常用于全自动化的数据集成场景。此外,阿里云Flink还能对源表进行优化,复用一个源表节点读取多业务表的数据。这对于MySQL CDC数据源场景尤为适用,因为不仅可以减少数据库的连接数,还能避免重复拉取Binlog数据,以降低数据库的读取压力。

使用限制

  • 仅Flink计算引擎vvr-4.0.11-flink-1.13及以上版本支持CDAS语法。

    重要

    CDAS语法不支持进行调试。

  • 仅Flink计算引擎vvr-4.0.13-flink-1.13及以上版本支持分库合并同步。

  • CDAS支持的上下游存储列表如下。

    连接器名称

    源表

    结果表

    备注

    MySQL

    ×

    不支持同步MySQL视图。

    消息队列Kafka

    ×

    无。

    MongoDB

    ×

    • 暂不支持分库合并同步。

    • 暂不支持同步MongoDB元信息。

    • 支持通过CDAS语句将MongoDB中的数据及表结构变更同步至目标表。具体的配置要求请参见使用MongoDB Catalog。

    Upsert Kafka

    ×

    无。

    实时数仓Hologres

    ×

    如果下游是Hologres,CDAS在默认情况下会为每个表创建相应数量(connectionSize参数值)个连接。此时您可以使用connectionPoolName参数,让配置相同名称连接池的表可以共享连接池。

    说明

    • 在将数据同步到Hologres时,如果您的上游源表包含了Fixed Plan不支持类型的数据,建议通过INSERT INTO语句的方式,在Flink内部做类型转换后将数据同步到Hologres。不要用CDAS方式创建Sink结果表进行数据同步,因为这种方式会无法走Fixed Plan,写入性能较差。

    • 实时计算Flink版仅支持读写Hologres内表,因此Hologres实例必须是独占实例,不支持Hologres共享集群实例。

    StarRocks

    ×

    仅支持EMR的StarRocks。

    流式数据湖仓Paimon

    ×

    • 仅Flink计算引擎vvr-6.0.7-flink-1.15及以上版本支持Paimon结果表。

    • 暂不支持同步到Paimon DLF 2.0结果表。

前提条件

  • 执行CDAS语法前,确保工作空间中已注册目标端的Catalog,详情请参见管理元数据。

  • 执行CDAS语法前,如果您需要访问不同账号下的上下游资源、以及使用RAM用户或RAM角色等身份访问时,请确保登录Flink全托管的账号具有读写上下游资源的权限,否则会因为权限不足导致读写操作失败。

注意事项

  • 使用VVR 8.0.6及以上版本时,CDAS作业启动后,支持添加新表后从作业快照重启,从而捕获到新的表。详情请参见示例三:源库新增表加入数据同步。

  • 使用VVR 8.0.5及以下版本时,CDAS作业启动后,作业同步的表已经确定,数据库中新增的表不会自动捕捉,也无法通过重启作业的方式捕获到。如果需要同步新增的表,您可以选择以下任一种方案:

    • 原有CDAS作业不变,启动一个新的作业同步新增的表。例如

      // 新建CTAS作业同步新增加的表new_table
      CREATE TABLE IF NOT EXISTS new_table
      AS TABLE mysql.tpcds.new_table 
      /*+ OPTIONS('server-id'='8008-8010') */;
    • 停止现有CDAS作业,清理已同步的数据后,以全新状态重启CDAS作业来重新同步数据。

功能特性

功能

详情

整库同步

支持实时同步整库(或者多张表)的全量和增量数据到每张对应的结果表中。

表结构变更同步

在实时同步整库数据的同时,还支持将每张源表的表结构变更(加列等)实时同步到结果表中。

分库合并同步

支持使用正则表达式定义库名,匹配数据源的多个分库下的源表,合并后同步到下游每张对应表名的结果表中。

源库新增表加入数据同步

CDAS作业启动后,如果源库新增表,支持从作业快照重启,从而捕获到新的表,对新增表进行数据同步。

多CDAS&CTAS语句

支持使用STATEMENT SET语法将多个CDAS和CTAS语句作为一个作业一起提交,并支持对源表节点的合并复用,降低对数据源的压力。

启动流程

当执行CDAS语句时,阿里云Flink将会按照以下流程执行:

  1. 检查目标存储中是否存在目标库和结果表。

    • 如果不存在目标库,则通过目标端Catalog去目标存储中创建相应的目标库。

    • 如果存在目标库,则跳过建库,并检查目标库是否存在该结果表。

      • 如果不存在,则在目标库中创建相应的结果表,该结果表具有和源库中表相同的表名和Schema。

      • 如果存在,则跳过建表。

  2. 提交和启动相应的数据同步作业。将源库中的数据以及Schema变更同步到目标库下的表中。

例如,从MySQL到Hologres的CDAS数据同步流程如下图所示。

CDAS示意图

表结构变更同步策略

因为CDAS是CTAS语法的一个语法糖,所以表结构变更能力与CTAS一致,详情请参见CREATE TABLE AS(CTAS)语句。

基本语法

CREATE DATABASE IF NOT EXISTS <target_database>
[COMMENT database_comment]
[WITH (key1=val1, key2=val2, ...)]
AS DATABASE <source_database>
INCLUDING { ALL TABLES | TABLE 'table_name' }
[EXCLUDING TABLE 'table_name']
[/*+ OPTIONS(key1=val1, key2=val2, ... ) */]<target_database>:[catalog_name.]db_name<source_database>:[catalog_name.]db_name

CDAS语法复用了CREATE DATABASE语法的基本结构,其中的参数解释如下表所示。

参数

说明

target_database

数据同步的目标数据库名,可以指定具体的Catalog名称。

COMMENT

目标库的描述,默认使用source_database的描述。

WITH

目标库的参数,详情请参见管理元数据中对应的Catalog文档。

说明

key和value都需要为字符串类型,例如'sink.parallelism' = '4'。

source_database

数据同步的源库名称,可以指定具体的Catalog名称。

INCLUDING ALL TABLES

同步源库中的所有表。

INCLUDING TABLE

同步源库中指定的表。支持使用竖线(|)分隔指定多个表,也可以使用正则表达式指定符合某一规则的表。例如INCLUDING TABLE 'web.*'表示要同步源库中所有web开头的表。

EXCLUDING TABLE

用于指定不需要同步的表,支持使用竖线(|)分隔指定多个表,也可以使用正则表达式指定符合某一规则的表,例如INCLUDING ALL TABLES EXCLUDING TABLE 'web.*'表示同步源库中所有不是web开头的表。

OPTIONS

源表的参数,详情请参见对应连接器支持的源表WITH参数。

说明

key和value都需要为字符串类型,例如'server-id' = '65500'。

说明

因为IF NOT EXISTS关键字为必填,所以如果目标库或结果表在目标存储中并不存在,则会先创建该目标库和结果表,否则跳过创建步骤。创建的结果表Schema会使用源表的Schema,包括主键以及物理字段的字段名和字段类型,不包括计算列、meta字段、Watermark。其中源表到结果表的字段类型会经过类型映射,详见对应连接器文档中的类型映射。

示例

示例一:整库同步

CDAS通常会配合数据源的Catalog和目标的Catalog一起使用。例如,MySQL Catalog和Hologres Catalog结合CDAS语法,完成MySQL到Hologres的全量和增量数据同步。使用MySQL Catalog可以自动解析源表的Schema及相应的参数,而不用手动编写DDL。

假设已在工作空间中注册了名为holo的Hologres Catalog和名为mysql的MySQL Catalog,MySQL中有一个名为tpcds的库。您可以使用以下语句将tpcds库下的24张表全部同步到Hologres中,包括未来的数据变更和表结构变更,无需提前在Hologres中创建表。

USE CATALOG holo;CREATE DATABASE IF NOT EXISTS holo_tpcds  -- 在hologres中创建holo_tpcds库。
WITH ('sink.parallelism' = '4') -- 可选,指定目标库的参数,每个holo sink默认使用4并发。
AS DATABASE mysql.tpcds INCLUDING ALL TABLES  -- 同步mysql中tpcds库下所有表。
/*+ OPTIONS('server-id'='8001-8004') */ ; -- 可选,指定mysql-cdc源表的额外参数。

说明

Hologres支持在创建目标Database时指定WITH参数,这些参数仅对当前作业生效,用于控制写入结果表时的行为,不会持久化到Hologres中。支持的WITH参数详情请参见实时数仓Hologres。

示例二:分库合并同步

对于分库合并同步的场景,需要利用正则表达式的库名来匹配所要同步的多个分库。使用CDAS可以将上游多个分库下相同表名的数据合并同步到Hologres目标库对应表名的同一张表中,库名和表名会作为额外的两个字段写入到每张结果表中。为保证主键唯一性,库名、表名和原主键一起作为对应Hologres表的新联合主键。

假设MySQL实例中有order_db01~order_db99多个分库,每个分库下都有order、order_detail等多张表。您可以使用以下语句将99个分库下的order、order_detail等表全部同步到Hologres中,包括未来的数据变更和表结构变更,无需提前在Hologres中创建表。

order1

USE CATALOG holo;CREATE DATABASE IF NOT EXISTS holo_order--在Hologres中创建holo_order库,包括mysql中order分库的所有表。
WITH('sink.parallelism'='4')        --可选,指定目标库的参数,每个HologresSink默认并发为4。
AS DATABASE mysql.`order_db[0-9]+` INCLUDING ALL TABLES --同步mysql中order_db分库下所有表。
/*+OPTIONS('server-id'='8001-8004')*/;  --可选,指定mysql-cdc源表的额外参数。

示例三:源库新增表加入数据同步

使用VVR 8.0.6及以上版本时,CDAS作业启动后,如果源库新增表,支持从作业快照重启,从而捕获到新的表,对新增表进行数据同步。

  1. SQL作业开发时需要增加以下语句,开启CDAS新增表读取功能。

    SET 'table.cdas.scan.newly-added-table.enabled' = 'true';
  2. 当出现新增的表需要同步时,停止作业并勾选停止前创建一次快照

  3. SQL开发中,重新部署这个SQL作业。

  4. 作业运维页面单击目标作业名称,状态集管理页签,单击历史

  5. 作业快照列表中,找到停止作业时创建的快照。

  6. 单击目标快照操作列,选择更多 > 从该快照恢复作业

  7. 作业启动配置对话框,配置作业启动信息,详情请参见作业启动。

重要

新增表功能只能用于默认的initial启动模式。

示例四:多CDAS&CTAS语句

实时计算Flink版支持使用STATEMENT SET语法将多个CTAS语句作为一个作业一起提交,并且可以对Source进行优化,复用一个Source节点读取多业务表的数据。这对于MySQL CDC数据源场景尤为适用,因为这可以减少server-id的使用,减少对数据库的连接数和读取压力。

说明

对于Source复用优化,需要这些Source表的options保持完全一致,才能合并成功进行复用。

假设MySQL实例中有tpcds、tpch、user_db01~user_db99(分库分表)多个库。您可以通过组合多条CDAS和CTAS语句,将MySQL实例下的所有库和表都同步到Hologres,只需一个Flink作业便能完成所有表的同步,只需一个Source便能读取所有表的数据,代码示例如下。

USE CATALOG holo;BEGIN STATEMENT SET;-- 同步user分库分表。
CREATE TABLE IF NOT EXISTS user
AS TABLE mysql.`user_db[0-9]+`.`user[0-9]+`
/*+ OPTIONS('server-id'='8001-8004') */;-- 同步TPCDS库。
CREATE DATABASE IF NOT EXISTS holo_tpcds
AS DATABASE mysql.tpcds INCLUDING ALL TABLES
/*+ OPTIONS('server-id'='8001-8004') */ ;
-- 同步TPCH库。
CREATE DATABASE IF NOT EXISTS holo_tpch
AS DATABASE mysql.tpch INCLUDING ALL TABLES
/*+ OPTIONS('server-id'='8001-8004') */ ;END;

示例五:多CDAS语句整库同步到Kafka

在使用多个CDAS语句整库同步到Kafka时,由于不同的数据库中可能存在相同的表,为了防止topic冲突,需要使用cdas.topic.pattern配置。cdas.topic.pattern定义了创建topic的名称的格式,其中可通过{table-name}占位符来替换为表名。如:当设置'cdas.topic.pattern'='db1-{table-name}',对于上游表名为table1的表,在Kafka中对应的topic名称为db1-table1

假设MySQL实例中有tpcds、tpch多个库。您可以通过如下方式将MySQL实例下的所有库和表都同步到Kafka,避免topic冲突,代码示例如下。

USE CATALOG kafkaCatalog;BEGIN STATEMENT SET;-- 同步TPCDS库。
CREATE DATABASE IF NOT EXISTS kafka
WITH ('cdas.topic.pattern' = 'tpcds-{table-name}')
AS DATABASE mysql.tpcds INCLUDING ALL TABLES
/*+ OPTIONS('server-id'='8001-8004') */ ;-- 同步TPCH库。
CREATE DATABASE IF NOT EXISTS kafka
WITH ('cdas.topic.pattern' = 'tpch-{table-name}')
AS DATABASE mysql.tpch INCLUDING ALL TABLES
/*+ OPTIONS('server-id'='8001-8004') */ ;END;

实时计算Flink版提供MySQL整库同步到Kafka的能力,通过引入Kafka作为中间层,并使用CDAS整库同步或CTAS整表同步到Kafka来解决

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/447307.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CesiumLab介绍

软考鸭小程序 学软考,来软考鸭! 提供软考免费软考讲解视频、题库、软考试题、软考模考、软考查分、软考咨询等服务 CesiumLab是一个围绕Cesium平台设计的完整易用的数据预处理工具集&#xff0c;它旨在最大化提升三维数据可视化效率。本文将详细介绍CesiumLab的安装、主要功能…

【stm32】DMA的介绍与使用

DMA的介绍与使用 1、DMA简介2、存储器映像3、DMA框图4、DMA基本结构5、DMA请求6、数据宽度与对齐7、数据转运DMA&#xff08;存储器到存储器的数据转运&#xff09;程序编写&#xff1a; 8、ADC连续扫描模式DMA循环转运DMA配置&#xff1a;程序编写&#xff1a; 1、DMA简介 DM…

C++笔记之类三种的继承方式

C++笔记之类三种的继承方式 code review! 文章目录 C++笔记之类三种的继承方式1.《C++ Primer Plus》(第6版)中文版Page 5502.C++类继承方式与能否隐式向上转换的关系1.《C++ Primer Plus》(第6版)中文版Page 550 除基类私有成员变量外(基类公有成员变量和保护成员变量):…

Element-ui官方示例(Popover 弹出框)

Element-ui官方示例&#xff08;Popover 弹出框&#xff09;&#xff0c;好用的弹出框。 使用 vue-cli3 我们为新版的 vue-cli 准备了相应的​Element 插件​&#xff0c;你可以用它们快速地搭建一个基于 Element 的项目。 使用 Starter Kit 我们提供了通用的项目模版&#…

gitLab配置ssh

1打开git命令行&#xff0c;创建秘钥 ssh-keygen -t rsa -b 4096 -C "用户名xxx.com" 2执行下面的命令查看公钥 cat ~/.ssh/id_rsa.pub 3#复制公钥到gitlab网址上ssh页面添加ssh的key&#xff08;公钥&#xff09; 4本地的git命令行中添加账户邮箱 git config -…

Windows7 X64 成功安装 .NET Framework 4.8 的两种方法

Windows7 X64 成功安装 .NET Framework 4.8 的两种方法 windows7系统SP1安装完成后&#xff0c;在安装某软件时&#xff0c;提示需要先安装4.6以上的版本net-framework包&#xff0c;正好电脑里有个net-framework4.8软件包&#xff0c;于是打算用上&#xff0c;可是在安装时&a…

JDK17下,使用SHA1算法报Certificates do not conform to algorithm constraints错误

JDK17从17.0.5开始&#xff0c;默认不再允许使用SHA1算法&#xff0c;如果引用的jar包或代码里使用了SHA1算法&#xff0c;会报以下错误。 Caused by: javax.net.ssl.SSLHandshakeException: Certificates do not conform to algorithm constraintsat java.base/sun.security.…

JS开发es8266板子,搞着玩-MAX7219模块 远程显示led字符串

JS开发es8266板子&#xff0c;搞着玩-MAX7219模块 板子为 esp8266 这里接了两个8x8 Led.Matrix espjs https://www.espruino.com/ 我是看了,这个文章 发现js可以开发esp板子的就尝试了下远程点灯&#xff0c;挺有意思就买了很多模块慢慢尝试 代码 这里我把wifi模块又包了一…

AI 视频工具合集

&#x1f423;个人主页 可惜已不在 &#x1f424;这篇在这个专栏AI_可惜已不在的博客-CSDN博客 &#x1f425;有用的话就留下一个三连吧&#x1f63c; 目录 前言: 正文: ​ 前言: AI 视频&#xff0c;科技与艺术的精彩融合。它借助先进的人工智能技术&#xff0c;为影像创…

力扣刷题-算法基础

hello各位小伙伴们,为了进行算法的学习,小编特意新开一个专题来讲解一些算法题 1.移除元素. - 力扣(LeetCode) 本题大概意思是给定一个数组和一个数val删除与val相同的元素,不要改变剩余元素的顺序,最后返回剩余元素的个数。 我们在这里使用双指针,这里的双指针并不是…

【OSCP Proving Grounds 靶场系列】Slort

作者&#xff1a;Eason_LYC 悲观者预言失败&#xff0c;十言九中。 乐观者创造奇迹&#xff0c;一次即可。 一个人的价值&#xff0c;在于他所拥有的。可以不学无术&#xff0c;但不能一无所有&#xff01; 技术领域&#xff1a;WEB安全、网络攻防 关注WEB安全、网络攻防。我的…

【IPv6】IPv6 NAT66介绍

参考链接 IPv6-to-IPv6 Network Address Translation (NAT66) (ietf.org)https://datatracker.ietf.org/doc/id/draft-mrw-nat66-00.html IPv6 NAT66 NAT66&#xff0c;全称为Network Address Translation for IPv6 to IPv6&#xff0c;是一种用于IPv6网络的地址转换技术。在…

STM32-----I2C

1.基本原理&#xff1a; 上图是I2C的总线图和通讯协议图&#xff08;就是I2C是怎么实现设备之间读写数据的&#xff09; 下面主要介绍通讯协议的每一步&#xff1a; 1.发出开始信号: 一开始都为高电平为空闲状态。当SCL为高电平时&#xff0c;主机将SDA拉低即为发出开始信号&…

讲一讲Redis五大数据类型的底层实现

讲一讲Redis五大数据类型的底层实现 Redis五大数据类型的底层实现 Redis的五大数据类型分别是字符串&#xff08;String&#xff09;、列表&#xff08;List&#xff09;、哈希&#xff08;Hash&#xff09;、集合&#xff08;Set&#xff09;和有序集合&#xff08;Zset&…

中药药材推荐系统

毕业设计还在发愁选题&#xff1f;又想实用又怕复杂&#xff1f;那这篇介绍你一定感兴趣&#xff01; 今天为大家推荐一个基于Django框架开发的中药药材推荐系统&#xff0c;简洁易用&#xff0c;功能丰富&#xff0c;非常适合毕业设计。无论你是技术经验丰富的开发人员&#…

Jmeter监控服务器性能

目录 ServerAgent 安装 打开Jmeter ServerAgent 在Jmeter上监控服务器的性能比如CPU&#xff0c;内存等我们需要用到ServerAgent&#xff0c;这里可以下载我分享 ServerAgent-2.2.3.zip 链接: https://pan.baidu.com/s/1oZKsJGnrZx3iyt15DP1IYA?pwdedhs 提取码: edhs 安装…

【4.8】图搜索算法-BFS解单词接龙

一、题目 给 定 两 个 单 词 &#xff08; beginWord 和 endWord &#xff09; 和 一 个 字 典 &#xff0c; 找 到 从 beginWord 到 endWord 的最短转换序列的长度。转换需遵循如下规则&#xff1a; 1. 每次转换只能改变一个字母。 2. 转换过程中的中间单词必须是字…

JavaScript 网页设计案例:使用 Canvas 实现趣味打气球小游戏

JavaScript 网页设计案例&#xff1a;使用 Canvas 实现趣味打气球小游戏 在网页设计中&#xff0c;交互性和趣味性是吸引用户的重要因素。借助 JavaScript 和 HTML5 的 canvas 元素&#xff0c;我们可以轻松实现各种动画效果&#xff0c;今天将带你打造一个有趣的 打气球小游戏…

【银行科技岗】相关考试知识点总结及部分考题

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、**网络与安全**二、**软件开发与设计**三、**数据库与数据管理**四、**编程与系统**五、**计算机硬件与性能**六、**大数据与人工智能**七、**系统与应用**相关…

dfs +剪枝sudoku———poj2676

目录 前言 lowbit函数 数独 suduku 问题描述 输入 输出 问题分析 子网格位置 优化搜索顺序剪枝1 优化搜索顺序剪枝2 可行性剪枝 代码 前言 lowbit函数 这是一个利用二进制位运算取出二进制数最后一位’1‘的函数 数独 数独大家肯定都玩过&#xff0c;…