阿里云实时数据仓库HologresFlink

1. 实时数仓Hologres特点
专注实时场景:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求。
亚秒级交互式分析:支持海量数据亚秒级交互式分析,无需预计算,支持多维分析、即席分析、探索式分析、MaxCompute加速分析,满足所见即所得分析体验。
统一数据服务出口:支持多维分析、高性能点查、数据检索等多个场景,支持负载隔离,简化数据架构,统一数据访问接口,实践分析服务一体化(HSAP)。
开放生态:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓。

2. 实时计算Flink服务
全托管Flink服务:开箱即用、开发远维全周期、计费灵活
丰富的企业级能力:流批一体的一站式开发运维平台、Flink CDC实时入湖入仓、动态CEP助力实时风控/营销、作业自动调优充分利用资源、智能冷断快速定位
性能强劲:内核引擎优化: CPU超秒数十万记录处理能力、Nexmark 测试性能技开源提升200%、状态存储后端优化
100%兼容开源:100%兼容Apache Flink、支持开源 Flink平滑迁移上云、无缝对接主流开源大教据生态
开放被集成能力强:自定义连按器、UXF能力扩展、Open API帮助用户集成自身系统、用户开发能力扩展与沉淀复用、用户自身系统集成
业界认可:中国信通院权威认证、中国唯一进入 Forrester 象限的实时流计算产品、金融实时数仓方案入围工信部信创典型目录

3. 数据仓库概念
数据仓库定义 ( Data Warehouse ):为企业所有决策制定过程,提供所有系统数据支持的战略集合。
传统的离线数仓无法实现当天数据的及时分析数据,所以需要开发实时数仓开填补空缺。


4. 阿里云技术框架
阿里云产品    简介    类比
Flink实时计算平台    大数据计算框架    Hadoop集群+Flink+调度器
Hologres    大数据存储框架    Kafka+Redis+HBase+ClickHouse
DataHub    数据流存储    Kafka+元数据管理
RDS    关系型数据库    MySql
DataV    可视化数据展示工具    Tableau、Echarts、Kibana
5. 系统数据流程设计


 5. Hologres的购买和基础介绍


 

 后来我总是找不到实例在哪。(我等了两个小时终于实例出来啦)

 点击登录实例

点击连接实例

 双击 登录库

可以编辑SQL

SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public' -- 可以根据需要更改模式名称
AND table_type = 'BASE TABLE';


6. Flink实时计算


 

 开通之后点击立即试用

 7. 数据总线Datahub
数据总线datahub是阿里云免费提供的服务,相当于大数据框架中的kafka,可以用作数据的缓存。

进入到datahub的主页面之后,点击项目管理,之后再点击新建项目。填写项目名称之后即可完成创建。


8. 业务表


一共7个表

9. 同步策略
数据同步策略的类型包括:全量同步(每天把完整的数据同步)、增量同步(有一条数据变化就同步过来)
实时数仓统一都要选择增量同步,细节在于维度表数据需要保持和业务数据库始终一致,同步修改和删除。而业务流程数据需要记录下每一次数据的变化。

10. RDS服务器购买
阿里云关系型数据库(Relational Database Service,简称RDS)是一种稳定可靠、可弹性伸缩的在线数据库服务。

使用的都是内网

 导入数据库

11. ODS数据同步
        ODS层的数据同步需要将数据从业务表格监控数据的实时变化,将变化数据写入到DataHub中,同步业务表格RDS(MySQL)的变更数据有多种方法,较为简单的方法,可以直接使用阿里云的DataWorks数据同步功能,此处选择更加泛用的flinkCDC方法来实现。

12. FlinkCDC
        CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件(datahub,类似kafka)中以供其他服务进行订阅及消费。

        CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:

基于批处理/基于流处理

Flink社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,

13. Flink Stream API完成数据同步
在数据总线DataHub中,先创建项目gmall_realtime,之后创建主题ods_table_ri用于接收数据,同时填写元数据信息。

13.1 创建IDEA项目
 

 解决错误 “Plugin ‘maven-shade-plugin:3.1.1‘ not found“ 的方法详解

 找到对应文件夹,更改成对应的版本号

 解决方式是,删掉.idea这个文件夹,再导入一次项目

 运行之后出现,需要把依赖添加进来


13.2 创建工具类
推荐使用阿里云官方提供的DataHubSink写出数据,可以直接添加DataHub的元数据对应。

下面这些信息都在阿里的DataHub中找信息,使用的是外网

运行CDCToDataHub,就可以看到在官网上的结果。

 13.3 打包上传
点击Maven的packeage功能。

在Flink平台部署jar包

测试是否能连通DataHub?

但是我这里是报错的

需要买公网IP,才不会报错

DataHub成功访问 

 RDS访问成功

启动成功

14. DIM层
        本次实时数仓将维度表存放到实时数仓hologres中,而维度表的原始数据在RDS中,所有DIM层的搭建就是将RDS中的维度表同步至hologres中,同时要能够实现实时更新的功能。

14.1 ​​​​​​​添加RDS的元数据连接
        添加RDS和hologres的catalog元数据,让flink实时计算平台能够连接对应的数据存储。

14.2 ​​​​​​​添加hologres的元数据连接


使用内网vpc的endpoint,对应的dbname

14.3 ​​​​​​​创建hologres的维度表
 按照行存,分区分组

14.4 ​​​​​​​创建实时同步数据到hologres
 

 创建集群

运行成功 

 提交到hologres中

点击部署

 点击启动

 启动成功之后,可以看到数据已经发送过来了

全部的部署

15. DWD层
新建文件夹

复制with里面的内容

 15.1 读取ODS业务数据

造数据

 得到新生成的数据

15.2 ​​​​​​​Interval join合并业务表
之后进行interval join将订单表和订单明细表合并起来。文档地址:

IntervalJoin语句_实时计算Flink版-阿里云帮助中心

 按住滚轮往下滑, ctrl + shift + ’->‘  就可以选到每行首个单词

使用 Interval join合并业务表 的时候出现这个问题
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/weixin_42322991/article/details/134825170

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466977.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows server2019下载docker拉取redis等镜像并运行项目

一、基本概念 1、windows server 指由微软公司开发的“Windows”系列中的“服务器”版本。这意味着它是基于Windows操作系统的,但专门设计用于服务器环境,而不是普通的桌面或个人用户使用。主要用途包括服务器功能、用户和资源管理、虚拟化等 2、dock…

使用最新版的wvp和ZLMediaKit搭建Gb28181测试服务器

文章目录 说明安装1.安装nodejs简介安装步骤 2.安装java环境3.安装mysql安装修改密码 4.安装redis5.安装编译器6.安装cmake7.安装依赖库8.编译ZLMediaKit9.编译wvp-GB28181-pro 配置1.ZLMediaKit配置2.wvp-GB28181-pro配置2.1.配置ZLMediaKit连接信息2.2.28181服务器的配置2.3.…

Python程序设计 生成器

1. 基础概念 在讲迭代之前,先搞清楚这些名词: 循环(loop),指的是在满足条件的情况下,重复执行同一段代码。比如,while 语句。迭代(iterate),指的是按照某种…

mac m1 docker本地部署canal 监听mysql的binglog日志

mac m1 docker本地部署canal监听mysql的binglog日志(虚拟机同理) 根据黑马视频部署 1.docker 部署mysql 1.docker拉取mysql 镜像 因为m1是arm架构.需要多加一条信息 正常拉取 docker pull mysql:tagm1拉取 5.7的版本. tag需要自己指定版本 docker pull --platform linux/x…

[linux]docker基础

常见命令 Docker最常见的命令就是操作镜像、容器的命令,详见官方文档: Docker Docs 案例: 查看DockerHub,拉取Nginx镜像,创建并运行Nginx容器 在DockerHub中搜索Nginx镜像 拉取Nginx镜像 查看本地镜像列表 把镜像保持到本地 查看保持命令的…

C++builder中的人工智能(10)神经网络中的Sigmoid函数

在这篇文章中,我们将探讨最受欢迎的激活函数之一——Sigmoid函数。我们将解释什么是Logistic函数,以及它与Sigmoid函数的区别,并展示如何在C应用中使用这些函数。 目录 人工神经网络(ANN)中的激活函数是什么&#xff…

cursor:如何注销帐号和使用流量

点击右上角的设定图标 点击管理 在弹出的网页点登入 点”continue" 点SETING 了解最新信息请扫码关注:

如何选择适合小团队的项目管理工具?免费与开源软件推荐

目录 一、小团队项目管理工具的重要性 二、热门项目管理工具介绍 (一)禅道 (二)Trello (三)Asana (四)JIRA 三、免费项目管理软件推荐 (一)ES 管理器 …

Scaffold-ETH 2:颠覆传统开发的区块链神器,快速构建你的去中心化应用!

目录 引言一、Scaffold-eth框架二、前期准备三、搭建Scaffold-ETH 2(一)使用npx create-ethlatest进行设置(二)使用git clone进行设置1、克隆仓库:2、进入到此目录3、安装依赖项 四、配置Scaffold ETH-2的开发环境&…

kafka+zookeeper的搭建

kafka从2.8版本开始,就可以不用配置zookeeper了,但是也可以继续配置。我目前使用的kafka版本是kafka_2.12-3.0.0.tgz,其中前面的2.12表示是使用该版本的scala语言进行编写的,而后面的3.00才是kafka当前的版本。 通过百度网盘分享…

恢复rm -rf删除的数据

注:本文演示的是ext4文件系统格式数据恢复 系统版本:ubuntu16.04 恢复数据目录:数据盘(非根)目录 恢复工具:extundelete 0.2.4 恢复所有被删除数据 ext4magic 恢复指定目录数据 一、注意事项: …

Elasticsearch(三):Elasticvue使用及DSL执行新增、查询操作

Elasticvue使用及DSL执行CURD 1 概述2 什么是Elasticsearch DSL3 基本结构4 客户端工具介绍4.1 索引介绍4.2 创建简单索引4.3 创建相对完整的索引4.4 插入数据4.4.1 基本插入操作4.4.2 批量插入操作 5 常用的DSL查询类型5.1 match查询5.1.1 match工作原理5.1.2 operator 参数5.…

静态库、动态库、framework、xcframework、use_frameworks!的作用、关联核心SDK工程和测试(主)工程、设备CPU架构

1.1库的概念 库:程序代码的集合,编译好的二进制文件加上头文件供使用,共享程序代码的一种方式。 1.2库的分类 根据开源情况分为:开源库(能看到具体实现)、闭源库(只公开调用的的接口&#xf…

C++【string类,模拟实现string类】

🌟个人主页:落叶 🌟当前专栏: C专栏 目录 为什么学习string类 C语言中的字符串 标准库中的string类 auto和范围for auto关键字 迭代器 范围for string类的常用接口说明和使用 1. string类对象的常见构造 2.string类对象的容量操作 3…

Me-LLaMA——用于医疗领域的新型开源大规模语言模型

摘要 大规模语言模型的出现是提高病人护理质量和临床操作效率的一个重大突破。大规模语言模型拥有数百亿个参数,通过海量文本数据训练而成,能够生成类似人类的反应并执行复杂的任务。这在改进临床文档、提高诊断准确性和管理病人护理方面显示出巨大的潜…

关于在VS中使用Qt不同版本报错的问题

最开始需要配置的地方 首先看一下我的Qt有关的环境变量: Path环境变量里: 这里就是把对应Qt编译器环境下的bin目录放进来:比如你使用的是msvc2017_64或者MinGW QMAKESPEC环境变量: 这个就选择Qt对应的编译器目录下的\mkspecs\w…

Windows Server 怎么关闭IE增强安全配置(关闭IE弹窗)

首先第一步打开IE浏览器,根据下图所示,访问网页时会弹出警告窗口。 打开【控制面板】图标。查看方式改为小图标,打开【管理工具】 第五步进入【管理工具】页面后,找到并双击【服务器管理器】选项。 第六步在弹出的窗口中&#…

中肿团队提出的“免疫三明治”(放疗+化疗+免疫治疗),成功登上柳叶刀肿瘤|顶刊精析·24-11-08

小罗碎碎念 该研究首次发现在同期放化疗基础上增加特瑞普利单抗(PD-1抗体)新辅助和辅助治疗显著提高了高危局部晚期鼻咽癌患者生存率。 如果大家看完这篇推送以后,有什么好的医工交叉点子,欢迎和我一起探讨!&#xff0…

Golang--协程和管道

1、概念 程序: 是为完成特定任务、用某种语言编写的一组指令的集合,是一段静态的代码。(程序是静态) 进程: 是程序的一次执行过程。正在运行的一个程序,进程作为资源分配的单位,在内存中会为每个进程分配不同的内存区域&#xff0…

动力商城-02 环境搭建

1.父工程必须满足&#xff1a;1.1删除src目录 1.2pom 2.依赖继承 //里面的依赖&#xff0c;后代无条件继承<dependencies></dependencies>//里面的依赖&#xff0c;后代想要继承&#xff0c;得自己声明需要使用&#xff0c;可以不写版本号&#xff0c;自动继承&l…