一百八十二、大数据离线数仓——离线数仓从Kafka采集、最终把结果数据同步到ClickHouse的完整数仓流程（待续）

一百八十二、大数据离线数仓——离线数仓从Kafka采集、最终把结果数据同步到ClickHouse的完整数仓流程（待续）

news/2024/12/26 0:10:01/文章来源:https://blog.csdn.net/tiantang2renjian/article/details/133163765

一、目的

经过6个月的奋斗，项目的离线数仓部分终于可以上线了，因此整理一下离线数仓的整个流程，既是大家提供一个案例经验，也是对自己近半年的工作进行一个总结。

二、项目背景

项目行业属于交通行业，因此数据具有很多交通行业的特征，比如转向比数据就是统计车辆左转、右转、直行、掉头的车流量等等。

三、业务需求

（一）预估数据规模

（二）指标查询频率

指标的实时查询由Flink实时数仓计算，离线数仓这边提供指标的T+1的历史数据查询

四、数仓技术架构

（一）简而言之，数仓模块的数据源是Kafka，终点是ClickHouse数据库

第一步，用kettle采集Kafka的数据写入到HDFS中；

第二步，在Hive中建数仓，ODS层、DWD层和DWS层

第三步，把Hive的DWS层处理好的结果数据用kettle同步到ClickHouse数据库中

（二）注意点

1、ETL工具统一使用kettle

2、调度工具是海豚调度器

五、数仓环境部署

（一）部署原则：易部署、易维护

（二）部署工具及其版本

1、jdk1.8.0

2、MySQL8.0.31

3、Kafka_2.13-3.0.0（Kafka自带ZooKeeper）

4、ClickHouse21.9.5.16

5、Hadoop3.1.3

6、Hive3.1.2（不要用Spark作为计算引擎，默认的mr即可）

7、DolphinScheduler2.0.5

8、Kettle9.2

（三）部署脚本以及部署文档

由于一开始的数据规模不大以及服务器资源有限问题，所以目前使用的单机版部署，没有部署集群

六、数仓实施步骤（搭建好数仓环境后）

（一）步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

1、Kettle转换任务配置

（1）样例一：维度表数据——从MySQL导入数据到HDFS

（2）样例二：事实表数据——从Kafka采集数据到HDFS

2、Kettle转换任务配置注意点

（1）维度表数据——从MySQL导入数据到HDFS

2.1.1、由于维度表数据量少，因此直接overwrite写入HDFS中，每次都是覆盖的全量导入

2.1.2、为了减少磁盘资源使用，在Hadoop file output控件中加了gzip压缩方式

（2）事实表数据——从Kafka采集数据到HDFS

2.2.1、由于Kafka的数据在不停发送，所以Kettle任务就需要一直运行。

2.2.2、由于HDFS的特性是以packet为单位写入，一个packet是64KB，所以不能根据日期每天自动生成一个HDFS文件，那样的话每天都会丢失一部分数据。

因为只要每天最后剩余的数据不满64KB，那这部分数据就不会写入。kettle任务直接生成第二天的数据文件、写入第二天的数据，即使这天的数据文件的状态还在写入。

所以就直接生成一个HDFS文件，一直在这个文件里写入数据即可。后面先get到Linux本地，然后再overwrite写入HDFS的ODS层表中，这样不会每天丢数据。

2.2.3、由于kettle任务需要一直运行，所以Hadoop file output控件不能添加数据压缩方式。

否则虽然显示HDFS文件有数据，但只要任务不停止文件就不会压缩，这样HDFS文件实际上没有数据，所以HDFS文输出控件不能添加压缩

3、海豚调度器调度kettle转换任务

（1）首先，为了便于团队开发，kettle需要配置共享资源库，把kettle任务统一放在资源库中运行。

用海豚调度kettle任务不需要开启carte服务，如果是用xxl-job调度，那可以开启carte服务

（2）对于事实表数据——从Kafka采集数据到HDFS

3.2.1、脚本不要加日志文件，因为数据量太大。

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/kettle/data-integration/pan.sh -rep=hurys_linux_kettle_repository -user=admin -pass=admin -dir=/kafka_to_hdfs/ -trans=02_Kafka_to_HDFS_evaluation

3.2.2、工作流不需要定时，直接启动，一直跑任务即可

（3）对于维度表数据——从MySQL导入数据到HDFS

3.3.1、脚本可以添加日志文件

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/kettle/data-integration/pan.sh -rep=hurys_linux_kettle_repository -user=admin -pass=admin -dir=/mysql_to_hdfs/ -trans=04_MySQL_to_HDFS_t_team level=Basic >>/home/log/kettle/04_MySQL_to_HDFS_t_team_`date +%Y%m%d`.log

3.3.2、工作流需要定时，不过需要注意不同工作流的定时时间，保留工作流之间充足的定时区间

（二）步骤二、在Hive的ODS层数据库中建外部表加载HDFS中的数据

1、首先在ODS数据库中建外部表

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/138789.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

yo！这里是c++中的多态

yo！这里是c++中的多态

前言在学完继承之后，紧接着我们来认识多态，建议继承不太熟的先把继承部分的知识点搞熟，再来学习多态，否则会走火入魔，会混乱。因为多态是建立在继承的基础之上，而且多态中还存在与继承类似的概念&#xff…

阅读更多...

如何使用jenkins、ant、selenium、testng搭建自动化测试框架

如何使用jenkins、ant、selenium、testng搭建自动化测试框架

如果在你的理解中自动化测试就是在eclipse里面讲webdriver的包引入，然后写一些测试脚本，这就是你所说的自动化测试，其实这个还不能算是真正的自动化测试，你见过每次需要运行的时候还需要打开eclipse然后去选择运行文件吗&#xff…

阅读更多...

Linux Ubuntu命令行快速配置C++开发环境

Linux Ubuntu命令行快速配置C++开发环境

本文介绍在Linux操作系统的Ubuntu版本中，基于命令行，快速配置C 编辑、编译、运行的代码开发环境的简便方法。在之前的文章Linux操作系统Ubuntu 22.04配置Visual Studio Code与C代码开发环境的方法(https://blog.csdn.net/zhebushibiaoshifu/article/det…

阅读更多...

C++标准模板库——vector的使用及其模拟实现

C++标准模板库——vector的使用及其模拟实现

目录一. vector的介绍 1.vector的介绍二.vector的使用 vector中常见接口的介绍vector的构造和析构函数vector的三种遍历方式三.vector的模拟实现 vector的增删查改vector容器的容量变化和大小增减vector迭代器失效问题vector的小框架构造函数和析构函数迭代器和operat…

阅读更多...

基于Java的高校竞赛管理系统设计与实现（亮点：发起比赛、报名、审核、评委打分、获奖排名，可随意更换主题如蓝桥杯、ACM、王者荣耀、吃鸡等竞赛）

基于Java的高校竞赛管理系统设计与实现（亮点：发起比赛、报名、审核、评委打分、获奖排名，可随意更换主题如蓝桥杯、ACM、王者荣耀、吃鸡等竞赛）

高校竞赛管理系统一、前言二、我的优势2.1 自己的网站2.2 自己的小程序（小蔡coding）2.3 有保障的售后2.4 福利三、开发环境与技术3.1 MySQL数据库3.2 Vue前端技术3.3 Spring Boot框架3.4 微信小程序四、功能设计4.1 主要功能描述4.2 系统角色五、系统…

阅读更多...

vue获取本地缓存并转为json格式

vue获取本地缓存并转为json格式

场景要求获取当前登录用户id，传入后台去筛选属于该用户的数据； 当前登录用户信息一般会在本地存储中，有些则是在session中，此处只对本地存储做讨论； 本地缓存的用法 1 存储数据 localStorage.setltem(userId,"…

阅读更多...

VS Code用AI写代码：Codeium插件

VS Code用AI写代码：Codeium插件

文章目录 Codeiumchat代码生成 Codeium Codeium是基于边缘计算的代码AI工具，提供超过70种编程语言的代码补全、对话、搜索等功能，相当霸道。在插件栏搜索到Codeium之后，需要科学上网安装，安装完成后会提示注册。注册之后&#…

阅读更多...

2023-9-22 滑雪

2023-9-22 滑雪

题目链接：滑雪 #include <cstring> #include <algorithm> #include <iostream>using namespace std;const int N 310;int n, m; int h[N][N]; int f[N][N];int dx[4] {-1, 0, 1, 0}, dy[4] {0, 1, 0, -1};int dp(int x, int y) {int &v f…

阅读更多...

MySQL数据库简介+库表管理操作+数据库用户管理

MySQL数据库简介+库表管理操作+数据库用户管理

Mysql Part 1 一、数据库的基本概念1.1 使用数据库的必要性1.2 数据库基本概念1.2.1 数据（Data）1.2.2 表1.2.3 数据库1.2.4 数据库管理系统（DBMS）1.2.5 数据库系统 1.3 数据库的分类1.3.1 关系数据库 SQL1.3.2 非关系数据库 NoSQL…

阅读更多...

看阿里测试工程师如何玩转postman+newman+jenkins接口自动化

看阿里测试工程师如何玩转postman+newman+jenkins接口自动化

【软件测试面试突击班】如何逼自己一周刷完软件测试八股文教程，刷完面试就稳了，你也可以当高薪软件测试工程师（自动化测试） postman用来做接口测试非常方便，接口较多时，则可以实现接口自动化一、环境准备…

阅读更多...

【DLL修复工具下载】一键修复电脑丢失d3dcompiler_47.dll问题方法

【DLL修复工具下载】一键修复电脑丢失d3dcompiler_47.dll问题方法

在我们使用电脑的过程中，有时候会遇到一些错误提示，其中“缺失 d3dcompiler_47.dll”就是比较常见的一种。那么，d3dcompiler_47.dll 到底是什么呢？为什么会出现缺失的情况？丢失 d3dcompiler_47.dll 又会对电脑产生什么…

阅读更多...

芋道商城，基于 Vue + Uniapp 实现，支持分销、拼团、砍价、秒杀、优惠券、积分、会员等级、小程序直播、页面 DIY 等功能

芋道商城，基于 Vue + Uniapp 实现，支持分销、拼团、砍价、秒杀、优惠券、积分、会员等级、小程序直播、页面 DIY 等功能

商城简介芋道商城，基于芋道开发平台构建，以开发者为中心，打造中国第一流的 Java 开源商城系统，全部开源，个人与企业可 100% 免费使用。有任何问题，或者想要的功能，可以在 Issues 中提给艿艿…

阅读更多...

低代码助力企业数字化转型

低代码助力企业数字化转型

在当今这个数字化快速发展的时代，企业面临的竞争越来越激烈，数字化转型已成为企业发展的必经之路。低代码平台作为一种新型的开发工具，正在逐渐成为企业数字化转型的重要助力。本文将从数字化转型背景、低代码平台介绍、低代码平台的应用、低…

阅读更多...

SIEM 中的事件关联

SIEM 中的事件关联

什么是 SIEM 中的事件关联 SIEM 中的事件关联可帮助安全团队识别来自不同来源的安全事件并确定其优先级，从而提供更全面的整体安全环境视图。在典型的 IT 环境中，会跨各种系统和应用程序生成大量事件和日志。孤立地看，其中许多事件可能看起…

阅读更多...

聊一聊 TLS/SSL

聊一聊 TLS/SSL

哈喽大家好，我是咸鱼当我们在上网冲浪的时候，会在浏览器界面顶部看到一个小锁标志，或者网址以 “https://” 开头这意味着我们正在使用 TLS/SSL 协议进行安全通信。虽然它可能看起来只是一个小小的锁图标和一个 “https” ，但…

阅读更多...

记录一次错误---想让U-net网络输入大小不一致的图片

记录一次错误---想让U-net网络输入大小不一致的图片

最近在看Deeplab系列的论文，文中提到了语义分割领域的一个难题是：将图片输入网络之前需要resize成统一大小，但是resize的话会造成细节信息的损失，所以想要网络处理任意大小的图片输入。我之前训练的U-net网络都是resize成224*224大…

阅读更多...

Linux 本地 Docker Registry本地镜像仓库远程连接【内网穿透】

Linux 本地 Docker Registry本地镜像仓库远程连接【内网穿透】

Linux 本地 Docker Registry本地镜像仓库远程连接文章目录 Linux 本地 Docker Registry本地镜像仓库远程连接1. 部署Docker Registry2. 本地测试推送镜像3. Linux 安装cpolar4. 配置Docker Registry公网访问地址5. 公网远程推送Docker Registry6. 固定Docker Registry公网地址…

阅读更多...

【CSS】画个三角形或圆形或环

【CSS】画个三角形或圆形或环

首先通过调整边框，我们可以发现一些端倪 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><style>.box{width: 150px;height:150px;border: 50px solid black;}</style&g…

阅读更多...

【docker安装Mysql并配置主从复制】

【docker安装Mysql并配置主从复制】

Mysql主从复制目的： 是为了后面naocs集群的服务配置做准备工作准备工作准备至少两台虚拟机或服务器，安装好了docker，找到他们的ip地址后面操作都用xshell操作来代替拉取并启动mysql镜像和容器主机的命令为mysql01，对…

阅读更多...

机器学习笔记：seq2seq attentioned seq2seq

机器学习笔记：seq2seq attentioned seq2seq

1 Seq2Seq 1.1 介绍对于序列对<X,Y>，我们的目标是给定输入序列X，期待通过Encoder-Decoder框架来生成目标序列Y Encoder对输入的序列X进行编码，将输入序列通过非线性变换转化为中间语义表示C： Decoder根据序列X的中间语义…

阅读更多...

最新文章

推荐文章