数据仓库-数仓优化小厂实践

数据仓库-数仓优化小厂实践

news/2025/1/1 22:50:51/文章来源:https://blog.csdn.net/m0_48283915/article/details/135262607

一、背景

由于公司规模较小，大数据相关没有实现平台化，相关的架构都是原生的Apache组件，所以集群的维护和优化都需要人工的参与。根据自己的实践整理一些数仓相关的优化。

二、优化

1、简易架构图

2、ODS层优化

2.1 分段式解析

随着业务增长，数据量也不断增加，凌晨任务经常基线预警、破线，导致数据不能正常产出，影响运营人员分析数据。在不增加成本的情况尽可能的优化。

经过团队研究，发现 t-1 的日志解析占用非常长的时间，且集群资源空闲时间点比较多。

把日志的解析分成两段式，当天0点到22点数据可在22:15进行解析，22点到24点数据在00:15解析，大大节省了时间，还充分利用了集群的资源。有效的缓解了破线问题。

2.2 小文件合并

    1.原因：a.读取的数据源文件本身就有大量的小文件b.动态分区插入数据，每个reduce产生的文件个数为动态分区的个数，产生文件个数=reduce个数*动态分区数c.reduce/Task个数较多（和文件数是一样的）2.影响：a.文件的数量决定了Mapreduce/Spark中Mapper/Task数量，小文件越多，Mapper/Task的任务越多，每个Mapper/task都会对应启动一个JVM/线程来运行，每个Task数据小，个数大，占用资源多，甚至这些任务初始化的时间可能比执行的时间还要多，影响性能，当然这个问题 可以通过CombinedInputFile和开启JVM重用来解决。b.文件存储在HDFS上，每个文件的元数据信息（位置、大小、分块信息）大约占150个字节，文件的元数据信息分别存储在内存和磁盘中。   3.解决方法:通过 DISTRIBUTE BY 控制文件的个数distribute by 1distribute by cast(rand()*10 as int)distribute by dtdistribute by substr(udi,1,2)

2.3 提高数据压缩比率

1.问题描述：使用 DISTRIBUTE BY INT(RAND()*300) 随机数的方式控制了文件的个数，但是使用的SNAPPY压缩，压缩比原则是十倍左右，目前只能达到两倍左右。

原因：每个文件里面的数据随机，数据的相似性较小，压缩比上不去

2.问题解决：DISTRIBUTE BY SUBSTR(udi,1,2) 使用文本字段进行文件数的控制，文件个数减少了，并且文件的大小也变小了，压缩比变大

说明：udi前两个为(字母+数字),截取前两个组合来作为文件的个数(最多36*36)

原理：将相似的数据放在同一个分区里，数据压缩比增大

2.4 分项目业务数据导入优化

1.问题描述：由于项目数量比较多，并且会持续增加，项目之间的业务表相同，按照sqoop传统导数据的脚本，会编写很多冗余的脚本，费时费力，且增加新项目时，开发成本较高

2.问题解决：将不同的数据库的配置信息(host、IP、账号、密码、脚本路径) 配置到mysql表中，编写相应的脚本，脚本根据给定的参数去读取相应的配置，进行对应项目的数据导入。

3、DWD层优化

3.1 缩减分区

1.问题描述：初始建立二级分区（项目+天），随着老项目的数据量增加，以及新项目上线数据量较少，导致执行时造成数据倾斜，以及多级分区造成文件数以及分区数成倍增加，造成数据寻址时间过长。执行时间较短，但是刷盘的时间过长，晚上流程的时间整体拖延。

2.问题解决：将二级分区改为一级分区

3.解决方法：a.建立同样的临时表

b.将历史数据mv导入到临时表中，此时进行核对数据量

c.通过命令修复临时表的分区

d.将旧表删除，建立新的分区表

e.将临时表的数据导入到新的表中，核对数据

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/229188.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Docker 概念介绍

Docker 概念介绍

1、Docker 简介 Docker一个快速交付应用、运行应用的技术: 可以将程序及其依赖、运行环境一起打包为一个镜像，可以迁移到任意Linux操作系统运行时利用沙箱机制形成隔离容器，各个应用互不干扰启动、移除都可以通过一行命令完成，方便快捷 Doc…

阅读更多...

Android 接入第三方数数科技平台

Android 接入第三方数数科技平台

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、数数科技平台是什么？二、使用步骤1.集成SDK2. 初始化3. 发送事件和设置账号id4. 验证发送事件是否成功小结前言一个成熟的App必然不可缺少对…

阅读更多...

VSCODE : SSH远程配置+免密登录

VSCODE : SSH远程配置+免密登录

SSH基础配置填入地址，回车 ssh userhost-or-ip 然后选择默认的配置，回车，得到以下结果： 点击链接选择远程的系统输入密码免密登录生成SSH密钥： 首先，确保你已经在本地生成了SSH密钥。你可以使…

阅读更多...

c语言-数据类型详细介绍

c语言-数据类型详细介绍

目录前言一、数据类型介绍1.1 基本内置类型二、类型的基本分类2.1 整型家族2.1.1 signed char表示的数值范围2.1.2 unsigned char表示的数值范围 2.2 浮点数家族2.3 构造类型2.4 指针类型2.5 空类型总结前言本篇文章对c语言中数据类型进行详细介绍。一、数据类型介绍 1…

阅读更多...

Node.js使用jemalloc内存分配器显著减少内存使用

Node.js使用jemalloc内存分配器显著减少内存使用

前言 Node.js 默认使用的是 ptmalloc(glibc) 内存分配器，而： 在服务端领域「不会选择默认的 malloc」是一个常识。（ 来源 ） ptmalloc 的分配效率较低（ 来源 ），对于长时间、多核 / 多线程运行…

阅读更多...

nginx+rsyslog+kafka+clickhouse+grafana 实现nginx 网关监控

nginx+rsyslog+kafka+clickhouse+grafana 实现nginx 网关监控

需求我想做一个类似腾讯云网关日志最终以仪表方式呈现，比如说qps、p99、p95的请求响应时间等等流程图数据流转就像标题 nginx ----> rsyslog ----> kafka —> clickhouse —> grafana 部署 kafka kafka 相关部署这里不做赘述，只要创…

阅读更多...

【Linux】进程查看|fork函数|进程状态

【Linux】进程查看|fork函数|进程状态

🦄 个人主页——🎐开着拖拉机回家_Linux,大数据运维-CSDN博客 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁&am…

阅读更多...

uni-app 前后端调用实例基于Springboot 数据列表显示实现

锋哥原创的uni-app视频教程： 2023版uniapp从入门到上天视频教程(Java后端无废话版)，火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版)，火爆更新中...共计23条视频，包括：第1讲 uni…

阅读更多...

ACM32F403/F433 12 位多通道国产芯片，支持 MPU 存储保护功能，应用于工业控制，智能家居等产品中

ACM32F403/F433 12 位多通道国产芯片，支持 MPU 存储保护功能，应用于工业控制，智能家居等产品中

ACM32F403/F433 芯片的内核基于 ARMv8-M 架构，支持 Cortex-M33 和 Cortex-M4F 指令集。芯片内核支持一整套DSP指令用于数字信号处理，支持单精度FPU处理浮点数据，同时还支持Memory Protection Unit （MPU）用于提升应用的…

阅读更多...

关键字：try-catch关键字

关键字：try-catch关键字

在 Java 中，try-catch关键字用于异常处理。它们允许编写代码来捕获和处理异常，以确保程序能够在出现问题时合理地处理它们而不会崩溃。以下是try-catch关键字的基本语法： 在try块中编写可能会抛出异常的代码。如果在try块中的任何代码抛出…

阅读更多...

基于YOLOv8的目标跟踪技术

基于YOLOv8的目标跟踪技术

💡💡💡本文摘要：介绍了YOLOv8自带的目标跟踪技术以及评价指标，并教会你如何在YOLOv8使用 1.YOLOv8自带两种跟踪方法 ultralytics/cfg/trackers/文件夹下 1.1 ByteTrack介绍 https://arxiv.org/pdf/2110.06864.pdf 摘…

阅读更多...

mac下jd-gui提示没有找到合适的jdk版本

mac下jd-gui提示没有找到合适的jdk版本

mac下jd-gui提示jdk有问题背景解决看一下是不是真有问题了方法一：修改启动脚本方法二：设置launchd环境变量扩展动态切jdk脚本(.bash_profile) 背景配置了动态jdk后，再次使用JD-GUI提示没有找到合适的jdk版本。解决看一下是不是真有问题…

阅读更多...

Zookeeper实现分布式锁和注册中心

Zookeeper实现分布式锁和注册中心

目录分布式锁实现方式分布式锁场景如何选择Redis和zookeeper 用InterProcessMutex实现分布式锁 zookeeper实现注册中心分布式锁实现方式数据库唯一索引Redis的setnxZookeeper创建临时节点及监听机制Zookeeper创建临时有序节点分布式锁场景如何选择Redis和zookeepe…

阅读更多...

Vue实现JSON字符串格式化编辑器组件

Vue实现JSON字符串格式化编辑器组件

相信很多同学都用过网上的在线JSON格式化工具来将杂乱的JSON数据转换成易于我们阅读和编辑的格式。那么，你有没有想过自己动手实现一个这样的工具呢？今天，我将介绍如何使用Vue.js来构建一个简单的JSON格式化工具。功能简述支持格式化JSON字…

阅读更多...

使用spring boot实现异常的统一返回

使用spring boot实现异常的统一返回

在这个前后端分离的时代，一个统一的数据格式非常重要。本次我们实现用spring boot实现一下返回给前端数据的统一格式，不再出现服务器500的错误。新建一个spring boot项目，并导入knife4j的依赖。写一个controller控制器，用来是…

阅读更多...

57.网游逆向分析与插件开发-游戏增加自动化助手接口-接管游戏的自动药水设定功能

57.网游逆向分析与插件开发-游戏增加自动化助手接口-接管游戏的自动药水设定功能

内容来源于：易道云信息技术研究院VIP课码云地址（master分支）：https://gitee.com/dye_your_fingers/sro_-ex.git 码云版本号：51307d6bf69f2f3c645c70d09f841f5e32da79b9 代码下载地址，在 SRO_EX 目录下&…

阅读更多...

计算机网络——基础知识汇总（八）

计算机网络——基础知识汇总（八）

个人名片： 🦁作者简介：一名喜欢分享和记录学习的在校大学生 🐯个人主页：妄北y 🐧个人QQ：2061314755 🐻个人邮箱：2061314755qq.com 🦉个人WeChat：V…

阅读更多...

基于电商场景的高并发RocketMQ实战-促销活动推送千万级用户解决方案【多线程+分片推送实现高性能推送】

基于电商场景的高并发RocketMQ实战-促销活动推送千万级用户解决方案【多线程+分片推送实现高性能推送】

🌈🌈🌈🌈🌈🌈🌈🌈 欢迎关注公众号（通过文章导读关注），发送【资料】可领取深入理解 Redis 系列文章结合电商场景讲解 Redis 使用场景、中间件系列…

阅读更多...

如何使用Docker将.Net6项目部署到Linux服务器（三）

如何使用Docker将.Net6项目部署到Linux服务器（三）

目录四安装nginx 4.1 官网下载nginx 4.2 下载解压安装nginx 4.3 进行configure 4.4 执行make 4.5 查看nginx是否安装成功 4.6 nginx的一些常用命令 4.6.1 启动nginx 4.6.2 通过命令查看nginx是否启动成功 4.6.3 关闭Nginx 4.6.5 重启Nginx 4.6.6 杀掉所有Nginx进…

阅读更多...

浏览器---善用的一些调试技巧

浏览器---善用的一些调试技巧

https://www.cnblogs.com/dasusu/p/17932742.html

阅读更多...

最新文章

推荐文章