mysql大表的解决方案,及Hive分页查询

1.mysql表查询数据量较大(最大的一张表已经达到33亿条数据,整个mysql已经达到2.9T的数据存储),

2.mysql表每日新增数据量较大(增量最大的表,每日新增数据量在4千万条左右的数据)

3.需要支持事务操作,部分表需要支持更新操作。

4.支持复杂操作,包括模糊,排序,分组统计和分页等操作。

5.低延迟,用户选择的任务条件查询,响应时间应该控制在3-5s。

6.实时数据的写入和查询操作,目前实时数据每10分钟处理一次,大概400G左右的数据。

从上面很容易看出来我们遇到的,

1.单表数据量较大,已经无法支撑前台部分业务的正常操作;

2.部分统计程序写入已经达到上限(MySQL每天写入8万条的数据),造成其他任务无法正常执行,经常在凌晨脚本启动后,不能按时处理完数据,造成其他任务的挤压(注:所有离线和实时均采用spark处理,yarn资源调度采用的Fair策略,目前腾讯云不支持Capacity策略)。

对于我们的mysql表,我们存储的大部分都是统计数据,因为早期数据量较少,统计能力有限,以及考虑到和前台交互较频繁,所以一直存储在关系型数据库中,才造成目前遇到这种的窘境,已经到不了不改变的的地步,因为数据的增量越来越大。

我们的解决步骤和方法:

1.首先,我们第一个考虑的时候结合业务,前面用户的操作

2.对表中数据进行了检查和审查之后,发现大数据中经常遇到的2/8定律,20%的用户占了80%的数据。我们考虑分库和分表操作,将部分数据量较大的用户迁入到其他服务器的数据库中,但是增大的前端可视化部门的工作压力,同时统计部门的统计程序需要全部调整,用来区分不同的用户。

3.使用大数据技术解决,将离线数据,全部迁移到Hive中,按天分区管理,使用presto做复杂查询,实时数据保留,继续写入mysql,对于有更新操作的表,直接写入到Hbase中,使用phoenix处理。

在迁移数据的过程中,我们刚开始使用的是sqoop导取mysql数据到Hive,动态分区,后来发现这样有一些弊端,因为无法解决spark写入Mysql的性能问题,我们对spark进行了各种优化,将数据的处理时间控制在了5分钟左右,但是却经常在写mysql的时候需要将近1个钟头的时间,于是直接将离线统计全部直接直接写入HDFS,现在基本上分析和写入时间在10分钟左右。同时也解决了数据挤压的问题。

最后问题解决了,目前我们做了一个中间微服务,使用springboot做查询,分为两部分处理,

a.用户对历史数据(昨天,最近1周或最近1个月,以及指定任意时间段区间,除今天之外)的操作,我们均采用presto操作;

b.用户查询今天的实时操作,我们直接读取mysql中的数据,目前单表数据量最大在千万级,所以msyql完全能支撑的住,而且性能还不错。对于用户指定较长时间段的查询,包括实时今天的数据操作时,我们采取,presto+mysql同时分析处理,然后通过程序对数据进行最后统一的合并,分页,排序,这个目前还在优化,以达到准确性在可承受范围内。

以上是我们的解决方法,PHP人员直接调用我们的接口,不需要关心我们底层使用的什么技术(当然这个解决方法只是基于我们目前的业务场景的解决方法,不一定是最优的解决方案,但是目前给我们统计大量的数据涌进来时,提供了一定的缓冲时间),同时将可视化和底层数据剥离开,如果目前的方法达到瓶颈,再次无法满足性能的要求,后面考虑使用其他技术处理,最主要的是这次调整降低了公司的经济支出,不用被动的去升级资源配置。

最后,给出了一个Hive中分页的查询操作,主要使用到row_number和between,and。

select c.*

from(

select row_number() over (order by b.ev_paras_value ASC ) as sort_field, b.*

from (

select a.app_key, a.event_key, a.ev_paras_value, a.paras_uv, a.paras_count

FROM (

select app_key, event_key, ev_paras_value,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11237.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析系列--⑦RapidMiner模型评价(基于泰坦尼克号案例含数据集)

一、前提 二、模型评估 1.改造⑥ 2.Cross Validation算子说明 2.1Cross Validation 的作用 2.1.1 模型评估 2.1.2 减少过拟合 2.1.3 数据利用 2.2 Cross Validation 的工作原理 2.2.1 数据分割 2.2.2 迭代训练与测试 ​​​​​​​ 2.2.3 结果汇总 ​​​​​​​ …

DeepSeek r1本地安装全指南

环境基本要求 硬件配置 需要本地跑模型,兼顾质量、性能、速度以及满足日常开发需要,我们需要准备以下硬件: CPU:I9内存:128GB硬盘:3-4TB 最新SSD,C盘确保有400GB,其它都可划成D盘…

AI开发学习之——PyTorch框架

PyTorch 简介 PyTorch (Python torch)是由 Facebook AI 研究团队开发的开源机器学习库,广泛应用于深度学习研究和生产。它以动态计算图和易用性著称,支持 GPU 加速计算,并提供丰富的工具和模块。 PyTorch的主要特点 …

纯后训练做出benchmark超过DeepseekV3的模型?

论文地址 https://arxiv.org/pdf/2411.15124 模型是AI2的,他们家也是玩开源的 先看benchmark,几乎是纯用llama3 405B后训练去硬刚出一个gpt4o等级的LLamA405 我们先看之前的机遇Lllama3.1 405B进行全量微调的模型 Hermes 3,看着还没缘模型…

像接口契约文档 这种工件,在需求 分析 设计 工作流里面 属于哪一个工作流

οゞ浪漫心情ゞο(20***328) 2016/2/18 10:26:47 请教一下,像接口契约文档 这种工件,在需求 分析 设计 工作流里面 属于哪一个工作流? 潘加宇(35***47) 17:17:28 你这相当于问用例图、序列图属于哪个工作流,看内容。 如果你的&quo…

代码随想录刷题笔记

数组 二分查找 ● 704.二分查找 tips:两种方法,左闭右开和左闭右闭,要注意区间不变性,在判断mid的值时要看mid当前是否使用过 ● 35.搜索插入位置 ● 34.在排序数组中查找元素的第一个和最后一个位置 tips:寻找左右边…

PyTorch框架——基于深度学习YOLOv8神经网络学生课堂行为检测识别系统

基于YOLOv8深度学习的学生课堂行为检测识别系统,其能识别三种学生课堂行为:names: [举手, 读书, 写字] 具体图片见如下: 第一步:YOLOv8介绍 YOLOv8 是 ultralytics 公司在 2023 年 1月 10 号开源的 YOLOv5 的下一个重大更新版本…

【Elasticsearch】实现气象数据存储与查询系统

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

python-leetcode-相同的树

100. 相同的树 - 力扣(LeetCode) # Definition for a binary tree node. # class TreeNode: # def __init__(self, val0, leftNone, rightNone): # self.val val # self.left left # self.right right class Solution:de…

IM 即时通讯系统-50-[特殊字符]cim(cross IM) 适用于开发者的分布式即时通讯系统

IM 开源系列 IM 即时通讯系统-41-开源 野火IM 专注于即时通讯实时音视频技术,提供优质可控的IMRTC能力 IM 即时通讯系统-42-基于netty实现的IM服务端,提供客户端jar包,可集成自己的登录系统 IM 即时通讯系统-43-简单的仿QQ聊天安卓APP IM 即时通讯系统-44-仿QQ即…

2025年1月22日(网络编程 udp)

系统信息: ubuntu 16.04LTS Raspberry Pi Zero 2W 系统版本: 2024-10-22-raspios-bullseye-armhf Python 版本:Python 3.9.2 已安装 pip3 支持拍摄 1080p 30 (1092*1080), 720p 60 (1280*720), 60/90 (640*480) 已安装 vim 已安装 git 学习…

基于微信小程序的电子商城购物系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

MP4分析工具

在实际应用中,我们经常需要对MP4文件进行分析。分析MP4封装格式的工具比较多,下面介绍几款常用的工具: 1、mp4info 优点: 带界面的可视化工具可以清晰看到各个box的组成和层次同时可以分离里面的音视频文件可以看到音视频的时间…

傅里叶分析之掐死教程

https://zhuanlan.zhihu.com/p/19763358 要让读者在不看任何数学公式的情况下理解傅里叶分析。 傅里叶分析 不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维模式。但不幸的是,傅里叶分析的公式看起来太复杂了,所以很多…

想品客老师的第天:类

类是一个优化js面向对象的工具 类的声明 //1、class User{}console.log(typeof User)//function//2、let Hdclass{}//其实跟1差不多class Stu{show(){}//注意这里不用加逗号,对象才加逗号get(){console.log(后盾人)}}let hdnew Stu()hd.get()//后盾人 类的原理 类…

【Git】初识Git Git基本操作详解

文章目录 学习目标Ⅰ. 初始 Git💥注意事项 Ⅱ. Git 安装Linux-centos安装Git Ⅲ. Git基本操作一、创建git本地仓库 -- git init二、配置 Git -- git config三、认识工作区、暂存区、版本库① 工作区② 暂存区③ 版本库④ 三者的关系 四、添加、提交更改、查看提交日…

基于单片机的盲人智能水杯系统(论文+源码)

1 总体方案设计 本次基于单片机的盲人智能水杯设计,采用的是DS18B20实现杯中水温的检测,采用HX711及应力片实现杯中水里的检测,采用DS1302实现时钟计时功能,采用TTS语音模块实现语音播报的功能,并结合STC89C52单片机作…

深入解析“legit”的地道用法——从俚语到正式表达:Sam Altman用来形容DeepSeek: legit invigorating(真的令人振奋)

深入解析“legit”的地道用法——从俚语到正式表达 一、引言 在社交媒体、科技圈甚至日常对话中,我们经常会看到或听到“legit”这个词。比如最近 Sam Altman 在 X(原 Twitter)上发的一条帖子中写道: we will obviously deliver …

微机原理与接口技术期末大作业——4位抢答器仿真

在微机原理与接口技术的学习旅程中,期末大作业成为了检验知识掌握程度与实践能力的关键环节。本次我选择设计并仿真一个 4 位抢答器系统,通过这个项目,深入探索 8086CPU 及其接口技术的实际应用。附完整压缩包下载。 一、系统设计思路 &…

【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA

MHA_MQA_GQA 1.总结 在 MHA(Multi Head Attention) 中,每个头有自己单独的 key-value 对;标准的多头注意力机制,h个Query、Key 和 Value 矩阵。在 MQA(Multi Query Attention) 中只会有一组 k…