处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术
    • @[TOC](文章目录)
  • 处理大数据的基础架构
  • 之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题
  • Hadoop、Spark、Hive和Flink
    • OLTP是啥?
    • 为什么要大数据?
  • kafka传输技术,快速
    • 现有的消息模型?
    • kafka监听器
    • kafka的消息模型
    • 生产者api
    • kafka序列化
    • 实际订餐和菜品看不到
  • 总结

处理大数据的基础架构

处理大数据的基础架构主要有以下几种:

分布式计算框架。
如Hadoop、Spark、Hive和Flink等,这些框架可以处理大规模的数据,并支持分布式存储和计算。

分布式文件系统。
如HDFS(Hadoop Distributed File System)和Google File System等,这些系统可以存储大规模的文件,并支持分布式访问和读取。

数据库集群。
如MySQL集群、PostgreSQL集群等,这些集群可以提高数据处理效率和可用性,并支持分布式事务处理。

NoSQL数据库。
如MongoDB、Cassandra和Redis等,这些数据库可以处理半结构化和非结构化的数据,并支持高并发写入和读取。

云平台。
如Amazon AWS、Google Cloud和阿里云等,这些云平台可以提供虚拟化资源、弹性伸缩和自动化运维等功能,使得处理大数据更加灵活和高效。

这些基础架构可以相互组合和扩展,以适应不同的大数据处理场景和需求。

之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题

Hadoop、Spark、Hive和Flink

在这里插入图片描述
小数据问题不大

OLTP是啥?

OLTP( On-Line Transaction Processing ) 联机事务处理过程,
通常也可以成为面向交易的处理系统。

个人理解为主要场景针对用户人机交互频繁,数据量小操作快速响应的实时处理系统中
Mysql以及Oracle等数据库软件可以理解为OLTP的工业应用软件体现。

OLAP( On-Line Analytical Processing),联机分析处理过程。
个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。
Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。

原来如此了,数据库做不了大数据的分析类的问题

T是事务
A是分析

为什么要大数据?

在这里插入图片描述
在这里插入图片描述
06年写Java的MapReduce程序,难理解

后来写sql得了,很简单
在这里插入图片描述
在这里插入图片描述
yarn出来就调度一把
美滋滋
在这里插入图片描述
docker现在听说得很多:隔离空间
yarn是container集装箱

在这里插入图片描述
在这里插入图片描述

只写sql然后转译为hive那边的Java

还有pyspark,写Python很容易
在这里插入图片描述
相当于是兼容超级多的程序

批处理,这些是【离线一大批】

下面是流式计算【实时快速处理】
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

两家很骚,后来俩都能处理了
各种技术你看看是不是穿起来了………………
在这里插入图片描述
在这里插入图片描述
你是做那一层呢?
在这里插入图片描述

kafka传输技术,快速

我们从传输开始学起

在这里插入图片描述
在这里插入图片描述
TB级别量的数据,后续可以对接很多大数据处理技术框架

在这里插入图片描述
有点厉害了

现有的消息模型?

在这里插入图片描述
在这里插入图片描述
半结构化的东西

kafka是分布式消息系统
在这里插入图片描述
使得kafka有扩展性
在这里插入图片描述
offset不可重复
在这里插入图片描述
map消息
在这里插入图片描述
不给key那就随机分配
否则分区
在这里插入图片描述
同样的key,同样的key放一起
在这里插入图片描述
在这里插入图片描述
follower就去复制数据,同步,保持数据的可恢复性
这样的话,就不会丢失了
在这里插入图片描述
broker就是一台服务器,负责读写
在这里插入图片描述
主分区由broker读写

kafka监听器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
docker去部署kafka的内外网监听端口
在这里插入图片描述

kafka的消息模型

在这里插入图片描述
在这里插入图片描述
处于性能和开销的考虑
否则还要维护锁,加锁,减锁
否则就会引入竞争,麻烦
最大化我们要提升性能和吞吐量
在这里插入图片描述
在这里插入图片描述
这种是一对一
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
不同分区之间的消费顺序不知道
offset早的是先消费
在这里插入图片描述
你想要保证顺序会设置key同

在这里插入图片描述
tcp?
ack确认信息
在这里插入图片描述
先读信息,至少读一次
在这里插入图片描述
给位置,最多读一次,可以不读
在这里插入图片描述

生产者api

在这里插入图片描述
在这里插入图片描述
生产者只大量生产,不管消费,现在就是中国缓冲区满了,老百姓没钱消费,导致生产过剩

需要通过一带一路出去消费,这时候美国不乐意
在这里插入图片描述
物流系统?
在这里插入图片描述在这里插入图片描述
就是网购系统,一次精确消费

在这里插入图片描述

我扣款那边就要收款
我失败他不能收款
我付款了,他不能允许说没收到

这就是原子性

数据库就这样的特性
在这里插入图片描述

kafka序列化

在这里插入图片描述
在这里插入图片描述
前序、中序、后序序列化
跟买电脑一样
一堆零件,你送到了,找师傅安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实际上
在这里插入图片描述
要卡主时间顺序的

在这里插入图片描述
注册制
在这里插入图片描述
header标识一下
在这里插入图片描述

实际订餐和菜品看不到

在这里插入图片描述
在这里插入图片描述
如果前面完不成,后面就gg
网络延时导致的

在这里插入图片描述
异步重试顺序如何保证

在这里插入图片描述
一会上菜,半天看不到,gg
消息积压很恶心

在这里插入图片描述
不看所有信息,只看id
在这里插入图片描述
又有问题,看日志
有几个商户的订单贼多,都放一个partition,怎么办?

那按照用户编号来放,这样,某个订单就走同一个partition

在这里插入图片描述
这样好多了
后面呢?
在这里插入图片描述
促销……
在这里插入图片描述
太骚了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
哈哈哈技术太难了
消息积压有不同的原因

单表存了太多的菜品
在这里插入图片描述
在这里插入图片描述
并发太大,俩请求同事查到,id不存在
同时插入,第二个就gg
加锁?

Redis分布式锁怎么说?
不行,消费着网络超时gg

在这里插入图片描述
尝试插入,不行就改key
在这里插入图片描述
主从服务器
有订单,但是没有菜
主从数据库同步延时
就查不到数据
或者查不到最新数据
在这里插入图片描述

在这里插入图片描述
精确传才行

kafka默认就是容易重复

在这里插入图片描述
不存在插入,存在就更新

在这里插入图片描述
公用数据库和kafka系统

在不同环境中切换容易出错
所以配置要搞清楚

cpu容易挂的话,gg

kafka是牛逼的,很少出问题,大多都是逻辑出了问题。


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/175641.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端的简单介绍

前端核心的分析 CSS语法不够强大,比如无法嵌套书写,倒是模块化开发中需要书写很多重复的选择器 没有变量和合理的样式复用机制,使逻辑上相关的属性值必须字面量的心事重复的输出,导致难以维护 CSS预处理器,减少代码的笨重&#…

DNS 域名解析系统

文章目录 前言什么是 DNS 域名解析系统为什么需要 DNS 域名解析DNS 是如何发展的hosts 文件维护域名和IP的映射关系DNS 系统(服务器)DNS 镜像系统 前言 前面为大家分享了关于计算机网络中应用层——自定义协议、传输层——UDP、TCP 协议、网络层——IP协…

pgsql 分组查询,每组取10条

需求: 按照表的字段分组,然后每组取10条结果,返回即可 sql 如下: SELECT* FROM (SELECT chk_id,feature_id,task_id, ROW_NUMBER () OVER (PARTITION BY chk_id ORDER BY chk_id) AS row_num FROM ics_check_report WHERE task…

肺癌不再是老年病:33岁作家的离世引发关注,有这些情况的请注意

近期,90后网络小说家七月新番和26岁男艺人蒋某某因肺癌去世,引发关注。他们都没有吸烟习惯,那么他们为什么会得肺癌呢?浙大二院呼吸内科副主任医师兰芬说,现在年轻人熬夜、加班导致身体过劳,在劳累情况下身…

Vue Router使用VueUse更改标签页名称的工具函数

进入正题 安装 npm i vueuse/core or pnpm i vueuse/core or yarn add vueuse/corerouter/helper.js import { useTitle } from vueuse/coreexport const usePageTitle (to) > {const projectTitle import.meta.env.VITE_APP_TITLE // 将可变名抽出到 .env 内配置cons…

element-plus走马灯不显示

问题描述 依赖正确&#xff0c;代码用法正确&#xff0c;但是element-plu走马灯就是不显示&#xff01;&#xff01; <div class"content"><el-carousel height"150px" width"200px"><el-carousel-item v-for"item in 4&qu…

Windows详细安装和彻底删除RabbitMQ图文流程

RabbiitMQ简介 RabbitMQ是实现了高级消息队列协议&#xff08;AMQP&#xff1a;Advanced Message Queue Protocol&#xff09;的开源消息代理软件&#xff08;亦称面向消息的中间件&#xff09;。RabbitMQ服务器是用Erlang语言编写的&#xff0c;而聚类和故障转移是构建在开放…

基于springboot框架的房屋租赁租房系统

功能如图所示 摘要 房屋租赁租房系统是一个基于Spring Boot框架开发的全新房地产管理平台&#xff0c;它旨在简化租房流程&#xff0c;提供房东和租户之间的高效互动&#xff0c;以满足现代社会对房屋租赁的不断增长的需求。该系统充分利用了Spring Boot的强大特性&#xff0c;…

arcpy.describe

描述 根据输入的数据&#xff0c;返回输入数据的属性 arcpy.da.Describe与arcpy.Describe返回的数据是一样的但是返回的的类型不一样&#xff0c;arcpy.da.Describe返回的是字典&#xff0c;arcpy.Describe返回的是string 如果要访问数据对象不存在的属性&#xff0c;将返回…

Yolo-Z:改进的YOLOv5用于小目标检测

目录 一、前言 二、背景 三、新思路 四、实验分析 论文地址&#xff1a;2112.11798.pdf (arxiv.org) 一、前言 随着自动驾驶汽车和自动驾驶赛车越来越受欢迎&#xff0c;对更快、更准确的检测器的需求也在增加。 虽然我们的肉眼几乎可以立即提取上下文信息&#xff0c;即…

美国人工智能政策公布

美国总统拜登 30 号上午发布了一项关于人工智能&#xff08;AI&#xff09;的行政命令&#xff08;EO&#xff09;。该行政命令最初以白宫情况说明书的形式向公众提供&#xff0c;“为人工智能安全和安保制定了新标准&#xff0c;保护美国人的隐私&#xff0c;促进公平和公民权…

【Linux】开发工具——vim多模式编辑器的入土设置sudoers白名单

个人主页点击直达&#xff1a;小白不是程序媛 Linux系列专栏&#xff1a;Linux被操作记 目录 前言&#xff1a; 基本概念 vim基本操作 [正常模式]切换至[插入模式] [插入模式]切换至[正常模式] [正常模式]切换至[末行模式] 三种模式的切换关系图 vim命令模式命令集 进…

骨传导耳机到底好用吗,到底骨传导耳机是不是噱头呢?

随着社会的飞速发展以及科技的不断提升&#xff0c;人们对健康的关注度也逐渐提高起来。而在这种背景下&#xff0c;骨传导耳机以其独特不可替代的优势&#xff0c;吸引了一大群骨传导爱好者的目光。 那么骨传导耳机是不是噱头呢&#xff1f;其实这种耳机不仅不会堵塞耳道&…

什么是接口自动化测试?接口自动化测试的目的是什么?

1、什么是接口测试 接口测试是对系统或组件之间的接口的测试。主要用于检测外部系统与系统间以及内部各个子系统间的交互点。测试重点是检查数据交换、传递和控制管理过程&#xff0c;以及系统间的相互逻辑依赖关系等。 2、接口测试的目的 1> 尽早介入软件测试流程&#…

【23真题】邮电之首!扩招15倍!专业课难度骤降!

今天分享的是23年北京邮电大学804的信号与系统试题及解析。 本套试卷难度分析&#xff1a;北邮804在22年只招生6人&#xff0c;23年拟招生87人&#xff0c;扩招近15倍&#xff01;22年北京邮电大学804考研真题&#xff0c;我也发布过&#xff0c;若有需要&#xff0c;戳这里自…

墨者学院 身份认证失效漏洞实战

一、题目信息 二、漏洞利用 1.通过抓包&#xff0c;抓取test登录信息 发现card_id号以及一些回显的账号密码信息 搜索了一下这个id&#xff0c;发现是测试的头像 2.修改id号 分析请求包的逻辑&#xff0c;发现是请求了头像资源后再去请求头像id的详情包&#xff0c;所以根据…

怎么监控钉钉聊天记录内容(监控钉钉聊天记录的3种形式)

企业沟通工具的普及&#xff0c;越来越多的企业开始使用钉钉作为内部沟通工具。然而&#xff0c;对于企业管理者来说&#xff0c;如何监控钉钉聊天记录内容成为了一个重要的问题。本文将介绍几种方法&#xff0c;帮助企业管理者实现监控钉钉聊天记录内容的目的。 一、钉钉自带功…

【多线程面试题十七】、如果不使用synchronized和Lock,如何保证线程安全?

文章底部有个人公众号&#xff1a;热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享&#xff1f; 踩过的坑没必要让别人在再踩&#xff0c;自己复盘也能加深记忆。利己利人、所谓双赢。 面试官&#xff1a;如果不使用synchronized…

GZ035 5G组网与运维赛题第4套

2023年全国职业院校技能大赛 GZ035 5G组网与运维赛项&#xff08;高职组&#xff09; 赛题第4套 一、竞赛须知 1.竞赛内容分布 竞赛模块1--5G公共网络规划部署与开通&#xff08;35分&#xff09; 子任务1&#xff1a;5G公共网络部署与调试&#xff08;15分&#xff09; 子…

MATLAB | 万圣节来画个简单的可爱鬼叭!

万圣节要到啦一起来画个可爱鬼吧~ 代码比较的短&#xff1a; 完整代码 figure(Units,normalized,Position,[.2,.1,.52,.72]); axgca;hold on;axis off; ax.DataAspectRatio[1,1,1]; ax.YDirreverse; ax.XLim[0,100]; ax.YLim[0,100]; [X,Y]meshgrid(linspace(0,1,200)); Zsq…