大数据系列 | 白话讲解大数据技术生态中Hadoop、Hive、Spark的关系介绍

   大数据属于数据管理系统的范畴,数据管理系统无非就两个问题:数据怎么存、数据怎么算
   现在的信息爆炸时代,一台服务器数据存不下,可以找10台服务器存储,10台存储不下,可以再找100台服务器存储。但是这100台存储怎么管理呢?就好比一个公司有100名员工,老板如何管理这100名员工呢,所以就需要招个经理去管理这100名员工。
   在Hadoop中HDFS去扮演经理这样的角色,HDFS去统一管理这100台服务器上的存储空间,然后提供一个接口,让外部感觉到这100台服务器的存储空间就像一个大存储池一样。
   数据存储下来,接下来就需要去计算。要么存储数据有什么用呢,接下来就需要写一个程序来利用这100台服务器的CPU和内存资源,同时也需要考虑任务如何均匀的分配到这100台服务器中去运行,而且还要需要考虑服务器出现故障后任务的再分配问题,为了解决这些复杂的问题,所以HDFS里面引入了一个模块叫MapReduce。MapReduce提供了一个并行计算的框架,通过它的API可以让上层应用程序将任务分成两个阶段:Map阶段和Reduce阶段。Map阶段就是你有很大的任务,需要找1000个帮手去帮你完成,每人做一份,这就是Map阶段。Reduce阶段就是1000个帮手把任务完成,然后再把结果汇总到你这,然后你再出一个最终结果,这就是Reduce阶段
   现在HDFS处理存储,MapReduce处理计算,看起来很美好,但是以前工程师都是用SQL来处理数据的,但是到大数据时代呢,工程师不能写SQL了,要开始写MapReduce程序了,而且还是分布式处理的程序,这个就给程序员增加了很大的难度。所以对这批工程师的诉求就是能不能也在Hadoop上写SQL,于是Hive就出现了。Hive是一个在Hadoop上进行结构化数据处理(用户能够使用写SQL处理结构化数据)的解决方案。
   Hive里面的一个核心模块就是metastore,它是用来存储这些结构化的信息的,简单来说就是一些表信息、有多少列、每一列是什么样的数据结构等等。Hive里面的执行引擎会把SQL语句进行语法分析,生成语法树。也就是Hive引擎会把这个SQL语句翻译成MapReduce的任务去执行,然后再把执行的结果进行加工,返给用户。这就是一个在Hive里面用SQL去处理数据的过程。Hive的出现使得大数据处理任务的开发效率提高了,但是在数据处理的表达力和灵活性上肯定是不如直接写MapReduce程序的,因此这两个技术也不是相互替代的关系,需要根据实际的场景去选择。
   Spark经常和Hadoop做对比,其实精确的说应该是和Hadoop的MapReduce做对比,Spark也是一个计算框架,它和MapReduce主要的不同就是Spark是一个基于内存的,MapReduce是一个基于磁盘计算的,所以Spark的卖点就是快。Spark和MapReduce都提供了API,可以让开发者去写一些数据处理的程序进行对接。在Spark中也有Spark SQL模块可以让程序员写SQL语句来进行数据处理,当然Spark还提供了其他很多模块可以使用。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16458.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式 IO 模块:港口控制主柜的智能 “助手”

在繁忙的港口,每一个集装箱的装卸、每一艘货轮的停靠与离港,都离不开高效精准的控制系统。港口控制主柜作为整个港口作业的核心枢纽之一,其稳定运行至关重要。而明达技术自主研发推出的MR30分布式 IO 模块可作为从站,与 PLC&#…

Golang GORM系列:GORM 高级查询教程

有效的数据检索是任何程序功能的基础。健壮的Go对象关系映射包(称为GORM)除了标准的CRUD操作之外,还提供了复杂的查询功能。这是学习如何使用GORM进行高级查询的综合资源。我们将涵盖WHERE条件、连接、关联、预加载相关数据,甚至涉…

常见的数据仓库有哪些?

数据仓库(Data Warehouse,简称数仓)是企业用于存储、管理和分析大量数据的重要工具,其核心目标是通过整合和处理数据,为决策提供高质量、一致性和可信度的数据支持。在构建和使用数仓时,选择合适的工具和技术至关重要。以下是常见的数仓工具及其特点的详细介绍: 1. Hiv…

搜维尔科技在动作捕捉与动画制作、汽车制造与安全测试、机器人与自动化领域的一些案例

动作捕捉与动画制作领域 1.逼真的手部和面部动画制作:动画师施先生利用搜维尔科技代理的Xsens套装、Manus VR手套和Faceware的面部动作捕捉系统,捕捉短片中人物的手部和面部动作,再将数据重新定位到角色骨架上并调整,最终在虚幻引…

HTTP3原理解析和实战应用

http协议原理解析 HTTP1.1改动 keeplive 在http1.0版本中http连接会在每次请求都会发起连接, 并且每次连接在保证安全性都需要建立三次握手, 每次请求后就立即断开连接, 下次请求就还需要重新建立连接.这样就提升了请求的复杂度. keeplive就使得每次建立连接后可以多次请求…

【分布式理论9】分布式协同:分布式系统进程互斥与互斥算法

文章目录 一、互斥问题及分布式系统的特性二、分布式互斥算法1. 集中互斥算法调用流程优缺点 2. 基于许可的互斥算法(Lamport 算法)调用流程优缺点 3. 令牌环互斥算法调用流程优缺点 三、三种算法对比 在分布式系统中,多个应用服务可能会同时…

VMware Windows_10_x64 安装 VM Tools 后无法将本机文件复制到虚拟机

有一种情况,安装VM Tools死活安装不上去。这时不要急不要慌,重启本机就好了(本人情况就是如此)。 windows键 R 输入 service.msc 打开服务管理器 找到Virtual Disk服务,选择属性设置为自动,应用后启用服…

uniapp 编译生成鸿蒙正式app步骤

1,在最新版本DevEco-Studio工具新建一个空项目并生成p12和csr文件(构建-生成私钥和证书请求文件) 2,华为开发者平台 根据上面生成的csr文件新增cer和p7b文件,分发布和测试 3,在最新版本DevEco-Studio工具 文…

AI+智能中台企业架构设计_重新定义制造(46页PPT)

本文档主要探讨了“中台”的概念及其在制造领域的应用,通过百度中台技术案例,展示了如何利用ABCIOT(人工智能、大数据、云计算和物联网)重新定义制造业。中台被定义为企业内部核心管理平台,包括微服务业务平台、组织创…

基于Java的分布式系统架构设计与实现

Java在大数据处理中的应用:基于Java的分布式系统架构设计与实现 随着大数据时代的到来,数据处理的规模和复杂性不断增加。为了高效处理海量数据,分布式系统成为了必不可少的架构之一。而Java,凭借其平台独立性、丰富的生态系统以…

MySQL数据库入门到大蛇尚硅谷宋红康老师笔记 基础篇 part 11

第11章_数据处理之增删改 首先得先有一个表: #0. 储备工作 USE atguigudb;CREATE TABLE IF NOT EXISTS emp1( id INT, name VARCHAR(15), hire_date DATE, salary DOUBLE(10,2) );DESC emp1;SELECT * FROM emp1; 1.增加数据 #方式1:一条一条的添加…

Java多线程——线程池的使用

线程饥饿死锁 在单线程的Executor中,如果任务A将任务B提交给同一个Executor,并且等待任务B的结果,就会引发死锁线程池中所有正在执行任务的线程由于等待其他仍处于工作队列中的任务而阻塞 执行时间较长的任务 执行时间较长的任务不仅会造成…

通过C模块中的Python API访问数组的数组

在 C 模块中通过 Python API 访问数组的数组(即多维数组)涉及到使用 Python C API 来处理 Python 对象和数据结构。在 C 代码中访问这种数据结构时,我们可以使用 Python 的对象访问方式,例如 PyList 或 PyArray(如果你…

【IDEA】2017版本的使用

目录 一、常识 二、安装 1. 下载IDEA2017.exe 2. 安装教程 三、基本配置 1. 自动更新关掉 2. 整合JDK环境 3. 隐藏.idea文件夹和.iml等文件 四、创建Java工程 1. 新建项目 2. 创建包结构,创建类,编写main主函数,在控制台输出内容。…

物联网智能语音控制灯光系统设计与实现

背景 随着物联网技术的蓬勃发展,智能家居逐渐成为现代生活的一部分。在众多智能家居应用中,智能灯光控制系统尤为重要。通过语音控制和自动调节灯光,用户可以更便捷地操作家中的照明设备,提高生活的舒适度与便利性。本文将介绍一…

利用HTML和css技术编写学校官网页面

目录 一,图例展示 二,代码说明 1,html部分: 【第一张图片】 【第二张图片】 【第三张图片】 2,css部分: 【第一张图片】 【第二张图片】 【第三张图片】 三,程序代码 一,…

学习笔记十九:K8S生成pod过程

K8S生成pod过程 流程图具体生成过程用户提交 Pod 定义API Server 处理请求调度器分配节点(Scheduling)目标节点上的 Pod 创建网络配置状态上报与监控控制器管理(Controller Manager)就绪与服务发现 关键错误场景高级特性 流程图 具…

(一)Axure制作移动端登录页面

你知道如何利用Axure制作移动端登录页面吗?Axure除了可以制作Web端页面,移动端也是可以的哦,下面我们就一起来看一下Axure制作移动端登录页面的过程吧。 第一步:从元件中拖入一个矩形框,并设置其尺寸为:37…

【C++】——精细化哈希表架构:理论与实践的综合分析

先找出你的能力在哪里,然后再决定你是谁。 —— 塔拉韦斯特弗 《你当像鸟飞往你的山》 目录 1. C 与哈希表:核心概念与引入 2. 哈希表的底层机制:原理与挑战 2.1 核心功能解析:效率与灵活性的平衡 2.2 哈希冲突的本质&#x…

第5章 数据库系统(选择|案例|论文)(重点★★★★★)

5.1 数据库管理系统1 数据库是长期存储在计算机内的、有组织的、可共享的数据集合,数据库系统是指在计算机信息系统中引入数据库后的系统,一般由数据库、数据库管理系统 (DataBaseManagement System,DBMS)、应用系统、数据库管理员(DataBase…