大数据与Hadoop入门理论

一、大数据的3种数据类型

在这里插入图片描述

1、结构化数据

可定义,有类型、格式、结构的强制约束
如:RDBMS(关系型数据库管理系统)
在这里插入图片描述

2、非结构化数据

没有规律没有数据约束可言,很复杂难以解析
如:文本文件,视频,音频,PDF文件,各种类型文件,图片,邮件等
在这里插入图片描述

3、半结构化数据

一定的格式约束但是不多
如: csv,xml,json,html文件,拥有开标签闭标签规定但是中间内容不确定
在这里插入图片描述

二、大数据4V特征

在这里插入图片描述

1、Volume 大量性

数据量大,包括采集、存储和计算的量都非常大。

2、Velocity高速性

数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

3、Variety 多样性

种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

4、Veracity 真实性、精准性

数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。数据的准确性和可信赖度,即数据的质量。数据不一定完整,有一定缺陷

在这里插入图片描述

三、什么是Hadoop?

在这里插入图片描述

1、Apache公司用Java开发的一种开源框架
2、可以进行大数据的分布式存储(HDFS)+分布式处理(MapReduce)
3、使用自身电脑资源,进行并行化数据处理,代码处理模式简单

四、Hadoop内部框架

在这里插入图片描述

1、Hadoop Common

Hadoop的通用类,Hadoop是基于Java开发的,所以需要一些Java的库和实体类的支持

2、HDFS

HDFS 全称为Hadoop Distribute File System,中文名为Hadoop分布式文件系统, 用于文件的存储

3、MapReduce

MapReduce是分布式处理框架,分为Map和Reduce两部分,用于数据处理

4、YARN

YARN全称为 Yet Another Resource Negotiate,中文名为另一个资源协调者,用于作业管理和资源调度

五、YARN例子讲解

1、作业管理

比如,班级里需要搬凳子搬桌子擦窗子,班长可以安排1-5号同学搬凳子,安排6-10号同学搬桌子,安排11-15号同学擦窗子。这个班长(Yarn),安排不同的人(电脑)做不同的事情(作业)

2、资源调度

1-5号同学搬凳子,有男有女,男同学力气大所以每人搬10张,女生力气小所以每人搬2张,6-10号同学搬桌子,有男有女,男同学力气大所以每人搬10张,女生力气小所以每人搬2张,11-15号同学擦窗子,有男有女,男同学体力好所以每人擦3扇,女生体力差所以每人擦1扇,这个过程就是资源调度,班长(Yarn)安排男生(性能好的电脑,空闲的电脑)多干点,安排女生(性能差点的电脑,繁忙的电脑)少干点。

六、Hadoop Cluster (Hadoop集群)

在这里插入图片描述

1、Hadoop集群的架构为“”“”架构
2、由一台电脑作为主电脑,其他多台电脑作为从电脑相互关联组成
3、主电脑的配置一般比较好性能比较高,从电脑一般是市面上的普通商品电脑,性能普通
4、在Hadoop中后续会将电脑称之为“节点”

七、Hadoop Cluster Detail(Hadoop集群详解)

在这里插入图片描述

1、Hadoop集群的主从架构

主节点叫做NameNode,从节点叫做DataNode

2、从节点用于数据的实际存放

数据存放时会将文件首先进行拆块(split block),不同的块(block)文件会存放在不同的从节点中,Hadoop1.x版本中,块的默认大小为64MB,Hadoop2.xHadoop3.x中,默认块大小为128MB

3、主节点用于记录数据,不用于存放数据

主节点中有一个MetaData文件,叫做元数据文件,也被称为记录数据的数据文件,一般记录分块文件信息,块名字信息,块大小信息,块路径信息,等等。

八、Hadoop 历史

1、Hadoop创始人叫Doug Cutting2006年Hadoop问世
2、Hadoop的图标是他儿子的大象玩具

九、Hadoop 4种安装模式

1、Local runtime mode 单机模式

一般用于测试和debug,无进程

2、Pseudo-distributed operating mode 伪分布模式

一般用于学习,一台机器上有一个主节点一个从节点和其他环境

3、Fully distributed operating mode 全分布模式

多台机器,一台作为主节点,其他作为从节点,完全符合Hadoop集群架构

4、High availability(HA) operating mode 高可用模式

保证Hadoop的一切运行顺利,有两个主节点其中一个是备份

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/154351.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

02 认识Verilog HDL

02 认识Verilog HDL ‍ 对于Verilog的语言的学习,我认为没必要一开始就从头到尾认真的学习这个语言,把这个语言所有细节都搞清楚也不现实,我们能够看懂当前FPGA的代码的程度就可以了,随着学习FPGA深度的增加,再不断的…

Axure RP 9 for Mac(原型设计软件)中文正式版

Axure RP 9 是一款流行的原型设计和线框图软件,允许设计人员和开发人员为网站和移动应用程序创建交互式动态原型。它提供了一整套用于创建交互式设计的工具和功能,包括拖放小部件、条件逻辑、动态内容和动画。 软件下载:Axure RP 9 for Mac中…

2023版 STM32实战7 通用同步/异步收发器(串口)F103/F407

串口简介和习惯 -1-通用同步异步收发器 (USART) 能够灵活地与外部设备进行全双工数据交换,满足外部设备对工业标准 NRZ 异步串行数据格式的要求。 -2-硬件流控制一般是关闭的 -3-波特率指单位时间传输bit个数 -4-数据位一般是8位 -5-一般无校验位 编写代码思路 -1-参…

Java架构师高并发架构设计

目录 1 导学2 什么是高并发问题3 高并发处理之道4 akf扩展立方体5 细化理念应对高并发5 总结1 导学 本章的主要内容是大型系统架构设计的难点之一,高并发架构设计相关的知识落到实际项目上,就是订单系统的高并发架构设计。我们首先会去学习到底何为高并发问题,先把问题搞清楚…

神经网络中卷积和池化的区别

1、什么叫卷积? 卷积层是用一个固定大小的矩形区去席卷原始数据,将原始数据分成一个个和卷积核大小相同的小块,然后将这些小块和卷积核相乘输出一个卷积值(注意这里是一个单独的值,不再是矩阵了)。 卷积的…

【RabbitMQ 实战】10 消息持久化和存储原理

一、持久化 1.1 持久化对象 rabbitmq的持久化分为三个部分: 交换器的持久化。队列的持久化。消息的持久化。 1.1.1 交换器持久化 交换器的持久化是通过在声明交换器时, 指定Durability参数为durable实现的。若交换器不设置持久化,在rabb…

C++11 Thread线程库的使用

C11 Thread线程库的使用 传统的C(C11标准之前)中并没有引入线程这个概念,在C11出来之前,如果我们想要在C中实现多线程,需要借助操作系统平台提供的API,比如Linux的,或者windows下的 。 本文详细…

PPT课件培训视频生成系统实现全自动化

前言 困扰全动自化的重要环节,AI语音合成功能,终于可以实现自动化流程,在此要感谢团队不懈的努力和韧性的精神! 实现原理 请参照我的文章《Craneoffice云PPT课件培训视频生成系统》 基本流程 演示视频 PPT全自动 总结 过去实…

常见弯道输送机有哪些

提到弯道输送机您可能首先想到的就是弯道滚筒线,其实除了滚筒线之外,也有一些其他线体可以做弯道,下面就为您总结了4种常见的弯道输送机。 1、弯道皮带线:即线体转弯处设计成皮带输送机,这种形式的转弯设计可以实现不同…

如何在 Spring Boot 中进行文件上传

在 Spring Boot 中进行文件上传 文件上传是Web应用程序中常见的功能之一,它允许用户将文件从客户端上传到服务器。Spring Boot提供了便捷的方式来处理文件上传,并且整合了Spring框架的强大功能,使文件上传变得相对简单。本文将介绍如何在Spr…

【PPT制作】基础篇

文章目录 一、PPT制作必要的基础设置1.1 自动保存1.2 字体嵌入1.3 撤销步数1.4 图像大小和质量 二、必备快捷键三、设计四原则四、总结 ヾ(๑╹◡╹)ノ" 没有坚持的努力,本质上并没有多大意义ヾ(๑╹◡╹)ノ" 一、PPT制作必要的基础…

面对研究生粉丝机器视觉择业问题-视觉人机器视觉寄语

机器视觉是有门槛,他是一门综合学科。对基础课程的知识点有一定的需求,对于后来者​肯定没有一定储备,肯定要要进一步加深学习的。 人不吃饭,真的会饿死的。无论谁想学习机器视觉,我第一个劝导的是尽快就业。工作经验过…

HTTPS 加密工作过程

引言 HTTP 协议内容都是按照文本的方式明文传输的,这就导致在传输过程中出现一些被篡改的情况。例如臭名昭著的运营商劫持。显然, 明文传输是比较危险的事情,为此引入 HTTPS ,HTTPS 就是在 HTTP 的基础上进行了加密, 进一步的来保…

SaaS是什么?

可做一个比喻,不仅把SaaS是什么讲的很清楚,还把Iaas、PaaS和SaaS之间的区别弄清楚了。 这个比喻就是“如果把云计算简单想象成一台大电脑,那么IaaS是直接给你一台裸机,PaaS是安装好操作系统和基础运行环境再给你,而Sa…

泛函的含义,泛函分析

经常有同事和朋友讨论泛函分析是做什么的,所以做个小log 1. 泛函的含义 泛函的含义,笼统说,泛函是符合某种性质的任意函数;因为是任意的,所以就是泛泛的;但也没有不着边际的泛。 2. 泛函的例子 2.1 符合半…

区块链的两个核心概念之一签名, 另一个是共识.

Alice的公私钥, 签名和验证签名仅仅确定了Alice对数字资产A所有权的宣言. 之后, Bob也可以用自己的私钥对资产A进行签名宣誓所有权。区块链中叫双花,即重复宣称所有权, 也称重复花费交易。这时候需要共识算法(集体成员pow或委员会代表pos监督…

移远通信EM060K系列LTE-A Cat 6模组完成全球认证覆盖

近日,移远通信LTE-A Cat 6模组EM060K系列顺利完成全球认证覆盖,将以卓越的性能和品质助力海内外客户终端大规模部署,为其提供畅快的高速网络连接。同时,凭借着有竞争力的性能和成本优势,EM060K系列将加速释放海外固定无…

matlab 图像均值滤波

目录 一、算法原理二、代码实现三、结果展示本文由CSDN点云侠翻译,放入付费专栏只为防不要脸的爬虫。专栏值钱的不是本文,切勿因本文而订阅。 一、算法原理 均值滤波是一种常用的线性滤波方法,用于平滑图像并减少噪声。它的实现过程如下: 确定滤波器的大小:选择一个固定的…

科技资讯|苹果下一代Vision Pro头显将更小更轻,预装处方镜片

据彭博社的 Mark Gurman 在《Power On》新闻简报中透露,苹果和 Meta 的混合现实头显还未发售,但两家的下一代机型的开发工作已经在顺利进行。 据报道,苹果下代产品的一个重点是通过更小、更轻的设计,使其设备佩戴起来更加舒适。据…

利用正则表达式进行数据采集和处理

目录 一、正则表达式的概述 二、正则表达式在数据采集中的运用 1、匹配和提取数据 2、数据清洗 3、数据验证 三、Python中的re模块介绍 1、re.match()方法 2、re.search()方法 总结 正则表达式是一种强大的文本处理工具,它可以用于模式匹配、提取、替换等操…