大数据,Hadoop,HDFS的简单介绍

大数据,Hadoop,HDFS的简单介绍

news/2025/3/31 17:30:59/文章来源:https://blog.csdn.net/weixin_40121264/article/details/145227091

大数据

海量数据，具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集

合

大数据的特征: 4V

Volume : 巨大的数据量

Variety : 数据类型多样化

结构化的数据 : 即具有固定格式和有限长度的数据

半结构化的数据 : 是一些 xml 或者 html 格式的数据

非结构化的数据 : 现在非结构化的数据越来越多，就是不定长、无固定格式的数据，例如网

页、语音、视频等

Velocity : 数据增长速度快, [vəˈlɒsəti]

Value : 价值密度低，商业价值高

大数据的处理:

数据采集，数据存储，数据清洗，数据分析，数据可视化。

核心就是 " 数据价值化 "

应用场景

存储和读取效率

分布式存储: 将一个数据集存储到多个硬盘里，然后并行读取

比如 1T 的数据，我们平均 100 份存储到 100 个 1TB 硬盘上，同时读取，那么读取完整个数

据集的时间用不上两分钟。至于硬盘剩下的 99% 的容量，我们可以用来存储其他的数据集，这样就不会产生浪费。解决读取效率问题的同时，我们也解决了大数据的存储问题。

存储大数据集----->>硬盘不够大、数据存储单份的安全隐患----->>分布式文件系统

快速分析大数据集----->>基于分布式文件系统的计算分析的编程框架模型

传统型关系数据库不适合存储非结构化数据------>>BigTable(适合存储结构化和半结构化数据)

Hadoop

Hadoop 是 Apache 基金会旗下 一个开源的分布式存储和分析计算平台 ，使用 java 语言开发，具有很好的跨平台性，可以运行在商用( 廉价 ) 硬件上，用户无需了解分布式底层细节，就可以开发分布式程序，充分使用集群的高速计算和存储

组成部分

面试必问

生态系统

Hadoop不仅仅是一个单一的软件，它是一个生态系统，意味着它包含了一系列的相关工具和框架，这些工具和框架可以相互配合使用，以支持不同类型的数据处理任务。

安装

CDH

使用CDH会简化Hadoop的安装,（Cloudera's Distribution Including Apache Hadoop）是由Cloudera公司提供的一种基于Apache Hadoop的大数据平台解决方案。它是一个企业级的发行版，旨在简化和优化Hadoop的部署、管理和使用.

CM 集群管理平台

(Cloudera Manager) 是一个功能全面的集群管理工具，它通过提供自动化的部署、配置、监控和管理功能，极大地简化了 Hadoop 集群的运维工作

HUE 开发平台

全称为Hadoop User Experience，是一个开源的Apache Hadoop UI系统，它为用户提供了一个在浏览器端与Hadoop集群进行交互的Web控制台.它提供了一个功能强大的SQL编辑器，用户可以编写、执行和调试SQL查询，支持自动完成、语法高亮和查询结果可视化。此外，Hue还内置了HDFS文件浏览器，用户可以方便地浏览、上传、下载和管理HDFS文件

Hue主要用于数据分析和处理，而Cloudera Manager则主要用于集群的管理和运维。

HDFS的结构图

HDFS的优点

1. 高容错性（硬件故障是常态）：数据自动保存多个副本，副本丢失后，会自动恢复

2. 适合大数据集：GB、TB、甚至PB级数据、千万规模以上的文件数量，1000以上节点规模(一台服务器/电脑是一个节点)

3. 构建成本低：Hadoop开源,并且可以构建在廉价机器上。

4. 多种软硬件平台中的可移植性

5. 高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

HDFS的缺点

1. 不适合做低延迟数据访问(无法实时)：

HDFS适合处理大型数据集，高吞吐率。这一点以高延迟为代价的。因此HDFS不

适合处理用户要求的毫秒级的低延迟应用请求

2. 不适合小文件存取：

一是需要消耗大量的寻址时间，

第二, 无论块中文件大小, 文件的元数据所占的内存是相同的, 因此相对来说，大文件更省内存。如果文件太小,很可能导致元数据比文件本身还要大.

解决: 把多个小文件合并成大文件

3. 不适合并发写入，文件随机修改：

HDFS上的文件只能拥有一个写者，仅仅支持append操作。不支持多用户对同一个文件的写操作，以及在文件任意位置进行修改

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/4711.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

如何用3个月零基础入门网络安全？_网络安全零基础怎么学习

如何用3个月零基础入门网络安全？_网络安全零基础怎么学习

🤟 基于入门网络安全/黑客打造的：👉黑客&网络安全入门&进阶学习资源包前言写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全，实现自己的“黑客梦”。文章的宗旨是： 1.指出一些自学的误区 2.提供…

阅读更多...

微服务与docker

微服务与docker

准备工作在课前资料中给大家提供了黑马商城项目的资料，我们需要先导入这个单体项目。不过需要注意的是，本篇及后续的微服务学习都是基于Centos7系统下的Docker部署，因此你必须做好一些准备： Centos7的环境及一个好用的SSH客户端装好Docker会使用Docker如果是学习过上面Doc…

阅读更多...

（7）(7.2) 围栏

（7）(7.2) 围栏

文章目录前言 1 通用设置 2 围栏类型 3 破坏栅栏行动 4 使用 RC 通道辅助开关启用栅栏 5 自动高度规避 6 在任务规划器中启用围栏 7 用于遥控飞行训练 8 MAVLink 支持前言 ArduPilot 支持基于本机的圆柱形（“TinCan”）和多边形和/或圆柱形、…

阅读更多...

uniapp——App 监听下载文件状态，打开文件（三）

uniapp——App 监听下载文件状态，打开文件（三）

5 实现下载文件并打开这里演示，导出Excel 表格文章目录 5 实现下载文件并打开DEMO监听下载进度效果图为什么 totalSize 一直为0？ 相关Api： downloader DEMO 提示： 请求方式支持：GET、POST；POST 方式需要…

阅读更多...

mybatis的多对一、一对多的用法

mybatis的多对一、一对多的用法

目录 1、使用VO聚合对象（可以解决这两种情况） 多对一： 一对多： 2、非聚合的多对一做法： 3、非聚合的一对多做法： 1、使用VO聚合对象（可以解决这两种情况） 当我需要多对一、一对…

阅读更多...

Vscode：问题解决办法及 Tips 总结

Vscode：问题解决办法及 Tips 总结

Visual Studio Code（简称VSCode）是一个功能强大的开源代码编辑器，广泛用于各种编程语言和开发场景，本博客主要记录在使用 VSCode 进行verilog开发时遇到的问题及解决办法，使用过程中的技巧文章目录扩展安装失败调试配…

阅读更多...

MySQL 窗口函数

MySQL 窗口函数

MySQL 窗口函数 1，窗口函数 1.1，什么是窗口函数1.2，基本语法 2，函数详解 2.1，聚合函数2.2，排序函数2.3，偏移函数2.4，值函数 3，进阶用法 1，窗口函数 1.1&am…

阅读更多...

基于vite+vue3+mapbox-gl从零搭建一个项目

基于vite+vue3+mapbox-gl从零搭建一个项目

下面是基于 Vite、Vue 3 和 Mapbox GL 从零搭建一个项目的完整步骤，包括环境搭建、依赖安装、配置和代码示例。文章目录 1. 初始化项目2. 安装 mapbox-gl 依赖3. 配置 Mapbox Access Token4. 实现地图组件5. 在 App.vue 中使用地图组件6. 启动开发服务器7. 添加自定…

阅读更多...

Data Filtering Network 论文阅读和理解

Data Filtering Network 论文阅读和理解

目录一、TL；DR 二、Introduction 2.1 apple的结论 2.2 业界做法： 2.3 我们的做法（Apple） 2.4 如何获取好的DFN 三、未完待续（这周出去购物了，下周继续补充） 一、TL；DR 核心…

阅读更多...

ingress-nginx代理tcp使其能外部访问mysql

ingress-nginx代理tcp使其能外部访问mysql

一、helm部署mysql主从复制 helm repo add bitnami https://charts.bitnami.com/bitnami helm repo updatehelm pull bitnami/mysql 解压后编辑values.yaml文件，修改如下（storageclass已设置默认类） 117 ## param architecture MySQL archit…

阅读更多...

浅谈安科瑞电能质量监测和治理产品在分布式光伏电站的应用-安科瑞蒋静

浅谈安科瑞电能质量监测和治理产品在分布式光伏电站的应用-安科瑞蒋静

1 概述随着对可再生能源需求的增加，分布式光伏电站的建设和发展迅速。然而，分布式光伏电站的运行过程中面临着一系列问题，比如导致企业关口计量点功率因数过低、谐波污染等。这些问题不仅影响光伏电站自身的运行效率，还会对企业…

阅读更多...

CSS实现实现票据效果 mask与切图方式

CSS实现实现票据效果 mask与切图方式

一、“切图”的局限性传统的“切图”简单暴力，但往往缺少适应性。适应性一般有两种，一是尺寸自适应，二是颜色可以自定义。举个例子，有这样一个优惠券样式关于这类样式实现技巧，之前在这篇文章中有详细介绍： CSS 实现优惠券的技巧不过这里略微不一样的地方是，两个…

阅读更多...

ToDesk云电脑、顺网云、网易云、易腾云、极云普惠云横测对比：探寻电竞最佳拍档

ToDesk云电脑、顺网云、网易云、易腾云、极云普惠云横测对比：探寻电竞最佳拍档

一、云电脑：电竞新宠崛起在电竞游戏不断发展的今天，硬件性能成为了决定游戏体验的关键因素。为了追求极致的游戏画面与流畅度，玩家们往往需要投入大量资金购置高性能电脑。然而，云电脑技术的出现，为玩家们提供了一种…

阅读更多...

Kotlin Bytedeco OpenCV 图像图像50 仿射变换图像缩放

Kotlin Bytedeco OpenCV 图像图像50 仿射变换图像缩放

Kotlin Bytedeco OpenCV 图像图像50 仿射变换图像缩放 1 添加依赖2 测试代码3 测试结果在OpenCV中，仿射变换（Affine Transformation）和透视变换（Perspective Transformation）是两种常用的图像几何变换方法。变换方…

阅读更多...

回归预测 | MATLAB基于TCN-BiGRU时间卷积神经网络结合双向门控循环单元多输入单输出回归预测

回归预测 | MATLAB基于TCN-BiGRU时间卷积神经网络结合双向门控循环单元多输入单输出回归预测

效果一览基本介绍回归预测 | MATLAB基于TCN-BiGRU时间卷积神经网络结合双向门控循环单元多输入单输出回归预测一、引言 1.1、研究背景及意义在当今数据驱动的时代，时间序列预测已成为金融、气象、工业控制等多个领域的关键技术。随着人工智能和机器学习技术的…

阅读更多...

TMC2208替代A4988

TMC2208替代A4988

前言 TMC2208 是一款先进的 1 轴步进驱动器，支持 stealthChop ™和 256 微步。本应用说明介绍了如何设置 TMC2208 以替代 A4988（传统模式）。引脚比较与其他电机驱动器相比，TMC2208 具有附加功能：256 微步。自动…

阅读更多...

多层 RNN原理以及实现

多层 RNN原理以及实现

数学原理多层 RNN 的核心思想是堆叠多个 RNN 层，每一层的输出作为下一层的输入，从而逐层提取更高层次的抽象特征。 1. 单层 RNN 的数学表示首先，单层 RNN 的计算过程如下。对于一个时间步 t t t，单层 RNN 的隐藏状态 h t h_t…

阅读更多...

数据结构——AVL树的实现

数据结构——AVL树的实现

Hello，大家好，这一篇博客我们来讲解一下数据结构中的AVL树这一部分的内容，AVL树属于是数据结构的一部分，顾名思义，AVL树是一棵特殊的搜索二叉树，我们接下来要讲的这篇博客是建立在了解搜索二叉树这个知识点…

阅读更多...

【日志篇】(7.6) ❀ 01. 在macOS下刷新FortiAnalyzer固件 ❀ FortiAnalyzer 日志分析

【日志篇】(7.6) ❀ 01. 在macOS下刷新FortiAnalyzer固件 ❀ FortiAnalyzer 日志分析

【简介】FortiAnalyzer 是 Fortinet Security Fabric 安全架构的基础，提供集中日志记录和分析，以及端到端可见性。因此，分析师可以更有效地管理安全状态，将安全流程自动化，并快速响应威胁。具有分析和自动化功能的集成…

阅读更多...

【KOA框架】koa框架基础及swagger接口文档搭建

【KOA框架】koa框架基础及swagger接口文档搭建

koa是express的一层封装，语法比express更加简洁。所以有必要了解下koa的相关开发方法。代码实现 package.json {"name": "koapp","version": "1.0.0","main": "index.js","scripts": {…

阅读更多...

最新文章

推荐文章