大数据的诞生以及解决的问题
- 视频一:大数据诞生的背景
- 原因:传统的数据处理架构无法满足海量的数据存储和计算需求
- 视频三:区分离线处理场景和实时处理场景
- 视频五:传统的大数据与现代的大数据区别(离线场景)
- 大数据的两个典型的特点:
- 视频六:大数据生态全览
- 视频七:HDFS概述
- 1、HDFS简介(概念和优缺点)
- 2、HDFS原理
视频一:大数据诞生的背景
原因:传统的数据处理架构无法满足海量的数据存储和计算需求
大数据的4v特性:数据量、速度、多样性、价值
视频三:区分离线处理场景和实时处理场景
区别:主要看处理的数据是有界还是无界,离线场景的数据,不会增加和减少
视频五:传统的大数据与现代的大数据区别(离线场景)
大数据典型应用以及架构改进:
- 传统的数据仓库只能解决中小规模的数据存储与分析问题
- 大数据的存储与计算:大数据的架构基本是天然分布式的 ,可扩展能力很强。(数据达到一定量级,大数据才能发挥实力)
大数据的两个典型的特点:
- 分而治之,将数据打成小块,分散在各个节点中进行存储
- 移动计算而非移动数据,数据不动,计算任务(代码文件)分发到每个节点,进行运算,然后汇总结果。
其他离线的应用场景,比如大数据的搜索与检索,图计算,数据挖掘和实时流处理等应用场景,以及相关技术细节。
基于大数据的实时流处理:
分布式消息队列,抗压性能很好,能够承担很多压力,如果压力过大,可以拓展新增的节点。
视频六:大数据生态全览
视频七:HDFS概述
1、HDFS简介(概念和优缺点)
HDFS核心子项目有三个:
- hadoop 、yum、mapreduce
优点 | 缺点 |
---|---|
高容错、高可用、高拓展 | 不适合低延迟数据访问 |
海量的数据存储 | 不支持并发写入 |
构建成本低安全可靠(构建在廉价的商用服务器上、提供了容错和恢复机制——数据备份三份) | 不适合大量小文件存储 |
适合大规模离线批处理 | 不支持文件随机修改 |
2、HDFS原理
系统架构
存储机制
–block块存储;–元数据存储;
读写操作
安全模式
高可用
HDFS高可用:
HDFS文件命令:
hadoop fs
hdfs dfs
大部分用法和linux shell 类似,可通过help 查看帮助。
HDFS运维管理