目录
一、Hadoop的诞生
二、大数据概述
三、大数据软件生态
3.1 数据存储相关技术
3.2 数据计算相关技术
3.3 数据传输相关技术
四、什么是Hadoop
本篇主要讲解大数据的核心概念以及Hadoop的基本介绍。
一、Hadoop的诞生
大数据的发展与日益庞大的数据量是密不可分的。从2000年左右开始,全球互联网逐步建成。各大企业和政府机构有海量数据亟须解决。
08年之前,大数据技术是大型企业的高精尖技术。08年之后,因为Hadoop的开源,使得一些中小企业也能运用大数据技术,处理日益庞大的数据量了。
从Hadoop开始,大数据就开始蓬勃发展起来了。从它上面推生出众多的技术栈。
二、大数据概述
使用分布式技术完成海量数据的处理,得到数据蕴藏的价值。
大数据的5个主要特征
一句话总结就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。
由此得出大数据的三大核心工作:海量数据的计算、存储、传输
三、大数据软件生态
3.1 数据存储相关技术
Apache Hadoop框架内的组件HDFS
是大数据体系中使用最为广泛的分布式存储技术。
Apache HBase
HBase是大数据体系内使用非常广泛的NoSQL kv型数据库技术。
HBase是基于HDFS之上构建的技术。
Apache Kudu
Apache Kudu同样为大数据体系中使用较多的分布式存储引擎。
云平台存储组件
各大云平台厂商也有相应的大数据存储组件。如阿里云的OSS,AWS的S3等等。
3.2 数据计算相关技术
Apache Hadoop框架内的组件MapReduce
Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎,对大数据的发展做出了卓越的贡献!
Apchache Hive
Apache Hive是一款以SQL为主要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术。
Apache Hive诞生很早,至今仍活跃在大数据一线,被许多公司使用。
Apache Spark
Apache Spark是目前全球范围内最火热的分布式内存计算引擎。
是大数据体系中的明星计算产品。
Apache Flink
Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大数据的国内市场。
3.3 数据传输相关技术
Apache Kafka
Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。
Apache Kafka在大数据领域也是明星产品。
Apache Pulsar
Apache Pulsar同样也是一款分布式的消息系统。在大数据领域中也有非常多的使用者。
Apache Flume
Apache Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。
🍑PS:以上只是列举了大数据技术中的一部分,实际上还包含很多技术。这里就不一一列举了。
四、什么是Hadoop
简单说,Hadoop包含:
分布式数据存储技术(HDFS)
分布式数据计算技术(MapReduce)
分布式资源调度技术(YARN)
从前面讲解中,我们可以清楚的发现,Hadoop包含了大数据三大核心任务的前两个:海量数据的计算和存储。
关于Hadoop的版本分为两种,一种是Apache官方的开源社区版,另一种是各商业公司根据开源社区版个性化定制的商业发行版。本教程主要以开源社区版为例进行讲解。