Spark 基础知识点

Spark 基础

本文来自 B站黑马程序员 - Spark教程：原地址

什么是Spark

什么是Spark 1.1

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎

在这里插入图片描述

Spark最早源于一篇论文 Resilient Distributed Datasets:A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集（即RDD）的概念。

在这里插入图片描述

翻译过来：RDD是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也是整个Spark的核心数据结构，Spark整个平台都围绕着RDD进行。

什么是Spark 1.2

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎

在这里插入图片描述

简而言之,Spark借鉴了MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷，让中间数据存储在内存中提高了运行速度，并提供丰富的操作数据的API提高了开发速度。

什么是Spark 1.3

统一分析引擎？

Spark是一款分布式内存计算的统一分析引擎。

其特点就是对任意类型的数据进行自定义计算。

Spark可以计算：结构化，半结构化，非结构化等各种类型的数据结构，同时也支持使用Python，java，Scala，R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛，所以，被称之为统一的（适用面广）的分析引擎（数据处理）

Spark 历史

Spark 历史 1.1

Spark 是加州大学伯克分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据处理框架

Spark的发展历史，经历过几大重要阶段，如下图所示：

在这里插入图片描述

Spark 历史 1.2

Stack Overflow的数据可以看出，2015年开发Spark每月的问题提交数量已经超越Hadoop，而2018年Spark Python版本的API PySpark每月的问题提交数量也已超过Hadoop。2019年排名Spark第一，PySpark第二,而十年的累计排名是Spark第一，PySpark第三。按照这个趋势发展下去，Spark和PySpark在未来很长的一段时间内应该还会处于垄断地位。

在这里插入图片描述

Spark 历史 1.3

十年走来，Spark目前已经迭代到了3.2.0版本（2021.10.13发布）

在这里插入图片描述

Spark VS Hadoop(MapReduce)

Spark VS Hadoop(MapReduce) 1.1

Spark和前面学习的Hadoop技术栈有何区别呢？

	Hadoop	Spark
类型	基础平台，包含计算，存储，调试	纯计算工具（分布式）
场景	海量数据批处理（磁盘迭代计算）	海量数据的批处理（内存迭代计算，交互式计算），海量数据流计算
价格	对机器要求低，便宜	对内存有要求，相对较贵
编程范式	Map+Reduce,API较为底层，算法适应性差	Rdd组成Dag有向无环图，API较为顶层，方便使用
数据存储结构	MapReduce中间计算结果在HDFS磁盘上，延迟大	RDD中间运算结果在内存中，延迟小
运行方式	Task以进程方式维护，任务启动慢	Task以线程方式维护，任务启动快，可批量创建提高并行能力

尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop

在计算层面，Spark相比较MR(MapReduce)有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive
Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调试（Yarn）,HDFS和Yarn仍是许多大数据体系的核心架构

Spark VS Hadoop(MapReduce) 1.2

面试题：Hadoop的基于进程的计算和Spark基于线程方式优缺点？

答案：Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是相互独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之前不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中，造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率，Spark采用线程的最小执行单位，但缺点是线程之间会有资源竞争。

线程的基本概念