Spark第一天

MapReduce过程复习

Spark由五部分组成

RDD五大特征

1、 Spark  -- 代替MapReduce    <<<<< scala是单机的,spark是分布式的。>>>>>

开源的分布式计算引擎

可以快速做计算 -- 因为可以利用内存来做一些计算

    (1) 分为5个库(模块) :

1、 Spark SQL  

2、 Spark Streaming   -- 流处理

3、 MLlib(maching learning)   -- 机器学习

4、 GraphX(graph)   -- 图计算(人际关系图、网络关系图)

5、 Spark Core   -- 核心   类似MapReduce

-- 5是核心, 1、2、3、4都是基于5做的封装。

(2) 为什么说spark比hadoop快?(但spark不稳定)

    1、hadoop是基于磁盘做迭代的

   spark是将数据放在内存中做迭代的

   

        2、对同一份数据进行多次查询时,hadoop每次都会去磁盘读取数据

   而spark会先将数据放在内存里面,然后再基于内存做查询  

   

   使用内存也会有问题 :

       1、 成本变高

   2、 数据量太大,可能会内存溢出    (内存溢出 :  先出现GC 、 再出现 oom)

   3、 闪存,怕断电

(3) 运行的 4 种模式 :

1、 Local     -- 本地  多用于测试

2、 Standalone   -- 独立集群

3、 Mesos     -- 资源管理框架  和yarn同一种东西,但更多的是使用yarn

4、 YARN      -- 资源管理框架   使用最多

2、 新建 Spark 的 maven项目 :

(1) 在pom文件中 导入3个org.scala-lang依赖, 再导入Java Compiler - Java 编译的插件、 Scala Compiler - Scala 编译的插件,

最后导入Spark核心插件 :   spark core

<dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.4.5</version>

        </dependency>

(2) 创建Spark环境

// 1、 创建配置对象

val conf = new SparkConf()

// 2、 设置任务名

conf.setAppName("wordCount")

// 3、 指定spark代码运行方式   ---  local : 本地测试

conf.setMaster("local")

// 4、 spark 上下文对象  --- 用于读取数据

val sc = new SparkContext(conf)

(3) 大数据处理引擎步骤 :

1、读取数据

2、处理数据

3、保存结果

(4) RDD: 弹性的分布式数据集

           暂时可以将rdd当成scala中的list使用

           如果是提交到集群运行,会自动切换为读取hdfs数据

   

   // 1、读取数据

   val linesRDD: RDD[String] = sc.textFile("data/words.txt")

运行时出现报错 :   Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

解决方法 :

1、将hadoop-3.1.0安装包解压到电脑C:\soft\hadoop目录

2、将winutils.exe工具粘贴到hadoop-3.1.0\bin目录

3、配置环境变量 :

3.1、 新建 HADOOP_HOME  值: C:\soft\hadoop\hadoop-3.1.0

3.2、 点击path -> 编辑 -> 新建%HADOOP_HOME%\bin

3.3、 一路确认

4、重启IDEA

3、 RDD的五大特性 :

    RDD :  弹性的分布式数据集

RDD里面默认是没有数据的,处理数据时边读数据边处理,是一个持续的过程。

   如果对同一份数据做多次查询,需要将数据缓存到内存,RDD就有数据了。

RDD是在编写代码时的一个抽象的概念, 类似搭建了一个管道,数据会流经RDD。

RDD的引入是为了更方便的写代码。

     spark没有自己的切片规则,使用的是MapReduce的切片规则

RDD五大特性 :

(1) RDD由一组分区(切片)组成              -- 默认一个block块对应一个分区(partition), 分区越多计算的并行度越高

(2) 算子(方法)是作用在每一个分区上的     -- 即每一个分区(切片)对应一个task

(3) RDD之间有一系列的依赖关系              -- 有shuffle : 宽依赖     无shuffle : 窄依赖

       在宽依赖的地方切一刀,前面被称为一个阶段或一个stage,后面也被称为一个阶段; 或者称前面为map端,后面为reduce端

(4) 分区类的算子只能作用于KV格式的RDD上    -- 如 groupBykey、reduceBykey、sortBykey、join

(5) spark为task提供了最佳的计算位置        -- spark会尽量将task发送到数据所在的节点执行(移动计算而不是移动数据)

   读取速度:  从内存中 > 从磁盘中 > 从网络中

   所以Spark尽量将task发送到数据所在的节点执行,避免网络拉取数据,提高效率。

spark运行程序 先将整体的RDD搭建起来,再一起执行。而不是一步一步的执行。

4、 RDD 分区(切片)

分区决定因素 :

    (1) 读取hdfs数据

1) 默认一个block块对应一个分区,切片规则和MR一样。

2) 设置最小分区数据(minPartitions),  RDD的分区数会大于等于(>=)这个值, 具体多少分区需要通过计算得到

   计算原则是保证每一个切片的数据量是差不多的

(2) 窄依赖算子   --   RDD一对一

1) 没有shuffle, 返回的新的RDD的分区数等于前一个RDD的分区数, 不可以修改

2) 如 map、 filter、 flatmap、 mappartition

(3) 宽依赖算子   --   RDD一对多    (会在宽依赖切一刀)

1) 会产生shuffle,  默认也是等于前一个RDD的分区数。  所有的宽依赖算子都可以手动设置分区数

2) 通过参数 (numPartitions) 修改

   一般来说保证每一个分区类的数据量在128M左右是比较合适的

   默认不会修改分区数,  除非资源无限的情况下, 分区越多, 执行的并发越高, 效率越高

   一个分区就是一个并行度(task), 分区越多并行度越高。

设置一个死循环,运行代码时点击出现的网址 :  http://XiaoWang:4040

    或者直接在浏览器输入 : localhost:4040

    (1) 可以看见 Job Id  -- 一个job就是一个spark任务

    Tasks 显示 8个  --  6 + 2

(2) 点击Description下的带颜色的部分, 进入可以看到Stage Id 分为两个部分, 分别是0 -- map阶段、1 -- reduce阶段

5、 RDD 缓存  

RDD里面默认是没有数据的,如果对同一份数据做多次查询,需要将数据缓存到内存,RDD就有数据了。

    即对同一个RDD进行多次使用的时候,可以将这个RDD缓存起来,减少重复计算,提高效率。

    第一次需要从HDFS中读取数据,后续任务再使用这个RDD时可以直接从缓存中获取数据。

当数据量太大时,不适合使用缓存

格式 :  

    stuRDD.cache()     -- 直接在这个RDD后面加上

缓存级别 :

 (1) MEMORY_ONLY (默认)  --  数据量不大, 内存充足

(2) MEMORY_AND_DISK_SER   --  数据量较大, 内存不能完全放下数据 。 一般适用于RDD前的计算逻辑很长的时候。

        因为不管压缩与否,放内存都比放磁盘快,所以尽量将数据放在内存中。

    // 默认的缓存级别是 MEMORY_ONLY

        stuRDD.cache()

        //可以手动设置缓存级别为 MEMORY_AND_DISK_SER

        stuRDD.persist(StorageLevel.MEMORY_AND_DISK_SER)  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/446043.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【hot100-java】排序链表

链表题。 使用归并排序法。 一图解决。 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode(int val, ListNode next) { this.val val; thi…

网络安全之XXE攻击

0x01 什么是 XXE 个人认为&#xff0c;XXE 可以归结为一句话&#xff1a;构造恶意 DTD 介绍 XXE 之前&#xff0c;我先来说一下普通的 XML 注入&#xff0c;这个的利用面比较狭窄&#xff0c;如果有的话应该也是逻辑漏洞。 既然能插入 XML 代码&#xff0c;那我们肯定不能善罢…

C++之String类模拟实现(下)

片头 哈喽~小伙伴们&#xff0c;在上一篇中&#xff0c;我们讲解了C的string类的相关函数&#xff0c;这一章中&#xff0c;我们将继续深入学习string类函数&#xff0c;准备好了吗&#xff1f;咱们开始咯~ 五、对内容进行修改 ⑤insert函数 在指定位置插入字符或者字符串 …

docker安装elasticsearch(es)+kibana

目录 docker安装elasticsearch 一.准备工作 1.打开docker目录 2.创建elasticsearch目录 3.打开elasticsearch目录 4.拉取elasticsearch镜像 5.检查镜像 二.挂载目录 1.创建数据挂载目录 2.创建配置挂载目录 3.创建插件挂载目录 4.权限授权 三.编辑配置 1.打开con…

重学SpringBoot3-集成Spring Boot Actuator

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞&#x1f44d;收藏⭐评论✍ 重学SpringBoot3-集成Spring Boot Actuator 1. 什么是 Spring Boot Actuator&#xff1f;2. Spring Boot Actuator 的核心功能3. Spring Boot 3 中集成 Actuator3.1 添加…

Thread类的基本用法

一.线程创建 继承Thread来创建一个线程 实现 Runnable 接⼝ 匿名内部类创建 Thread ⼦类对象 匿名内部类创建 Runnable ⼦类对象 lambda 表达式创建 Runnable ⼦类对象 二.线程中断 ⽬前常⻅的有以下两种⽅式&#xff1a; 1. 通过共享的标记来进⾏沟通 2. 调⽤ interrup…

计算机网络(以Linux讲解)

计算机网络 网络协议初识协议分层OSI七层模型TCP/IP五层模型--初识 网络中的地址管理IP地址MAC地址 网络传输基本流程网络编程套接字预备知识网络字节序socket编程UDP socketTCP socket地址转换函数Jsoncpp 进程间关系与守护进程进程组会话控制终端作业控制守护进程 网络命令TC…

数学建模算法与应用 第15章 预测方法

目录 15.1 微分方程模型 Matlab代码示例&#xff1a;求解简单的微分方程 15.2 灰色预测模型&#xff08;GM&#xff09; Matlab代码示例&#xff1a;灰色预测模型 15.3 自回归模型&#xff08;AR&#xff09; Matlab代码示例&#xff1a;AR模型的预测 15.4 指数平滑法 M…

openrtp ps流和纯rtp流

改进openrtp 程序 OpenRtp 以RTP协议为主&#xff0c;发送音视频&#xff0c;因为工作量比较大&#xff0c;所以耽误了一些时间&#xff0c;前面一直没有时间来修改这个程序&#xff0c;也有一些人提了意见&#xff0c;现在重视一下&#xff0c;把这个程序做好&#xff0c;让学…

NirCmd-sendkeysendkeypress

引入script [Script File] This command allows you to execute a sequence of commands stored inside the file specified in [Script File] parameter. Example: script "c:\temp\msg.ncl" Example for a script:infobox "Hello !" "This is the …

大型生物制药企业如何实现安全又高效地跨网域数据传输?

大型生物制药企业由于组织结构庞大、业务覆盖研发、生产及销售&#xff0c;因此内部会再细分为多个管理单位&#xff0c;包括研发部门、生产部门、质量控制部门、供应链管理部门及营销部和日常业务支撑部门等。在物理区域划分上&#xff0c;大型生物制药企业会设立实验室、研发…

下载相应版本的PyTorch

1、前置条件 下载某个版本的Python&#xff0c;本文涉及的Python版本为3.10 2、查看该Python版本可以下载的whl文件格式 pip debug --verbose 从上图可以发现python3.10可以下载格式为cp310-cp310-win_amd64的whl文件 PyTorch各稳定版本下载链接&#xff1a;https://downloa…

【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper&#xff0c;以其卓越的语音识别能力&#xff0c;在音频和视频文件处理领域大放异彩。与此同时&#xff0c;ChatGPT也在翻译领域崭露头角&#xff0c;其强大的翻译能力备受赞誉。因此&#xff0c;一些字幕制作团队敏锐地捕捉到了这两者的结…

Nginx UI 一个可以管理Nginx的图形化界面工具

Nginx UI 是一个基于 Web 的图形界面管理工具&#xff0c;支持对 Nginx 的各项配置和状态进行直观的操作和监控。 Nginx UI 的功能非常丰富&#xff1a; 在线查看服务器 CPU、内存、系统负载、磁盘使用率等指标 在线 ChatGPT 助理 一键申请和自动续签 Let’s encrypt 证书 在…

Flink 批作业如何在 Master 节点出错重启后恢复执行进度?

摘要&#xff1a;本文撰写自阿里云研发工程师李俊睿&#xff08;昕程&#xff09;&#xff0c;主要介绍 Flink 1.20 版本中引入了批作业在 JM failover 后的进度恢复功能。主要分为以下四个内容&#xff1a; 背景解决思路使用效果如何启用 一、背景 在 Flink 1.20 版本之前&am…

react antd redux 全局状态管理 解决修改菜单状态 同步刷新左侧菜单

npm i react-redux1.src新建两个文件 globalState.js 全局状态定义 store.js 全局存储定义 2.globalState.js import { createSlice } from "reduxjs/toolkit";export const globalState createSlice({name: "globalState",initialState: { data: {} },r…

rpa批量发送邮件如何通过编辑器编发邮件?

rpa批量发送邮件的技巧&#xff1f;怎么使用rpa邮箱群发助手&#xff1f; 手动发送邮件变得越来越繁琐且效率低下。为了解决这一问题&#xff0c;越来越多的企业开始采用RPA技术来批量发送邮件。AokSend将详细探讨如何通过编辑器来实现rpa批量发送邮件的功能&#xff0c;从而提…

微信小程序处理交易投诉管理,支持多小程序,一键授权模式

大家好&#xff0c;我是小悟 1、问题背景 玩过微信小程序生态的&#xff0c;或许就有这种感受&#xff0c;如果收到投诉单&#xff0c;不会及时通知到手机端&#xff0c;而是每天早上10:00向小程序的管理员及运营者推送通知。通知内容为截至前一天24时该小程序账号内待处理的交…

计算机视觉之YOLO算法基本原理和应用场景

YOLO算法基本原理 整体流程 YOLO 将目标检测问题转化为一个回归问题。它将输入图像划分成多个网格单元&#xff0c;每个网格单元负责预测中心点落在该网格内的目标。对于每个网格单元&#xff0c;YOLO 预测多个边界框以及这些边界框中包含目标的类别概率。边界框通常由中心点坐…

前端开发笔记--css 黑马程序员1

文章目录 1. css 语法规范2.css的书写风格3.基础选择器选择器的分类标签选择器类选择器类选择器的特殊使用--多类名 id 选择器 字体属性常见字体字体大小字体粗细字体倾斜字体的复合简写字体属性总结 文本属性文本颜色文本对齐装饰文本文本缩进文本间距文本属性总结 css的引入方…