大数据 - Spark系列《十三》- spark集群部署模式

   Spark系列文章:

大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客

大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客

大数据 - Spark系列《四》- Spark分布式运行原理-CSDN博客

大数据 - Spark系列《五》- Spark常用算子-CSDN博客

大数据 - Spark系列《六》- RDD详解-CSDN博客

大数据 - Spark系列《七》- 分区器详解-CSDN博客

大数据 - Spark系列《八》- 闭包引用-CSDN博客

大数据 - Spark系列《九》- 广播变量-CSDN博客

大数据 - Spark系列《十》- rdd缓存详解-CSDN博客

大数据 - Spark系列《十一》- Spark累加器详解-CSDN博客

大数据 - Spark系列《十二》- 名词术语理解-CSDN博客

目录

  13.1. 构造并初始化SparkContext  

   13.2 创建RDD构建DAG  

  13.3 触发行动算子  

   13.4 切分Stage,生成Task和TaskSet  

  13.5 提交stage-Stage的创建过程  

🥙finalStage(ResultStage)

🥙父stage(ShuffleMapStage)

  13.6 在Executor中执行Task  

🥙ResultTask

🥙ShuffleMapTask

13.7 job执行全流程关键步骤总结


 13.1. 构造并初始化SparkContext  

用户主类的 main 方法中首先初始化 SparkContext,这会创建 DagScheduler TaskScheduler,并为与 Executor 通信创建后端。

13.2 创建RDD构建DAG  

  • 原始的RDD通过一系列的转换形成有向无环图(DAG),根据RDD之间的依赖关系划分成不同的 Stage。

  • 窄依赖的RDD操作在同一个Stage中进行计算,而宽依赖需要等待父Stage处理完成后才能开始计算。

   

13.3 触发行动算子  

  • 用户代码中的行动算子触发了 Spark 作业的执行。

  • SparkContext 的 runJob() 方法被调用,开始调度作业。

 13.4 切分Stage,生成Task和TaskSet  

  • DAGScheduler根据作业的RDD依赖关系切分Stage,生成不同的Stage对象。

  • 每个Stage对象中最关键的属性是最后一个RDD,将来生成的Task将使用此RDD的迭代器执行整个迭代器链。

 13.5 提交stage-Stage的创建过程  

  1. 首先,DAGScheduler会将上一步(划分stage)得到finalStage,拿去提交task

2. 提交逻辑会检查当前要提交的stage是否还有未提交的父stage,如果有,就得先提交父stage!  

🥙finalStage(ResultStage)
🥙父stage(ShuffleMapStage)

 

13.6 在Executor中执行Task  

Executor收到Task对象并反序列化后,会将Task包装成一个TaskRunner类以便放入线程池执行

🥙ResultTask
🥙ShuffleMapTask

而线程执行时,调用的就是Task的runTask方法,而runTask方法中,拿到这个task的rdd的迭代器,然后将迭代器传入一个ShuffleWriter.write(records)!

而shuffleWriter.write方法中,就是开始“迭代”这个迭代器

13.7 job执行全流程关键步骤总结

  • spark任务是通过行动算子触发执行的 ,在每个行动算子中都有sc.runjob方法 ;

foreach()行动算子-> sc.runJob() // 在SparkContext中执行作业-> dagScheduler.runJob() // DAG调度器执行作业
​
​
dagScheduler的runJob()—> submitJob()// 提交作业dagScheduler的submitJob()-> eventProcessLoop.post(JobSubmitted)   // 发送作业提交事件 DAGSchedulerEventProcessLoop收到消息->doOnReceive()  ​
DAGSchedulerEventProcessLoop的doOnReceive()-> dagScheduler.handleJobSubmitted DagScheduler的handleJobSubmitted方法->  finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)  // 根据finalRDD创建finalStage->  submitStage(finalStage)  // 递归提交,永远是先从前面的stage开始提交submitStage()->  submitMissingTasks(stage, jobId.get)​
submitMissingTasks方法-> 把stage的finalRDD信息序列化后广播给每个executor-> 根据要提交的stage的类型,以及需要计算的分区个数,生成相应类型相应个数的Task对象-> taskScheduler.submitTasks(new TaskSet(tasks.toArray,stage.id,job.id...))
​
​
TaskSchedulerImpl.submitTasks-> 将task对象序列化,发给executor-> task发给executor,也是有调度策略的:FIFOExecutor收到task对象,就反序列化
并将反序列化出来的task对象封装到一个TaskRunner对象中
然后把这个TaskRunner对象放入线程池执行
​
TaskRunner的run方法,就是调task对象的runTask方法
​
​
​
task对象的runTask方法就要看是哪种task了(shuffleMapTask,resultTask)
​
shuffleMapTask的runTask方法中,调ShuffleWriter.write(finalRDD.iterator)
​
​
ShuffleWriter.write(iterator)具体实现,要看是哪一种ShuffleWriter实现类while(iterator.hasNext)kv = iterator.next// 不同实现类的不同之处就在后续将kv放到哪里去缓存,以及缓存满了以后怎么溢出
​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/273741.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 配置阿里云镜像加速器

一、首先需要创建一个阿里云账号 二、登录阿里云账号 三、进入控制台 四、搜索容器镜像服务,并选择 五、选择镜像工具中的镜像加速 六 、配置镜像源 注意:有/etc/docker文件夹的直接从第二个命令开始

Apache SeaTunnel社区发布最新Roadmap:定义数据集成未来

随着春节假期的结束,我们迎来了充满希望的龙年,开源社区也呈现出一片繁荣的景象。 今天,我们激动地宣布Apache SeaTunnel社区最新Roadmap现已公开!在不断追求创新和卓越的道路上,我们致力于将SeaTunnel打造成为数据集成…

Vue中的组件:构建现代Web应用的基石

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

手把手教使用静默 搭建Oracle 19c 一主一备ADG集群

一、环境搭建 主机IPora19192.168.134.239ora19std192.168.134.240 1.配置yum源 1.配置网络yum源 1.删除redhat7.0系统自带的yum软件包; rpm -qa|grep yum >oldyum.pkg 备份原信息rpm -qa|grep yum|xargs rpm -e --nodeps 不检查依赖,直接删除…

【Java】仓库管理系统 SpringBoot+LayUI+DTree(源码)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

在XCode中使用SwiftGen管理你的图片、配色、多语言文件等

SwiftGen是一个工具,可以为您的项目资源(如图像、本地化字符串等)自动生成Swift代码,然后你就可以像使用一个Class类一样访问你的资源了。 而且添加或更新资源后,SwiftGen也会自动更新用于访问资源的Class类。对于管理…

第二十天-数据分析

1.介绍 1.什么是数据分析 1.以下4个纬度结合起来的数据科学 2.数据分析的特殊性

七彩虹@电脑cpu频率上不去问题@控制中心性能模式cpu频率上不去@代理服务器超时@账户同步设置失败

文章目录 windows电脑cpu频率上不去新电脑的系统时间问题系统时间不准造成的具体问题举例代理超时vscode同步请求失败自动校准时间 windows电脑cpu频率上不去 问题描述,标压处理器的笔记本,cpu频率上不去 如果cpu没问题的话,就应该是系统限制了功耗导致的有的笔记本有控制中心…

第十五届蓝桥杯-UART接收不定长指令的处理

学习初衷: 不仅仅为了比赛! 目录 一、问题引入 二、UART常用的三种工作模式 1.UART工作在中断模式 2.UART工作在DMA模式下 3.uart工作在接收转空闲的模式下 三、获取指令中需要的数据 四、printf函数的实现 一、问题引入 问题引入:请…

STM32CubeMX学习笔记20——SD卡FATFS文件系统

1. FATFS文件系统简介 文件系统是操作系统用于明确存储设备或分区上的文件的方法和数据结构(即在存储设备上组织文件的方法)。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统;不带文件系统的SD卡仅能…

2024牛客寒假算法基础集训营6

目录 A.宇宙的终结 B.爱恨的纠葛 C.心绪的解剖 D.友谊的套路 E.未来的预言 F.命运的抉择 G.人生的起落 I.时空的交织 J.绝妙的平衡 K.错综的统一 A.宇宙的终结 直接暴力 我们可以发现数据范围特别小题目特别简单,如果能够马上想到一个容易写的做法就可以…

若依框架的使用

文章目录 1,前端2,后端3,数据库4,测试 1,前端 2,后端 3,数据库 4,测试

MinGW-w64的下载与安装

文章目录 1 下载2 安装3 配置环境变量4 验证 1 下载 官网地址:https://www.mingw-w64.org/github地址:https://github.com/niXman/mingw-builds-binaries/releases windows下载 跳转github下载 版本号选择:13.2.0是GCC的版本号&#xff1b…

鸿蒙开发(四)-低代码开发

鸿蒙开发(四)-低代码开发 本文主要介绍下鸿蒙下的低代码开发。 鸿蒙低代码是指在鸿蒙操作系统进行应用开发时,采用简化开发流程和减少编码量的方式来提高开发效率。 1:开启低代码开发 首先我们打开DevEco Studio .然后创建工程。 如图所示&#xff…

如何在Linux部署FastDFS文件服务并实现无公网IP远程访问内网文件——“cpolar内网穿透”

文章目录 前言1. 本地搭建FastDFS文件系统1.1 环境安装1.2 安装libfastcommon1.3 安装FastDFS1.4 配置Tracker1.5 配置Storage1.6 测试上传下载1.7 与Nginx整合1.8 安装Nginx1.9 配置Nginx 2. 局域网测试访问FastDFS3. 安装cpolar内网穿透4. 配置公网访问地址5. 固定公网地址5.…

【C++】string类(介绍、常用接口)

🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:http://t.csdnimg.cn/eCa5z 目录 string类的常用接口说明 string类对象的常见构造 ​编辑 string字符串的遍历(迭代器&#xf…

LoadRunner学习:RuntimeSetting、参数化、关联、(unfinished

LoadRunner RuntimeSetting 运行时设置 在Vuser中设置Run-time Settings RunLogic:运行逻辑,决定了脚本真正执行逻辑, Init和End部分代码只能执行一次。决定脚本真正执行逻辑的意思是,在Run中的代码和Number of Iteration决定了…

[HackMyVM]Quick 2

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 0a:00:27:00:00:05 (Un…

如何把黑白照片变成彩色?分享3款神奇的技术!

在数字化时代,我们手中的老照片不仅仅是回忆的载体,更是时光的见证。那些年代久远的黑白照片,虽然承载着珍贵的记忆,但却少了些许生动的色彩。那么,你是否想过让这些黑白旧影焕发新生,重现昔日的斑斓色彩呢…

ChatGPT无法发送消息问题解决

如果您的 Chatgpt 网页版这几日一直无法发送消息,或者发送了消息,也没有相应的回复,如下图所示: 现在 OpenAI 已经修复了这个 BUG。 用户可以尝试清理 OpenAI 网站的缓存,之后再重新登录,即可正常发送消息。…