spark常见问题

写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!

1.  执行Broadcast大表时,等待超时异常(awaitResult

现象:org.apache.spark.SparkException: Exception thrown in awaitResult:

java.util.concurrent.TimeoutException: Futures timed out after [300seconds]

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

20200428150606130.png

原因分析:当数据需要broacast到executor上时,由于数据量较大 、broacast超时导致。

解决方案:

  设置spark.sql.autoBroadcastJoinThreshold=-1 不broadcast小表,直接走shuffle。(弊端:时间花费长,影响较大)

2.Task任务在写文件时,发生管道中断关闭异常ClosedByInterruptException

现象:Uncaught exception while reverting writes to file /data03/yarn/……………

java.nio.channels.ClosedByInterruptException

20200428150607671.png

解决方案:查看该Task任务是否是推测执行任务,如果是属于正常现象,不影响任务。

3.DiskBlockManager 在创建本地目录失败

现象:Failed to create local dir in /data10/yarn/………….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:这个错误一般是磁盘满了或者要么是磁盘坏了。联系大数据平台运维人员。

4.SparkSQL访问HIVE表时,找不到数据库或者元数据信息

现象:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXX' not found;

解决方案:Step 1:查看hive的配置文件是否正确。

                  Step 2:在Step 1 基础上,查看是否存在该数据库。

                  Step 3:查看SparkSession 创建方法是否启用了Hive支持。正确的创建SparkSession 如下图:

20200428150608542.png

5.使用wholeTextFiles读取文件时,报非法参数异常

现象:Java.lang.IllegalArgumentException:……………..wholeTextFiles…..CharBuffer.allocation…….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:wholeTextFile不支持一次性读入大于1G的大文件,因为是将整个文件内容变成一个Text对象,而Text对象是有长度限制。

解决方案:将单个大文件分割成多个小文件读取。

6.数据倾斜

现象:为啥我有几个Task任务卡住不动已经很久了?现象如下图:

20200428150606474.png

点到当前的stage Tab 中 ,效果图如下:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:典型的数据倾斜现象,所有的task都已经完成了,而正在运行的task任务超过了所有完成task时间中位数的1.5倍以上,发生了数据倾斜现象。

解决方案:1.如果是Spark sql 访问hive 表,由于上游的某个hive文件过大导致,需要避免上游的表落地时某个文件特别大。可以在sql后面添加distribute by rand() ; 并且适

当增大spark.sql.shuffle.partitions参数值。2.需要从代码和业务逻辑上去处理数据倾斜

问题。参考:https://www.cnblogs.com/hd-zg/p/6089220.html

7.TaskResultGetter在拉取block块的时候,Executor丢失,导致连接失败错误

现象:org.apache.spark.shuffle.FetchFailedException:Failed to connection………….

或者出现Executor Lost 现象。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:shuffle read的时候数据的分区数设置的很小,同时shuffle read的量很大,那么

将会导致一个task需要处理的数据非常大。结果导致JVM crash,从而导致取shuffle数据失

败,同时executor也丢失了,看到Failed to connect to host的错误,也就是executor lost的

意思。有时候即使不会导致JVM crash也会造成长时间的GC。

解决方案:

1.  减少shuffle数据:首先考虑使用map side join或是broadcast join来规避shuffle的产生。将不必要的数据在shuffle前进行过滤,比如原始数据有20个字段,只要选取需要的字段进行处理即可,将会减少一定的shuffle数据。

2. 针对于spark sql : 通过spark.sql.shuffle.partitions控制分区数,默认为40,根据shuffle的量以及计算的复杂度提高这个值。

3. 针对RDD操作:通过spark.default.parallelism控制shuffle read与reduce处理的分区数,官方建议为设置成运行任务的executor的2-3倍。

4. 提高executor的内存,通过spark.executor.memory适当提高executor的memory值。

8.Java 堆栈溢出错误

现象:Java.lang.StackOverflowError:

20200428150608388.png

原因分析:

代码中有这样一段逻辑(示意):

Dataset<Row> totalDS;  // 总数据集

while (循环条件) {

               Dataset<Row> batchDS = // 某种业务计算过程最后得到批次结果数据集;

               totalDS = totalDS.union(batchDS); // 把这批次的结果合并到最终总结果中

}

// 最后用 totalDS 再去做计算

因为循环次数比较多,大约200多次,导致最后 totalDS 的 lineage 太长,造成Spark计算时递归过深引发 StackOverflowError。

解决方案:每循环20次就checkpoint保存一下检查点,这样强制截断lineage,结果就运行完了没有出问题。

9.在代码中设置Masterlocal模式,实际提交模式为yarn-cluster,导致SparkContext初始化失败

现象:ERROR ApplicationMaster: SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application

解决方案:去掉setMaster("local[*]")

10.Executor由于某个正在运行的Task,由于Executor内存使用超出限制,导致ExecutorContainerkill,使得Executor退出

现象:ExecutorLostFailure (executor 3 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 8.1 GB of 8 GB physical memory used

原因分析:不合理的使用大量的cache 和 broadcast操作,导致executor 在运行task任务时资源紧张。

解决方法:尽量避免缓存过多的RDD ,移除RDD缓存操作,增加参数spark.storage.memoryFraction和spark.yarn.executor.memoryOverhead的值。适当增加executor的数量和内存。

11.driver RPC 超时

现象:org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120 seconds. This timeout is controlled by spark.rpc.askTimeout at org.apache.spark.rpc.RpcTimeout org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63)

原因分析:导致driver RPC 超时有两个原因:

(1)executor所在的节点宕掉了。

(2)运行在executor中的任务占用较大内存,导致executor长时间GC,心跳线程无法运行,从而引起心跳超时。

引发这个问题可能是发生了数据倾斜,导致stop the world。

解决方案:若存在数据倾斜,首先解决数据倾斜问题。适当增加executor数量和内存。避免长时间的GC。

12.SparkSql使用” $”代替col(),需要导入隐式转换

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

现象:在scala 命令行模式 可以直接用$"column_name"的方式指定列数据, 为什么sbt 打包的时候不能这么用?还得import column,使用col("column_name")来替代?能用$ 代替 col吗,需要怎么操作?

解决方案:import spark.implicits._(导入)

13.Python Spark 在生产线上提交任务,报错:command not find

解决方案:请参考如下脚本:(注意spark-submit的路径)

20200428150607599.png

14.提高SparkSQL在shuffle之后Task的并发度

现象:明明有很多task,但是在处理量大的时候只分配40个,如何增加Task的数量。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

解决方案:适当的增加 --conf spark.sql.shuffle.partitions参数的值,注意该参数只有存在shuffle行为下才能生效。

15.由于打包冲突导致的SparkContext启动失败问题

20200428150609448.png

解决方案:将spark相关依赖删掉,然后用maven命令mvn clean package重新打包。

16.SparkSQL中,sql语句中存在着过长的计算表达式,导致GeneratedIterator超过了规定的字节数

现象:ERROR Thread-8 CodeGenerator: failed to compile: org.codehaus.janino.JaninoRuntimeException: Code of method "agg_doAggregateWithoutKey$(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass$GeneratedIterator;)V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator" grows beyond 64 KB. 用户代码如下图所示:

20200428150607902.png

原因分析:在SQL中拼凑循环累积计算某个表达,导致GeneratedIterator超过了规定的字节数64K。

解决方案:1.优化自身的表达式代码不要过长,可以分开计算。

                  2.或者设置spark.sql.codegen.wholeStage=false, 不适用codegen策略。

17.Spark在执行Task任务时,发生OOM现象

 现象:Java.lang.OutOfMemoryError:Java heap space

20200428150607900.png

原因分析:如果处理的数据或者加载的数据很大,driver或者executor内存可能不够,出现上面的OOM错误。

解决方案:仔细查看日志,分清是driver端还是executor端OOM。先优化自身的代码,检查思考是否有必要在driver端处理大量的数据,有没有大量的cache或者broadcast操作,如果存在cache或者broadcast操作,去除该操作。适当的调大driver或者executor的内存大小。

 

19.SparkSQL中,SQL语句存在大量的嵌套语句,导致Spark无法解析

现象:org.apache.spark.sql.AnalysisException: unresolved operator 'Project

解决方案:检查一下自己的sql是否嵌套太多的子查询语句,导致spark无法解析,所以需要修改sql或者改用其他方式处理;注意该语句可能在hive里面没有错误,但是在spark中会出错。

20.Task返回给driver的数据量超过了1G

现象:Total size of serialized results of 2000 tasks (2048MB) is bigger than spark.maxResultSize(1024.0 MB)

原因分析:ask返回给driver的数据量超过了规定的1G。

解决方案:设置参数spark.driver.maxResultSize=3G,参数的大小根据业务的实际情况而定 。

21.IDE日志中一直显示“ACCEPTED”,任务跑不动

现象:watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:当前IDE系统的yarn队列资源暂时被占满。

解决方案:Spark阻塞在(state :ACCEPTED)状态

 

22.SparkSQL中小文件数过多导致任务过慢

现象:IDE日志中长时间出现如下内容:可以,如下所示:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:小文件数较多(与Spark UI中的task数目相同),长时间在重命名小文件所在目录

解决方案:SQL最上方加参数:set spark.sql.adaptive.repartition.enabled=true,并建议将中间临时表、目标表格式切换为DataSource表:Spark DataSource表推广文档

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/353401.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

006 spring事务支持

文章目录 事务回顾事务介绍事务并发问题(隔离性导致)事务隔离级别 Spring框架事务管理相关接口Spring框架事务管理的分类编程式事务管理(了解)声明式事务管理(重点) 事务管理之XML方式业务层持久层单元测试代码配置事务管理的AOP 事务管理之混合方式事务管理之基于AspectJ的纯注…

Matlab只选取自己需要的数据画图

在Matlab作图的时候&#xff0c;经常会在同一个坐标系中作很多数据的图&#xff0c;如下图所示&#xff1a; 这就会导致不同数据所作的线会重叠在一起&#xff0c;不利于数据分析。如果只想对比几个数据的趋势&#xff0c;直接修改代码太过麻烦&#xff0c;可通过Matlab的绘图…

springboot项目mapper无法自动装配,未找到 ‘userMapper‘ 类型的Bean解决办法.

一开始我看到了这个回答&#xff1a;springboot项目mapper无法自动装配&#xff0c;未找到 ‘userMapper‘ 类型的 Bean解决办法&#xff08;含报错原因&#xff09;_无法自动装配。找不到 usermapper 类型的 bean。-CSDN博客 mapper无法自动装配&#xff0c;未找到 ‘userMap…

python+unity手势控制地球大小

效果图如下 具体操作如下 1 在unity窗口添加一个球体 2 给球体添加材质,材质图片使用地球图片 地球图片如下 unity材质设置截图如下 3 编写地球控制脚本 using System.Collections; using System.Collections.Generic; using UnityEngine;public class test : MonoBehavio…

【AI绘画】新手小白看这篇就够啦!国产PS AI插件超好入门!

随着人工智能技术的飞速发展&#xff0c;Photoshop作为设计师们不可或缺的工具&#xff0c;也在不断地融入AI技术&#xff0c;以提升设计效率和效果。最近米兔用了一款AI绘画软件StartAI&#xff0c;被其强大的功能和易用性经验到了&#xff0c;下面跟大家详细分享一下这款ps插…

ViNT: A Foundation Model for Visual Navigation

介绍 现存的问题&#xff1a;预训练的方式在很多领域取得了成功&#xff0c;但是由于环境、平台和应用程序的绝对多样性&#xff0c;因此很难应用在机器人领域。 那么想要做移动机器人的基础模型需要什么&#xff1f; 本文定义了一个机器人领域的基础模型&#xff0c;可以实…

电脑数据恢复,掌握4个方法,恢复数据很简单!

在数字化浪潮席卷全球的今天&#xff0c;电脑数据已成为我们生活与工作中不可或缺的一部分。然而&#xff0c;当这些数据因各种原因意外丢失或损坏时&#xff0c;那种失落与无助的感觉常常令人倍感焦虑。 想象一下&#xff0c;你正在为一项重要项目加班加点&#xff0c;突然电…

【CVPR2021】LoFTR:基于Transformers的无探测器的局部特征匹配方法

LoFTR&#xff1a;基于Transformers的局部检测器 0. 摘要 我们提出了一种新的局部图像特征匹配方法。我们建议先在粗略级别建立像素级密集匹配&#xff0c;然后再在精细级别细化良好匹配&#xff0c;而不是按顺序进行图像特征检测、描述和匹配。与使用成本体积搜索对应关系的密…

力扣hot100: 48. 旋转图像

LeetCode&#xff1a;48. 旋转图像 受到力扣hot100&#xff1a;54. 螺旋矩阵的启发&#xff0c;我们可以对旋转图像按层旋转&#xff0c;我们只需要记录四个顶点&#xff0c;并且本题是一个方阵&#xff0c;四个顶点就能完成图像的旋转操作。 1、逐层旋转 注意到&#xff0…

打造完美Mac多屏视界,BetterDisplay Pro一键掌控!

BetterDisplay Pro for Mac是一款专为Mac用户打造的显示器管理与优化软件&#xff0c;旨在为用户带来卓越的视觉体验和工作效率。它凭借强大的功能和简洁易用的界面&#xff0c;成为了Mac用户优化显示器设置的得力助手。 一、全方位管理与优化 BetterDisplay Pro for Mac支持…

0元体验苹果macOS系统,最简单的虚拟机部署macOS教程

前言 最近发现小伙伴热衷于在VMware上安装体验macOS系统&#xff0c;所以就有了今天的帖子。 正文开始 首先&#xff0c;鉴于小伙伴们热衷macOS&#xff0c;所以小白搜罗了一圈macOS系统&#xff0c;并开启了分享通道。 本次更新的系统版本是&#xff1a; macOS 10.13.6 ma…

LogicFlow 学习笔记——2. LogicFlow 基础 实例

LogicFlow 实例 创建实例 每一个流程设计界面&#xff0c;就是一个 LogicFlow 的实例。 <template><div id"container"></div><!-- 用于显示 LogicFlow 图表的容器 --> </template> <script>// 创建 LogicFlow 实例const lf …

YOLOv10改进 | 注意力篇 | YOLOv10引入Polarized Self-Attention注意力机制

1. Polarized Self-Attention介绍 1.1 摘要:像素级回归可能是细粒度计算机视觉任务中最常见的问题,例如估计关键点热图和分割掩模。 这些回归问题非常具有挑战性,特别是因为它们需要在低计算开销的情况下对高分辨率输入/输出的长期依赖性进行建模,以估计高度非线性的像素语…

什么洗地机好用又实惠?四大口碑优品推荐,超级火爆

作为一个家电工作者&#xff0c;近年来测评了不少洗地机&#xff0c;相对于传统的清洁习惯&#xff0c;即先扫地&#xff0c;再拖地&#xff0c;洗地机能够在一拖一拉之间&#xff0c;便完成地面上的清洁&#xff0c;而且人们也不用低头弯腰的去清洁&#xff0c;可谓是省时省力…

el-tree回显复选框时半选中和全选中的树

项目需求如下&#xff1a;当我点击“编辑”后&#xff0c;需要在tree树上全勾中和半勾中选项&#xff0c;由于后端接口返回的tree树是含了父级节点id的数组集合&#xff0c;所以我们回显时需要处理好这个全勾中和半勾中的问题。 主要思路如下&#xff0c;我们通过setData方法获…

专业学习|博弈论-博弈论概述

&#xff08;一&#xff09;认识博弈论&#xff1a;解析复杂决策与策略 &#xff08;1&#xff09;认识博弈 博弈论广泛应用于分析个体间因利益冲突而产生的决策问题。通过构建不同模型来探讨如经贸关系、军事威胁等问题&#xff0c;旨在寻找均衡解并提供新知&#xff0c;相较…

一个简单的信号发射电路的构建

在基本的信号发射电路中&#xff0c;线圈&#xff08;电感器&#xff09;和电阻的组合可以产生振荡信号&#xff0c;而天线&#xff08;通常通过线圈&#xff09;用于发射信号。 LC振荡电路&#xff1a; **线圈&#xff08;L1&#xff09;和电容器&#xff08;C&#xff09;**串…

【正则表达式】入门

参考视频&#xff1a;10分钟快速掌握正则表达式_哔哩哔哩_bilibili 这个网站用来测试写的正则表达式效果&#xff1a;regex101: build, test, and debug regex 示例&#xff1a; 限定符 ? 表示前一个字符可有可无 比如这里输入&#xff1a;de? 匹配结果可以得到d和de * 前…

SpringMVC—RequestMapping注解

一、RequestMapping注解 RequestMapping注解&#xff1a;是Spring MVC框架中的一个控制器映射注解&#xff0c;用于将请求映射到相应的处理方法上&#xff0c;具体来说&#xff0c;他可以将指定URL的请求绑定到一个特定的方法或类上&#xff0c;从而实现对请求的处理和响应。 …

线代的学习(矩阵)

1.矩阵的乘法 矩阵实现满足&#xff1a;内标相等 矩阵相乘之后的结果&#xff1a;前行后列 需要注意&#xff1a;1.矩阵的乘法不具有交换律&#xff1a;AB!BA 2.矩阵的乘法满足分配律&#xff1a;A(BC) AB AC 抽象逆矩阵求逆矩阵 方法1.凑定义法、 方法2.长除法 数字型矩阵…