任务出现container OOM异常导致作业失败
原因
Container内存不足或者作业数据倾斜
解决方案
-
检查Container相关参数,判断是否设置过小(低于4GB)。如果Container小于4GB,优先考虑调大当前作业container大小,如果是Tez任务,还需要同步调整以下参数
# tez container size
hive.tez.container.size
# task 资源,小于等于container size
tez.task.resource.memory.mb
-
如果Container大小大于6GB,则需要优先进行SQL逻辑检查优化,极有可能是SQL不合理等导致作业失败。
任务长时间没有执行进度
原因
可能原因:
-
队列资源不足
-
AM资源超限
-
队列资源超限
-
用户资源超限
解决方案
方案1:检查YARN RM队列是否有足够资源。队列Used capacity是否超过Max capacity。
-
检查AM资源超限:AM资源是否超限,Used Applic