个人博客地址:记录一次Sqoop从MySQL导入数据到Hive问题的排查经过 | 一张假钞的真实世界
问题描述
MySQL中原始数据有790W+的记录数,在Sqoop抽取作业成功的情况下在Hive中只有500W左右的记录数。
排查过程
数据导入脚本Log
通过Log可以发现以下信息:
- 该Sqoop任务被分解为4个MapTask。
- MapTask执行期间有异常,是网络异常导致MySQL连接不成功。
- Sqoop任务对应的MR执行过程中总的被调起9个MapTask,其中3个失败、2个被kill,理论上剩余的4个MapTask是成功执行的。
- Sqoop导入对应的MR只有MapTask,且MapTask的数据记录数为790W+。所以,单纯看MR的输出是正常的。
- Sqoop导入完成后,紧跟着有一个读取Sqoop目标表数据的
insert overwrite
的操作。该操作只被分解为2个MapTask,说明原数据文件只有两个块。 - 根据以上信息说明Sqoop之后确实只生成了2个数据文件,有两个文件丢失了。
详细原始Log信息见附件:Sqoop执行日志
查看Sqoop任务对应MR的执行日志
根据上面的Log中的信息,从HDFS上查找对应的日志。Yarn所有的应用执行日志在HDFS的/data/hadoop/yarn-logs/hadoop/logs/
目录下。从该目录下查找应用程序application_1533196506314_4460157 的日志。日志会包含MR在各个节点上执行的信息。
从Log中发现以下异常