服务器存储数据恢复环境:
一台存储中有一组由7块硬盘组建的RAID5阵列,存储中还有另外3块盘是raid中掉线的硬盘(硬盘掉线了,管理员只是添加一块的新的硬盘做rebuild,并没有将掉线的硬盘拔掉)。整个RAID5阵列的存储空间划分了一个LUN。
服务器存储故障:
硬盘出现故障导致存储中阵列瘫痪。
和管理员沟通,据管理员说是磁盘阵列中某些硬盘出现故障导致存储不可用,初步判断RAID中有硬盘掉线了。
服务器存储数据恢复过程:
1、将所有硬盘编号后取出。硬件工程师检测所有硬盘是否存在硬件故障,检测后并没有发现有硬盘存在物理故障。应该是某些硬盘上出现逻辑坏道或者其他原因导致RAID崩溃。将所有硬盘以只读方式进行扇区级全盘镜像,镜像完成后按照编号将所有磁盘按照原样还原到故障存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析所有硬盘底层数据。打开镜像盘后发现每512字节多加了一个8字节的校验,也就是说每扇区变成520字节。于是北亚企安数据恢复工程师编写小程序将8字节的校验去掉,方便后期的数据恢复工作。
3、转换完成后开始分析RAID结构。由于多了3块以前的离线的旧盘,所以需要比较每块磁盘。其中会有两块磁盘前面的部分数据相同,这两块磁盘中会有一块磁盘是旧的,这样的磁盘会有3对。旧盘的数据量没有新盘多,需要排除旧盘。
4、由于操作系统层面采用的是NTFS文件系统,通过MFT就可以获取RAID结构。搞清楚RAID结构后发现这不是一个普通的RAID5,而是一个双循环RAID5。通过常用软件如winhax无法重组RAID。经过测试发现UFS可以重组这个RAID,重组RAID后发现数据不是最新的,北亚企安数据恢复工程师判断出现这种情况的原因是管理员没有及时发现RAID5阵列中第一块硬盘掉线的情况,没有及时添加新的硬盘做rebuild。一段时间后又有一块硬盘掉线了,导致整个RAID不可用。所以还需要找出一块旧的磁盘,才能生成最新的数据。
5、尝试每次踢掉阵列中一块硬盘,然后重组RAID,看最新的数据是否可用,直到重组RAID中最新数据可用时为止。然后导出数据验证。
6、经过数据恢复工程师验证没有发现问题后,交由用户方进行检测。经过用户方的仔细检测和核对,确认恢复数据完整有效,认可数据恢复结果。本次数据恢复工作完成。