RAID(磁盘阵列)是一种将多块物理硬盘整合成一个虚拟存储的技术,raid模块相当于一个存储管理的中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写。相对于单独的物理硬盘,raid可以为用户提供更大的独立存储空间,更快的读写速度,更高的数据存储安全及更方便的统一管理模式。磁盘阵列是否能正常运转是保障服务器中数据正常读写的关键。
服务器raid常见故障表现:
1、磁盘阵列中有多块物理硬盘的指示灯报警(显示除绿色外的其他颜色如红色/黄色)。
2、磁盘阵列管理界面显示多块硬盘呈离线状态或丢失状态。
3、Raid信息丢失、所有物理硬盘不是online状态。
4、无法进入raid管理界面或查看raid相关信息时死机。
磁盘阵列出现故障的原因分析:
1、磁盘阵列中单块硬盘出现物理故障。
2、Raid数据传输通道不畅或者数据传输模块老化。
3、服务器系统更新、重启或服务器意外断电导致raid信息丢失或raid模块损坏。
4、Raid模块升级或重装系统导致raid信息丢失或被重新创建。
5、错误插拔磁盘阵列中的物理硬盘或者强制硬盘online/rebuild可能导致服务器数据遭到完全损坏。
磁盘阵列数据恢复方案:
1、首先将磁盘阵列中所有运行状态良好的非热备盘完整备份到带有冗余功能的安全存储中,对于存在物理故障的硬盘需按照相应故障类型的解决方案进行处理,尽最大可能将故障物理硬盘中的数据备份到安全存储中。
2、基于镜像文件对所有硬盘进行分析,确定故障raid的结构参数(raid级别、条带块大小、硬盘盘序、数据校验方式等),同时判断故障raid中各硬盘的离线情况。
3、根据分析所获取到的raid参数及硬盘离线情况在只读环境中重组raid,并对重组的raid进行逻辑校验,确定文件系统大体结构无误后将raid阵列生成完整镜像。
4、对生成的raid镜像进行完整的逻辑分析和校验,若文件系统仍存在不一致的情况则依据相应文件系统损坏情况进行修复,直至完全没有问题后迁移所需数据。
磁盘阵列数据安全Tips:
1、切忌让硬盘再次受到磕碰。
2、切忌重新创建raid或者强制online/rebuild。
3、切忌非专业人士拆卸、更换障磁盘阵列的主要模块。