标签:分布 规律 png 分享 公司 替换 图片 故障 部门
一、服务器数据恢复背景北京某政府部门的一台EMC 5400服务器由于raid阵列损坏导致服务器崩溃,急需进行服务器数据恢复,由于用户服务器数据涉密,需要上门恢复。
服务器数据恢复工程师携带相关设备到客户现场进行数据检测,发现服务器瘫痪的原因是由于raid阵列中某些硬盘掉线导致的,对所有磁盘进行物理检测后没有发现物理故障,也没有坏道。随后工程师借助数据恢复软件将故障服务器(EMC 5400)中的所有磁盘镜像到我公司数据恢复服务平台上,以备后期数据恢复使用。
1、分析服务器RAID组的结构
EMC 5400服务器的LUN全部基于RAID阵列组,所以要恢复服务器数据首先需要分析服务器底层RAID信息,然后根据分析的信息重构原始的RAID组。服务器数据恢复工程师对raid阵列进行分析后发现服务器中有两块硬盘离线,由于6号盘和10号盘都属于Hot Spare,但在服务器发生故障时6号Hot Spare替换了掉线的5号硬盘,10号盘因为未知原因未启用。所以服务器虽然成功激活了6号盘的Hot Spare,但由于在RAID5磁盘阵列中仍然缺失一块硬盘,数据没有同步到6号硬盘中。服务器数据恢复工程师继续分析所有其他硬盘,得出数据在硬盘中分布的规律,RAID条带的大小,以及每块磁盘的顺序。
2、重组raid分析掉线盘顺序
根据分析出来的raid信息使用自主开发的RAID虚拟程序虚拟重组故障服务器中原始raid。然后分析服务器中两块掉线硬盘的掉线顺序。通过对服务器中所有硬盘的仔细排查发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过自主开发的RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。
3、分析RAID组中的LUN信息
现已知raid信息,掉盘先后顺序,接下来根据分析结果重组raid。分析LUN在RAID组中的分配信息,以及LUN分配的数据块MAP。然后根据这些信息使用raid数据恢复程序,解释LUN的数据MAP并导出LUN的所有数据。
使用北亚自主开发的ZFS文件系统解释程序对生成的LUN做文件系统解释,解析所有文件节点及目录结构。
部分文件目录截图如下:
由用户方管理员对数据进行验证,一切数据正常、完整,本次数据恢复成功
部分文件验证如下:
标签:分布 规律 png 分享 公司 替换 图片 故障 部门
原文地址:http://blog.51cto.com/sun510/2149069