华为S5300存储,存储中以供有16块FC硬盘,整个存储空间由450GB FC的硬盘组成一个RAID5磁盘阵列(包含一块热备盘)。该存储中的RAID5阵列3号硬盘由于未知原因离线,热备盘上线并进行数据同步,同步完成到50%左右时8号盘由于未知原因离线,同步失败,raid阵列瘫痪,上层的lun失效,急需对该存储中的raid阵列进行数据恢复。
首先对该raid中所有磁盘(包括正常磁盘和掉线磁盘)进行物理检测以确定离线盘有无物理故障,检测结果为3号盘存在物理故障,其他所有包括8号盘均无物理故障。
物理检测结束后使用dd命令或数据恢复工具将所有磁盘都镜像成文件备份(这么做的目的是为了在镜像中进行数据恢复操作,保护用户源数据)。
工程师对该raid阵列中的所有磁盘进行分析,找出热备盘(热备盘理论上与其他数据盘有明显区别,可以直接区分)由于raid是条带化的,所有阵列中的数据均按照一定规律进行存储,所以工程师分析raid中的数据库页在每一个物理磁盘中的分布情况计算出raid组的磁盘顺序、数据走向、条带大小等基本信息。
根据分析得出的RAID信息,尝试通过RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中掉线两块盘并且有一块硬盘数据被同步损坏。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是被同步掉损坏的硬盘,通过RAID校验程序对这个条带做校验,因此可以明确被同步损坏盘了。
分析lun信息首先虚拟出raid阵列状态,分析lun在阵列中的分配状态,分析lun分配的数据块,然后根据数据MAP并导出LUN的数据。
由于是使用热备盘虚拟的RAID结构,EXT3文件系统无法正常挂载,所以只能提取oracle数据库文件,利用自主开发的文件系统解析程序对其进行文件系统的解析,导出oracle数据库文件,并把数据库文件移交给数据库工程师进行校验和验证
使用Oracle数据库文件检测工具检测每个数据库文件是否完整,发现有错误。再使用Oracle数据库检测工具(检验更严格),发现有部分数据库文件和日志文件错误, system 和 sysaux表空间各存在100多坏块;3个控制文件都存在坏块许多坏块,控制文件全部损坏;eschoolspace表空间的3个文件的坏块更多,达到1000个;undotbs02丢失;数据库工程师对此类文件进行修复,
图一:
图二:
我们创建了控制文件,创建undo表空间,启动数据库到mount。system数据文件坏块使得数据库不能open。各种隐含参数也不能绕过system的坏块;搭建数据库环境。使用dmp文件还原数据库。使用3月9号之后的导入,都报错,大约只能导入10G左右的数据。
图三:
由用户方配合,启动Oracle数据库,在本地虚拟机安装OA客户端。通过OA客户端对数据记录进行验证,并且用户安排不同部门人员进行远程验证。验证通过,数据恢复成功
原文地址:http://blog.51cto.com/sun510/2119505