咨詢服務(wù)熱線:
137 9891 8255 東莞一、服務(wù)器數(shù)據(jù)恢復(fù)故障描述
機(jī)房突然斷電導(dǎo)致整個存儲癱瘓,加電后存儲依然無法使用。經(jīng)過用戶方工程師診斷后認(rèn)為是斷電導(dǎo)致存儲陣列損壞。
整個存儲是由12塊日立硬盤(3T SAS硬盤)組成的RAID-6磁盤陣列,被分成一個卷,分配給幾臺Vmware的ESXI主機(jī)做共享存儲。整個卷中存放了大量的Windows虛擬機(jī),虛擬機(jī)基本都是模板創(chuàng)建的,因此系統(tǒng)盤都統(tǒng)一為160G。數(shù)據(jù)盤大小不確定,并且數(shù)據(jù)盤都是精簡模式。
二、服務(wù)器數(shù)據(jù)恢復(fù)備份數(shù)據(jù)
將故障存儲的所有磁盤和備份sss數(shù)據(jù)的目標(biāo)磁盤連入到一臺Windows Server 2008的服務(wù)器上。
使用WinHex 對HD13-HD24以底層方式讀取扇區(qū),發(fā)現(xiàn)了大量損壞扇區(qū)。初步判斷可能是這種硬盤的讀取機(jī)制與常見的硬盤不一樣。嘗試更換操作主機(jī),更換HBA卡,更換擴(kuò)展柜,更換為Linux操作系統(tǒng),均呈現(xiàn)相同故障。與用戶方工程師聯(lián)系,對方回應(yīng)此控制器對磁盤沒有特殊要求。
使用專業(yè)工具對硬盤損壞扇區(qū)的分布規(guī)律進(jìn)行檢測,發(fā)現(xiàn)如下規(guī)則:
1、損壞扇區(qū)分布以256個扇區(qū)為單位。2、除損壞扇區(qū)片斷的起始位置不固定外,后面的損壞扇區(qū)都是以2816個扇區(qū)為間隔。
臨時寫了個小程序,對每個磁盤的損壞扇區(qū)做繞過處理。用此程序鏡像完所有盤的數(shù)據(jù)。
三、服務(wù)器數(shù)據(jù)恢復(fù)故障分析
1、分析損壞扇區(qū)
仔細(xì)分析損壞扇區(qū)發(fā)現(xiàn),損壞扇區(qū)呈規(guī)律性出現(xiàn)。
-每段損壞扇區(qū)區(qū)域大小總為256。-損壞扇區(qū)分布為固定區(qū)域,每跳過11個256扇區(qū)遇到一個壞的256扇區(qū)。-損壞扇區(qū)的位置一直存在于RAID的P校驗或Q校驗區(qū)域。-所有硬盤中只有10號盤中有一個自然壞道。
2、分析分區(qū)大小
對HD13、HD23、HD24的0-2扇區(qū)做分析,可知分區(qū)大小為52735352798扇區(qū),此大小按RAID-6的模式計算,除以9,等于5859483644扇區(qū),與物理硬盤大小1049524,和DS800控制器中保留的RAID信息區(qū)域大小吻合;同時根據(jù)物理硬盤底層表現(xiàn),分區(qū)表大小為512字節(jié),后面無8字節(jié)校驗,大量的0扇區(qū)也無8字節(jié)校驗。故可知,原存儲并未啟用存儲中常用的DA技術(shù)(520字節(jié)扇區(qū))。
四、重組RAID
1、分析RAID結(jié)構(gòu)
存儲使用的是標(biāo)準(zhǔn)的RAID-6陣列,接下來只需要分析出RAID 成員數(shù)量以及RAID的走向就可以重組RAID。
-分析RAID條帶大小
整個存儲被分成一個大的卷,分配給幾臺ESXI做共享存儲,因此卷的文件系統(tǒng)肯定是VMFS文件系統(tǒng)。而VMFS卷中又有存放了大量的Windows 虛擬機(jī)。Windows虛擬機(jī)中大多使用的是NTFS文件系統(tǒng),因此可以根據(jù)NTFS中的MFT的順序分析出RAID條帶的大小以及RAID的走向。
-分析RAID是否存在掉線盤
鏡像完所有磁盤。后發(fā)現(xiàn)最后一塊硬盤中并沒有像其他硬盤一樣有大量的壞道。其中有大量未損壞扇區(qū),這些未損壞扇區(qū)大多是全0扇區(qū)。因此可以判斷這塊硬盤是熱備盤。
2、重組RAID
根據(jù)分析出來的RAID結(jié)構(gòu)重組RAID,能看到目錄結(jié)構(gòu)。但是不確定是否為最新狀態(tài),檢測幾個虛擬機(jī)發(fā)現(xiàn)有部分虛擬機(jī)正常,但也有很多虛擬機(jī)數(shù)據(jù)異常。初步判斷RAID中存在掉線的磁盤,依次將RAID中的每一塊磁盤踢掉,然后查看剛才數(shù)據(jù)異常的地方,未果。又仔細(xì)分析底層數(shù)據(jù)發(fā)現(xiàn)問題不是出在RAID層面,而是出在VMFS文件系統(tǒng)上。VMFS文件系統(tǒng)如果大于16TB的話會存在一些其他的記錄信息,因此在組建RAID的時候需要跳過這些記錄信息。再次重組RAID,查看以前數(shù)據(jù)異常的地方可以對上了。針對其中的一臺虛擬機(jī)做驗證,將所有磁盤加入RIAD中后,這臺虛擬機(jī)是可以啟動的,但缺盤的情況下啟動有問題。因此判斷整個RAID處在不缺盤的狀態(tài)為最佳。
五、驗證數(shù)據(jù)
1、驗證虛擬機(jī);針對用戶較為重要的虛擬機(jī)做驗證,發(fā)現(xiàn)虛擬機(jī)大多都可以開機(jī),可以進(jìn)入登陸界面。有部分虛擬機(jī)開機(jī)藍(lán)屏或開機(jī)檢測磁盤,但是光盤修復(fù)之后都可以啟動。
2、驗證數(shù)據(jù)庫;針對重要的虛擬機(jī)中的數(shù)據(jù)庫做驗證,發(fā)現(xiàn)數(shù)據(jù)庫都正常。其中有一個數(shù)據(jù)庫,據(jù)用戶描述是缺少部分?jǐn)?shù)據(jù),但是經(jīng)過仔細(xì)核對后發(fā)現(xiàn)這些數(shù)據(jù)在數(shù)據(jù)庫中本來就不存在。
3、檢測整個VMFS卷是否完整;由于虛擬機(jī)的數(shù)量很多,每臺都驗證的話,所需的時間會很長,因此我們對整個VMFS卷做檢測。在檢測VMFS卷的過程中發(fā)現(xiàn)有部分虛擬機(jī)或虛擬機(jī)的文件被破壞。
六、恢復(fù)數(shù)據(jù)
1、生成數(shù)據(jù);北亞工程師跟客戶溝通并且描述了目前恢復(fù)的情況。用戶經(jīng)過對幾臺重要的虛擬機(jī)驗證后,用戶反應(yīng)恢復(fù)的數(shù)據(jù)可以接受,接著北亞工程師立即著手準(zhǔn)備恢復(fù)所有數(shù)據(jù)。
先準(zhǔn)備目標(biāo)磁盤,使用一臺dell 的MD 1200加上11塊3T的硬盤組成一個RAID陣列。接著將重組的RAID數(shù)據(jù)鏡像到目標(biāo)陣列上。然后利用專業(yè)的工具UFS解析整個VMFS文件系統(tǒng)。
2、嘗試掛載恢復(fù)的VMFS卷;將恢復(fù)好的VMFS卷連接到我們的虛擬化環(huán)境中的一臺ESXI5.5主機(jī)上,嘗試將其掛載到的ESXI5.5的環(huán)境中。但是由于版本(客戶的ESXI主機(jī)是5.0版本)原因或VMFS本身有損壞,導(dǎo)致其掛載不成功。繼續(xù)嘗試使用ESXI的命令掛載也不成功,于是放棄掛載VMFS卷。
七、移交數(shù)據(jù)
由于時間緊迫,先安排北亞工程師將MD 1200 陣列上的數(shù)據(jù)帶到用戶現(xiàn)場。然后使用專業(yè)工具”UFS”依次導(dǎo)出VMFS卷中的虛擬機(jī)。
1、將MD 1200陣列上的數(shù)據(jù)通過HBA卡連接到用戶的VCenter服務(wù)器上。
2、在VCenter服務(wù)器安裝“UFS”工具,然后使用“UFS”工具解釋VMFS卷。
3、使用“UFS”工具將VMFS卷中的虛擬機(jī)導(dǎo)入到VCenter服務(wù)器上。
4、使用VCenter的上傳功能將虛擬機(jī)上傳到ESXI的存儲中。
5、接著將上傳完的虛擬機(jī)添加到清單,開機(jī)驗證即可。
6、如果有虛擬機(jī)開機(jī)有問題,則嘗試使用命令行模式修復(fù)?;蛘咧亟ㄌ摂M機(jī)并將恢復(fù)的虛擬機(jī)磁盤(既VMDK文件)拷貝過去。
7、由于部分虛擬機(jī)的數(shù)據(jù)盤很大,而數(shù)據(jù)很少。像這種情況就可以直接導(dǎo)出數(shù)據(jù),然后新建一個虛擬磁盤,最后將導(dǎo)出的數(shù)據(jù)拷貝至新建的虛擬磁盤中即可。
統(tǒng)計了一下整個存儲中虛擬機(jī)的數(shù)量,大約有200臺虛擬機(jī)。目前的情況只能通過上述方式將恢復(fù)的虛擬機(jī)一臺一臺的恢復(fù)到用戶的ESXI中。由于是通過網(wǎng)絡(luò)傳輸,因此整個遷移的過程中網(wǎng)絡(luò)是一個瓶頸。經(jīng)過不斷的調(diào)試以及更換主機(jī)最終還是無法達(dá)到一個理想的狀態(tài),由于時間緊張,最終還是決定在當(dāng)前的環(huán)境遷移數(shù)據(jù)。
八、數(shù)據(jù)恢復(fù)總結(jié)
經(jīng)過仔細(xì)分析后得出壞道的結(jié)論如下:
-除去SN:YHJ6LEUD上的一個自然壞道外,其余壞道均分布于RAID-6的Q校驗塊中。
-壞道區(qū)域多數(shù)表現(xiàn)為完整的256個扇區(qū),正好當(dāng)時創(chuàng)建RAID-6時的一個完整RAID塊大小。
-活動區(qū)域表現(xiàn)為壞道,非活動區(qū)域壞道有可能不出現(xiàn),如熱備盤,上線不足10%,壞道數(shù)量就比其他在線盤少(熱備盤的鏡像4小時完成,其他有壞道盤大概花費(fèi)40小時)
-其他非Q校驗區(qū)域完好,無任何故障。
結(jié)論:
通常情況,經(jīng)如上壞道規(guī)則表現(xiàn)可推斷,壞道為控制器生成Q校驗,向硬盤下達(dá)IO指令時,可能表現(xiàn)為非標(biāo)指令,硬盤內(nèi)部處理異常,導(dǎo)致出現(xiàn)規(guī)律性壞道。
數(shù)據(jù)恢復(fù)總結(jié);數(shù)據(jù)恢復(fù)過程中由于壞道數(shù)量太多,以致備份數(shù)據(jù)時花費(fèi)了很長世間。整個存儲是由壞道引起的,導(dǎo)致最終恢復(fù)的數(shù)據(jù)有部分破壞,但不影響整體數(shù)據(jù),最終的結(jié)果也在可接受范圍內(nèi)。
整個恢復(fù)過程,用戶方要求緊急,我方也安排工程師加班加點(diǎn),最終在最短的時間內(nèi)將數(shù)據(jù)恢復(fù)出來。
東莞總部:
東莞市萬江區(qū)牌樓基工業(yè)區(qū)眾創(chuàng)科技園208-210室
聯(lián)系人:楊林中 137 9891 8255
(伺服器維修、伺服馬達(dá)維修、數(shù)控維修、進(jìn)口電路板維修)
培訓(xùn)部:
東莞市萬江區(qū)牌樓基工業(yè)區(qū)眾創(chuàng)科技園211-212室
聯(lián)系人:羅勇 137 9030 7363
(專業(yè)工控維修培訓(xùn))
深圳分部:
深圳市寶安區(qū)沙井鎮(zhèn)南環(huán)路上南第七工業(yè)區(qū)第一棟二樓
聯(lián)系人:楊林健 137 6041 9328
(主要業(yè)務(wù):伺服器維修、伺服馬達(dá)維修,主軸維修)
佛山分部:
佛山市順德區(qū)陳村鎮(zhèn)永興居委會白陳路廣隆圍56號三樓
楊桂林 188 1873 6655
(主要業(yè)務(wù):伺服器維修、伺服馬達(dá)維修)
賽格市場部:
東莞市東城區(qū)賽格電子市場1D112-1D113
粵ICP備18113699號
維修咨詢:349323556
銷售咨詢:3410367650
培訓(xùn)咨詢:2671895608
投訴QQ:283884777