服務(wù)器、存 儲維修/維保及RAID數據恢複 數據庫修複 機房維保

RAID癱瘓數據恢複注意事項

  • 時間:2020-10-26
  • 訪問量:96
  • 了解raid數據恢複首先知道raid是什麽?raid磁盤陣列多(duō)用(yòng)于存儲服務(wù)器,數據服務(wù)器等企業級大數據存儲領域,RAID是把多(duō)塊獨立的物(wù)理(lǐ)硬盤按不同方式組合起來形成一個邏輯硬盤,當raid癱瘓或硬件損壞後,為(wèi)了恢複存儲在raid平台的數據被稱之為(wèi)raid數據恢複,RAID陣列能(néng)夠提供比單個硬盤有(yǒu)着更高的性能(néng)和提供數據冗餘的技(jì )術。


  • 如果服務(wù)器或存儲平台組建了RAID陣列,無論因哪種原因導緻的RAID癱瘓,請勿進行僥幸心理(lǐ)嘗試或執行盲目性無安(ān)全操作(zuò),這是十分(fēn)危險的事情!在RAID數據恢複案例統計中(zhōng)發現,不能(néng)恢複的RAID數據往往是再次的操作(zuò)導緻。

  • 什麽是raidi數據恢複?raid癱瘓數據恢複注意事項


  • RAID陣列不正常或無法啓動的時候,如何有(yǒu)效的保護數據不被破壞,以下幾種情況的操作(zuò)有(yǒu)可(kě)能(néng)對陣列造成數據破壞:
  • 1.強制Online
      這個操作(zuò)是很(hěn)容易對陣列造成數據破壞的,尤其是當有(yǒu)2塊或以上的盤掉線(xiàn)的時候,如果不知道哪個盤先掉,哪個盤後掉的話,一但破壞了,數據将有(yǒu)可(kě)能(néng)變成舊的,而且無法恢複。
    例如:RAID5陣列,4塊盤,0号和2号掉線(xiàn)。假設0号盤先掉線(xiàn),1個月後2号盤又(yòu)掉線(xiàn),這個時候如果将2塊盤強制在線(xiàn)的話,因為(wèi)0号盤1個月前就掉線(xiàn)了,這一個月當中(zhōng)對數據做的很(hěn)多(duō)的改變,這塊盤的數據已經不能(néng)通過RAID的檢驗了,陣列是無法分(fēn)析數據的新(xīn)舊的,所以陣列有(yǒu)可(kě)能(néng)用(yòng)0号盤+1、3号盤去Rebuild 2号盤,這樣一來,2号盤的數據也就成了不正确的了,将無法恢複,最多(duō)也隻能(néng)恢複到1個月前的部分(fēn)數據。
    2.Rebuild
      例如:RAID5陣列,4塊盤,Rebuild操作(zuò)的實際意義是,用(yòng)其中(zhōng)3塊盤做異或運算,将結果寫到另一塊盤中(zhōng)。這裏要求,用(yòng)來做異或運算的3塊盤的數據一定要是正确的,如果其中(zhōng)有(yǒu)一塊或多(duō)塊不正确哪麽異或出來的結果也就是不正确的。
    3.更換RAID卡或主機
      目前大部分(fēn)RAID卡都是支持這種操作(zuò)的,在陣列正常的情況下這個操作(zuò)是不會破壞數據的。但是,在陣列已經癱瘓或是無法正常工(gōng)作(zuò)的時候,這個操作(zuò)将有(yǒu)可(kě)能(néng)導緻RAID對硬盤做不正常的Rebuild和校驗,所以當陣列出現問題的時候,要準确判斷是陣列卡有(yǒu)問題,還是硬盤有(yǒu)問題,不要輕易去嘗試更換RAID卡或主機。
    4.把報錯的硬盤全部拔下來再插上去
      拔下來沒關系,但是如果再全插上去的話陣列将重新(xīn)去識别插上去的硬盤,這時如果硬盤中(zhōng)的陣列信息或數據有(yǒu)誤的話,會導緻陣列做出錯的Rebuild操作(zuò)。
      如果是懷疑硬盤接觸不好的話,可(kě)以一塊一塊的拔,再一塊一塊的插上去。不要一次都拔下來。或者可(kě)以的話,關機後,再進行插拔。
    5.操作(zuò)系統的check disk
      Windows,Linux,Unix等操作(zuò)系統都有(yǒu)自己的一個硬盤檢測程序,當你硬盤中(zhōng)的分(fēn)區(qū)或文(wén)件出現問題無法正常讀取的時候,操作(zuò)系統就會在重啓的時候去自動運行Check disk去試圖修複,這時,如果是陣列的檢驗出現問題而導緻分(fēn)區(qū)或文(wén)件出錯的話,運行Check disk将有(yǒu)可(kě)能(néng)破壞陣列中(zhōng)數據。
    6.對RAID中(zhōng)單塊硬盤進行寫操作(zuò)
      一件事情或一個工(gōng)作(zuò)做的多(duō)了,你可(kě)能(néng)什麽情況都能(néng)遇到,這一項我們是很(hěn)不願意列出來,但是就有(yǒu)人這麽做了,所以不得不拿(ná)出來提醒一個。陣列中(zhōng)的硬盤是一個整體(tǐ),破壞其它一塊硬盤就是破壞整個陣列。
    7.磁盤掉線(xiàn)
      對于RAID5來說,掉線(xiàn)1塊盤陣列還是可(kě)以正常運行的,如果超出1塊,陣列将無法啓動。當陣列掉線(xiàn)超出1塊盤的時候,最好不要做強制Online。尤其是在你不知道是哪個盤先掉線(xiàn)哪塊盤後掉線(xiàn)的時候,絕對不可(kě)以強制Online。RAID0和1算法簡單,這裏就不詳細說明了。RAID5當一塊硬盤OFFLINE之後負載會比較重,此時最好做脫機的REBUILD,如一定要在線(xiàn)REBUILD,應盡可(kě)能(néng)少得對磁盤做高負荷的讀寫,應保障這個過程的順利完成。建議條件許可(kě)的話,加入HOTSPARE DISK 
    8.磁盤有(yǒu)壞道
      陣列中(zhōng)的磁盤如果有(yǒu)壞道的話,會導緻磁盤掉線(xiàn)或陣列不穩定,這時應盡早将有(yǒu)壞道的硬盤換掉,如果出現多(duō)壞硬盤有(yǒu)壞道的話,陣列将可(kě)能(néng)癱瘓。
    9.斷電(diàn)或意外關機
      陣列是由RAID卡控制硬盤,通過某種算法将多(duō)塊硬盤整合成一塊硬盤提供給用(yòng)戶使用(yòng)。在陣列運行過程中(zhōng),會有(yǒu)大量的輸入輸出信息放在RAID卡的緩沖或主機的緩沖中(zhōng)的,如果發生突然斷電(diàn)和意外關機的情況,将導緻碏的信息無法寫回到硬盤或RAID卡的ROM中(zhōng),這樣極易導緻陣列信息丢失、陣列癱瘓。
    10.擴容失敗或擴容過程中(zhōng)意外中(zhōng)斷
      這裏強烈建議,雖然目前很(hěn)多(duō)陣列都支持不破壞數據直接擴容,但是這種操作(zuò)十分(fēn)危險,在擴容的過程中(zhōng)如果出現意外情況,比如說,突然斷電(diàn),硬盤有(yǒu)壞道等,哪數據是無法恢複的。年以要盡量将數據備份後再進行擴容。
    11.文(wén)件目錄混亂,部分(fēn)或全部文(wén)件無法訪問 
      這種情況是由于陣列中(zhōng)某塊硬盤的數據是不正确的,導緻校驗出錯,其實并不是文(wén)件本身的問題。這時如果重啓系統的話,操作(zuò)系統會對這個分(fēn)區(qū)做Check disk,注意不要讓系統做Check disk。
    12.Rebuild失敗或Rebuild過程中(zhōng)意外中(zhōng)斷 
      Rebuild過程中(zhōng)陣列是不能(néng)斷電(diàn)的,否則陣列将有(yǒu)可(kě)能(néng)癱瘓。而且磁盤中(zhōng)有(yǒu)壞道的活,在Rebuild過程中(zhōng)也會使Rebuild失敗。
  •  





推薦案例