IBM DS4700 存儲硬盤故障數(shù)據(jù)恢復(fù)案例
時間:2022-05-11 12:00:01 | 來源:網(wǎng)絡(luò)營銷
時間:2022-05-11 12:00:01 來源:網(wǎng)絡(luò)營銷
IBM DS4700 存儲硬盤故障數(shù)據(jù)恢復(fù)案例
技佳科技
客戶服務(wù)器出故障以后,技術(shù)和IBM售后支持處理了兩天,一直搞不定,畢竟raid5陣列如果掉兩塊盤,一塊盤報警,一般是無法再恢復(fù)數(shù)據(jù)的,從網(wǎng)絡(luò)上搜索查到技佳公司,客戶是某東省建設(shè)局,運維著省建筑申批等系統(tǒng),因運維的技術(shù)以前有和我們合作過,聯(lián)系上了杭州技佳瑞康科技有限公司杭州分公司的羅工上門恢復(fù),廠家工程師也無法處理。需要上門配合進(jìn)行緊急數(shù)據(jù)恢復(fù)處理。
驅(qū)車上門后,來到數(shù)據(jù)中心機房,和客戶溝通清楚后
1、-故障檢測前IBM DS 4700 光纖存儲了解
IBM DS4700 全名(IBM System Storage DS4700 )是IBM推出的中端存儲系統(tǒng),它有一個設(shè)計合理、功能強大的內(nèi)部架構(gòu),大幅度提升了性能,但某些物理故障或其他操作都可能會對卷或存儲造成破壞,因此對系列存儲的數(shù)據(jù)恢復(fù)技術(shù)才有了用武之地。
DS4700產(chǎn)品系列是包含4 Gbps光纖通道(FC)接口的存儲服務(wù)器。DS4700 是IBM SAN解決方案的一部分,結(jié)合IBM SAN交換機技術(shù)。EXP810擴展柜支持SATA磁盤,可以最大支持112塊SATA磁盤,裸數(shù)據(jù)容量可以高達(dá)56T。為用戶提供低成本大容量的近線存儲解決方案。最多支持1024個邏輯卷(LUNs)、可定義大于2T的陣列組。存儲管理軟件v9.16擁有FlashCopy?等高級存儲管理功能。
Enhancement Remote Mirror(Global Copy和Metro Mirror)
增強的遠(yuǎn)程鏡像包括Global Mirror, Global Copy和Metro Mirror,Metro Mirror用來將一個存儲系統(tǒng)鏡像到另一個存儲
支持FlashCopy 和 VolumeCopy 備份方式
2、-存儲故障檢測分析
掛載12塊硬盤,存儲oracle 10G的好幾個數(shù)據(jù)庫,兩塊600G的硬盤報黃燈錯誤,掉線相隔時間為10分鐘,在BIOS下查看陣列卡的信息,raid組成員offline 所以進(jìn)入服務(wù)器后,顯示卷無法掛載/業(yè)務(wù)中斷,公司所有員業(yè)無法作業(yè),需要進(jìn)行加急數(shù)據(jù)恢復(fù)處理,而且多個系統(tǒng),多個公共服務(wù)在上面,都放在此存儲上
查看服務(wù)器存儲當(dāng)前狀態(tài),物理磁盤狀態(tài)進(jìn)行查看,發(fā)現(xiàn)10號磁盤狀態(tài)為alter警告,6號硬盤和8號磁盤狀態(tài)為missing 失敗,繼續(xù)使用IBM storage manager對,從存儲調(diào)出服務(wù)器故障日志,以進(jìn)一步分析。
客戶運維工程師在服務(wù)器數(shù)據(jù)恢復(fù)工程師羅工的幫助下將服務(wù)器斷電,全部硬盤進(jìn)行物理順序編號標(biāo)記,按各自槽位標(biāo)識并取出,硬盤數(shù)據(jù)恢復(fù)工程師羅工進(jìn)行物理檢測。工程師通過P3000 sas鏡像設(shè)備對全部硬盤進(jìn)行簡單檢測,除6號盤無法認(rèn)盤外,8號盤是壞道,10號盤SMART表報錯,狀態(tài)和在IBM存儲日志中報告一致。
3、-數(shù)據(jù)恢復(fù)方案
本方案將對服務(wù)器陣列盤只讀不寫方式,備份全成員盤,以全面確保數(shù)據(jù)安全:
IBM成員盤為光纖非標(biāo)硬盤,520K/扇區(qū)。找4TB鏡相備份盤兩個,先鏡相并替換這兩塊壞的硬盤 520to520操作花了1天,再鏡相其它10塊盤花1天操作時間,共計兩天。
鏡像硬盤,組虛擬陣列,在虛擬陣列中恢復(fù)數(shù)據(jù)
優(yōu)點:鏡像完成以后,不再使用原有硬盤,可以做多樣化組合嘗試;不會影響原盤數(shù)據(jù),恢復(fù)的安全性、可逆性極強。
缺點:耗時長;數(shù)據(jù)一般情況可以完整恢復(fù),但如果遇到硬盤損壞較多,也有可能是部分恢復(fù)。
重組raid陣列
恢復(fù)oracle數(shù)據(jù)庫
在dmp恢復(fù)的過程中,oracle數(shù)據(jù)庫出現(xiàn)報錯,內(nèi)容為imp-0008錯誤,數(shù)據(jù)庫數(shù)據(jù)恢復(fù)工程師對數(shù)據(jù)庫進(jìn)行分析,導(dǎo)致數(shù)據(jù)庫報錯的原因為dmp文件有問題。服務(wù)器數(shù)據(jù)恢復(fù)工程師重新對raid結(jié)構(gòu)進(jìn)行分析重組,重新導(dǎo)出dmp文件和dbf原始庫文件并測試,接著對恢復(fù)出來的dbf原始庫文件進(jìn)行校驗檢測,所有文件均能通過測試。 數(shù)據(jù)庫工程師到達(dá)現(xiàn)場,和用戶溝通后決定使用恢復(fù)出來的dbf原始庫文件進(jìn)行操作,以確保能把數(shù)據(jù)恢復(fù)到最佳狀態(tài)。
數(shù)據(jù)庫恢復(fù)過程
1.把數(shù)據(jù)庫文件拷貝到原數(shù)據(jù)庫服務(wù)器中,路徑為/home/oracle/tmp/syntong. 在根目錄下創(chuàng)建了一個oradata文件夾作為備份,并把備份的整個syntong文件夾拷貝到oradata目錄下。然后更改oradata文件夾及其所有文件的屬組和權(quán)限。 2.備份原數(shù)據(jù)庫環(huán)境,包括ORACLE_HOME下product文件夾下的相關(guān)文件。配置監(jiān)聽,使用原機中的splplus連接到數(shù)據(jù)庫。嘗試啟動數(shù)據(jù)庫到nomount狀態(tài)。進(jìn)行基本狀態(tài)查詢后,了解到環(huán)境和參數(shù)文件沒有問題。 嘗試啟動數(shù)據(jù)庫到mount狀態(tài),進(jìn)行狀態(tài)查詢沒有問題。啟動數(shù)據(jù)庫到open狀態(tài)。出現(xiàn)報錯: ORA-01122: database file 1 failed verification check/frombyte.com ORA-01110: data file 1: /oradata/syntong/system01.dbf ORA-01207: file is more recent than control file - old control file 3.經(jīng)過進(jìn)一步的檢測和分析,判斷此故障為控制文件和數(shù)據(jù)文件信息不一致,這是一類因斷電或突然關(guān)機等引起的常見故障。 4.對數(shù)據(jù)庫文件進(jìn)行逐個檢測,檢測到所有數(shù)據(jù)文件沒有物理損毀。 5.在mount狀態(tài)下,對控制文件進(jìn)行備份,alter database backup controlfile to trace as /backup/controlfile;對備份的控制文件進(jìn)行查看修改,取得其中的重建控制文件命令。把這些命令復(fù)制到一個新建腳本文件controlfile.sql中。 6.關(guān)閉數(shù)據(jù)庫,刪除/oradata/syntong/下的3個控制文件。 啟動數(shù)據(jù)庫到nomount狀態(tài),執(zhí)行controlfile.sql 腳本。 SQLstartup nomount/frombyte.combr/SQL@controlfile.sql ="" a="" style="font-family: -apple-system, "Helvetica Neue", Helvetica, Arial, "PingFang SC", "Hiragino Sans GB", "WenQuanYi Micro Hei", "Microsoft Yahei", sans-serif; -webkit-font-smoothing: antialiased; margin: 0px; padding: 0px; max-width: 100%;"7.重建控制文件完成后,直接啟動數(shù)據(jù)庫,報錯,需要進(jìn)一步處理。 SQL alter database open; alter database open/frombyte.com * ERROR at line 1: ORA-01113: file 1 needs media recovery ORA-01110: data file 1: /free/oracle/oradata/orcl/system01.dbf 然后執(zhí)行恢復(fù)命令: recover database using backup controlfile until cancel; Recovery of Online Redo Log: Thread 1 Group 1 Seq 22 Reading mem 0 Mem# 0 errs 0: /free/oracle/oradata/orcl/redo01.log 做介質(zhì)恢復(fù),直到返回報告,恢復(fù)完成。 8.嘗試open數(shù)據(jù)庫。 SQL alter database open resetlogs; 9.數(shù)據(jù)庫啟動成功。把原來temp表空間的數(shù)據(jù)文件加入到對應(yīng)的temp表空間中。 10.對數(shù)據(jù)庫進(jìn)行各種常規(guī)檢查,沒有任何錯誤。 11.進(jìn)行emp備份。全庫備份完成,沒有報錯。將應(yīng)用程序連接到數(shù)據(jù)庫,進(jìn)行應(yīng)用層面的數(shù)據(jù)驗證。一切正常,本次數(shù)據(jù)恢復(fù)成功。
數(shù)據(jù)恢復(fù)結(jié)果驗證
杭州技佳瑞康科技有限公司杭州分公司的羅工和客戶方一起努力,歷時8天,數(shù)據(jù)100%恢復(fù)成功,客戶方工程師對所有數(shù)據(jù)和ORACLE數(shù)據(jù)庫進(jìn)行現(xiàn)場驗證,數(shù)據(jù)恢復(fù)完美驗證。
【服務(wù)器存儲安全建議】
1.盡量保證機房電源供應(yīng)穩(wěn)定,以減少電源異常對主機及存儲的沖擊; 2.最好為重要的服務(wù)器及存儲配置UPS,可在機房意外斷電的情況下保證核心業(yè)務(wù)系統(tǒng)能繼續(xù)維持一定時間的正常工作,從而為企業(yè)尋求應(yīng)急解決方案贏得寶貴的時間; 3.對于服務(wù)年限已久的服務(wù)器應(yīng)定期進(jìn)行安全狀況檢查,并對其整體運行狀態(tài)進(jìn)行評估以決定是否進(jìn)行硬件及系統(tǒng)的全面升級,同時提前制定突發(fā)數(shù)據(jù)災(zāi)難的緊急處理方案,以降低數(shù)據(jù)災(zāi)難帶來的業(yè)務(wù)損失。
總結(jié):HDS高端存儲雖然穩(wěn)定,但也是要經(jīng)常機房巡檢,數(shù)據(jù)還是要有備份,有備無患!很多時候物理層恢復(fù)了,但是存儲的狀態(tài)還是不行或是硬盤狀態(tài)不對,類似于我去年恢復(fù)的HP XP2400上面掛載了220多個硬盤,針對多盤的服務(wù)器,一定要思路和邏輯清晰,方案成熟后再著手去恢復(fù)處理
杭州技佳瑞康科技發(fā)展有限公司成立長2012年,國家保密局涉密數(shù)據(jù)恢復(fù)資質(zhì)單位,總部位于杭州,在杭州、杭州、杭州、杭州等地設(shè)有分公司http://www.databack.com.cn ,聯(lián)想集團數(shù)據(jù)恢復(fù)供應(yīng)商, 2017-2019杭州市政務(wù)信息安全應(yīng)急保障單位,杭州市誠信創(chuàng)建企業(yè),中國石油IBM 渣打銀行數(shù)據(jù)恢復(fù)服務(wù)商,針對服務(wù)器和高端存儲,機房云數(shù)據(jù)故障等應(yīng)急服務(wù)有豐富的經(jīng)驗。
關(guān)鍵詞:數(shù)據(jù),故障,恢復(fù)