公司一名同事已經(jīng)提交離職,正在交接工作,不知道是無意還是惡意刪除了公司200T群暉NAS上30T的數(shù)據(jù)。通過Linux CIFS掛載磁盤,一條rm -rf命令掛著刪了三天三夜,直到第三天同事工作發(fā)現(xiàn)剛剛還在的數(shù)據(jù)突然就沒了,才發(fā)現(xiàn)有人在刪除NAS里面的數(shù)據(jù)。我們第一時間打開群暉的日志找到了這個同事的ID還在不停的刪除數(shù)據(jù),立即去強制關(guān)閉了他的電腦。
要命的是因為數(shù)據(jù)經(jīng)常需要采集寫入和刪除更新,不是那么重要,測試組的數(shù)據(jù)管理員對這個目錄也一直沒有開啟回收站功能,所有數(shù)據(jù)全部從硬盤直接刪除了。但幸虧該員工權(quán)限不高,沒有涉及到核心數(shù)據(jù)。我們第一時間聯(lián)系了群暉官方技術(shù),但官方表示他們也無法恢復,只能聯(lián)系專業(yè)數(shù)據(jù)恢復機構(gòu),在線上線下問了幾個機構(gòu),不是需要寄群暉NAS(涉及公司的信息安全,不能外寄),就是上門要五六萬甚至上十萬的恢復費用。雖然這些是測試數(shù)據(jù)對公司而言比較重要,重新采集需要一個多月,人員設(shè)備等費用也需要近十幾萬元,最后花了幾千元聯(lián)系了一位老家專業(yè)做數(shù)據(jù)恢復的朋友提供方案和遠程協(xié)助,開始了數(shù)據(jù)恢復。
?群暉NAS型號是? 群暉DS2422+ 加擴展柜DS 2419+ ,一共24塊16T盤組的RAID5,存儲空間約200T用btrfs格式。
第一步準備硬件。當天立即在京東上采購了36塊WD 18T氦氣盤,其中24塊用來克隆原磁盤鏡像,剩下的12塊用來存儲恢復出來的數(shù)據(jù)。當天騰開了一臺36盤位的華為存儲服務器,至少需要準備64G內(nèi)存,安裝上windows server 2012系統(tǒng),關(guān)閉自動更新等功能,系統(tǒng)用來安裝克隆鏡像和恢復數(shù)據(jù)的軟件。因為數(shù)據(jù)都是隨機刪除的,只能恢復整個大的文件夾,恢復出來的數(shù)據(jù)會比刪除的大很多。
第二步 安裝磁盤鏡像克隆軟件WINHEX,一一對應克隆硬盤。為了盡可能減少對工作的影響,我們利用周末時間關(guān)閉了群暉NAS,按順序拔下每塊硬盤,并每塊相對應做好標簽,分兩次插到華為服務器上進行克隆。讓華為服務器上有一半NAS的硬盤和一半新硬盤,每塊數(shù)據(jù)對應克隆到新硬盤上,也做好順序標記。服務器上通過WINHEX軟件克隆了NAS上每塊磁盤的鏡像到新的硬盤上,克隆這12塊16T硬盤的數(shù)據(jù)用了2天,一共用了4天時間。全部硬盤克隆完成后,立即按標簽位置插回恢復原群暉NAS使用,不影響整個公司其他的同事辦公,盡可能把影響降到最低。
第三步 安裝raid恢復軟件UFS Explorer professional recovery??9.10,進行數(shù)據(jù)掃描。把克隆出來的新硬盤都安裝在華為24盤位的存儲服務器上,注意服務器內(nèi)存不能小于64G,否則會出現(xiàn)內(nèi)存不足而導致發(fā)生問題。安裝UFS PRO 9.11版本,注意只有PRO版本才能夠恢復RAID磁盤組,盡可能安裝高版本,之前安裝8.1出現(xiàn)卡死問題。
?第四步? ? 開始掃描磁盤數(shù)據(jù)。200T存儲空間的群暉NAS(減去刪除的30T,實際用了130T)用這個軟件日夜掃描了15天,一共掃出了300T數(shù)據(jù)。
第五步? 把掃描出來的數(shù)據(jù) 分批恢復到其他的12塊18T硬盤里面。UFS EXPLORER PRO這個軟件最大占用內(nèi)存64G,前面掃描完一次花了15天,最后不知道是內(nèi)存太小? 還是軟件版本問題 還是win10系統(tǒng)問題導致黑屏和死機了,所以重新增加內(nèi)存到96G,并升級了軟件版本到9.11,更換了服務器的win server 2012系統(tǒng)重新進行第二次掃描,才順利恢復數(shù)據(jù)。
幸運的是恢復出來的數(shù)據(jù),經(jīng)過測試這些天的測試全部可以用, 幫公司挽回了大筆損失。經(jīng)過這次事件,也讓我個人收獲了很多的經(jīng)驗,總結(jié)分享下。
1. 開啟掛載日志,收縮權(quán)限。檢查掛載的日志權(quán)限是否都勾選了,這個是找回和追溯NAS用戶行為的最關(guān)鍵線索。定期檢查日志,我們這個刪除行為持續(xù)了3天3夜,如果每天檢查日志肯定可以最早發(fā)現(xiàn)并挽回損失,可惜群暉沒有一個單位時間內(nèi)刪除大容量數(shù)據(jù)的提醒告警功能(我向官方建議過),比如一天內(nèi)某用戶刪除了1T的數(shù)據(jù),就給管理員發(fā)郵件提醒。普通用戶絕不要輕易分配刪除權(quán)限,利用自定義的讀和寫即可,刪除權(quán)限賦予部門主管,明確責任。減少群暉管理員,管理員越多出問題的概率越大,這次事故的回收站就是測試組數(shù)據(jù)管理員關(guān)閉的。
2.開啟回收站,關(guān)閉自動定期清空回收站策略!定期檢查群暉回收站是否開啟,回收站是群暉數(shù)據(jù)最后的保障,任何時候都不要關(guān)閉回收站!不要關(guān)閉回收站!不要關(guān)閉回收站!任何人意外刪除的數(shù)據(jù)都可以在回收站找到,一定要關(guān)閉自動定期清空回收站策略,我遇到有同事數(shù)據(jù)被其他人誤刪了,剛好這個數(shù)據(jù)前幾天被自動設(shè)置的清空回收站策略清空了,回收站數(shù)據(jù)必須人為手動清空,流程應該是 清空前讓小組先確認數(shù)據(jù)的完整性,確認后才去手動清空。
3. 在套件中心 一定安裝 snapshot 套件,對整個文件夾定期做快照。不僅可以防止惡意刪除,更能夠防范中了勒索病毒,通過快照迅速恢復所有文件,為數(shù)據(jù)安全再加一把安全鎖。
4. 發(fā)現(xiàn)刪除行為的第一時間全面停止整個群暉的寫操作。 從發(fā)現(xiàn)巨量數(shù)據(jù)丟失的第一時間,我們就在群暉上關(guān)閉了所有的寫入權(quán)限,并發(fā)通知告知 整個公司停止了寫入權(quán)限,并保留了讀讓公司業(yè)務受影響程度最小。這個也是源于幾次電腦硬盤數(shù)據(jù)丟失數(shù)據(jù)被找回的經(jīng)驗,數(shù)據(jù)丟失只要沒有被重新覆蓋,找回的幾率還是非常大的。
5. 抓緊時間,立即采購需要的硬件。首先準備相同數(shù)量的硬盤,容量比之前的要大一點。還有準備一些存儲恢復數(shù)據(jù)的磁盤。準備一臺更多盤位的服務器,比如我們準備了一臺36盤位的華為存儲服務器。
6. 克隆磁盤鏡像,減少業(yè)務中斷時間。為了最大限度減少整個公司使用只讀的群暉NAS的影響,利用周末時間,拆下所有硬盤做好標記,放12塊原硬盤 和 12塊新硬件? 放入24盤位的存儲服務器上,一一對應克隆鏡像。克隆了兩次,克隆16T硬盤一次需要36小時,分兩次差不多用了4天克隆完,立即恢復原200T的群暉NAS的使用,并打開了寫功能,讓NAS原來所有業(yè)務保持正常使用。整個NAS從發(fā)現(xiàn)故障,關(guān)閉寫功能,到周末關(guān)閉NAS克隆鏡像花了4天,到打開群暉恢復讀寫功能,最大化減少了對原業(yè)務的影響。
7. 選合適的軟件和硬件。網(wǎng)上數(shù)據(jù)恢復軟件多如牛毛,真正能恢復群暉BRTFS格式raid5的沒有幾個,經(jīng)過大神指點推薦選擇了UFS PRO。之前用的UFS PRO 8.1版本掃描過程卡死黑屏,于是立即升級到9.11版本。華為36盤位服務器居功至偉,同時看到原服務器32G內(nèi)存跑滿,立即加大了內(nèi)存,并監(jiān)控系統(tǒng)CPU 內(nèi)存使用情況,CPU占用不大,但是內(nèi)存最大使用了64G,建議使用96G內(nèi)存。掃描200T的硬盤raid組 花了15天的時間,真是煎熬,面對未知的結(jié)果,和測試同事反復的催促問詢 能不能恢復出來,如果不能恢復,他們就要立即去重新采集數(shù)據(jù)。因為第一次做這么大的數(shù)據(jù)恢復,包括我經(jīng)驗豐富的朋友也無法給最終的結(jié)果一個準確的答案。 未知等待的過程非常忐忑煎熬,害怕花了這么多的時間、金錢、精力最終一無所獲。就好像煉丹一樣,不知道煉出一坨屎還是一顆仙丹,好在所有等待都是值得的,最終搶救回來了95%的數(shù)據(jù),交付測試組測試后基本全部可用,只有幾個文件出現(xiàn)問題無法打開,對整體影響不大。文章來源:http://www.zghlxwxcb.cn/news/detail-465213.html
數(shù)據(jù)恢復是一件充滿未知性的事情,估計成功的概率和賭博輸贏的概率一樣,但是把握好每一個細節(jié)過程,就可以不斷提升成功率。以前有過幾次硬盤幾GB的數(shù)據(jù)誤刪,通過一些數(shù)據(jù)恢復軟件恢復,大部分恢復出來的數(shù)據(jù)都是亂碼這些,這次沒想到全部是清晰的目錄和可用的原文件。我覺得最大的原因是? 群暉用的BRTFS格式的寫時復制的特性(類似快照,雖然沒有專門去做快照,但相當于通過軟件找回了最后一次快照)和RAID5多磁盤數(shù)據(jù)校驗機制無疑是這次全部順利找回并可用最大的功臣,因為所有數(shù)據(jù)都分攤在24塊不同的磁盤上,重新小批量寫入并沒有立即覆蓋刪除之前大容量的數(shù)據(jù)。其次是31T的數(shù)據(jù)量巨大,短時間內(nèi)很難被覆蓋和破壞,因為我們一天NAS新寫入的數(shù)據(jù)最多只有一兩百G,應該寫入到了新的扇區(qū),沒有去覆蓋舊的。更主要是發(fā)現(xiàn)被刪除的第一時間立即停止了所有寫操作,后續(xù)有條不紊地采取了正確的恢復措施。希望這次的教訓能夠幫助后面所有遇到類似情況的IT管理和維護人員,面對災難,不用惶恐和無措,冷靜下來,用我的真實經(jīng)歷給你們一些參考和信心。
?文章來源地址http://www.zghlxwxcb.cn/news/detail-465213.html
到了這里,關(guān)于群暉NAS誤刪30T數(shù)據(jù)全部成功恢復并可用實戰(zhàn)全過程的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!