IT運維大師是每個人追尋的夢想,他們那敏銳的嗅覺似乎總能揪出計算系統故障的根本原因。這種快速反應、準. . .
IT運維大師是每個人追尋的夢想,他們那敏銳的嗅覺似乎總能揪出計算系統故障的根本原因。這種快速反應、準確定位的能力源自多年來處理復雜數據中心基礎設施難題的經驗積累與個人知識儲備,而且其成功很難被復制。顯然還沒有哪家機構愿意為這種近乎“超自然”的神級判斷能力頒發認證資質。
盡管如此,高強度故障排查工作往往會遵循一些通用且不成文的實踐規則。在本文中,我將結合自身經歷總結出六條不變法則,希望能為大家的實際工作帶來助益。請注意,這些法則只適用于大多數--而非全部--情況。
1、永遠不要對當前連接的服務器或者網絡設備接口進行修改
雖然這種做法聽起來非常愚蠢,但某些人確實會頻繁對正在用于設備通信的網絡接口進行修改,這也是很多故障發生的根本原因。雖然有時候如此處理也是逼不得已,但我們完全可以利用其它機制消除這種潛在缺陷。在必要時為接口配置輔助IP,并暫時將其與其它設備、子網、串行控制臺或者KVM之類相連。對于那些位于遠程辦公環境中且周遭沒有IT人員的設備,這種處理方式就顯得更為必要。
有時候我會偷個小懶,利用寫好的腳本在Linux設備中更改IP、進行ping測試并在出現錯誤時取消變更。但這其實有點作弊嫌疑。
2、保證所有操作都具備恢復余地
只要有可能,請務必為自己的操作準備一套恢復機制。這可能意味著大家需要在處理故障磁盤之前備份整個目錄結構下的所有文件,雖然看似麻煩,但這能幫助我們保有全部存在潛在價值的數據。另外,大家也可以在處理損壞的操作系統前直接從物理服務器的RAID 1陣列中取出一塊磁盤。當然,這一切在虛擬機環境下將更加輕松,只需保存一份快照即可搞定。
3、記錄、記錄再記錄
在今天提到的各項法則中,這一條恐怕是最難遵循的??梢钥隙ǖ氖?,在一片混亂當中心平氣和地記錄下問題與判斷確實有點不切實際。但即使如此,我們仍然需要在事情結束之后為自己保留一份分析資料,記錄下處理過程中的執行步驟以及解決途徑。請記得把記錄保管在安全的地方,最好是由企業內網托管的維基條目--并在其它位置多備份幾份。
4、IT工作不相信魔法,但卻仰仗運氣
正如托馬斯·杰斐遜所說,"我發現自己工作得越努力,幸運女神就越是垂青于我。"同樣的道理也適用于IT領域。大家在基礎設施研究方面投入的時間越多、對路由器、交換機、服務器的運作狀況越熟悉,實際管理時也就越輕松。定期做好這項功課能幫助我們培養出敏銳的嗅覺,在問題早期就做出準確判斷,并在出現問題時更快做出響應。培養IT好運的辦法還有很多。舉例來說,利用工具對網絡設備配置進行自動化備份能在交換機無法工作時幫助大家在幾分鐘內部署好替代方案,而不再需要花費幾個小時。
5、在進行修改前對每個配置文件做好備份
這條規則一般只適用于Unix服務器及網絡設備,因為其配置文件幾乎存在于設備配置體系中的各個環節。在我們改動敏感配置之前,最好先在交換機閃存或者TFTP主機中保留一份副本。在Unix系統方面,只需將*.conf以另外保存為*.conf.orig即可。
如此一來,我們就能在緊要關頭輕松將服務恢復至原先的正常運行狀態--將文件復制回去并重新啟動服務,就這么簡單。但這種做法在Windows環境中就幫不上忙了,注冊表的存在與Windows的系統特性大大增加了簡單概念的實際復雜程度。即便如此,大家仍然可以在動手修改前導出一份注冊表,這樣麻煩出現時咱們也能做到手中有糧、心里不慌。注意:由于Windows注冊表如此關鍵,對其做出變更等于是將服務器的命脈握在手中,千萬馬虎不得。
6、監控、監控再監控
所謂預防勝于治療,每月找個周末仔細檢查一遍業務環境非常必要。大家應該認真監控數據中心的每個方面,從室內溫度開始、到機架、再到服務器--另外,服務器進程檢查、正常運行時間檢查等等,這是一項無窮無盡、略顯枯燥但卻極為關鍵的工作。我們還需要對所有網絡設備進行集中式系統日志整理,并通過趨勢及圖形工具監控帶寬使用率、溫度、磁盤分區用量以及其它重要數據指標。所有這些監控機制都應當在數據超過合理閾值時向我們提出警告。
當某個磁盤分區空間不足而導致數據庫損壞時,提前一小時發來的電子郵件或短信很可能幫助我們擺脫噩夢般的緊急加班與系統停機。我們沒有理由不在數據中心內充分利用監控這一利器。
今天的規則匯總就說到這里。它們不僅應該被嚴格遵守,更有理由成為IT工作中根深蒂固的指導性原則。對于深刻理解IT工作內涵的技術人員,這六條法則只不過是必須堅守的觀念;但在其他人看來,它們則如同IT大師一般只是個可望而不可即的神話。
轉載 我愛IT技術網