加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
防患于未然是數(shù)據(jù)中心應急響應預案的最終目標之一。在現(xiàn)今信息系統(tǒng)數(shù)據(jù)大集中、虛擬化、云化的大背景下,數(shù)據(jù)才是運維工作的服務對象,是應急工作的重中之重,那么數(shù)據(jù)運行的高安全性、高可靠性也是我們預案最終的目標。
本文所述數(shù)據(jù)中心是指為集中放置的電子信息設備提供運行環(huán)境的建筑場所及其內為電子信息系統(tǒng)提供運行保障和運行環(huán)境的場地和設備系統(tǒng)。把數(shù)據(jù)中心看作是信息化數(shù)據(jù)鏈條中一個重要的環(huán)節(jié),就是要規(guī)范管理,提高應急處置的能力,形成科學、有效、反應迅速的應急工作機制,確保重要信息系統(tǒng)硬件實體的運行安全,最大限度地減少突發(fā)事件造成的危害。這里提到的突發(fā)事件包括自然災害、重特大事故、環(huán)境公害及人為破壞、人為誤操作等,應急響應預案就是建立在防范和處置突發(fā)事件的基礎上的應急管理、制度、流程、計劃、等。其重要的部分包括:完善的應急制度、規(guī)范的管理組織系統(tǒng)、有力的應急保障體系、有效的綜合協(xié)調支持系統(tǒng)、充分的備災保障供應能力、高素質的應急反應隊伍等。
數(shù)據(jù)中心的應急響應預案不僅要做到有效預防災難的發(fā)生,消除安全隱患,還要保障數(shù)據(jù)中心本身的彈性和容錯能力能夠在災難發(fā)生時充分發(fā)揮其作用,甚至在某些情況下增加數(shù)據(jù)中心的彈性和容錯能力。從編制的角度來看,還需要在信息系統(tǒng)中斷事件發(fā)生后,確保數(shù)據(jù)中心有足夠的技術、財務和制度管理等不同的資源來確保數(shù)據(jù)中心的持續(xù)性運作,確保數(shù)據(jù)中心在預先確定的可接受的水平上連續(xù)提供服務。
從實施的角度來看,計劃性才是我們做應急響應的重點,在應急響應預案的整個生命周期中,主要以下幾點:
一是要認識到預案的本身或是目的不是一成不變的,它會隨著時間、地點、對象、需求等的變化而改變,確保其時效性;
二是要認識到預案的內容、流程不是一成不變的,它會根據(jù)設備、結構、環(huán)境、制度等的變化而變化,確保其可行性;
三是要認識到數(shù)據(jù)中心的應急響應預案具有很強的專業(yè)性,從供配電、暖通、消防等核心基礎設施設備的內容編制就可看到這類特點,還體現(xiàn)了各專業(yè)領域的標準和規(guī)范,這是區(qū)別于其他類型預案的特點。
數(shù)據(jù)中心的應急響應預案其實也是一種服務,在長期的實踐中我們認識到,應建立和保持服務影響的分析和風險評估,對場地、設施及服務存在的可能影響運維目標的服務能力的風險要進行識別、分析和評價,確定可接受的服務目標,對評估出的風險進行處置,并按照風險發(fā)生的可能性以及發(fā)生后果的嚴重性來制定應急預案。
應急預案應確定現(xiàn)實下對應的、當前應急場景下的、可接受的服務目標,而不僅僅是我們簡單的應急操作流程,其它的內容應包含但不限于:
一是確定在應急事件發(fā)生時和發(fā)生后相關人員和團隊的角色和職責;
二是如何啟動應急響應,其授權和流程;
三是應急處理業(yè)務中斷和信息系統(tǒng)中斷事件的評估機制和應急回退機制,如何在預定的時間里繼續(xù)或恢復;
四是關鍵及緊急聯(lián)絡方式方法;
五是事件結束后的退出授權和流程;
六是應急資源的要求和協(xié)調;
七是應急處置過程的記錄、文件的存檔要求。
數(shù)據(jù)中心的應急響應預案應具有在事件發(fā)生后從所釆用的臨時措施中恢復并重新開始正常服務的規(guī)范化程序。如何來驗證?最重要的環(huán)節(jié)之一就是演練,演練是驗證數(shù)據(jù)中心應急預案最有效、可行的途徑。數(shù)據(jù)中心應按演練計劃的時間間隔進行演練,以及在基礎環(huán)境出現(xiàn)重大變化時,盡快完成應急預案和恢復程序的測試,并形成正式的演練總結報告,內容包括輸出結果、建議和預案改進的措施。演練工作不光是在驗證預案,更是在鍛煉人,人是一切操作的基礎,從規(guī)范化程序上是無法反映出來的,需要我們主動總結、及時分析、有效溝通,提供應急服務的整體水平。
本文轉自數(shù)據(jù)中心基礎設施運營管理 作者:馬珂彬