1 引言
從美國9.11世貿(mào)大樓的恐怖襲擊,到我國的5.12汶川特大地震,“災(zāi)難”這個詞對我們來說已并不陌生。前一段時間的日本島9.0級巨大地震,更是令人感到無比的震撼。隨著企業(yè)信息化建設(shè)的迅猛發(fā)展,企業(yè)信息系統(tǒng)已成為現(xiàn)代企業(yè)運(yùn)營的基礎(chǔ)平臺,企業(yè)數(shù)據(jù)更是關(guān)系到企業(yè)自身利益的核心資源。具Gartner Group統(tǒng)計:在經(jīng)歷大型災(zāi)難而導(dǎo)致系統(tǒng)停運(yùn)的公司中有2/5再也沒有恢復(fù)運(yùn)營,剩下的公司中也有1/3在兩年內(nèi)破產(chǎn)。美國明尼蘇達(dá)大學(xué)的研究表明:在遭遇災(zāi)難的同時又沒有災(zāi)難恢復(fù)計劃的企業(yè)中,將有超過60%在兩到三年后退出市場。未雨綢繆,如何應(yīng)對災(zāi)難性事件的發(fā)生,保障企業(yè)數(shù)據(jù)的安全性和信息系統(tǒng)的業(yè)務(wù)連續(xù)性,已成為企業(yè)信息化建設(shè)中需要重點思考的課題。本文將對企業(yè)容災(zāi)系統(tǒng)建設(shè)的基本概念、建設(shè)等級、建設(shè)方案及恢復(fù)演練等方面的內(nèi)容進(jìn)行探討,旨在幫助企業(yè)加快容災(zāi)系統(tǒng)的建設(shè)步伐,有的放矢,合理構(gòu)建企業(yè)信息系統(tǒng)的避風(fēng)港。
2 認(rèn)識容災(zāi)技術(shù)
災(zāi)難恢復(fù)防范的災(zāi)難包括地震、水災(zāi)等自然災(zāi)害以及火災(zāi)、戰(zhàn)爭、恐怖襲擊、網(wǎng)絡(luò)攻擊、設(shè)備系統(tǒng)故障、人為破壞等無法預(yù)料的突發(fā)事件。容災(zāi)的主要目標(biāo)是提高抵御災(zāi)難和重大事故的能力、減少災(zāi)難打擊和重大事故造成的損失、確保重要信息系統(tǒng)的數(shù)據(jù)安全和作業(yè)持續(xù)性。在容災(zāi)領(lǐng)域有一些關(guān)鍵的術(shù)語,了解和掌握這些概念將有助于容災(zāi)系統(tǒng)建設(shè)的方案設(shè)計和實施,分別介紹如下:
(1)災(zāi)難恢復(fù)(或稱容災(zāi)備份)(disaster recovery,DR):是指利用技術(shù)、管理手段以及相關(guān)資源,將信息系統(tǒng)從災(zāi)難造成的故障或癱瘓狀態(tài)恢復(fù)到可正常運(yùn)行狀態(tài),并將其支持的業(yè)務(wù)功能從災(zāi)難造成的不正常狀態(tài)恢復(fù)到可接受狀態(tài)的活動和流程。(《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》)。
(2)恢復(fù)時間目標(biāo)(Recovery Time Objective,以下簡稱RTO):RTO表示了從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運(yùn)行(即被恢復(fù))的時間。RTO有兩個組成部分,明確災(zāi)難發(fā)生后指示恢復(fù)流程開始的決策時間(Decision Time)和進(jìn)行災(zāi)難恢復(fù)流程的實施時間(Deployment Time)。一般來說,恢復(fù)時間(RTO)越短,那么災(zāi)難恢復(fù)方案的成本就越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越。环粗,恢復(fù)時間(RTO)越長,災(zāi)難恢復(fù)方案的成本較低,但是由于災(zāi)難造成的業(yè)務(wù)損失就較大。
(3)恢復(fù)點目標(biāo)(Recovery Point Objective,以下簡稱RPO): RPO是災(zāi)難發(fā)生后業(yè)務(wù)能夠容忍的數(shù)據(jù)丟失量,或者說災(zāi)難發(fā)生造成的數(shù)據(jù)丟失量。一般來說, RPO越高(即,丟失的數(shù)據(jù)越少),容災(zāi)的成本越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越。环粗,RPO越低(即,丟失的數(shù)據(jù)較多),容災(zāi)的成本越低,但災(zāi)難造成的業(yè)務(wù)損失也越大。
3 容災(zāi)系統(tǒng)的建設(shè)等級
建設(shè)容災(zāi)系統(tǒng)前企業(yè)必須對自身IT現(xiàn)狀做詳細(xì)調(diào)研分析,圍繞RTO、RPO兩個主要業(yè)務(wù)指標(biāo),參照國家標(biāo)準(zhǔn)《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》,通過科學(xué)的手段分析并制定建設(shè)等級、建設(shè)目標(biāo)。國標(biāo)中包含七個關(guān)鍵要素:數(shù)據(jù)備份系統(tǒng)、備用基礎(chǔ)設(shè)施、備用數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡(luò)系統(tǒng)、技術(shù)支持能力、運(yùn)行維護(hù)管理能力、災(zāi)難恢復(fù)預(yù)案,按照這七個要素將災(zāi)難恢復(fù)劃分為六個等級,等級越高,容災(zāi)系統(tǒng)越完善、企業(yè)受到的經(jīng)濟(jì)損失就越小,但同時企業(yè)投入的人力、物力、財力就越高。一般企業(yè)根據(jù)業(yè)務(wù)系統(tǒng)重要程度的不同,經(jīng)常采用等級為第2級、第3級和第5級的容災(zāi)策略。
第6級為最高等級,相對于第5級的實時數(shù)據(jù)復(fù)制而言,要求實現(xiàn)遠(yuǎn)程數(shù)據(jù)實時備份,實現(xiàn)零丟失;備用數(shù)據(jù)處理系統(tǒng)具備與生產(chǎn)數(shù)據(jù)處理系統(tǒng)一直的處理能力并完全兼容,應(yīng)用軟件是集群的,可以實現(xiàn)實時無縫切換,并具備遠(yuǎn)程集群系統(tǒng)的實時監(jiān)控和自動切換能力;對于備用網(wǎng)絡(luò)系統(tǒng)的要求也加強(qiáng),要求最終企業(yè)可通過網(wǎng)絡(luò)同時接入主、備中心;備用場地還要7×24專職操作系統(tǒng)、數(shù)據(jù)庫和應(yīng)用軟件的技術(shù)支持人員,具備完善、嚴(yán)格的運(yùn)行管理制度。
4 容災(zāi)系統(tǒng)的建設(shè)步驟
企業(yè)容災(zāi)系統(tǒng)的建設(shè)需要遵循國家、行業(yè)的相關(guān)文件規(guī)定,依據(jù)科學(xué)的步驟來逐步執(zhí)行。典型的容災(zāi)系統(tǒng)建設(shè)步驟大致如下:
4.1業(yè)務(wù)分析
這是容災(zāi)系統(tǒng)建設(shè)方法論的第一步,企業(yè)需要根據(jù)自身現(xiàn)狀收集業(yè)務(wù)需求、災(zāi)難類型、技術(shù)基礎(chǔ)架構(gòu)(如企業(yè)內(nèi)部IT架構(gòu)、IT部門組織、使用技術(shù)、軟硬件、網(wǎng)絡(luò)架構(gòu)等),確定需要防范的風(fēng)險,在風(fēng)險分析中確定不同的業(yè)務(wù)級別的業(yè)務(wù)恢復(fù)時間RTO和可承受的數(shù)據(jù)損失程度RPO。
4.2策略制定
根據(jù)第一個階段得出的結(jié)果,確定容災(zāi)系統(tǒng)的投入預(yù)算,選擇切合實際、投資合理、可靠的容災(zāi)方案。這個階段需要著重考慮容災(zāi)中心的選址、兩地間的距離、運(yùn)營方式、容災(zāi)中心的規(guī)模、合適的技術(shù)、合適的產(chǎn)品。
4.3方案實施
根據(jù)制定的容災(zāi)方案,制定詳細(xì)的方案和項目計劃,分階段進(jìn)行實施。實施內(nèi)容包括技術(shù)實施、場地實施、、初步的DRP(容災(zāi)恢復(fù)計劃)開發(fā)、首次演練、文檔及培訓(xùn)等。
4.4測試演習(xí)維護(hù)
此階段主要是測試和驗證容災(zāi)系統(tǒng)、維護(hù)容災(zāi)系統(tǒng)的正常運(yùn)行、制定容災(zāi)管理制度和流程、人員&技術(shù)培訓(xùn)、演習(xí)。
5 典型容災(zāi)方案的對比分析
IT系統(tǒng)構(gòu)成的不同使容災(zāi)技術(shù)類型也有很大的差異,各類技術(shù)與現(xiàn)有IT系統(tǒng)的吻合程度主要取決于系統(tǒng)本身的組成和建設(shè)要求。比如,IT系統(tǒng)由多操作系統(tǒng)組成,并且容災(zāi)系統(tǒng)不能更改生產(chǎn)系統(tǒng)原有的格局,則可行的技術(shù)手段就極為嚴(yán)格,需要相當(dāng)慎重的選擇。以往,由于容災(zāi)技術(shù)實現(xiàn)手段有限,主要有主機(jī)型和存儲型兩大類容災(zāi)方式,而今天,出現(xiàn)了具有更強(qiáng)能力的存儲網(wǎng)絡(luò)型的虛擬化容災(zāi)方式,使得容災(zāi)的技術(shù)手段開始豐富起來。
5.1主機(jī)型遠(yuǎn)程容災(zāi)
基于主機(jī)的容災(zāi)技術(shù),簡單地說,就是通過安裝在服務(wù)器的數(shù)據(jù)復(fù)制軟件,或是應(yīng)用程序提供的數(shù)據(jù)復(fù)制、災(zāi)難恢復(fù)工具(如數(shù)據(jù)庫的相關(guān)工具),利用TCP/IP網(wǎng)絡(luò)連接遠(yuǎn)端的容災(zāi)站點的服務(wù)器,實現(xiàn)異地數(shù)據(jù)復(fù)制。其中最為成熟的和應(yīng)用最廣泛的就是Veritas Volume Replicator(VVR)軟件。
5.2存儲系統(tǒng)型異地容災(zāi)
顧名思義是基于存儲系統(tǒng)(光纖磁盤陣列、NAS)的模式。通過存儲系統(tǒng)內(nèi)建的固件(firmware)或操作系統(tǒng),通過IP網(wǎng)絡(luò)或DWDM、光纖通道等傳輸界面連結(jié),將數(shù)據(jù)以同步或異步的方式復(fù)制到遠(yuǎn)端。知名的存儲系統(tǒng)型遠(yuǎn)程容災(zāi)方案有SRDF、TrueCopy、PPRC等。
5.3虛擬化容災(zāi)
一種網(wǎng)絡(luò)存儲型遠(yuǎn)程容災(zāi)架構(gòu),是在前端應(yīng)用服務(wù)器與后端存儲系統(tǒng)之間的存儲區(qū)域網(wǎng)絡(luò)(SAN),加入一層存儲網(wǎng)關(guān),這個網(wǎng)關(guān)和我們所了解的網(wǎng)絡(luò)網(wǎng)關(guān)不同,它結(jié)合了網(wǎng)絡(luò)存儲專用管理器,前端連接服務(wù)器主機(jī),后端連接存儲設(shè)備。它的角色就好像是存儲網(wǎng)絡(luò)中的交通警察,所有的I/O都交由它來控制管理。當(dāng)然,現(xiàn)在也出現(xiàn)了旁路(side-band)的控制方式,對于I/O流量進(jìn)行旁路監(jiān)控和分流,實現(xiàn)異地數(shù)據(jù)復(fù)制。
由于數(shù)據(jù)復(fù)制是通過存儲網(wǎng)關(guān)來執(zhí)行,應(yīng)用服務(wù)器只需數(shù)據(jù)庫執(zhí)行代理程序,相對于主機(jī)型遠(yuǎn)程容災(zāi)來說,它的性能影響十分低。另外,通過存儲網(wǎng)關(guān)的虛擬化技術(shù),可以整合前端異構(gòu)平臺的服務(wù)器和后端不同品牌的存儲設(shè)備,本地端和災(zāi)備端的設(shè)備無需成對配置,企業(yè)可以根據(jù)RTO和RPO,在遠(yuǎn)端建立完整的熱備份中心。當(dāng)本地端發(fā)生災(zāi)難時立即接管業(yè)務(wù)運(yùn)行,或是采取僅在災(zāi)備端安裝存儲設(shè)備的溫站配置,先保護(hù)數(shù)據(jù)的完整性和安全性,在本地端修復(fù)完成后再進(jìn)行恢復(fù)。
除此之外,虛擬化容災(zāi)技術(shù)還具有以下優(yōu)勢:
(1)構(gòu)造時不需更換原有的IT基礎(chǔ)架構(gòu),只需在原本的存儲區(qū)域網(wǎng)絡(luò)中加入存儲網(wǎng)關(guān),本地端的主機(jī)和存儲設(shè)備可以是任何品牌,災(zāi)備端的主機(jī)和存儲設(shè)備也不需和本地端相同,企業(yè)甚至可以在災(zāi)備端采用等級較低的存儲系統(tǒng)(如SATA磁盤陣列),根據(jù)統(tǒng)計,投資成本可節(jié)省多達(dá)30%左右,對于那些有構(gòu)造遠(yuǎn)程容災(zāi)的熱切需要而IT預(yù)算又十分有限的企業(yè)來說,虛擬化遠(yuǎn)程容災(zāi)無疑是最佳的選擇。
(2)針對數(shù)據(jù)庫專用代理確保數(shù)據(jù)庫具有完整的容災(zāi)和啟動能力,無需擔(dān)憂無法啟動的現(xiàn)象發(fā)生。更為重要的是,在存儲數(shù)據(jù)上進(jìn)行的多點快照等增值功能,能使得各種數(shù)據(jù)的人為破壞得到瞬間恢復(fù)的能力(也就是歷史數(shù)據(jù)的恢復(fù)能力,這在前兩種容災(zāi)方式中是一種恢復(fù)的盲點)。
(3)對于異地傳輸?shù)膸捳加茫摂M化容災(zāi)方式具有各類調(diào)優(yōu)方式,使得這種方式能夠最大限度適應(yīng)企業(yè)現(xiàn)有的網(wǎng)絡(luò)環(huán)境。
6 容災(zāi)系統(tǒng)的恢復(fù)演練
建設(shè)容災(zāi)系統(tǒng)的目的就是在災(zāi)難發(fā)生后能夠盡快恢復(fù)業(yè)務(wù)系統(tǒng),減少IT系統(tǒng)故障給企業(yè)帶來的經(jīng)濟(jì)損失。因此,完成系統(tǒng)建設(shè)后,還必須定期組織嚴(yán)格規(guī)范的災(zāi)備演練、測試活動,規(guī)范和完善企業(yè)IT系統(tǒng)的應(yīng)急體制,加強(qiáng)應(yīng)急團(tuán)隊建設(shè),提高維護(hù)人員的業(yè)務(wù)水平,從而在災(zāi)難發(fā)生后能夠快速、高效的完成業(yè)務(wù)恢復(fù)。
容災(zāi)的演練計劃有以下幾種方式:
6.1計劃性測試/演練
災(zāi)難恢復(fù)計劃要求建立業(yè)務(wù)連續(xù)性管理團(tuán)隊,不僅涉及IT部門,而且關(guān)聯(lián)眾多業(yè)務(wù)部門,為減少演練對于生產(chǎn)的影響,可以將恢復(fù)計劃細(xì)化到很小的單位或者模塊,逐個應(yīng)用進(jìn)行接管驗證。當(dāng)模塊都成功通過測試后,測試的范圍可以擴(kuò)充到更多的模塊。
6.2突發(fā)演練
在容災(zāi)系統(tǒng)全面完成并且制定了全面的恢復(fù)計劃后,可以在進(jìn)行了一定備份的情況下安排突發(fā)性的測試。當(dāng)然,業(yè)務(wù)連續(xù)性管理小組需要確保業(yè)務(wù)不會因為突發(fā)性測試造成不可接受的損失和業(yè)務(wù)中斷。
演練對于提高團(tuán)隊的恢復(fù)經(jīng)驗和協(xié)作能力以及確保災(zāi)難恢復(fù)計劃的可行性是至關(guān)重要的。所有的演練結(jié)果都要進(jìn)行評估、記錄,并且生成到容災(zāi)流程里。
7 總結(jié)
災(zāi)難的發(fā)生是“小概率、高風(fēng)險”事件,隨著企業(yè)信息化水平的不斷提高,為規(guī)避風(fēng)險,容災(zāi)系統(tǒng)對于企業(yè)重要信息系統(tǒng)已成為必不可少的信息安全基礎(chǔ)設(shè)施。容災(zāi)系統(tǒng)的建設(shè)是一個系統(tǒng)工程,只有科學(xué)合理地進(jìn)行容災(zāi)系統(tǒng)的設(shè)計與部署,才能對企業(yè)信息系統(tǒng)的安全運(yùn)行起到根本的保障作用。因此,企業(yè)在容災(zāi)系統(tǒng)的建設(shè)過程中,必須充分考慮重要信息系統(tǒng)的抗毀性與災(zāi)難恢復(fù),合理選擇容災(zāi)技術(shù),制定和不斷完善信息安全應(yīng)急處置預(yù)案,提高應(yīng)急處置和災(zāi)難恢復(fù)能力,才能保證在遭遇重大災(zāi)難和重大事故時發(fā)揮有效的容災(zāi)功能,真正構(gòu)建企業(yè)信息系統(tǒng)的避風(fēng)港。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:構(gòu)建企業(yè)信息系統(tǒng)的避風(fēng)港
本文網(wǎng)址:http://www.oesoe.com/html/consultation/1083953295.html