如今,信息已成為企業(yè)生存發(fā)展的必不可少的元素。隨著越來越多的企業(yè)認識到TT系統(tǒng)在信息處理過程中的迅捷和高效,ERP(企業(yè)資源計劃)、PLM(產(chǎn)品生命周期管理)等各種類型的rT系統(tǒng)相繼在多個企業(yè)中得到運用。IT系統(tǒng)在加速企業(yè)信息處理流程的同時,也產(chǎn)生了更多的數(shù)據(jù)。各類主數(shù)據(jù)、交易數(shù)據(jù)、電子文檔、報表是TI'系統(tǒng)最重要的數(shù)據(jù),這些數(shù)據(jù)對絕大部分規(guī)模以上企業(yè)來說,是支撐企業(yè)存在和發(fā)展的信息化基石。對這些數(shù)據(jù)的保護重要性不言而喻。信息技術(shù)的應(yīng)用程度越高,數(shù)據(jù)的備份就越顯得重要。在很多關(guān)鍵業(yè)務(wù)系統(tǒng)中,存放在機器上的數(shù)據(jù)往往比機器本身還要昂貴,因此對系統(tǒng)和業(yè)務(wù)數(shù)據(jù)的備份就成為非常重要的工作。備份的目的是在系統(tǒng)出現(xiàn)故障或災(zāi)難時能夠快速地恢復(fù)系統(tǒng)或數(shù)據(jù)。要能夠做到快速災(zāi)難恢復(fù),就必須設(shè)計好災(zāi)難恢復(fù)方案,選擇一個可行的備份策略。
順應(yīng)數(shù)據(jù)大集中的趨勢,很多企業(yè)均已建設(shè)或在建設(shè)自己的數(shù)據(jù)中心。企業(yè)絕大部分信息系統(tǒng)都在數(shù)據(jù)中心內(nèi)運行,IT系統(tǒng)承載著公司的各項業(yè)務(wù),進一步促進信息系統(tǒng)的集成和整合。將分散的數(shù)據(jù)集中到了一起,零星數(shù)據(jù)變成了海量數(shù)據(jù),數(shù)據(jù)量從原來的幾GB到幾十GB,變?yōu)榱藥装貵B到幾TB,甚至幾十TB,大數(shù)據(jù)的概念也由此而來。數(shù)據(jù)量的劇增也給備份和管理帶來了機遇和挑戰(zhàn)。首先數(shù)據(jù)的集中存放,使集中備份成為可能。然而,要實現(xiàn)對海量數(shù)據(jù)的集中存儲備份和統(tǒng)一管理,采用原有的傳統(tǒng)磁帶機、磁帶庫等備份設(shè)備的備份方案很難達到備份目標。磁帶或CD備份是一種最便宜的方法,也是較為有效的方法,但是它的恢復(fù)卻是最慢的。而磁盤熱備份與全系統(tǒng)熱備份的成本就比較高,但它的恢復(fù)速度是非常快的。因此,連續(xù)數(shù)據(jù)保護、虛擬帶庫、重復(fù)數(shù)據(jù)刪除等先進備份技術(shù)應(yīng)運而生,這些技術(shù)的出現(xiàn),對于構(gòu)建新型高效的災(zāi)備方案,保證業(yè)務(wù)數(shù)據(jù)的高效及安全,提供了強有力的技術(shù)支持。
1.現(xiàn)行國內(nèi)工程機械行業(yè)IT災(zāi)備模式分析
對國內(nèi)一些主要工程機械企業(yè)的研究表明,這些企業(yè)在IT系統(tǒng)建設(shè)上都有很多共性:(I)用于業(yè)務(wù)支持的1T系統(tǒng)很多,核心的ERP系統(tǒng)采用國際上較為完善和通行的大型應(yīng)用軟件,如SAP或ORACLE系統(tǒng),對IT系統(tǒng)的支持和保障要求很高。(2)園區(qū)內(nèi)都有兩個或兩個以上的機房或數(shù)據(jù)中心。(3)核心IT系統(tǒng)都采用高端存儲設(shè)備,使用光纖SAN鏈路,有一定的數(shù)據(jù)容災(zāi)能力,但是沒有完整的應(yīng)用容災(zāi)系統(tǒng)。(4)大型IT項目建設(shè)的時間跨度很大,在IT建設(shè)的各個階段逐步引人多種技術(shù)方案,各個方案的建設(shè)需要保持平緩過渡,有利舊要求,以實現(xiàn)對原有投資的保護,降低IT的建設(shè)成本。
工程機械企業(yè)園區(qū)占地面積較大,有條件在幾百米甚至上千米外的同一園區(qū)內(nèi)建設(shè)自己的另一數(shù)據(jù)機房,如另一棟樓、另一片廠區(qū)等,使得本地災(zāi)備系統(tǒng)可以建立在本園區(qū)內(nèi)的另一機房。雖然不能避免地震、洪水等自然災(zāi)害,但是通過合理地設(shè)計和配置,已經(jīng)可以在很大程度上避免火災(zāi)和停電等外部因素的影響。通過在園區(qū)機房間內(nèi)建立FCSAN網(wǎng)絡(luò),使得備份可以得到較高的效率和較好的成本控制,免去了租用高成本的光纖鏈路與額外的人力資源管理成本。
對于核心應(yīng)用系統(tǒng)的保護,最基本的是要避免系統(tǒng)的單點故障。主機端使用雙機熱備技術(shù),網(wǎng)絡(luò)端使用雙核心的架構(gòu),存儲端使用鏡像或連續(xù)數(shù)據(jù)保護系統(tǒng),通過以上對應(yīng)用系統(tǒng)的規(guī)劃設(shè)計,基本上可以避免主機、網(wǎng)絡(luò)、存儲端的單點故障。通過連續(xù)數(shù)據(jù)保護系統(tǒng)還可以降低邏輯錯誤、誤操作等風(fēng)險。
制造業(yè)對IT投人的成本較為敏感,在滿足企業(yè)對IT系統(tǒng)數(shù)據(jù)備份要求的同時,希望降低TT總體擁有成本(TCO)。通常情況下,由于SAP, ORA-CLE等大型ERP系統(tǒng)使用高端的小型機服務(wù)器,出于成本方面的考慮,園區(qū)內(nèi)的主機房通常用于存放一套核心和主要業(yè)務(wù)系統(tǒng),并對核心數(shù)據(jù)進行保護。園區(qū)內(nèi)的備份機房主要用于存放備份設(shè)備及部分其他應(yīng)用。而工程機械行業(yè)的離散制造的特征,決定了企業(yè)對IT的投人需要按實際情況分階段進行投人,并且各階段的TT建設(shè)需要保持連續(xù)性,以保護原有投資,避免重復(fù)投資和浪費。企業(yè)的災(zāi)備系統(tǒng)建設(shè)只有適應(yīng)該特征,才能在滿足需求的基礎(chǔ)上制定出性價比最優(yōu)的方案。
數(shù)據(jù)備份系統(tǒng)通常會通過兩個最重要的指標來進行評估:RPO和RTO。RPO(Recovery Point Objective),即數(shù)據(jù)恢復(fù)點目標。主要用于評估業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量,在同步數(shù)據(jù)復(fù)制方式下,RPO等于數(shù)據(jù)傳輸時延的時間;在異步數(shù)據(jù)復(fù)制方式下,RPO為異步傳輸數(shù)據(jù)排隊的時間,對于時間間隔較大的數(shù)據(jù)備份而言,RPO等于連續(xù)兩次成功備份的時間之差。RTO(Recovery Time Objective),即恢復(fù)時間目標。主要用于評估所能容忍的業(yè)務(wù)停止服務(wù)最長時間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時間。RTO描述了應(yīng)用恢復(fù)過程需要花費的時間,即從恢復(fù)過程開始到恢復(fù)過程成功完成所經(jīng)歷的時間。fITO值越小,代表災(zāi)備系統(tǒng)的恢復(fù)能力越強。RPO和RTO的關(guān)系如圖1所示。
圖1 RTO和RPO示意圖
RPO針對的是數(shù)據(jù)丟失量,而RTO針對的是業(yè)務(wù)連續(xù)性中斷時間,二者沒有必然的關(guān)聯(lián)性,但都是判斷企業(yè)災(zāi)備能力的關(guān)鍵指標。RTO和RPO的確定不僅僅是IT部門的事情,而是需要在對企業(yè)業(yè)務(wù)系統(tǒng)和IT狀況進行風(fēng)險分析和業(yè)務(wù)影響分析后,才能根據(jù)不同的業(yè)務(wù)需求確定合適的值。對于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會有所不同。通常情況下RPO與RTO越小,系統(tǒng)的可用性就越高,用戶需要的投資也越大。
在工程機械行業(yè)中,核心系統(tǒng)通常為ERP系統(tǒng)和PLM系統(tǒng)。對ERP系統(tǒng)來說,絕大部分數(shù)據(jù)的錄人都需要有原始單據(jù),原始單據(jù)會有相當(dāng)長的保留期,因此對于發(fā)生短時的系統(tǒng)不可用或數(shù)據(jù)失的情況,可以在后續(xù)進行單據(jù)補錄,RPO和RTO越大,后續(xù)的系統(tǒng)補錄工作就越大,對EPR周邊系統(tǒng)影響越大,同時各系統(tǒng)間的數(shù)據(jù)一致性就越難保證,因此ERP系統(tǒng)對于RPO和RTO的要求較高。而對于PLM系統(tǒng)來說,數(shù)據(jù)都是在系統(tǒng)上進行實時錄人的,數(shù)據(jù)丟失就意味著很多設(shè)計圖紙丟失了,對RPO的要求相對ERP就更高。由于現(xiàn)在企業(yè)中的IT系統(tǒng)眾多,從十幾個到幾十個,甚至上百個,相互間通過中間件或接口進行連接,數(shù)據(jù)流非常復(fù)雜,保證數(shù)據(jù)一致性也是必須要考慮的重要因素。因此在進行RPO和RTO定義時,IT部門需要與業(yè)務(wù)部門進行充分溝通,考慮各系統(tǒng)的特點,規(guī)劃和平衡其影響程度、范圍、成本的關(guān)系,才有可能得出相對合適的指標。
工程機械行業(yè)中這些大型企業(yè),均采用了大型的FC一SAN為承載核心業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)鏈路。大型FC一SAN被稱為“FC + LAN”雙網(wǎng)結(jié)構(gòu),這是指該系統(tǒng)由FC光纖通道網(wǎng)絡(luò)和LAN以太網(wǎng)絡(luò)共同構(gòu)成,其中以太網(wǎng)絡(luò)負責(zé)工作站與服務(wù)器及工作站之間的元數(shù)據(jù)信息傳輸和交換,F(xiàn)C光纖通道網(wǎng)絡(luò)只負責(zé)實際數(shù)據(jù)的高帶寬傳輸。這種網(wǎng)絡(luò)結(jié)構(gòu)可充分利用兩種網(wǎng)絡(luò)的特點,發(fā)揮出這兩個網(wǎng)絡(luò)的最大效率。后續(xù)災(zāi)備方案也將基于這種網(wǎng)絡(luò)進行設(shè)計。
2.柳工災(zāi)備系統(tǒng)建設(shè)方案介紹
企業(yè)IT災(zāi)備系統(tǒng)的建設(shè)通常從備份開始做起。而離散制造業(yè)IT系統(tǒng)有自身的特點,與金融證券業(yè)以及業(yè)務(wù)連續(xù)性要求較高的汽車制造業(yè)相比,其RPO和RTO要求相對較低,因此其對備份的要求也隨之降低。針對柳工的備份需求,根據(jù)業(yè)務(wù)的特點和業(yè)務(wù)系統(tǒng)的數(shù)據(jù)規(guī)模,柳工數(shù)據(jù)災(zāi)備項目分為三期進行。
廣西柳工機械股份有限公司(以下簡稱柳工)的災(zāi)備系統(tǒng)建設(shè)目前已進行了三期。
第一期為企業(yè)磁帶庫建設(shè),目的是實現(xiàn)基本保護,項目一期跟隨公司SAP項目同時啟動,企業(yè)的數(shù)據(jù)量備份需求由1006級上升到1OOOG級,通過部署企業(yè)磁帶庫和網(wǎng)絡(luò)版?zhèn)浞蒈浖,使用IP架構(gòu)進行備份,將一些主要的應(yīng)用系統(tǒng)數(shù)據(jù)和文件備份到企業(yè)磁帶庫。
第二期為連續(xù)數(shù)據(jù)保護系統(tǒng)建設(shè),目的是對核心系統(tǒng)實現(xiàn)重點保護。由于當(dāng)時企業(yè)核心系統(tǒng)數(shù)據(jù)量已超過STB,系統(tǒng)的備份窗口超過24.h,恢復(fù)窗口超過48h,傳統(tǒng)備份已經(jīng)無法滿足進行快速備份和恢復(fù)的要求。同時,由于核心系統(tǒng)業(yè)務(wù)的復(fù)雜性,產(chǎn)生了對邏輯錯誤進行保護的需求,因此企業(yè)部署了連續(xù)數(shù)據(jù)保護系統(tǒng),使用SAN架構(gòu)進行數(shù)據(jù)同步,達到基于時間點的數(shù)據(jù)保護,核心應(yīng)用系統(tǒng)的RPO指標數(shù)量級由一天級提升到分鐘級,RTO指標達到4h以下。通過對日志卷的回滾,具備快速恢復(fù)到保護期內(nèi)多個時間點的能力,當(dāng)恢復(fù)到一個時間點后,發(fā)現(xiàn)不是最佳恢復(fù)點還可以選擇恢復(fù)到另一時間點,這在實際使用中非常實用,并且能夠?qū)崿F(xiàn)在不影響生產(chǎn)環(huán)境的前提下,快速搭建與生產(chǎn)環(huán)境一致的測試環(huán)境。連續(xù)數(shù)據(jù)保護系統(tǒng)可以對邏輯錯誤進行防護,因而具有一定的本地容災(zāi)能力,通過采用HACMP的雙機熱備系統(tǒng)實現(xiàn)對主機端的保護,通過連續(xù)數(shù)據(jù)保護系統(tǒng)實現(xiàn)對存儲端的保護,使得在主存儲系統(tǒng)出現(xiàn)邏輯錯誤時可以進行快速數(shù)據(jù)回滾,而在主存儲出現(xiàn)物理故障時可以快速切換到備份存儲,并且可以選擇時間點恢復(fù)數(shù)據(jù),實現(xiàn)分鐘級的RPO。值得強調(diào)的是,本方案支持的主備存儲為異構(gòu)系統(tǒng),即不同品牌、不同型號。這為企業(yè)在技術(shù)方案設(shè)計和設(shè)備選型上提供了很大的靈活性,有利于對企業(yè)原有TI基礎(chǔ)設(shè)施進行利舊。將原有中端存儲降級為備存儲,新引人高端存儲作為主存儲,既提高了整體性能和可靠性,也讓原有IT基礎(chǔ)設(shè)施得以繼續(xù)沿用,降低了項目成本。
第三期為對大數(shù)據(jù)的全面保護。隨著企業(yè)業(yè)務(wù)的發(fā)展,項目開始時TT系統(tǒng)的數(shù)據(jù)總量已經(jīng)超過20TB,傳統(tǒng)的數(shù)據(jù)備份設(shè)備很難達成RTO和RPO備份目標。為此,采用了帶重復(fù)數(shù)據(jù)刪除功能的虛擬帶庫備份解決方案。以帶消重功能虛擬帶庫為前端,提高并發(fā)備份作業(yè)數(shù)并縮短備份窗口,以速度相對較慢的物理帶庫為后端,以降低備份成本。在備份鏈路上采用以太網(wǎng)絡(luò)和光纖SAN網(wǎng)絡(luò)組合的方式進行搭建。對于數(shù)據(jù)量大且重要程度高的業(yè)務(wù)系統(tǒng)采用高效的SAN網(wǎng)絡(luò)進行備份,對于數(shù)據(jù)量小的業(yè)務(wù)系統(tǒng)和海量的文件存儲采用經(jīng)濟的千兆以太網(wǎng)絡(luò)進行備份。最終的拓撲示意圖如圖2所示。
圖2 備份拓撲示意圖
通過三個階段的仃備份系統(tǒng)建設(shè),柳工在復(fù)雜環(huán)境下成功部署了整套本方案,連續(xù)數(shù)據(jù)保護與虛擬帶庫、物理磁帶庫結(jié)合使用,形成高中低搭配,分層次的備份體系,能夠滿足不同系統(tǒng)和數(shù)據(jù)的備份需求,公司形成了一套較為完備的本地備份容災(zāi)方案,并且可靈活擴充到同城或異地備份容災(zāi),為柳工后續(xù)異地備份容災(zāi)的規(guī)劃實施做好了準備。
3.結(jié)束語
企業(yè)業(yè)務(wù)的擴張導(dǎo)致企業(yè)IT系統(tǒng)的擴張,與此對應(yīng)的是海量的數(shù)據(jù)和對數(shù)據(jù)備份容災(zāi)的要求越來越高。由于工程機械制造企業(yè)的行業(yè)特點和對成本控制的敏感程度,使得企業(yè)在進行災(zāi)備系統(tǒng)建設(shè)時,需結(jié)合企業(yè)自身的特點,依據(jù)從粗到細、由簡人繁的原則,達成從無到有并逐步完善的目標。通過統(tǒng)一規(guī)劃、分步實施,充分利用現(xiàn)有先進的備份技術(shù)構(gòu)建適合本企業(yè)的備份容災(zāi)方案,才能設(shè)計和實施最優(yōu)TCO方案。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標題:工程機械企業(yè)IT災(zāi)備系統(tǒng)建設(shè)
本文網(wǎng)址:http://www.oesoe.com/html/support/11121511011.html