隨著信息化建設進程的加快,各單位在信息化建設方面取得了很大發(fā)展。目前,筆者所在單位在綜合業(yè)務管理系統(tǒng)、日常辦公、財務管理、人事管理、標準信息化、電子監(jiān)察、檔案管理、固定資產管理以及各科研生產管理等諸多方面全面使用信息系統(tǒng)。特別是近幾年來,業(yè)務系統(tǒng)的信息化發(fā)展迅速,導致信息系統(tǒng)的數據量迅速增長,業(yè)務數據的重要程度日益增加,任何重要信息的丟失都將會給業(yè)務管理帶來難以估計的損失和影響。因此,如何保證核心業(yè)務系統(tǒng)及必要輔助系統(tǒng)的業(yè)務連續(xù)性和數據的安全性,如何對現(xiàn)有信息系統(tǒng)進行災難備份建設,成為單位信息系統(tǒng)當前迫切需要解決的兩大課題。結合科研和實際信息化工作的需要開展了數據容災的研究建設工作。
目前在用的存儲系統(tǒng)中往往包含F(xiàn)CSAN和IPSAN,備份要兼顧FCSAN和IPSAN的特點和應用要求。筆者單位的核心業(yè)務系統(tǒng)等重要系統(tǒng)使用的是FCSAN存儲網絡,而轄區(qū)內下屬各分支機構的相關應用使用的是IPSAN存儲網絡,但FC-SAN和IP-SAN這兩種存儲網絡因物理介質和傳輸協(xié)議的不同導致信息孤島現(xiàn)象,為了實現(xiàn)對現(xiàn)有信息化系統(tǒng)數據容災,研究設計基于FCSAN和IPSAN兩種存儲網絡融合存儲系統(tǒng)的數據容災,研究融合存儲環(huán)境下的數據備份機制,提高融合存儲系統(tǒng)中數據的可用性。
1.基于融合存儲系統(tǒng)的容災體系結構
傳統(tǒng)的SAN是采用FC或者IP連接方式進行網絡存儲,其連接方式單一,各有優(yōu)缺點。顯然,采用FC連接方式的SAN數據傳輸速度快,但是價格昂貴并且傳輸距離較短,而采用IP連接方式的SAN雖然可擴展性和傳輸距離都較好,但是數據傳輸速度的瓶頸并沒有得到很好的解決。因此,借助于融合存儲平臺就能較好解決這一問題。
融合存儲平臺解決IP-SAN和FC-SAN的互聯(lián)互通融合性問題,可以讓存儲服務器通過IP、FC等不同連接方式將不同的遠程存儲資源映射到自身,進行統(tǒng)一虛擬化,并通過IP、FC等不同連接方式對外提供塊級存儲服務,并且可以在不中斷服務的情況下動態(tài)地對統(tǒng)一虛擬化存儲資源進行配置與管理。
基于ATCA的融合存儲平臺主要分為三個層次:上層為文件或應用服務器,即需要使用存儲系統(tǒng)的服務器。上層不同連接通道的服務器也通過各自的連接方式連接到中層存儲服務器。用戶通過上層的應用戶服務器獲取存儲空間和數據。
中層為ATCA融合存儲服務器。ATCA存儲服務器上裝有對不同連接通道的硬件支持,例如FCHBA、以太網卡等。上層和底層不同的存儲設備可以在硬件上通過各自的連接方式連接到中層存儲服務器。這一層也稱為統(tǒng)一存儲層。底層為存儲設備層。這層中的設備可以是任意塊級存儲設備,例如FC磁盤、FC磁盤陣列、iSCSI磁盤;也可以是塊級存儲服務器,甚至是另一個存儲區(qū)域網系統(tǒng)。圖1為系統(tǒng)整體架構圖。
圖1 系統(tǒng)整體架構圖
上層與中層以及中層與底層之間通過SCSI協(xié)議進行數據訪問,它們之間是塊級數據傳輸,所采用的數據傳輸協(xié)議為FCP、iSCSI等不同連接的主流協(xié)議。在對數據訪問的支持上使用統(tǒng)一處理模塊進行處理。
底層的存儲空間映射到中層實現(xiàn)存儲虛擬化,并劃分邏輯單元;中層將劃分好的邏輯單元映射給應用服務器。底層對上層是透明的。
2.基于融合存儲系統(tǒng)的容災實現(xiàn)
融合式智能容災存儲系統(tǒng)的拓撲結構圖如圖2所示,系統(tǒng)設計為一個兩點互相災備的容災存儲系統(tǒng)。此處融合是主要指iSCSI和FC的融合,既包括存儲池的融合,又包括應用服務器的融合,因為FC協(xié)議的限制,以及傳輸距離有限,F(xiàn)C鏈路的故障檢測檢測與應用遷移是很困難的,所以本文僅考慮iSCSI鏈路的故障檢測技術的研究。
圖2 拓撲結構圖
實現(xiàn)容災策略核心首先要能準確檢測到錯誤,然后根據檢測到的錯誤才能做出相應的處理。在實現(xiàn)過程中,主要研究的存儲容災系統(tǒng)的故障有融合存儲控制器層的故障與存儲池層的故障兩類,具體分類如表1所示。
表1 故障具體分類
依據故障分類及檢測技術可知,故障A、B由客戶端檢測發(fā)現(xiàn),故障C、D由數據復制功能檢測,因此故障C、D對于客戶端的影響在于發(fā)生故障A或B時客戶端能否切換到異地融合存儲控制器繼續(xù)正常運行,此情況由異地融合存儲控制器根據是否發(fā)生故障C、D來決定客戶端是否能正常切換。表中所列出的四個故障可能有多個故障同時發(fā)生的幾率,但多個故障同時發(fā)生不影響對單個故障處理的策略,因為對單個故障的處理策略考慮了其他故障對其造成的影響。例如,對于故障A和故障B,在客戶端看來的現(xiàn)象都是本地融合存儲控制器不可用,因此客戶端采取相同的策略,即客戶端切換到異地融合存儲控制器。當本地融合存儲控制器恢復后,客戶端再將存儲服務回切到本地融合存儲控制器。
同樣,對于故障C與故障D,在融合存儲控制器看來的現(xiàn)象都是存儲設備不可用,因此融合存儲控制器采取相同的策略來處理,若是本地存儲池失效,由于數據復制功能的存在,客戶端可繼續(xù)對遠程存儲池進行I/O操作,并記錄日志,當本地存儲池恢復正常時,通過日志同步故障期間產生的更新數據;若異地的鏡像卷失效,則反過來處理(此功能由數據復制實現(xiàn))。故障C、D與客戶端沒有直接的關系,因此對客戶端來說是透明的,不需進行處理。
2.2 故障檢測與應用遷移的實現(xiàn)
基于融合存儲的容災存儲系統(tǒng)主要分為存儲管理、數據復制、故障檢測與應用遷移及存儲安全管理四個部分,四個部分有機地結合在一起形成一個完整的容災存儲系統(tǒng)。存儲管理負責系統(tǒng)的統(tǒng)一管理、調度工作,包括管理存儲設備、管理邏輯卷、管理用戶等;數據復制則負責存儲池間數據的同步或異步的復制,實現(xiàn)數據的備份;故障檢測與應用遷移負責檢測系統(tǒng)的故障,一旦發(fā)生故障則做出相應的處理,保證系統(tǒng)的高可用性;存儲安全管理則負責用戶認證、訪問控制以及數據靜態(tài)加解密等安全策略。
要使得基于融合存儲的容災存儲系統(tǒng)是一個高可靠、高可用的系統(tǒng),就需要在故障檢測時有短的檢測時間和高的檢測精確性。然而短的檢測時間與高檢測精確性通常并不能同時兼得,例如Bertier的檢測方法比Chen具有更短的檢測時間,檢測精確性卻要低一些。在容災存儲系統(tǒng)中更加重要的是檢測的精確性,因為一旦發(fā)生誤判就會引起不必要的處理。因此在容災存儲系統(tǒng)中,為了保證高的精確性,可以折中地考慮適當犧牲檢測時間。
對于存儲池層的故障交由容災存儲系統(tǒng)的數據復制部分處理,因為這里只需處理存儲控制器層的故障。同樣,故障檢測器分為被檢測端和檢測端,將其分別稱為FDp和FDq,F(xiàn)Dp定時向FDq發(fā)送心跳信息,F(xiàn)Dq根據心跳信息是否超時來判斷被檢測的節(jié)點是否發(fā)生故障。在容災存儲系統(tǒng)中,由應用服務器檢測存儲控制器的故障,因此在存儲控制器上部署故障檢測器被檢測端FDp,在應用服務器上部署故障檢測器檢測端FDq。故障檢測策略的部署如圖3所示。
圖3 故障檢測策略部署圖
2.3 測試及分析
應用遷移的功能支持FTP、數據庫,流媒體等典型應用,這里測試采用Oracle作為應用服務,Oracle采用版本為Oracle10g,安裝在WindowsServer2008環(huán)境的iSCSI服務器上。針對Oracle應用的測試,開發(fā)了一個向Oracle數據庫的表中批量寫入數據的測試程序Oclient。
測試的過程如下:
(1)啟動故障檢測與應用遷移Windows版本程序HBclient,程序將會自動連接本地存儲控制器,手動對連接上來的磁盤進行格式化。
(2)啟動OracleDBCA,創(chuàng)建一個數據庫,并將數據庫文件存放于上一步格式化的磁盤上。新建一個表空間、用戶,以及兩個測試用的表Ttable1,Ttable2。
(3)通過批量寫數據工具Oclient遠程連接Oracle應用服務器,并向表Ttable1中寫入5000條記錄。
(4)重啟本地存儲控制器,模擬本地存儲控制器故障,Oracle應用服務器會切換到遠程存儲控制器。
(5)通過Oclient再次連接Oracle應用服務器,查看Ttable1的記錄,并向Ttable2中寫入10000條記錄,寫入完成后查看Ttable2表中的記錄,可以發(fā)現(xiàn)表Ttable2中存在10000條數據。
(6)待本地存儲控制器重啟完成后,進行應用回切,應用服務器成功回切到本地存儲控制器;厍型瓿珊笤俅瓮ㄟ^Oclient查看Ttable2中的記錄,可以發(fā)現(xiàn)Ttable2中存在10000條數據。通過測試的過程可以看出,Oracle應用可以正常地切換到遠程并進行數據的讀寫,然后也可以正常地進行數據回切并進行數據的讀寫。應用遷移功能正常。應用遷移的性能的主要衡量指標是遷移時應用的中斷時間,中斷的時間越短,性能越好,零中斷時間的無縫遷移則是性能最好的。
應用遷移的中斷時間主要取決于故障的檢測時間和遠程存儲控制器對服務切換請求的處理時間以及接管存儲服務的時間開銷?芍獞眠w移中斷時間(記為Tim):
Tim=Tfd+Tconnect+Tload+Tclient
其中Tfd表示故障檢測的檢測時間,Tclient表示客戶端重新連接存儲控制器的時間,Tconnect表示儲控制器連接存儲設備的時間,Tload表示存儲控制器加載存儲至存儲服務接口的時間,Tconnect,Tservice都很短,相對于故障檢測時間可以忽略,故障檢測的時間則會根據不同的網絡狀況發(fā)生變化。
應用回切時間主要取決于數據恢復的時間以及重新連接的時間開銷。存儲服務切換回切時間(記為Tib):
Tib=Trecovery+Tclient
其中Trecovery是指進行數據恢復的時間,Tclient的含義同前面,Trecovery取決于需要恢復的數據量的大小,由故障發(fā)生期間的數據更新量決定。應用回切時間主要取決于數據恢復的時間以及重新連接的時間開銷。存儲服務切換回切流程通過多次的測試并選取典型值,并進行計算遷移時間與回切時間記錄后可以得出,在沒有數據恢復的情況下應用回切的中斷時間基本相同,都在3秒左右,而有100MB的數據和370MB的數據需要恢復時應用回切的中斷時間則會增加很多。
3.結語
通過基于融合存儲系統(tǒng)的數據容災的應用研究,可實現(xiàn)支持異構存儲架構的核心存儲交換平臺,構成模塊化、可擴展、可動態(tài)存儲分區(qū)的網絡存儲體系,輔以全方位的具備遠程數據鏡像、數據快照與恢復、廣域高可用服務診斷與接管等功能的存儲容災手段,為檢驗檢疫數據中心及各類信息系統(tǒng)提供統(tǒng)一的、滿足服務質量要求的容災網絡存儲服務。但容災存儲系統(tǒng)在商業(yè)領域有著廣泛的應用歷史和前景,目前,我們研發(fā)的系統(tǒng)原型,雖然理論上能夠滿足用戶的指標要求,但是,距離真實上線應用還有一段距離,系統(tǒng)的穩(wěn)定性及技術風險還存在,但對于指導研究新型的備份系統(tǒng)研究上有一定的應用價值和指導意義。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.oesoe.com/
本文標題:基于融合存儲系統(tǒng)的數據容災