2.3 數(shù)據(jù)復(fù)制
為了保證較低的RPO和RTO目標(biāo),數(shù)據(jù)復(fù)制技術(shù)常應(yīng)用于各種災(zāi)備系統(tǒng)。數(shù)據(jù)復(fù)制是將原卷或原文件直接復(fù)制到目標(biāo)卷或目標(biāo)文件系統(tǒng)中,分別稱為卷復(fù)制和文件復(fù)制。由于數(shù)據(jù)復(fù)制的目標(biāo)卷(目標(biāo)文件)和源卷(源文件)的數(shù)據(jù)格式一致,可以消除備份系統(tǒng)中數(shù)據(jù)格式的轉(zhuǎn)換時(shí)間。數(shù)據(jù)復(fù)制又分為同步復(fù)制和異步復(fù)制。
2.3.1 同步復(fù)制
同步復(fù)制表示,在數(shù)據(jù)復(fù)制系統(tǒng)的源端,主機(jī)發(fā)出的I/O請(qǐng)求在寫入本地磁盤的同時(shí),通過(guò)專用的數(shù)據(jù)網(wǎng)絡(luò)或通道將數(shù)據(jù)從本地磁盤系統(tǒng)同步地復(fù)制到異地磁盤系統(tǒng)。當(dāng)異地系統(tǒng)完成該I/O操作后,通知本地系統(tǒng)I/O完成,本地的主機(jī)系統(tǒng)才能發(fā)出第二個(gè)I/O請(qǐng)求。利用同步復(fù)制方式建立異地?cái)?shù)據(jù)災(zāi)備,可以保證異地系統(tǒng)和本地系統(tǒng)數(shù)據(jù)的完全一致性。但同步復(fù)制方式對(duì)性能的要求非常高。由于每一次本地I/O必須要等到數(shù)據(jù)成功地寫到異地系統(tǒng),才能進(jìn)行下一個(gè)I/O操作,因此同步復(fù)制的性能受網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)的距離、中間設(shè)備及協(xié)議轉(zhuǎn)換等多方面的影響。
2.3.2 異步復(fù)制
異步復(fù)制是指在數(shù)據(jù)復(fù)制系統(tǒng)的源端,主機(jī)發(fā)出的/O請(qǐng)求在寫入本地磁盤的同時(shí),向本地磁盤系統(tǒng)上預(yù)留的空間發(fā)出相同的寫請(qǐng)求(決定于不同的策略),然后通知本地系統(tǒng)I/O完成。此時(shí),本地的主機(jī)系統(tǒng)可以發(fā)出第下一個(gè)I/O請(qǐng)求。在設(shè)定的復(fù)制規(guī)則滿足后(基于時(shí)間、基于變化量等),系統(tǒng)的復(fù)制功能模塊再將數(shù)據(jù)通過(guò)專用的數(shù)據(jù)網(wǎng)絡(luò)或通道復(fù)制到異地的存儲(chǔ)系統(tǒng)中。
2.4 災(zāi)備分析
與同步復(fù)制相比,異步復(fù)制對(duì)網(wǎng)絡(luò)帶寬和距離的要求低很多,只要在某個(gè)時(shí)間段內(nèi)能將數(shù)據(jù)全部復(fù)制到異地即可,同時(shí)異步復(fù)制對(duì)應(yīng)用系統(tǒng)的性能影響也很小。但是,當(dāng)本地系統(tǒng)發(fā)生災(zāi)難時(shí),異地系統(tǒng)上的數(shù)據(jù)可能會(huì)短暫缺失(在復(fù)制的時(shí)間間隔內(nèi)數(shù)據(jù)未完整地從源端發(fā)送到目的端)。因此,當(dāng)源端災(zāi)難發(fā)生時(shí),同步復(fù)制的RPO接近于0,異步復(fù)制的RPO則取決于復(fù)制時(shí)間間隔。同時(shí),在業(yè)務(wù)恢復(fù)時(shí)間上,相對(duì)于傳統(tǒng)的備份系統(tǒng)而言,由于不存在數(shù)據(jù)格式的轉(zhuǎn)換,可以在較短的時(shí)間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng),從而具有較好的RTO。對(duì)于1000億元人民幣以上的銀行,銀監(jiān)會(huì)要求建立200km以上的備份系統(tǒng)。因此只能使用遠(yuǎn)程復(fù)制模式。同城復(fù)制可以使用光纖,但是遠(yuǎn)程復(fù)制由于成本方面的因素,全光纖傳輸還很遙遠(yuǎn)。因此,不可能采用同步復(fù)制。所以,遠(yuǎn)程異步復(fù)制模式會(huì)越來(lái)越多。
3 云存儲(chǔ)與云災(zāi)備的短板
當(dāng)用戶向云存儲(chǔ)系統(tǒng)中進(jìn)行數(shù)據(jù)備份時(shí),網(wǎng)絡(luò)對(duì)系統(tǒng)性能的影響起到了至關(guān)重要的作用。當(dāng)云存儲(chǔ)服務(wù)提供商在進(jìn)行后臺(tái)的云災(zāi)備時(shí),遠(yuǎn)程的云備份和云復(fù)制也依賴于網(wǎng)絡(luò)的性能。
圖4 英國(guó)劍橋大學(xué)到中國(guó)北京的網(wǎng)絡(luò)帶寬
3.1 網(wǎng)絡(luò)短板
按照Nielsen法則,終端用戶的網(wǎng)絡(luò)帶寬以每年50%的速度增長(zhǎng)。然而,和局域網(wǎng)形成鮮明對(duì)照的是,廣域網(wǎng)的性能不盡人意。例如,一條T1線路的帶寬只相當(dāng)于千兆網(wǎng)的千分之一,許多幀中繼線路的帶寬只有256kb/s。Garfinkel[19]通過(guò)測(cè)量發(fā)現(xiàn)從美國(guó)伯克利大學(xué)到西雅圖的平均網(wǎng)絡(luò)寫帶寬大約是5~18Mb/s。通過(guò)使用網(wǎng)絡(luò)測(cè)試工具iperf,采用256個(gè)數(shù)據(jù)流測(cè)量,數(shù)據(jù)表明在格林尼治標(biāo)準(zhǔn)時(shí)間下午7點(diǎn)到10點(diǎn),從英國(guó)劍橋大學(xué)到中國(guó)北京的平均網(wǎng)絡(luò)帶寬大約是14Mb/s,如圖4所示[20]。
基于以上的測(cè)試數(shù)據(jù),如果假設(shè)網(wǎng)絡(luò)帶寬為20Mb/s,Armbrust[21]等人作了簡(jiǎn)單的計(jì)算,計(jì)算結(jié)果表明從美國(guó)伯克利大學(xué)傳輸10TB數(shù)據(jù)到西雅圖需要45d的時(shí)間(10×1012B/(20×106b/s)=4000000s=45d)。如果通過(guò)亞馬遜來(lái)進(jìn)行該數(shù)據(jù)傳輸,需要另外向亞馬遜支付1000美元的網(wǎng)絡(luò)傳輸費(fèi)用。另外,由于廣域網(wǎng)物理距離的原因,不可避免的時(shí)延也會(huì)對(duì)帶寬造成影響。例如,一個(gè)T3鏈路(44.736Mb/s),當(dāng)時(shí)延超過(guò)40ms時(shí),其帶寬很快就下降到與T1鏈路(1.544Mb/s)相當(dāng)。
如果是進(jìn)行云備份,時(shí)間上的開銷相對(duì)還可以忍受,因?yàn)橛脩粼诒镜剡有一個(gè)數(shù)據(jù)拷貝可供使用。但如果是從云存儲(chǔ)系統(tǒng)中恢復(fù)數(shù)據(jù),這是無(wú)法讓人接受的,特別是對(duì)于那些需要提供24×7×365業(yè)務(wù)連續(xù)性的企業(yè)級(jí)用戶。為了緩解這個(gè)問(wèn)題,對(duì)于云存儲(chǔ)系統(tǒng)中大數(shù)據(jù)量的恢復(fù),云存儲(chǔ)提供商Mozy[22]和CrashPlan[23]提供了一個(gè)不得已的選擇,在用戶許可的情況下,將數(shù)據(jù)轉(zhuǎn)存在DVD或者硬盤上,然后通過(guò)特快專遞的形式交付給用戶。
3.2 網(wǎng)絡(luò)優(yōu)化
ACK:確認(rèn)
圖5 針對(duì)廣域網(wǎng)數(shù)據(jù)傳輸?shù)膮f(xié)議優(yōu)化
針對(duì)廣域網(wǎng)數(shù)據(jù)傳輸?shù)膮f(xié)議優(yōu)化如圖5所示。為了優(yōu)化廣域網(wǎng)環(huán)境下大規(guī)模數(shù)據(jù)傳輸?shù)男阅,我們(cè)鴮?shù)據(jù)在套接字層在發(fā)送端進(jìn)行分割,然后利用多個(gè)套接字流進(jìn)行并行傳輸,最后在接收端進(jìn)行數(shù)據(jù)重組(如圖5(c)所示)。理論上講,對(duì)傳輸控制協(xié)議(TCP)管道而言,其最大的吞吐量為帶寬延遲乘積,即容量=帶寬×環(huán)回時(shí)間。在傳輸窗口一定的情況下(圖5中紅色的方形區(qū)表示傳輸窗口,缺省為64kB),按通常100Mb/s的網(wǎng)絡(luò)帶寬來(lái)計(jì)算,傳統(tǒng)的單套接字流顯然無(wú)法填滿TCP管道(如圖5(a)所示),使得其效率極低。通過(guò)加大傳輸窗口可以在一定程度上提高TCP管道的利用率(如圖5(b)所示),但在丟包的情況下,會(huì)導(dǎo)致每次重傳的數(shù)據(jù)增加。因此,通過(guò)多個(gè)套接字流來(lái)并行傳輸?shù)男Ч^好。另外,由于采用了多流,不同的數(shù)據(jù)流在必要的情況下可以走不同的路由,也能夠進(jìn)一步優(yōu)化廣域網(wǎng)的性能。
正如前面提到的,云基礎(chǔ)設(shè)施必須是地理上分布的,因?yàn)樵频某晒υ诤艽蟪潭壬蠜Q定于其規(guī)模效應(yīng)。雖然計(jì)算和存儲(chǔ)相對(duì)便宜,然而,由于廣域網(wǎng)環(huán)境下的低帶寬、高延遲和較高的丟包率,使得廣域網(wǎng)成為云環(huán)境下那塊最短的木板。因此,在地理上分布的云環(huán)境下進(jìn)行大規(guī)模的數(shù)據(jù)傳輸是非常昂貴的。圖靈獎(jiǎng)獲得者JimGray在2006年就指出在廣域網(wǎng)上處理大數(shù)據(jù)集時(shí),應(yīng)該將程序傳給數(shù)據(jù),而不是將數(shù)據(jù)傳給程序。另外,也可以通過(guò)數(shù)據(jù)壓縮、數(shù)據(jù)去重等方法來(lái)減少網(wǎng)域網(wǎng)上的數(shù)據(jù)傳輸流量,降低對(duì)網(wǎng)絡(luò)帶寬的需求。還可以采用動(dòng)態(tài)緩存、IP流量管理以及服務(wù)質(zhì)量(QoS)控制等方法來(lái)降低廣域網(wǎng)的延遲。但是,這些方法只能在一定程度上來(lái)緩解網(wǎng)絡(luò)“瓶頸”問(wèn)題,不能從根本上解決問(wèn)題。因此,在設(shè)計(jì)云存儲(chǔ)和云災(zāi)備系統(tǒng)時(shí),必須要考慮廣域網(wǎng)的帶寬、延遲和包丟失率所帶來(lái)的影響。
4 云存儲(chǔ)實(shí)例分析
圖6 2.12 GB數(shù)據(jù)的備份時(shí)間
圖7 2.12 GB數(shù)據(jù)的恢復(fù)時(shí)間
對(duì)于企業(yè)用戶而言,現(xiàn)有的云存儲(chǔ)更多的是一種在線遠(yuǎn)程備份系統(tǒng)。Hu等人針對(duì)Mozy、Carbonite、Dropbox、Crashplan4種云存儲(chǔ)系統(tǒng)進(jìn)行了測(cè)試、比較和分析。當(dāng)將8GB的文件備份到云存儲(chǔ)系統(tǒng)中時(shí),有的系統(tǒng)的備份時(shí)間超過(guò)了30h,還有的系統(tǒng)經(jīng)過(guò)4d的時(shí)間還未備份完成。當(dāng)他們將數(shù)據(jù)集減小到2GB左右時(shí),云備份系統(tǒng)才回復(fù)到基本正常的工作狀態(tài)。
圖6表示Hu等人在Mozy、Carbonite、Dropbox、Crashplan4個(gè)不同的云存儲(chǔ)系統(tǒng)下備份2.12GB數(shù)據(jù)時(shí)的遠(yuǎn)程備份時(shí)間。其中橫坐標(biāo)從左到右的4種情況分別表示單個(gè)2.12GB的大普通文件、單個(gè)2.12GB的大稀疏文件、很多小的普通文件組成2.12GB的數(shù)據(jù)集、很多小的稀疏文件組成2.12GB的數(shù)據(jù)集。稀疏文件表示該文件不包含用戶數(shù)據(jù),也沒(méi)有分配用來(lái)存儲(chǔ)用戶數(shù)據(jù)的磁盤空間。當(dāng)數(shù)據(jù)被寫入稀疏文件時(shí),文件系統(tǒng)(例如微軟的NTFS)才逐漸地為其分配磁盤空間。可以看到對(duì)于正常2.12GB的文件數(shù)據(jù)4個(gè)系統(tǒng)的備份時(shí)間都超過(guò)了5h。
圖7表示相應(yīng)的恢復(fù)時(shí)間;謴(fù)比備份要相對(duì)快很多,這主要是由于網(wǎng)絡(luò)的上行鏈路和下行鏈路帶寬的不對(duì)稱造成的。通過(guò)大量的測(cè)試分析,Hu等人得出了一下結(jié)論:
(1)云存儲(chǔ)系統(tǒng)必須對(duì)于網(wǎng)絡(luò)失效具有回彈性,同時(shí)能夠?qū)崿F(xiàn)大文件的增量備份。
(2)云存儲(chǔ)提供商在進(jìn)行大數(shù)據(jù)的網(wǎng)絡(luò)傳輸時(shí)還要進(jìn)行加密、壓縮等預(yù)處理以避免網(wǎng)絡(luò)延遲。
(3)云存儲(chǔ)用戶需要手動(dòng)檢測(cè)重要的文件是否都已經(jīng)進(jìn)行了備份。
(4)云存儲(chǔ)用戶應(yīng)該將云存儲(chǔ)系統(tǒng)作為本地備份系統(tǒng)的一種補(bǔ)充,而不能將其當(dāng)成主要的備份策略。
本文認(rèn)為,現(xiàn)有的云存儲(chǔ)應(yīng)對(duì)普通用戶小數(shù)據(jù)的備份與恢復(fù)應(yīng)該問(wèn)題不大,但是企業(yè)級(jí)用戶大數(shù)據(jù)量的存儲(chǔ)與恢復(fù)則要慎重考慮。
5 結(jié)束語(yǔ)
云存儲(chǔ)面向個(gè)人的應(yīng)用主要有網(wǎng)盤、在線文檔編輯、工作流及日程安排。面向企業(yè)的應(yīng)用主要有企業(yè)空間的租賃服務(wù),企業(yè)級(jí)數(shù)據(jù)備份和歸檔、視頻監(jiān)控系統(tǒng)等。云災(zāi)備則主要用于保證云存儲(chǔ)服務(wù)商后臺(tái)系統(tǒng)的可靠性和可用性。對(duì)兩者而言,海量數(shù)據(jù)的高度聚集會(huì)對(duì)系統(tǒng)帶來(lái)一系列的挑戰(zhàn)。例如,如何實(shí)現(xiàn)海量存儲(chǔ)系統(tǒng)從傳統(tǒng)的縱向擴(kuò)展向橫向擴(kuò)展轉(zhuǎn)化?如何實(shí)現(xiàn)系統(tǒng)的性能和規(guī)模線性可擴(kuò)展?如何處理海量存儲(chǔ)系統(tǒng)的高度聚集帶來(lái)的能耗和冷卻?等問(wèn)題都是我們?cè)谶M(jìn)行云存儲(chǔ)和云災(zāi)備系統(tǒng)設(shè)計(jì)時(shí)必須要考慮的重要因素。當(dāng)然,云存儲(chǔ)最終能否成功,還受到其他很多因素的影響,如大量的數(shù)據(jù)存儲(chǔ)在云端如何保證數(shù)據(jù)的安全和用戶隱私等。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:云存儲(chǔ)與云災(zāi)備的原理與短板分析(下)
本文網(wǎng)址:http://www.oesoe.com/html/consultation/1083978020.html