引言
云計(jì)算作為一種先進(jìn)的計(jì)算方式,在信息服務(wù)和科研領(lǐng)域火熱升溫,并對(duì)大規(guī)模數(shù)據(jù)運(yùn)算和存儲(chǔ)產(chǎn)生深遠(yuǎn)影響。一方面,大規(guī)模數(shù)據(jù)處理需求日益增長(zhǎng);另一方面,媒體數(shù)據(jù)總量也在急速增長(zhǎng),據(jù)國際數(shù)據(jù)公司(International DataCorporation,IDC)在2008年的調(diào)查報(bào)告中估計(jì),2007年全球信息總量達(dá)到了281EB,2012年將達(dá)到1800EB。數(shù)據(jù)規(guī)模不斷膨脹是信息社會(huì)發(fā)展的必然趨勢(shì),數(shù)據(jù)存儲(chǔ)為信息生活提供巨大便利的同時(shí),給現(xiàn)有的存儲(chǔ)技術(shù)帶來前所未有的壓力。
設(shè)計(jì)無限大的存儲(chǔ)空間、無限制的I/O帶寬和更高的性價(jià)比的理想存儲(chǔ)系統(tǒng)是緩解存儲(chǔ)壓力的總體目標(biāo),而本文研究目標(biāo)更加具體,針對(duì)云存儲(chǔ)運(yùn)算環(huán)境,設(shè)計(jì)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)系統(tǒng),并就該系統(tǒng)進(jìn)行可靠性建模,設(shè)計(jì)可靠、高效的存儲(chǔ)結(jié)構(gòu)和算法,提升非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)質(zhì)量。
1 云存儲(chǔ)現(xiàn)狀與相關(guān)研究
云計(jì)算是一種以數(shù)據(jù)為中心的服務(wù)密集型計(jì)算,而云存儲(chǔ)是云計(jì)算的底層數(shù)據(jù)支持環(huán)境,為云計(jì)算提供高可用、高可靠、運(yùn)營成本低的數(shù)據(jù)存儲(chǔ)服務(wù)。目前,云存儲(chǔ)服務(wù)分為個(gè)人級(jí)應(yīng)用和企業(yè)級(jí)應(yīng)用。企業(yè)級(jí)的云存儲(chǔ)服務(wù)主要用于空間租賃、遠(yuǎn)程數(shù)據(jù)容災(zāi)和視頻監(jiān)控存儲(chǔ)支持。云存儲(chǔ)服務(wù)延用傳統(tǒng)的集群技術(shù)、網(wǎng)絡(luò)計(jì)算和分布式存儲(chǔ)技術(shù),將網(wǎng)絡(luò)中大量低廉的計(jì)算設(shè)備進(jìn)行有機(jī)集成,避免了盲目擴(kuò)張濫建。
目前,數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),兩類數(shù)據(jù)區(qū)別在于:前者一般采用數(shù)據(jù)記錄存儲(chǔ),而后者普遍采用文件系統(tǒng)存儲(chǔ)。其中以二進(jìn)制大對(duì)象(Binary Large Object,BLOB)數(shù)據(jù)為代表的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)應(yīng)用頻率最高,如MAIL服務(wù)中的附件管理、各種網(wǎng)絡(luò)磁盤和視頻監(jiān)控?cái)?shù)據(jù)管理等,這類數(shù)據(jù)的特征體現(xiàn)在:體積大、增長(zhǎng)快、多樣化。
迅速膨脹的非結(jié)構(gòu)化數(shù)據(jù)引起了業(yè)界的廣泛關(guān)注,運(yùn)用云存儲(chǔ)服務(wù)管理非結(jié)構(gòu)化數(shù)據(jù)則是備受關(guān)注的焦點(diǎn)。文獻(xiàn)[1]設(shè)計(jì)了一種存儲(chǔ)中間件,使用關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System,RDBMS)IBM DB2 9將海量二進(jìn)制數(shù)據(jù)嵌入到XML文檔中,最終將XML存儲(chǔ)到數(shù)據(jù)庫,這種方法不適合體積較大的BLOB數(shù)據(jù);文獻(xiàn)[2]通過建立數(shù)據(jù)生成和開發(fā)模型(DataGenerationand Exploitationmodel,DGE),借鑒結(jié)構(gòu)化方法管理非結(jié)構(gòu)化數(shù)據(jù)。實(shí)際應(yīng)用中需了解數(shù)據(jù)建模和二次開發(fā),技術(shù)層次要求高而難以掌控;文獻(xiàn)[3]提出一種基于BUD(Bank of Unstructured Data)架構(gòu)的新技術(shù),該技術(shù)通過Free-Table在最終用戶和物理實(shí)體間形成面向單元的云存儲(chǔ)結(jié)構(gòu),而不再使用基于列存儲(chǔ)的關(guān)系表管理非結(jié)構(gòu)化數(shù)據(jù),但僅提供了概念視圖,并未最終實(shí)現(xiàn);文獻(xiàn)[4]則設(shè)計(jì)了稱為Clouder的存儲(chǔ)結(jié)構(gòu),系統(tǒng)在同一管理域中管理數(shù)以千計(jì)的對(duì)等網(wǎng)(Peer-to-Peer,P2P)存儲(chǔ)節(jié)點(diǎn),采用封裝應(yīng)用程序編程接口(Application ProgrammingInterface,API)實(shí)現(xiàn)存儲(chǔ)接口,但功能不夠豐富且可靠度差。
2 非結(jié)構(gòu)化數(shù)據(jù)網(wǎng)絡(luò)存儲(chǔ)架構(gòu)
2.1存儲(chǔ)服務(wù)層次模型
以上研究為非結(jié)構(gòu)化數(shù)據(jù)管理奠定了理論基礎(chǔ),仍急需一套切實(shí)可行的存儲(chǔ)解決方案。本文提出分層的網(wǎng)絡(luò)結(jié)構(gòu)管理非結(jié)構(gòu)化數(shù)據(jù),由上至下劃分為5個(gè)功能層,分別是應(yīng)用層、會(huì)話層、數(shù)據(jù)層、路由層和物理層,如圖1所示。
圖1 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
以上提出的5層中,應(yīng)用層提供非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用接口,這些接口由數(shù)據(jù)存儲(chǔ)服務(wù)商開發(fā)的各類存儲(chǔ)應(yīng)用中展示出來,如各種在線存儲(chǔ)、網(wǎng)絡(luò)磁盤、視頻數(shù)據(jù)托管和軟件下載服務(wù)等。此時(shí),用戶面對(duì)的是虛擬的、容量可無限擴(kuò)展的云存儲(chǔ)空間,用戶提交數(shù)據(jù)時(shí)無需考慮存儲(chǔ)空間大小和數(shù)據(jù)的物理位置。
會(huì)話層負(fù)責(zé)用戶管理、權(quán)限分配、空間分配以及存儲(chǔ)安全策略,該層根據(jù)不同的安全級(jí)別,制定不同的安全方案以保證數(shù)據(jù)的安全性。
數(shù)據(jù)層的作用是統(tǒng)一管理非結(jié)構(gòu)化數(shù)據(jù)及其元數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)體積從MB級(jí)至GB級(jí),大小不等,而其元數(shù)據(jù)信息,如數(shù)據(jù)標(biāo)識(shí)、文件長(zhǎng)度、類型等屬性信息,總長(zhǎng)度不超過1KB,二者數(shù)據(jù)量上相差懸殊。因此,BLOB數(shù)據(jù)和元數(shù)據(jù)存儲(chǔ)對(duì)網(wǎng)絡(luò)帶寬和計(jì)算資源的需求不同,兩類數(shù)據(jù)應(yīng)采用不同的存儲(chǔ)策略。因此,圖1中將數(shù)據(jù)層業(yè)務(wù)分解為BLOB數(shù)據(jù)存儲(chǔ)區(qū)和Metadata存儲(chǔ)區(qū)。
路由層主要負(fù)責(zé)云端節(jié)點(diǎn)、訪問接口和后臺(tái)存儲(chǔ)設(shè)備間的互通性及存儲(chǔ)路徑計(jì)算。由于云存儲(chǔ)系統(tǒng)是一種存在多個(gè)子網(wǎng)的存儲(chǔ)區(qū)域自治系統(tǒng)(Autonomous System,AS),所使用的路由協(xié)議以內(nèi)部網(wǎng)關(guān)協(xié)議(Interior Gateway Protocol,IGP)為主,包括路由信息協(xié)議版本1(Routing Information ProtocolVersion 1,RIP1)、路由信息協(xié)議版本2(Routing InformationProtocol Version 2,RIP2)、內(nèi)部網(wǎng)關(guān)協(xié)議(Interior GatewayRouting Protocol,IGRP)、加強(qiáng)型內(nèi)部網(wǎng)關(guān)協(xié)議(EnhancedInterior Gateway Routing Protocol,EIGRP)、中間系統(tǒng)到中間系統(tǒng)的路由協(xié)議(Intermediate System to Intermediate SystemRouting Protocol,IS-IS)和開放式最短路徑優(yōu)先(Open ShortestPath First,OSPF)協(xié)議等。前4種協(xié)議采用距離向量算法,后2種則采用鏈路狀態(tài)算法。非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)等大型計(jì)算中,采用距離向量算法路由協(xié)議已不能滿足要求,而使用OSPF鏈路狀態(tài)算法更為有效[5]。以上路由協(xié)議應(yīng)用于存儲(chǔ)系統(tǒng)的底層,為保證非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)的可擴(kuò)展性和較高的存儲(chǔ)效率,還可借鑒基于優(yōu)先級(jí)的隨機(jī)線性碼分布存儲(chǔ)協(xié)議和分布式哈希表(Distributed Hash Table,DHT)技術(shù)。物理層為非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)提供存儲(chǔ)空間和計(jì)算資源,
并負(fù)責(zé)維護(hù)存儲(chǔ)節(jié)點(diǎn)的物理通路。就本系統(tǒng)而言,可充分利用現(xiàn)有通信子網(wǎng)及設(shè)備,而無需在硬件上追加更多投資。
2.2非結(jié)構(gòu)化數(shù)據(jù)分離式存儲(chǔ)通路
目前,一些關(guān)系數(shù)據(jù)庫,如微軟公司的SQL Server 2000、甲骨文公司的Oracle 11g等對(duì)BLOB數(shù)據(jù)有著良好的支持,本設(shè)計(jì)采用RDBMS群集作為非結(jié)構(gòu)化數(shù)據(jù)的物理存儲(chǔ)底層。用戶可通過Web應(yīng)用程序或者客戶端程序向存儲(chǔ)系統(tǒng)提交數(shù)據(jù),這些數(shù)據(jù)經(jīng)由BLOB存取接口存儲(chǔ)到關(guān)系表中,與之相關(guān)的元數(shù)據(jù)信息以數(shù)據(jù)記錄形式保存于Metadata存儲(chǔ)區(qū),兩類數(shù)據(jù)存儲(chǔ)通路如圖2所示。
圖2 BLOB與Metadata數(shù)據(jù)流存儲(chǔ)通路
圖2 顯示的數(shù)據(jù)存儲(chǔ)通路與傳統(tǒng)的基于文件的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)相比,具有以下突出優(yōu)點(diǎn)。
1)BLOB數(shù)據(jù)以二進(jìn)制流形式直接存儲(chǔ)于關(guān)系表中,而不再采用文件系統(tǒng)管理方式[7]。以SQL Server 2000為例,所有的BLOB數(shù)據(jù)集中存儲(chǔ)于主要數(shù)據(jù)文件(Master Data File,MDF)文件中,由于MDF文件在獨(dú)立冗余磁盤陣列(Redundant Array of Independent Disk,RAID)中是連續(xù)存儲(chǔ)的,盡管用戶增刪BLOB數(shù)據(jù)會(huì)增加數(shù)據(jù)碎片而影響存取效率,但可通過重建索引等手段快速維護(hù),相對(duì)于文件系統(tǒng)的碎片整理更加高效。
2)兩類數(shù)據(jù)分離式管理,利于存儲(chǔ)資源的優(yōu)化配置?梢詫⑷萘枯^大、計(jì)算能力較強(qiáng)的資源分配給BLOB數(shù)據(jù)存儲(chǔ)區(qū),而將響應(yīng)率較高的資源分配給Metadata存儲(chǔ)區(qū)。
3)分離式的存儲(chǔ)通路實(shí)現(xiàn)了BLOB數(shù)據(jù)存取和元數(shù)據(jù)存取的功能分離,網(wǎng)絡(luò)帶寬得到了合理分配,可分擔(dān)因高并發(fā)訪問給系統(tǒng)帶來的壓力,有利于系統(tǒng)聚合I/O吞吐能力的提高和系統(tǒng)穩(wěn)定運(yùn)轉(zhuǎn)。
數(shù)據(jù)通道分離的資源配置方法,使非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)魯棒性有了保障,滿足了云計(jì)算所需的高強(qiáng)度存儲(chǔ)需求。
3 存儲(chǔ)系統(tǒng)可靠性分析
3.1可靠性分析方法與手段
非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò)是一個(gè)復(fù)雜的分布式存儲(chǔ)系統(tǒng),其特點(diǎn)在于:計(jì)算服務(wù)分布化、用戶分布化和管理端分布化,硬件組成復(fù)雜。資源規(guī)劃和配置合理與否,將直接影響可靠性和云存儲(chǔ)服務(wù)質(zhì)量。
目前,存儲(chǔ)服務(wù)質(zhì)量評(píng)估可從系統(tǒng)可靠性、服務(wù)可用性這兩個(gè)角度著手,有些學(xué)者還從系統(tǒng)可生存性角度進(jìn)行研究。通常借助于初等概率論、隨機(jī)過程、可靠性原理、Markov鏈、模擬等進(jìn)行系統(tǒng)建模和可靠性論證,有時(shí)還結(jié)合數(shù)據(jù)處理流圖及拓?fù)鋱D等工具進(jìn)行較直觀的分析。
3.2BLOB數(shù)據(jù)存取流程
依據(jù)圖2所示的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)通路,提出了存儲(chǔ)通路分離的思想,以下借助數(shù)據(jù)處理流圖和系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D進(jìn)行綜合分析。非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)通過協(xié)調(diào)處理用戶、BLOB數(shù)據(jù)存儲(chǔ)區(qū)及Metadata數(shù)據(jù)區(qū)間的關(guān)系以實(shí)現(xiàn)分布式存儲(chǔ),圖3說明了一個(gè)典型的數(shù)據(jù)存儲(chǔ)請(qǐng)求過程。
圖3 BLOB數(shù)據(jù)訪問請(qǐng)求處理流程
數(shù)據(jù)請(qǐng)求訪問處理過程如下:
1)用戶首次訪問BLOB數(shù)據(jù)前,根據(jù)數(shù)據(jù)標(biāo)識(shí)Guid向主元數(shù)據(jù)節(jié)點(diǎn)MA發(fā)出訪問請(qǐng)求;
2)元數(shù)據(jù)群集對(duì)客戶的訪問請(qǐng)求進(jìn)行認(rèn)證和授權(quán),并返回詳細(xì)元數(shù)據(jù)信息及BLOB數(shù)據(jù)的位置信息給用戶,若插入新數(shù)據(jù),則先寫入元數(shù)據(jù)至Metadata群集;
3)獲得授權(quán)的用戶直接向BLOB存儲(chǔ)集群發(fā)起數(shù)據(jù)訪問請(qǐng)求,并驗(yàn)證該BLOB數(shù)據(jù)的有效性及位置信息;
4)建立用戶與指定BLOB存儲(chǔ)節(jié)點(diǎn)間的數(shù)據(jù)連接,讀/寫RDBMS中存儲(chǔ)的BLOB數(shù)據(jù);
5)讀/寫結(jié)束后,更新Metadata存儲(chǔ)區(qū)相關(guān)數(shù)據(jù),并釋放占用資源。
3.3系統(tǒng)可靠性分析
通常,評(píng)估系統(tǒng)的可靠性可從研究系統(tǒng)可用性、失效率和系統(tǒng)生命周期著手,統(tǒng)計(jì)學(xué)經(jīng)常使用圖4所示的“浴缸曲線”描述系統(tǒng)生存周期。由該曲線可知,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)生存周期將經(jīng)歷初期失效、工作期失效和老化期失效三個(gè)階段。其中,早期失效和老化期失效服從典型的威布爾分布,而工作期失效則服從參數(shù)為λ的指數(shù)分布,若系統(tǒng)由多部件組成,其部件失效時(shí)間也服從負(fù)指數(shù)分布。本文則重點(diǎn)關(guān)注系統(tǒng)正常工作期的可靠性評(píng)估,并假定系統(tǒng)工作期失效率是恒定的。由曲線可知,系統(tǒng)可靠性與正常工作時(shí)間t有關(guān),若用R(t)表示系統(tǒng)正常工作期的可靠度函數(shù),其參數(shù)t的區(qū)間為(0,+∞),則系統(tǒng)在t時(shí)刻前正常運(yùn)轉(zhuǎn)而無需維修。事實(shí)上,經(jīng)常使用系統(tǒng)平均無故障時(shí)間(Mean Time To Failure,MTTF)描述系統(tǒng)可靠性,則MTTF為函數(shù)R(t)在區(qū)間(0,+∞)上的定積分,如式(1)所示。又由R(t)服從參數(shù)為
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:面向云存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)存取(上)
本文網(wǎng)址:http://www.oesoe.com/html/support/1112157857.html