云存儲(chǔ)是在云計(jì)算(Cloud Computing)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來(lái)協(xié)同工作,協(xié)同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。分布式文件系統(tǒng)是常規(guī)的分時(shí)系統(tǒng)中文件系統(tǒng)的分布式實(shí)現(xiàn),支持物理上分散的多個(gè)用戶共享文件和存儲(chǔ)數(shù)據(jù)。它包含兩個(gè)方面的含義,從客戶使用的角度來(lái)看,它是一個(gè)標(biāo)準(zhǔn)的文件系統(tǒng),提供了一系列API,由此進(jìn)行文件或目錄的創(chuàng)建、移動(dòng)、刪除以及對(duì)文件的讀寫等操作。從內(nèi)部實(shí)現(xiàn)來(lái)看,分布式的系統(tǒng)則不再和普通文件系統(tǒng)一樣負(fù)責(zé)管理本地磁盤,它的文件內(nèi)容和目錄結(jié)構(gòu)都不是存儲(chǔ)在本地磁盤上,而是通過網(wǎng)絡(luò)傳輸?shù)竭h(yuǎn)端系統(tǒng)上。并且,同一個(gè)文件存儲(chǔ)不只是在一臺(tái)機(jī)器上,而是在一簇機(jī)器上分布式存儲(chǔ),協(xié)同提供服務(wù)。
分布式文件系統(tǒng)是一個(gè)比較活躍的研究方向,國(guó)內(nèi)外很多大學(xué)、研究機(jī)構(gòu)和企業(yè)著手開發(fā)自己的分布式文件系統(tǒng),如中科院計(jì)算所的藍(lán)鯨分布式文件系統(tǒng)(BWFS)、電子科技大學(xué)的分布式文件系統(tǒng)(DPFS)、IBM的GPFS、Sun的Lustre等,這些系統(tǒng)支持I/O密集型應(yīng)用,通常用于高性能計(jì)算或大型數(shù)據(jù)中心,對(duì)硬件設(shè)施要求較高;Google的GFS及其開源實(shí)現(xiàn)HDFS通常用于提供海量數(shù)據(jù)的存儲(chǔ)和訪問能力;還有一些常用的比較輕量級(jí)的分布式文件系統(tǒng),如MogileFS和FastDFS主要用于存儲(chǔ)Web應(yīng)用的資源文件。但同時(shí)也存在一些問題需要進(jìn)一步研究,如HDFS和MooseFS存在單元數(shù)據(jù)服務(wù)器依賴,如何改進(jìn)元數(shù)據(jù)管理系統(tǒng)或者增加元數(shù)據(jù)管理服務(wù)器;MogileFS和FastDFS的管理節(jié)點(diǎn)包含多個(gè)調(diào)度服務(wù)器,如何使多個(gè)調(diào)度服務(wù)器達(dá)到負(fù)載均衡;GFS和Lustre通過鎖服務(wù)來(lái)保證數(shù)據(jù)一致性,但同一時(shí)間不允許多個(gè)用戶對(duì)文件的同一部分進(jìn)行寫操作;分布式文件系統(tǒng)的可靠性也是一個(gè)大問題,現(xiàn)有的容錯(cuò)機(jī)制通過備份日志恢復(fù)元數(shù)據(jù)管理服務(wù)器,增加備用元數(shù)據(jù)管理服務(wù)器,采用磁盤陣列以及備份文件等,都有一定的局限性。將來(lái),通用分布式文件系統(tǒng)和專用分布式文件系統(tǒng)的分工將越來(lái)越明顯,通用分布式文件系統(tǒng)提供標(biāo)準(zhǔn)API接口,不需要開發(fā)者修改上層應(yīng)用就能使用,而且支持用戶空間文件系統(tǒng)(Filesystem in Userspace,F(xiàn)USE),用戶管理共享的分布式文件系統(tǒng)如同管理本地文件系統(tǒng)一樣方便,還將向大型化發(fā)展,提供更廉價(jià)的存儲(chǔ)服務(wù),云存儲(chǔ)就是一個(gè)很好的代表;與此相反,專用分布式文件系統(tǒng)提供專有API,對(duì)開發(fā)者要求熟悉掌握其API,但其系統(tǒng)復(fù)雜度較低,而且提供較高的性能,在Web應(yīng)用、高性能計(jì)算等方面有較大的需求,這兩種分布式文件系統(tǒng)是未來(lái)的發(fā)展趨勢(shì)。開源社區(qū)也開發(fā)出了一批基于Linux/Unix操作系統(tǒng)的分布式文件系統(tǒng),正是這些開源項(xiàng)目大大促進(jìn)了分布式文件系統(tǒng)的發(fā)展和應(yīng)用。
1、分布式文件系統(tǒng)
分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接存儲(chǔ)在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連,支持多個(gè)用戶共享文件和存儲(chǔ)資源?梢苑譃橥ㄓ梅植际轿募到y(tǒng)和專業(yè)分布式文件系統(tǒng),相比起來(lái)通用分布式文件系統(tǒng)對(duì)開發(fā)者來(lái)說(shuō)具有友好性強(qiáng)的優(yōu)勢(shì),系統(tǒng)復(fù)雜性相對(duì)較高,性能一般;而專用分布式文件系統(tǒng)的開發(fā)者友好性較差,系統(tǒng)復(fù)雜性較低,性能較高。因此,根據(jù)專用性和通用性的原則,在選擇分布式系統(tǒng)的時(shí)候需要考慮有關(guān)分布式系統(tǒng)的應(yīng)用環(huán)境。
1.1 HDFS分布式文件系統(tǒng)
HDFS是一種基于Java的適用于海量數(shù)據(jù)存儲(chǔ)的開源分布式文件系統(tǒng)。它可以部署在低成本的硬件上,能夠高容錯(cuò)、可靠地存儲(chǔ)PB級(jí)的數(shù)據(jù),還可以與MapReduce編程模型很好地結(jié)合,為應(yīng)用程序提供高吞吐量的數(shù)據(jù)訪問。HDFS的架構(gòu)如圖1所示。
HDFS主要用于保存大文件,用戶通過API訪問文件系統(tǒng)。存儲(chǔ)文件時(shí),每個(gè)文件被分成若干個(gè)數(shù)據(jù)塊,塊大小默認(rèn)是64MB,先把數(shù)據(jù)塊緩存在本地,大小累積到64MB時(shí)才聯(lián)系NameNode,寫人到DataNode,同時(shí),在其他節(jié)點(diǎn)采用流水線方式備份文件,默認(rèn)是3份。文件刪除時(shí),移動(dòng)到回收站,在配置的時(shí)間內(nèi)可以迅速恢復(fù)。HDFS提出的自動(dòng)均衡方案,可以自動(dòng)地將數(shù)據(jù)從一個(gè)數(shù)據(jù)節(jié)點(diǎn)移動(dòng)到空閑的數(shù)據(jù)節(jié)點(diǎn)。而且,HDFS提供的接口可以很容易地將數(shù)據(jù)從一個(gè)平臺(tái)移動(dòng)到另外一個(gè)平臺(tái)。
HDFS只有單個(gè)管理服務(wù)器,所有對(duì)文件的請(qǐng)求都要經(jīng)過它,當(dāng)請(qǐng)求過多時(shí),肯定會(huì)有延時(shí),所以HDFS不太適合于那些要求低延時(shí)訪問的應(yīng)用程序。
由于管理服務(wù)器把文件系統(tǒng)的元數(shù)據(jù)放置在內(nèi)存中,文件系統(tǒng)所能容納的文件數(shù)目是由管理服務(wù)器的內(nèi)存大小來(lái)決定,所以HDFS不太適合處理大量小文件。而且Hadoop只支持單用戶寫,不支持并發(fā)多用戶寫。
1.2 Lustre分布式文件系統(tǒng)
Lustre是首個(gè)基于對(duì)象存儲(chǔ)的開源分布式文件系統(tǒng),用來(lái)解決海量存儲(chǔ)問題,最多可支持10000個(gè)客戶端,PB級(jí)的存儲(chǔ)量,IOOGB/S的傳輸速度,具有完美的安全性和可管理性。Lustre文件系統(tǒng)一般運(yùn)行在高性能計(jì)算機(jī)系統(tǒng)之上,其性能優(yōu)越,被越來(lái)越廣泛地應(yīng)用。Lustre架構(gòu)如圖2所示。
Lustre是一個(gè)全局文件系統(tǒng),用戶訪問文件系統(tǒng)的文件數(shù)據(jù)時(shí),通過客戶端提供的標(biāo)準(zhǔn)POSIX(Portable Operating System Interface,可移植操作系統(tǒng)接口)接口先訪問MDS,獲取相關(guān)的元數(shù)據(jù)信息,然后直接與相應(yīng)的OSS通信,取得文件的實(shí)際數(shù)據(jù),這和HDFS非常相似。OST上的文件數(shù)據(jù)是以分條形式保存的,這和傳統(tǒng)的基于塊的存儲(chǔ)方式有所不同。在Lustre文件系統(tǒng)中,MDS可以有兩個(gè),采用Active StandBy容錯(cuò)方式,當(dāng)一個(gè)MDS不能正常工作時(shí),另外一個(gè)MDS啟動(dòng)服務(wù)。Lustre還實(shí)現(xiàn)了部分文件鎖,可以使多個(gè)客戶端在同一時(shí)間寫同一文件的不同區(qū)域,極大地提高了多用戶對(duì)同一文件并發(fā)訪問時(shí)系統(tǒng)的性能。
Lustre文件系統(tǒng)的性能和可擴(kuò)展性都不錯(cuò),但硬件設(shè)備要求比較高,而且Lustre目前還沒實(shí)現(xiàn)MDS集群管理,雖然相比于HDFS的單主節(jié)點(diǎn),Lustre的雙MDS在可用性上提高了不少,但當(dāng)系統(tǒng)達(dá)到一定規(guī)模時(shí),MDS會(huì)成為L(zhǎng)ustre系統(tǒng)的瓶頸。
1.3 FastDFS分布式文件系統(tǒng)
FastDFS是一個(gè)輕量級(jí)的開源分布式文件系統(tǒng),主要用來(lái)解決大容量的文件存儲(chǔ)和高并發(fā)訪問的問題,特別適合大中型網(wǎng)站使用,用來(lái)存儲(chǔ)資源文件,如圖片、文檔、音頻、視頻等。FastDFS采用了分組存儲(chǔ)方式,一個(gè)組由多臺(tái)存儲(chǔ)服務(wù)器組成,同組存儲(chǔ)服務(wù)器上的文件是完全一致的,文件上傳、刪除等操作可以在任意一臺(tái)Storage Server上進(jìn)行,同組內(nèi)的Storage Server之間采用推送技術(shù)PUSH方式進(jìn)行同步。
Tracker Server在內(nèi)存中記錄分組和Storage Server的狀態(tài)等信息,不記錄文件索引信息,占用的內(nèi)存量很少。FastDFS不對(duì)文件進(jìn)行分塊存儲(chǔ),更加簡(jiǎn)潔高效,并且完全能滿足絕大多數(shù)互聯(lián)網(wǎng)應(yīng)用的實(shí)際需要。FastDFS把簡(jiǎn)潔和高效做到了極致,比如一個(gè)分組的存儲(chǔ)服務(wù)器訪問壓力較大時(shí),可以在該組增加存儲(chǔ)服務(wù)器來(lái)擴(kuò)充服務(wù)能力。當(dāng)系統(tǒng)容量不足時(shí),可以增加組來(lái)擴(kuò)充存儲(chǔ)容量。由于同組的Storage Server上的文件是完全一致的,所以一個(gè)組的存儲(chǔ)容量為該組內(nèi)存儲(chǔ)服務(wù)器容量最小的那個(gè)。
1.4 MogileFS分布式文件系統(tǒng)
MogileFS是一個(gè)開源的分布式文件系統(tǒng),可支持文件自動(dòng)備份的功能,提供高可用性和高可擴(kuò)展性,適合存儲(chǔ)靜態(tài)文件,就是一次保存,多次讀取的資源。MogileFS系統(tǒng)的組件都可以運(yùn)行在多個(gè)機(jī)器上,所以不存在單點(diǎn)失敗。MogileFS可以根據(jù)不同的文件類型,復(fù)制滿足這個(gè)類別的最少要求,如果數(shù)據(jù)丟失了,可以重新建立遺失的拷貝數(shù),這樣可以節(jié)約磁盤。MogileFS提供全局的命名空間,文件通過給定的Key來(lái)確定,客戶端通過專有API訪問MogileFS系統(tǒng),對(duì)整個(gè)文件系統(tǒng)進(jìn)行讀寫操作。
由于MogileFS系統(tǒng)不支持對(duì)一個(gè)文件的隨機(jī)讀寫,因此只適合做一部分應(yīng)用,如圖片文件,靜態(tài)HTML文件,只提供下載的文件,即文件寫入后基本上不需要修改的應(yīng)用,當(dāng)然也可以生成一個(gè)新的文件覆蓋原文件。
1.5 MooseFS分布式文件系統(tǒng)
MooseFS是一個(gè)具有容錯(cuò)功能的,高可用、可擴(kuò)展的海量級(jí)分布式文件系統(tǒng)。MooseFS分布式文件系統(tǒng)支持FUSE,客戶端通過FUSE內(nèi)核接口掛接遠(yuǎn)程管理服務(wù)器上所管理的數(shù)據(jù)存儲(chǔ)服務(wù)器,管理共享的文件系統(tǒng)如同管理本地文件系統(tǒng)一樣。MooseFS可動(dòng)態(tài)隨時(shí)增加機(jī)器或者磁盤,提供回收站功能,可回收在指定時(shí)間內(nèi)刪除的文件,還可以對(duì)整個(gè)文件甚至正在寫入的文件創(chuàng)建文件的快照。
MooseFS把文件系統(tǒng)的結(jié)構(gòu)緩存到Master的內(nèi)存中,文件越多,Master的內(nèi)存消耗越大。當(dāng)元數(shù)據(jù)服務(wù)器數(shù)據(jù)丟失或者損毀時(shí),可從日志服務(wù)器恢復(fù)。與MogileFS相比,寫操作時(shí),同樣備份數(shù)的情況下,MooseFS要慢較多。讀操作時(shí),當(dāng)并發(fā)加大時(shí),請(qǐng)求的成功率MooseFS比MogileFS要低,MooseFS的反應(yīng)時(shí)間也比MogileFS要慢很多。
2、改進(jìn)的HDFS
2.1 HDFS存在的問題
因?yàn)镹amenode把文件系統(tǒng)的元數(shù)據(jù)放置在內(nèi)存中,所以文件系統(tǒng)所能容納的文件數(shù)目是由Name.Node的內(nèi)存大小來(lái)決定。一般來(lái)說(shuō),每一個(gè)文件、文件夾和Block需要占據(jù)150byte左右的空間,所以,如果有100萬(wàn)個(gè)文件,每一個(gè)占據(jù)一個(gè)Block,就至少需要300MB內(nèi)存;當(dāng)擴(kuò)展到數(shù)十億時(shí),對(duì)于當(dāng)前的硬件水平來(lái)說(shuō)就沒法實(shí)現(xiàn)了,這樣NameNode內(nèi)存容量嚴(yán)重制約了集群的擴(kuò)展。HDFS最初是為流式訪問大文件開發(fā)的,如果訪問大量小文件,需要不斷從一個(gè)DataNode跳到另一個(gè)DataNode,處理大量小文件速度遠(yuǎn)遠(yuǎn)小于處理同等大小的大文件的速度,嚴(yán)重影響性能。其次,每一個(gè)小文件要占用一個(gè)Task,而Task啟動(dòng)將耗費(fèi)大量時(shí)間甚至大部分時(shí)間都耗費(fèi)在啟動(dòng)Task和釋放Task上。還有一個(gè)問題就是,因?yàn)镸apTask的數(shù)量是由Splits來(lái)決定的,所以用MR處理大量的小文件時(shí),就會(huì)產(chǎn)生過多的Map Task,線程管理開銷將會(huì)增加作業(yè)時(shí)間。舉個(gè)例子,處理10000M的文件,若每個(gè)Sprit為1M,那就會(huì)有10000個(gè)MapTasks,會(huì)有很大的線程開銷;若每個(gè)Split為100M,則只有100個(gè)Map Tasks,每個(gè)Map Task將會(huì)有更多的事情做,而線程的管理開銷也將減小很多。
2.2 HDFS改進(jìn)
本文將多個(gè)小文件打包成一個(gè)歸檔文件,這樣在減少NameNode內(nèi)存使用的同時(shí),仍然允許對(duì)文件進(jìn)行透明的訪問。當(dāng)一個(gè)文件到達(dá)時(shí),判斷該文件是否屬于小文件,如果是,則交給小文件處理模塊處理,否則,交給通用文件處理模塊處理。小文件處理模塊的設(shè)計(jì)思想是,先將很多小文件合并成一個(gè)大文件,然后為這些小文件建立索引,以便進(jìn)行快速存取和訪問。小文件處理模塊的流程如圖3所示。
(1)小文件的歸檔管理主要由周期性執(zhí)行的MapReduce任務(wù)完成。有以下幾個(gè)處理流程:掃描元數(shù)據(jù)信息表,統(tǒng)計(jì)未歸檔的對(duì)象信息,包括在HDFS中的URI(Uniform Resource Identifier,通用資源標(biāo)志符)、對(duì)象大小等;根據(jù)配置的歸檔文件大小限制,對(duì)統(tǒng)計(jì)所得的對(duì)象進(jìn)行分組;將每個(gè)分組中的對(duì)象文件合并到一個(gè)歸檔文件中;更新相關(guān)對(duì)象元數(shù)據(jù)信息表中的數(shù)據(jù)位置描述項(xiàng);刪除舊的對(duì)象文件。
(2)歸檔文件的壓縮主要有以下幾個(gè)處理流程:掃描已刪除對(duì)象表,統(tǒng)計(jì)無(wú)效對(duì)象信息;對(duì)于未歸檔的無(wú)效對(duì)象文件,直接刪除;將已歸檔的無(wú)效對(duì)象按照歸檔文件分組;統(tǒng)計(jì)涉及的歸檔文件的空間利用率;統(tǒng)計(jì)利用率低于閾值的每個(gè)歸檔文件中所有有效對(duì)象信息;將歸檔文件中的有效對(duì)象數(shù)據(jù)合并到一個(gè)新的歸檔文件中;更新相關(guān)對(duì)象元數(shù)據(jù)信息表中的數(shù)據(jù)位置描述項(xiàng);刪除舊的歸檔文件。
(3)歸檔文件的再歸檔主要有以下幾個(gè)處理流程:掃描歸檔文件列表,統(tǒng)計(jì)占用磁盤空間低于閾值的歸檔文件;根據(jù)歸檔文件大小配置參數(shù),將統(tǒng)計(jì)所得歸檔文件分組;統(tǒng)計(jì)各分組歸檔文件涉及的對(duì)象;將每個(gè)分組中的歸檔文件合并到一個(gè)歸檔文件;將歸檔文件中的有效對(duì)象數(shù)據(jù)合并到一個(gè)新的歸檔文件中;更新相關(guān)對(duì)象元數(shù)據(jù)信息表中的數(shù)據(jù)位置描述項(xiàng);刪除舊的歸檔文件。
3、分布式文件系統(tǒng)對(duì)比
3.1實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)采用操作系統(tǒng)為CentOS5.4(Red Hat EntERPrise Linux 4.1.2)系統(tǒng),文件系統(tǒng)軟件分別為Hadoop-0.19.2、Lustre-1.47、FastDFS-1.23、MogileFS-2.44、MooseFS.1.6.13,內(nèi)存和I/O性能測(cè)試軟件分別為Ubench和IOzone。使用8臺(tái)PC搭建環(huán)境,硬件實(shí)驗(yàn)平臺(tái)中電腦CPU為Intel Core 2.66GHz,Memory為2G/4G,240G硬盤,通過100Mbps交換機(jī)局域網(wǎng)連接。數(shù)據(jù)集為1億個(gè)1kB,2000萬(wàn)個(gè)5kB,200萬(wàn)個(gè)50kB,100萬(wàn)個(gè)200kB,20萬(wàn)個(gè)1MB,2萬(wàn)個(gè)10MB,1千個(gè)100MB文件。
3.2性能對(duì)比
現(xiàn)有的各種各樣分布式文件系統(tǒng)具有不同的性能特點(diǎn),它們的功能也不盡相同。為了在具體領(lǐng)域更好地掌握和應(yīng)用適合的分布式文件系統(tǒng),本文從文件系統(tǒng)的幾個(gè)主要方面進(jìn)行了詳細(xì)的比較分析。分析結(jié)果如表1所示。
從表1中,可以清楚地看到分布式文件系統(tǒng)各自的特點(diǎn)。在支持操作系統(tǒng)方面,各個(gè)系統(tǒng)都支持Linux操作系統(tǒng),部分系統(tǒng)還支持Unix操作系統(tǒng);在系統(tǒng)類型方面,HDFS等專用分布式文件系統(tǒng)具有較好的性能和較低的復(fù)雜度,而通用分布式文件系統(tǒng)在訪問方式上提供標(biāo)準(zhǔn)API,還支持FUSE,可以管理分布式文件系統(tǒng)如同管理本地文件系統(tǒng)一樣;在容錯(cuò)方面,Lustre在存儲(chǔ)服務(wù)器上使用磁盤陣列,啟用備用元數(shù)據(jù)管理服務(wù)器;HDFS和MooseFS在存儲(chǔ)服務(wù)器上備份文件,在元數(shù)據(jù)日志服務(wù)器上備份日志,用于恢復(fù)元數(shù)據(jù)服務(wù)器;FastDFS和MogilesFS也在存儲(chǔ)服務(wù)器上備份數(shù)據(jù),在多個(gè)調(diào)度服務(wù)器上采用負(fù)載均衡策略。它們也有很多相似的地方,比如都支持在Linux操作系統(tǒng)上部署,都采用全局的命名空間,都有很好的可擴(kuò)展性等。
在元數(shù)據(jù)管理節(jié)點(diǎn)方面,F(xiàn)astDFS和MogileFS有多個(gè)調(diào)度服務(wù)器,并發(fā)訪問能力比較突出,Lustre有兩個(gè)元數(shù)據(jù)管理服務(wù)器,其中一個(gè)是活動(dòng)服務(wù)器宕機(jī)后自動(dòng)啟動(dòng)的后備服務(wù)器,有效地解決了單點(diǎn)依賴問題,而HDFS、MooseFS和改進(jìn)HDFS只有一個(gè)元數(shù)據(jù)管理服務(wù)器,存在單點(diǎn)依賴問題,而且元數(shù)據(jù)都保存在內(nèi)存中,當(dāng)文件數(shù)量超過一定范圍時(shí),還會(huì)遇到內(nèi)存瓶頸;在元數(shù)據(jù)占用內(nèi)存方面,HDFS每個(gè)文件元數(shù)據(jù)占用內(nèi)存大約150~200Byte之間,MooseFS每個(gè)元數(shù)據(jù)大約300Byte,而且隨著文件數(shù)量增加內(nèi)存占用也越大;Lustre元數(shù)據(jù)只占用4Byte左右,當(dāng)文件數(shù)量超過2000萬(wàn),內(nèi)存占用也隨之增大;改進(jìn)HDFS內(nèi)存占用與文件數(shù)量關(guān)系不大,隨著文件數(shù)據(jù)增大稍微增長(zhǎng),當(dāng)文件數(shù)量達(dá)到6000萬(wàn),內(nèi)存性能與Lustre持平。元數(shù)據(jù)內(nèi)存占用情況如圖4所示。
在文件存取方面,HDFS和MogileFS通常用來(lái)存儲(chǔ)靜態(tài)大文件,而MooseFS和改進(jìn)HDFS可以存儲(chǔ)各種文件,存儲(chǔ)的文件一般不需要修改,只提供下載服務(wù);FastDFS一般用于存儲(chǔ)音頻、視頻和文檔等,文件比較小,所以不分塊存儲(chǔ)文件,以文件為單位來(lái)存儲(chǔ);而Lustre以分條的方式存儲(chǔ)文件,主要存儲(chǔ)密集型數(shù)據(jù),進(jìn)行高性能計(jì)算;相對(duì)于HDFS,改進(jìn)的HDFS平均讀寫速度增加了一倍左右,讀速度略高于Lustre,但寫速度略遜于Lustre。文件系統(tǒng)讀寫平均速度如圖5所示。
4、結(jié)束語(yǔ)
云存儲(chǔ)是近年來(lái)被廣泛應(yīng)用的新技術(shù),可以廣泛應(yīng)用于一些重要的領(lǐng)域,如氣象領(lǐng)域、視頻分享網(wǎng)站等,因此分布式文件系統(tǒng)也引來(lái)了更多的關(guān)注,在學(xué)術(shù)界和工業(yè)界都有很多的分布式文件系統(tǒng)。如何選擇合適的分布式文件系統(tǒng)是一個(gè)大問題,本文在架構(gòu)、訪問方式、文件存儲(chǔ)方式等方面進(jìn)行了詳細(xì)的對(duì)比,并對(duì)HDFS在I/O性能方面進(jìn)行了改進(jìn),根據(jù)這些信息,用戶可以合理地選擇分布式文件系統(tǒng)。雖然各個(gè)分布式文件系統(tǒng)有各自的優(yōu)勢(shì)和特點(diǎn),但還有一些亟待解決的問題,下一步將進(jìn)一步解決單元數(shù)據(jù)管理服務(wù)器依賴問題、多調(diào)度服務(wù)器負(fù)載均衡問題、系統(tǒng)容錯(cuò)機(jī)制和并發(fā)讀寫等。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:云存儲(chǔ)文件系統(tǒng)對(duì)比
本文網(wǎng)址:http://www.oesoe.com/html/support/11121511639.html