云存儲(chǔ)是實(shí)現(xiàn)云計(jì)算服務(wù)能力的不可或缺的關(guān)鍵要素。從狹義上來說,云存儲(chǔ)是指通過虛擬化、分布式技術(shù)、集群應(yīng)用、網(wǎng)格技術(shù)、負(fù)載均衡等技術(shù),將網(wǎng)絡(luò)中大量的存儲(chǔ)設(shè)備通過軟件集合起來高效協(xié)同工作,共同對(duì)外提供低成本、高擴(kuò)展性的數(shù)據(jù)存儲(chǔ)服務(wù)。從廣義上來講,云存儲(chǔ)可以理解為按需提供的虛擬存儲(chǔ)資源,如同云計(jì)算的Paas、Iaas服務(wù)一樣,可稱為數(shù)據(jù)存儲(chǔ)即服務(wù)(Data Storage As a Service,DaaS),即基于指定的服務(wù)水平請(qǐng)求,通過網(wǎng)絡(luò)提供適當(dāng)?shù)奶摂M存儲(chǔ)和相關(guān)數(shù)據(jù)服務(wù)。
云存儲(chǔ)技術(shù)的發(fā)展,是因?yàn)閭鹘y(tǒng)的盤陣存儲(chǔ)由于高成本和系統(tǒng)的高負(fù)載性,已經(jīng)難以適應(yīng)云計(jì)算服務(wù)對(duì)存儲(chǔ)的需求。傳統(tǒng)盤陣雖然利用專有的、定制設(shè)計(jì)的硬件組件和互連接口設(shè)計(jì)集成在一起,保障了的存儲(chǔ)的性能和可靠性,但是其單點(diǎn)擴(kuò)展存在容量上限和接口帶寬等限制,面對(duì)PB級(jí)的海量存儲(chǔ)需求,無論是SAN或NAS在容量和性能的擴(kuò)展上均無法滿足應(yīng)用的需要;且盤陣造價(jià)昂貴,標(biāo)準(zhǔn)化程度較低,組件的更換常常導(dǎo)致系統(tǒng)故障或者硬件的升級(jí),從而導(dǎo)致存儲(chǔ)成本居高不下。
由此,為實(shí)現(xiàn)存儲(chǔ)的低成本、高可擴(kuò)展與資源池化,云存儲(chǔ)技術(shù)應(yīng)運(yùn)而生,這其中最關(guān)鍵的是存儲(chǔ)虛擬化技術(shù)與分布式存儲(chǔ)技術(shù)的應(yīng)用。從短期來看,存儲(chǔ)化技術(shù)可以充分提升現(xiàn)有存儲(chǔ)資源的應(yīng)用水平,實(shí)現(xiàn)資源池化,提升設(shè)備使用率,降低管理成本。從長遠(yuǎn)發(fā)展來看,分布式存儲(chǔ)技術(shù)則是未來云存儲(chǔ)的發(fā)展趨勢(shì),分布式存儲(chǔ)底層可構(gòu)建在標(biāo)準(zhǔn)X86服務(wù)器集群之上,通過分布式文件系統(tǒng)對(duì)外提供彈性存儲(chǔ)資源,可選擇SATA作為存儲(chǔ)實(shí)現(xiàn)方式,根據(jù)應(yīng)用需要提供豐富的服務(wù)接口,從而大大降低了存儲(chǔ)成本。同時(shí)基于X86的分布式存儲(chǔ)的集群架構(gòu)也實(shí)現(xiàn)了較強(qiáng)的Scale-out擴(kuò)展能力。
該文的第二章對(duì)現(xiàn)有的三種類型的存儲(chǔ)虛擬化技術(shù)原理及應(yīng)用進(jìn)行了詳細(xì)分析,第三章對(duì)分布式云存儲(chǔ)的技術(shù)發(fā)展和應(yīng)用進(jìn)行了分析和研究,第四章給出了研究結(jié)論。
1 存儲(chǔ)虛擬化
存儲(chǔ)虛擬化技術(shù)主要指通過在物理存儲(chǔ)系統(tǒng)和服務(wù)器之間增加一個(gè)虛擬層,使服務(wù)器的存儲(chǔ)空間可以跨越多個(gè)異構(gòu)的磁盤陣列,實(shí)現(xiàn)從物理存儲(chǔ)到邏輯存儲(chǔ)的轉(zhuǎn)變。從而能夠把不同品牌、架構(gòu)甚至不在統(tǒng)一物理居址的存儲(chǔ)設(shè)備統(tǒng)一到一個(gè)(若干個(gè))虛擬的存儲(chǔ)資源池,實(shí)現(xiàn)存儲(chǔ)資源的統(tǒng)一調(diào)度、管理和使用。存儲(chǔ)虛擬化技術(shù)是傳統(tǒng)存儲(chǔ)向云存儲(chǔ)過渡的重要中間技術(shù),在實(shí)現(xiàn)存儲(chǔ)資源管理統(tǒng)一、高效的同時(shí),使得存儲(chǔ)資源的調(diào)度、增減對(duì)用戶完全透明,使存儲(chǔ)資源具備了支撐云計(jì)算服務(wù)的能力。
1.1主要存儲(chǔ)虛擬化技術(shù)
存儲(chǔ)虛擬化技術(shù)雖然不同設(shè)備與廠商之間略有區(qū)別,但從總體來說,可概括為基于主機(jī)虛擬化、基于存儲(chǔ)設(shè)備虛擬化和基于存儲(chǔ)網(wǎng)絡(luò)虛擬化三種技術(shù)。
1)基于主機(jī)的虛擬化存儲(chǔ)的實(shí)現(xiàn),其核心技術(shù)是通過增加一個(gè)運(yùn)行在操作系統(tǒng)下的邏輯卷管理軟件將磁盤上的物理塊號(hào)映射成邏輯卷號(hào),并以此實(shí)現(xiàn)把多個(gè)物理磁盤陣列映射成一個(gè)統(tǒng)一的虛擬的邏輯存儲(chǔ)空間(邏輯塊)實(shí)現(xiàn)存儲(chǔ)虛擬化的控制和管理。從技術(shù)實(shí)施層面看,基于主機(jī)的虛擬化存儲(chǔ)不需要額外的硬件支持,便于部署,只通過軟件即可實(shí)現(xiàn)對(duì)不同存儲(chǔ)資源的存儲(chǔ)管理。但是,虛擬化控制軟件也導(dǎo)致了此項(xiàng)技術(shù)的主要缺點(diǎn):首先,軟件的部署和應(yīng)用影響了主機(jī)性能;其次,各種與存儲(chǔ)相關(guān)的應(yīng)用通過同一個(gè)主機(jī),存在越權(quán)訪問的數(shù)據(jù)安全隱患;最后,通過軟件控制不同廠家的存儲(chǔ)設(shè)備存在額外的資源開銷,進(jìn)而降低系統(tǒng)的可操作性與靈活性。
2)存儲(chǔ)設(shè)備虛擬化技術(shù)依賴于提供相關(guān)功能的存儲(chǔ)設(shè)備的陣列控制器模塊,常見于高端存儲(chǔ)設(shè)備,其主要應(yīng)用針對(duì)異構(gòu)的SAN存儲(chǔ)構(gòu)架。此類技術(shù)的主要優(yōu)點(diǎn)是不占主機(jī)資源,技術(shù)成熟度高,容易實(shí)施;缺點(diǎn)是核心存儲(chǔ)設(shè)備必須具有此類功能,且消耗存儲(chǔ)控制器的資源,同時(shí)由于異構(gòu)廠家磁盤陣列設(shè)備的控制功能被主控設(shè)備的存儲(chǔ)控制器接管導(dǎo)致其高級(jí)存儲(chǔ)功能將不能使用。
3)基于存儲(chǔ)網(wǎng)絡(luò)虛擬化的技術(shù)的核心是在存儲(chǔ)區(qū)域網(wǎng)中增加虛擬化引擎實(shí)現(xiàn)存儲(chǔ)資源的集中管理,其具體實(shí)施一般是通過具有虛擬化支持能力的路由器或交換機(jī)實(shí)現(xiàn)。在此基礎(chǔ)上,存儲(chǔ)網(wǎng)絡(luò)虛擬化又可以分為帶內(nèi)虛擬化與帶外虛擬化兩類,二者主要的區(qū)別在于:帶內(nèi)虛擬化使用同一數(shù)據(jù)通道傳送存儲(chǔ)數(shù)據(jù)和控制信號(hào),而帶外虛擬化使用不同的通道傳送數(shù)據(jù)和命令信息。基于存儲(chǔ)網(wǎng)絡(luò)的存儲(chǔ)虛擬化技術(shù)架構(gòu)合理,不占用主機(jī)和設(shè)備資源;但是其存儲(chǔ)陣列中設(shè)備的兼容性需要嚴(yán)格驗(yàn)證,與基于設(shè)備的虛擬化技術(shù)一樣,由于網(wǎng)絡(luò)中存儲(chǔ)設(shè)備的控制功能被虛擬化引擎所接管,導(dǎo)致存儲(chǔ)設(shè)備自帶的高級(jí)存儲(chǔ)功能將不能使用。
1.2存儲(chǔ)虛擬化技術(shù)對(duì)比
被節(jié)用表格的方式對(duì)三種存儲(chǔ)虛擬化技術(shù)的技術(shù)優(yōu)點(diǎn)與缺點(diǎn)、適應(yīng)場(chǎng)景等進(jìn)行了分析對(duì)比,結(jié)果見表1。
表1存儲(chǔ)虛擬化技術(shù)對(duì)比
2 分布式存儲(chǔ)
分布式存儲(chǔ)相比傳統(tǒng)的集中陣列存儲(chǔ)設(shè)備,其技術(shù)和解決方案,還處于發(fā)展初期,總體來看只具備部分場(chǎng)景下的存儲(chǔ)需求實(shí)現(xiàn)能力。但是從發(fā)展趨勢(shì)來看,通過一個(gè)可擴(kuò)展的網(wǎng)絡(luò)進(jìn)行連接各離散的處理單元的分布式存儲(chǔ)系統(tǒng),其高可擴(kuò)展性、低成本、無接入限制等優(yōu)點(diǎn)是現(xiàn)有存儲(chǔ)系統(tǒng)所無法比擬的。該文的分析研究將以目前發(fā)展的分布式塊存儲(chǔ)、分布式文件系統(tǒng)存儲(chǔ)、分布式對(duì)象存儲(chǔ)和分布式表存儲(chǔ)這四種分布式存儲(chǔ)技術(shù)為對(duì)象進(jìn)行。
1)分布式塊存儲(chǔ):塊存儲(chǔ)就是服務(wù)器直接通過讀寫存儲(chǔ)空間中的一個(gè)或一段地址來存取數(shù)據(jù)。由于采用直接讀寫磁盤空間來訪問數(shù)據(jù),相對(duì)于其他數(shù)據(jù)讀取方式,塊存儲(chǔ)的讀取效率最高,一些大型數(shù)據(jù)庫應(yīng)用只能運(yùn)行在塊存儲(chǔ)設(shè)備上。分布式塊存儲(chǔ)系統(tǒng)目前以標(biāo)準(zhǔn)的Intel/Linux硬件組件作為基本存儲(chǔ)單元,組件之間通過千兆以太網(wǎng)采用任意點(diǎn)對(duì)點(diǎn)拓?fù)浼夹g(shù)相互連接,共同工作,構(gòu)成大型網(wǎng)格存儲(chǔ),網(wǎng)格內(nèi)采用分布式算法管理存儲(chǔ)資源。此類技術(shù)比較典型的代表是IBM XIV存儲(chǔ)系統(tǒng),其核心數(shù)據(jù)組件為基于Intel內(nèi)核的磁盤系統(tǒng),卷數(shù)據(jù)分布到所有磁盤上,從而具有良好的并行處理能力;放棄RAID技術(shù),采用冗余數(shù)據(jù)塊方式進(jìn)行數(shù)據(jù)保護(hù),統(tǒng)一采用SATA盤,從而降低了存儲(chǔ)成本。
2)分布式文件系統(tǒng)存儲(chǔ):文件存儲(chǔ)系統(tǒng)可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實(shí)現(xiàn)文件與目錄操作、文件訪問、文件訪問控制等功能。目前的分布式文件系統(tǒng)存儲(chǔ)的實(shí)現(xiàn)有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化,或者基于X86硬件集群和分布式文件系統(tǒng)集成在一起,以實(shí)現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)處理能力。
軟硬件一體方式的實(shí)現(xiàn)基于X86硬件,利用專有的、定制設(shè)計(jì)的硬件組件,與分布式文件系統(tǒng)集成在一起,以實(shí)現(xiàn)目標(biāo)設(shè)計(jì)的性能和可靠性目標(biāo);產(chǎn)品代表Isilon,IBM SONAS GPFS。軟硬件分離方式的實(shí)現(xiàn)基于開源分布式文件系統(tǒng)對(duì)外提供彈性存儲(chǔ)資源,軟硬件分離方式,可采用標(biāo)準(zhǔn)PC服務(wù)器硬件;典型開源分布式文件系統(tǒng)有GFS[3]、HDFS。
3)分布式對(duì)象存儲(chǔ):對(duì)象存儲(chǔ)是為海量數(shù)據(jù)提供Key-Value這種通過鍵值查找數(shù)據(jù)文件的存儲(chǔ)模式;對(duì)象存儲(chǔ)引入對(duì)象元數(shù)據(jù)來描述對(duì)象特征,對(duì)象元數(shù)據(jù)具有豐富的語義;引入容器概念作為存儲(chǔ)對(duì)象的集合。對(duì)象存儲(chǔ)系統(tǒng)底層基于分布式存儲(chǔ)系統(tǒng)來實(shí)現(xiàn)數(shù)據(jù)的存取,其存儲(chǔ)方式對(duì)外部應(yīng)用透明。這樣的存儲(chǔ)系統(tǒng)架構(gòu)具有高可擴(kuò)展性,支持?jǐn)?shù)據(jù)的并發(fā)讀寫,一般不支持?jǐn)?shù)據(jù)的隨機(jī)寫操作。最典型的應(yīng)用實(shí)例就是亞馬遜的S3(Amazon Simple Storage Service)。對(duì)象存儲(chǔ)技術(shù)相對(duì)成熟,對(duì)底層硬件要求不高,存儲(chǔ)系統(tǒng)可靠性和容錯(cuò)通過軟件實(shí)現(xiàn),同時(shí)其訪問接口簡(jiǎn)單,適合處理海量、小數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),如:郵箱、網(wǎng)盤、相冊(cè)、音頻視頻存儲(chǔ)等。
4)分布式表存儲(chǔ):表結(jié)構(gòu)存儲(chǔ)是一種結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),與傳統(tǒng)數(shù)據(jù)庫相比,它提供的表空間訪問功能受限,但更強(qiáng)調(diào)系統(tǒng)的可擴(kuò)展性。大多數(shù)表存儲(chǔ)的數(shù)據(jù)可靠性依賴于表存儲(chǔ)底層采用的文件存儲(chǔ),對(duì)底層硬件要求不高,一般常采用開源軟件和通用PC,具有低成本的特性。提供分布式表存儲(chǔ)的云存儲(chǔ)系統(tǒng)的特征就是同時(shí)提供高并發(fā)的數(shù)據(jù)訪問性能和可伸縮的存儲(chǔ)、計(jì)算架構(gòu),適合存儲(chǔ)海量結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。其典型產(chǎn)品代表有Greenplum和谷歌的Bigtable[4]。以Greenplum為例,一般采用MPP(Massive Parallel Processing)架構(gòu)實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)和處理、以及高并發(fā)數(shù)據(jù)讀寫能力,它實(shí)現(xiàn)了SQL到MapReduce的翻譯、優(yōu)化、執(zhí)行和結(jié)果收集,具有良好的擴(kuò)展能力。
3 結(jié)論
綜上所述,從目前云存儲(chǔ)主要技術(shù)和解決方案的發(fā)展來看,已經(jīng)具備從傳統(tǒng)存儲(chǔ)架構(gòu)向云存儲(chǔ)架構(gòu)演進(jìn)的條件。具體到技術(shù)選擇和方案實(shí)施層面,首先需要關(guān)注存儲(chǔ)系統(tǒng)的應(yīng)用需求,特別是其數(shù)據(jù)需求量與數(shù)據(jù)結(jié)構(gòu)特點(diǎn),從而確定選擇的存儲(chǔ)技術(shù)與方案類型;其次需要考慮是否需要利用現(xiàn)有存儲(chǔ)設(shè)備,分布式存儲(chǔ)技術(shù)多數(shù)應(yīng)用了全新的存儲(chǔ)架構(gòu),一般無法和現(xiàn)有存儲(chǔ)設(shè)備整合;最后需要從性能實(shí)現(xiàn)和存儲(chǔ)成本等方面對(duì)技術(shù)方案進(jìn)行比較。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:基于虛擬化與分布式技術(shù)的云存儲(chǔ)研究
本文網(wǎng)址:http://www.oesoe.com/html/support/1112186981.html