1、緒論
云計算( Cloud Computing)是網(wǎng)格計算(Grid Computing)、分布式計算〔Disaibuted Computing)、并行計算(Parallel Computing) ,效用計算(Utility Computing)、網(wǎng)絡(luò)存儲(Network Storage Tcchnologies),虛擬化(Virtulization ) ,負(fù)載均衡(Load Balance )等傳統(tǒng)計算機技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。它旨在通過網(wǎng)絡(luò)把多個成本相對較低的計算實體整合成一個具有強大計算能力的完美系統(tǒng).并借助SaaS,PaaS.IaaS.MSP等先進(jìn)的商業(yè)模式把這強大的計算能力分布到終端用戶手中。云計算的一個核心理念就是通過不斷提高“云”的處理能力,進(jìn)而減少用戶終端的處理負(fù)擔(dān),最終使用戶終端簡化成一個單純的編人輸出設(shè)備.并能按需享受“云襯的強大計算處理能力。
云計算的核心思想,是將大最用網(wǎng)絡(luò)連接的計算資源統(tǒng)一管理和調(diào)度.構(gòu)成一個計算資源池向用戶按需服務(wù)。
2、云計算的核心技術(shù)
云計算系統(tǒng)運用了許多技術(shù),其中以編程模型、數(shù)據(jù)管理技術(shù)、數(shù)據(jù)存儲技術(shù)、虛擬化技術(shù)、云計算平臺管理技術(shù)最為關(guān)鍵。
(1)編程模型
MapReduce是Google開發(fā)的java,Python,C++編程模型,它是一種簡化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1T8)的并行運算。嚴(yán)格的編程模型使云計算環(huán)境下的編程十分簡單。MapAeduce模式的思想是將要執(zhí)行的問題分解成}P(映射)和Reduce(化簡)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配(調(diào)度)給大量計算機處理,達(dá)到分布式運算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯整輸出。
(2)海量數(shù)據(jù)分布存儲技術(shù)
云計算系統(tǒng)由大量服務(wù)器組成,同時為大量用戶服務(wù),因此云計算系統(tǒng)采用分布式存儲的方式存儲數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。云計算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是Google的GFS和Hadoop團(tuán)隊開發(fā)的GFS的開源實現(xiàn)HDFS。 GFS即Google文件系統(tǒng)(Google File System),是一個可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。GFS的設(shè)計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計的。它運行于廉價的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務(wù)。一個GFS集群由一個主服務(wù)器(~)和大量的塊服務(wù)器(chunksecvcr)構(gòu)成,并被許多客戶(Client)訪問。主服務(wù)器存儲文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當(dāng)前位置。它也控制系統(tǒng)范圍的活動,如塊租約(lease)管理,孤兒塊的垃圾收集,塊服務(wù)器間的塊遷移。主服務(wù)器定期通過HeartBeat消息與每一個塊服務(wù)器通信.給塊服務(wù)器傳遞指令并收集它的狀態(tài)。GFS中的文件被切分為64MB的塊并以冗余存儲,每份數(shù)據(jù)在系統(tǒng)中保存3個以上備份?蛻襞c主服務(wù)器的交換只限于對元數(shù)據(jù)的操作.所有數(shù)據(jù)方面的通信都直接和塊服務(wù)器聯(lián)系,這大大提高了系統(tǒng)的效率,防止主服務(wù)器負(fù)載過重。
(3)海量數(shù)據(jù)管理技術(shù)
云計算需要對分布的、海量的數(shù)據(jù)進(jìn)行處理、分析,因此,數(shù)據(jù)管理技術(shù)必需能夠高效地管理大量的數(shù)據(jù)。云計算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BT(BigTable)數(shù)據(jù)管理技術(shù)和Hadoop團(tuán)隊開發(fā)的開源數(shù)據(jù)管理模塊Hbase。BT是建立在 GFS, Scheduler, Lock Service。和MapReduce之上的一個大型的分布式數(shù)據(jù)庫,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。Google的很多項目使用BT來存儲數(shù)據(jù),包括網(wǎng)頁查詢,Google earth和Google金融。這些應(yīng)用程序?qū)T的要求各不相同:數(shù)據(jù)大小(從URL到網(wǎng)頁到衛(wèi)星圖象)不同,反應(yīng)速度不同(從后端的大批處理到實時數(shù)據(jù)服務(wù))。對于不同的要求,BT都成功地提供了靈活高效的服務(wù)。
(4)虛擬化技術(shù)
通過虛擬化技術(shù)可實現(xiàn)軟件應(yīng)用與底層硬件相隔離,它包括將單個資源劃分成多個虛擬資源的裂分模式,也包括將多個資源整合成一個虛擬資源的聚合模式。虛擬化技術(shù)根據(jù)對象可分成存儲虛擬化、計算虛擬化、網(wǎng)絡(luò)虛擬化等.計算虛擬化又分為系統(tǒng)級虛擬化、應(yīng)用級虛擬化和桌面虛擬化。
(5)云計算平臺管理技術(shù)
云計算資源規(guī)模龐大,服務(wù)器數(shù)量眾多并分布在不同的地點,同時運行著數(shù)百種應(yīng)用,如何有效地管理這些服務(wù)器,保證整個系統(tǒng)提供不間斷的服務(wù)是巨大的挑戰(zhàn)。云計算系統(tǒng)的平合管理技術(shù)能夠使大量的服務(wù)器協(xié)同工作,方便地進(jìn)行業(yè)務(wù)部署和開通,快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障,通過自動化、智能化的手段實現(xiàn)大規(guī)模系統(tǒng)的可靠運營。
3、云計算環(huán)境中DAI概念的提出
數(shù)字化數(shù)據(jù)在科學(xué)研究中扮演著重要角色.對商業(yè)和政府的決策工程給予了有力的支持。隨著時間的推移.越來越多的數(shù)據(jù)被組織為數(shù)據(jù)庫中的共享和結(jié)構(gòu)化數(shù)據(jù)集,XML文檔、結(jié)構(gòu)化的二進(jìn)制文件集等形式。在模擬和傳感器技術(shù)發(fā)展的推動下。數(shù)據(jù)集的大小已經(jīng)增長到TB數(shù)量級。這些數(shù)據(jù)集的飛速增長,使得訪問任一數(shù)據(jù)集中的數(shù)據(jù)都成為一項挑戰(zhàn)。為了有效地訪問、處理和使用這些大規(guī)模的分布式數(shù)據(jù)資源,需要構(gòu)建一種基礎(chǔ)架構(gòu),在這種基礎(chǔ)架構(gòu)中,共享數(shù)據(jù)、存儲、計算資源等能以一種標(biāo)準(zhǔn)的訪問接口進(jìn)行訪問,并以統(tǒng)一的數(shù)據(jù)格式交付給數(shù)據(jù)分析任務(wù)使用。
另外,隨著網(wǎng)絡(luò)連接的普遍存在以及現(xiàn)代科技中問題規(guī)模的擴(kuò)大,建立、管理和利用這些結(jié)構(gòu)化數(shù)據(jù)集需要進(jìn)行廣泛集成。盡管單一的數(shù)據(jù)集只包含特定組織感興趣的數(shù)據(jù),但通過集成來自多個數(shù)據(jù)資源的信息可取得某些實質(zhì)性進(jìn)步。比如夭文學(xué)家通過虛擬天文臺.將不同頻率和不同時間內(nèi)收集的數(shù)據(jù)融合在一起以發(fā)現(xiàn)宇宙的新特性;基因功能組的研究需要在物種之間進(jìn)行比較,它要求綜合蛋白質(zhì)生物化學(xué)、結(jié)晶學(xué)數(shù)據(jù)、實驗室數(shù)據(jù)和人口學(xué)方面的數(shù)據(jù)來發(fā)現(xiàn)新的基因組合口。因此數(shù)據(jù)分析必須能夠處理在大規(guī)模計算和數(shù)據(jù)移動中所涉及的問題,并且提供能融合多種結(jié)構(gòu)化數(shù)據(jù)集的機制。這些數(shù)據(jù)集可以駐留在不同平臺,依據(jù)不同的策略進(jìn)行管理,并且在地理上分布。
隨著數(shù)據(jù)密集型計算的飛速發(fā)展,對信息處理能力的要求也越來越高,從科學(xué)研究到軍事決策、戰(zhàn)場仿真,從分子生物學(xué)到核模擬,從數(shù)字地球計劃到海灣戰(zhàn)爭,人們迫切需要縮短從原始數(shù)據(jù)提取高層信息并進(jìn)一步完成高層信息處理的時間。通過用戶與數(shù)據(jù)資源直接交互的模式進(jìn)行數(shù)據(jù)訪問和集成變得很不現(xiàn)實,當(dāng)訪問和集成這些數(shù)據(jù)時,進(jìn)行數(shù)據(jù)發(fā)現(xiàn)、訪問、分析和集成就會變得相當(dāng)縈瑣。這就豁要擴(kuò)充網(wǎng)格的數(shù)據(jù)管理能力,建立一種有效的、開放的、可擴(kuò)展的數(shù)據(jù)訪問和集成(Data Access and Integration, DAI)體系結(jié)構(gòu),將超級計算機的數(shù)值計算能力和數(shù)字圖書館的數(shù)據(jù)處理及發(fā)布能力有機結(jié)合起來,為科學(xué)應(yīng)用在網(wǎng)絡(luò)中實施數(shù)據(jù)資源發(fā)現(xiàn),并進(jìn)行高效的數(shù)據(jù)訪問和集成提供有力支持。
4、云計算環(huán)境中DAI需求
云計算作為一種全新的計算模式,可以動態(tài)地定位和訪問網(wǎng)絡(luò)環(huán)境中各種數(shù)據(jù)資源,解決那些需要許多組織共同協(xié)作才能解決的問題。在云計算環(huán)境中,數(shù)據(jù)資源廣泛存儲在各種分布、異構(gòu)的數(shù)據(jù)庫之中,數(shù)據(jù)資源的動態(tài)性、異構(gòu)性為云計算研究帶來新的機遇和挑戰(zhàn),需要使用網(wǎng)格技術(shù)對分布、異類、異構(gòu)的網(wǎng)格數(shù)據(jù)資源提供無縫的共享和集成支持川。而且,隨著云計算技術(shù)變得越來越復(fù)雜和自動化,就會增加這些數(shù)據(jù)資源的數(shù)量、容量以及多樣性。因此,對于云計算自身來說,系統(tǒng)化的數(shù)據(jù)訪問和集成方法同樣變得相當(dāng)重要。
在云計算環(huán)境中,一個應(yīng)用往往由查詢一個或更多的數(shù)據(jù)庫以及對得到的數(shù)據(jù)進(jìn)行分析來實現(xiàn),而現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)并不支持網(wǎng)絡(luò)數(shù)據(jù)集成。一方面,如果每一種數(shù)據(jù)庫都獨立地訪問網(wǎng)格接口,那將會出現(xiàn)兩個負(fù)面的影響:首先要對數(shù)據(jù)庫提供的網(wǎng)絡(luò)接口代碼進(jìn)行重寫;其次,為了便于訪問,應(yīng)用程序和數(shù)據(jù)集成服務(wù)將不得不為每一種網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)庫編寫接口代碼,這無形中提高了編寫應(yīng)用程序的代價。另一方面,數(shù)據(jù)庫管理系統(tǒng)是成千上萬人多年努力工作的產(chǎn)物,它們提供了廣泛的功能、有價值的編程接口和工具,同時也提供了諸如安全、性能和依賴性等重要特性。由于網(wǎng)絡(luò)應(yīng)用也需要這些屬性,從頭編寫全新網(wǎng)絡(luò)集成的數(shù)據(jù)庫管理系統(tǒng)是不現(xiàn)實的.而且是極大的浪費。因此,必須考慮如何將現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)集成到網(wǎng)絡(luò)中去。但這種方法也有一定的局限性,因為網(wǎng)絡(luò)集成數(shù)據(jù)庫有一些必需的屬性不能通過這種方式獲得,必須集成在相應(yīng)的數(shù)據(jù)庫管理系統(tǒng)本身之中。針對這些問題,可以開發(fā)一種DAI網(wǎng)絡(luò)中間件來完成對云計算環(huán)境中流行的數(shù)據(jù)庫管理系統(tǒng)的集成,實現(xiàn)分布的、不同種類的數(shù)據(jù)庫數(shù)據(jù)訪問和集成操作。隨著云計算商業(yè)地位的提高,數(shù)據(jù)庫的出版商也可把中間件的功能直接嵌人到產(chǎn)品當(dāng)中,提供諸如“out-of-box"來支持網(wǎng)絡(luò)數(shù)據(jù)集成,以此來支持OGSA(Qpen Grid Services Arcbitecnire)網(wǎng)格標(biāo)準(zhǔn)。同樣在云計算環(huán)境中,嵌人許多特殊功能的網(wǎng)絡(luò)中間件設(shè)計標(biāo)準(zhǔn)也是至關(guān)重要的,DAI中間件的目的之一就是揭示和表達(dá)這種需要。
5、云計算環(huán)境中DAI應(yīng)解決的幾個問題
云計算環(huán)境中DAI中間件在其開發(fā)過程中,必然會涉及到大量的技術(shù)問題,這些問題主要體現(xiàn)在以下六個方面:
(1)系統(tǒng)體系結(jié)構(gòu)的設(shè)計:隨著技術(shù)的發(fā)展,多層分布式應(yīng)用體系結(jié)構(gòu)越來越流行,在體系結(jié)構(gòu)的設(shè)計中,應(yīng)按照系統(tǒng)的功能和網(wǎng)格服務(wù)系統(tǒng)的需求,設(shè)計多層系統(tǒng)體系結(jié)構(gòu),合理劃分層次,分配各層功能。
(2)數(shù)據(jù)庫連接:網(wǎng)絡(luò)中存在多種異構(gòu)數(shù)據(jù)庫,要求用戶在訪問它們時,DAI中間件應(yīng)提供一種通用的數(shù)據(jù)庫連接方式,實現(xiàn)數(shù)據(jù)庫動態(tài)定位,完成云計算環(huán)境中分布的、異構(gòu)的、不同種類的數(shù)據(jù)庫連接。同時應(yīng)針對不同數(shù)據(jù)庫用戶采用合適的連接機制,提高系統(tǒng)的響應(yīng)速度,降低數(shù)據(jù)庫連接時的時間消耗。
(3)數(shù)據(jù)傳輸:數(shù)據(jù)訪同和集成離不開數(shù)據(jù)傳輸,在現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)上,如何高效、安全地解決大規(guī)模數(shù)據(jù)傳輸問題是提高中間件系統(tǒng)效率的關(guān)鍵。
(4)數(shù)據(jù)格式:在網(wǎng)絡(luò)環(huán)境中,各種異構(gòu)數(shù)據(jù)庫存儲的數(shù)據(jù)格式不盡相同,同一種類型的數(shù)據(jù)庫中存儲的數(shù)據(jù)格式也有不同的定義。因此,中間件應(yīng)采用統(tǒng)一的數(shù)據(jù)格式解決數(shù)據(jù)異構(gòu)問題,方便用戶對數(shù)據(jù)資源的訪問和集成。
(5)數(shù)據(jù)庫集成:用戶對網(wǎng)絡(luò)環(huán)境中廣泛分布的、異構(gòu)的數(shù)據(jù)庫進(jìn)行訪間時,考慮的是訪問效果,而不關(guān)心數(shù)據(jù)庫的具體位置。DAI中間件應(yīng)采用合理的機制,把網(wǎng)絡(luò)環(huán)境中各種異構(gòu)數(shù)據(jù)庫集成到服務(wù)器端,使得各種異構(gòu)數(shù)據(jù)庫對用戶透明。
6、結(jié)論
在云計算環(huán)境中,數(shù)據(jù)資源廣泛存儲在各種分布、異構(gòu)的數(shù)據(jù)庫之中.需要使用網(wǎng)格技術(shù)對分布、異類、異構(gòu)的網(wǎng)格數(shù)據(jù)資源提供無縫的共享和集成支持,因此建立一個通用的中間件是必要的。
本文提出了建立一種有效的、開放的、可擴(kuò)展的數(shù)據(jù)訪同和集成( DAI)的概念,通過DAI中間件提供的標(biāo)準(zhǔn)訪問接口及統(tǒng)一數(shù)據(jù)格式對云計算環(huán)境中各種分布的、異構(gòu)的、不同種類的信息資源進(jìn)行動態(tài)訪問和集成,以此來提高信息的可訪性、可用性、時效性、安全性。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:云計算環(huán)境中DAI中間件需求分析
本文網(wǎng)址:http://www.oesoe.com/html/support/1112155378.html