Hadoop作為一個分布式的Apache開源計算機組織框架,它可以運行在廉價的中型或者大型集群的硬件設備上,為應用程序的開發(fā)提供了一套穩(wěn)定可靠的接口應用程序。它的這些優(yōu)勢使基于Hadoop的企業(yè)云存儲平臺的構建即經(jīng)濟又便捷,同時能夠為企業(yè)的數(shù)據(jù)管理提供存儲服務的同步升級和安全管理,在企業(yè)管理領域具有很好的前景。
1 基于Hadoop的企業(yè)云存儲所依賴的云計算及其體系結構
1.1 云計算概述。云計算是一種新型的基于數(shù)據(jù)中心的一個數(shù)據(jù)密集型超級計算方法,它是虛擬化、網(wǎng)絡存儲、網(wǎng)格計算、分布式計算以及并行計算等傳統(tǒng)計算機技術和網(wǎng)絡技術發(fā)展融合的產(chǎn)物。云計算所依賴的核心技術主要包括編程模型、虛擬化技術、數(shù)據(jù)存儲和管理技術。另外,由于云計算系統(tǒng)需要滿足用戶的大量需求,所以云計算的數(shù)據(jù)存儲技術需要具有很高的吞吐量,由于分布式存儲能夠很好的滿足云計算數(shù)據(jù)存儲的這種需求,因此,云計算平臺下的數(shù)據(jù)存儲一般多采用分布式存儲結構,而且增加了必要的數(shù)據(jù)存儲安全保障機制,在很大程度上提高了云存儲平臺下數(shù)據(jù)的可用性和可靠性。
1.2 云計算的體系結構。云計算的體系結構主要由用戶端、服務目錄、系統(tǒng)管理、配置工具、監(jiān)控、服務器集合幾個模塊構成。其中,用戶端主要實現(xiàn)用戶與云系統(tǒng)的交互;服務目錄主要用于顯示該用戶有權限操作和訪問的所有服務的目錄列表;系統(tǒng)管理用來管理系統(tǒng)資源的分配情況;配置工具用來配置客戶端和服務器所需要的各種操作環(huán)境;監(jiān)控主要用來監(jiān)控和計算云系統(tǒng)資源的使用情況;服務器集合用于實現(xiàn)云系統(tǒng)中的所有服務器的集成。
2 Hadoop及其核心設計分析
2.1 Hadoop概述。
Hadoop起源于開源搜索引擎ApacheNutch,它是當前應用比較廣泛的一種文本搜索庫。其中,Hadoop主要包括HDFS(Hadoop 分布式文件系統(tǒng))以及MapReduce 引擎兩項核心設計。HDFS 是Hadoop分布式文件系統(tǒng)的縮寫,Hadoop 分布式計算存儲相關功能實現(xiàn)均需要HDFS 所提供的底層支持。MapReduce 主要負責相關數(shù)據(jù)索引任務的分解與結果的匯總。
Hadoop 的優(yōu)點主要體現(xiàn)在如下幾個方面:一是經(jīng)濟性,Hadoop 框架對計算機的硬件沒有特殊的要求,可以在普通的PC 機上運行,因此,不需要加大對硬件的成本投入;一是可擴展性,Hadoop 不需要修改任何已有的結構,就可以很容易的實現(xiàn)擴展;三是高效性,Hadoop 核心設計中的HDFS 所具備的高效數(shù)據(jù)交互機制為高效處理海量的數(shù)據(jù)信息提供了重要的技術支撐;四是可靠性,Hadoop 核心設計中的MapReduce 所實現(xiàn)的任務監(jiān)控機制確保了Hadoop 框架分布式處理的可靠性,另外HDFS 的備份恢復機制又更好的確保了數(shù)據(jù)的可靠性。
2.2 Hadoop 的核心設計分析
(1)Hadoop 分布式文件系統(tǒng)(HDFS)。HDFS 體系的底部是Hadoop 分布式文件系統(tǒng)的存儲節(jié)點,所有的文件存儲在Hadoop 集群節(jié)點都存儲在這里。從外部客戶的角度來看,HDFS 像傳統(tǒng)的分層文件系統(tǒng)。客戶可以任意創(chuàng)建、刪除、移動或重命名文件等。但HDFS 的架構是基于節(jié)點構造的一個特定的設置,這是由其自身的特點決定的。這些節(jié)點包括NameNode(只有一個),NameNode 是不同的機器上涉及到HDFS 運行的一個通常的軟件,它負責訪問文件系統(tǒng)名稱空間和控制外部客戶的管理,因為只有一個NameNode 節(jié)點,所以HDFS 容易出現(xiàn)單點故障的問題,這是HDFS 的一個重要缺陷;數(shù)據(jù)節(jié)點(DataNode),當服務器從HDFS 客戶端上獲得讀寫請求的響應時,這些數(shù)據(jù)節(jié)點就可以根據(jù)這個報告完成塊映射和其他文件系統(tǒng)元數(shù)據(jù)驗證。
HDFS 的主要任務是要保證客戶能夠以流的形式訪問寫入的文件。其中,HDFS 的工作原理如下:客戶預想將文件寫到HDFS 上時,先將該文件緩存到本地的臨時存儲中。如果所需的HDFS 塊的大小不能滿足緩存數(shù)據(jù)的實際需求時,需要借助NameNode 和DataNode 來創(chuàng)建額外的文件存儲塊,其中NameNode 用于相應創(chuàng)建文件的請求,DataNode 用以標識保存額外所需文件塊副本的 存儲塊。在完成以上操作的基礎上,客戶就可以將臨時文件借助NameNode 和DataNode 通過管道方式將文件塊內(nèi)容不斷寫到 HDFS 上。在最后的文件塊發(fā)送之后,NameNode 將文件創(chuàng)建提交到它的持久化元數(shù)據(jù)存儲,這樣客戶就能夠以流的形式訪問寫入的文件。
(2)MapReduce。MapReduce 是一個編程模型和處理產(chǎn)生大數(shù)據(jù)集的相關實現(xiàn)。用戶指定一個map 函數(shù)處理一個
key/value 對,從而產(chǎn)生中間的key/value 對集。然后再指定一個reduce 函數(shù)合并所有的具有相同中間key 的中間value。
3 基于Hadoop 的云存儲系統(tǒng)的實現(xiàn)
3.1 基于Hadoop 的云存儲系統(tǒng)結構。基于Hadoop 的云存儲系統(tǒng)主要由客戶端、Web 操作系統(tǒng)、eyeOS、云服務器以及云存儲中心組成。
(1)客戶端。系統(tǒng)的前端即客戶端,客戶端可以通過網(wǎng)頁瀏覽器來便捷的訪問云存儲系統(tǒng)。
(2)云端服務器。基于Hadoop 的云端服務器主要有一系列的云存儲中心所構成,云端服務器主要負責文件系統(tǒng)名稱空間的管理以及外部訪問云存儲系統(tǒng)客戶的管理。
(3)web 操作系統(tǒng)。它主要負責接收來自客戶端的各種訪問請求,eyeOS 作為web 操作系統(tǒng)的核心,為客戶提供了大量的應用程序,客戶可以結合自己的實際需求下載這些應用程序,從而可以有效實現(xiàn)客戶端系統(tǒng)的個性化配置。
(4)云存儲中心。云存儲中心是由大量的基于Hadoop 數(shù)據(jù)節(jié)點的服務器所組成的,主要用于實現(xiàn)文件數(shù)據(jù)信息的分布式存儲。
3.2 基于Hadoop 的云存儲系統(tǒng)文件操作的實現(xiàn)。基于Hadoop 的云存儲系統(tǒng)文件操作基本上可分為兩類:即讀文件讀和寫文件?蛻粢x一個文件,需要把該文件下載到本地,通過應用軟件和網(wǎng)絡操作系統(tǒng),將文件處理后顯示給用戶;如果要對文件進行修改和保存的寫操作,需要通過網(wǎng)絡操作系統(tǒng)將要修改和保存的本地文件上傳到云存儲系統(tǒng)。
讀文件的流程如下:
(1)客戶端通過瀏覽器訪問Web操作系統(tǒng),通過發(fā)出雙擊文件圖標的驅(qū)動事件請求借助eyeOS 向Hadoop 的管理節(jié)點發(fā)出獲取文件請求。
(2)管理節(jié)點將查找到的客戶端請求的相應文件信息通過數(shù)據(jù)節(jié)點發(fā)送到客戶
(3)客戶端將接受的數(shù)據(jù)信息合并成一個文件后借助與文件關聯(lián)的應用程序來顯示文件信息 從而完成文件的讀操作。
寫文件的流程如下:
(1)客戶端瀏覽器通過web 操作系統(tǒng)借助eyeOS 向Hadoop 的管理節(jié)點發(fā)出上傳文件請求。
(2)管理節(jié)點接收到客戶端的文件上傳請求后,根據(jù)客戶請求要上傳文件的大小合理分配存儲空間。
(3)客戶將要上傳的文件上傳至云存儲系統(tǒng)中,完成文件的寫操作。
Hadoop 作為一個在集群上運行大型數(shù)據(jù)庫處理應用程序的開放式源代碼框架。它是通過Google 的MapReduce 編程范例來創(chuàng)建并執(zhí)行的應用程序,在很多大型企業(yè)網(wǎng)站上都已經(jīng)得到了應用,可以說是目前最為廣泛應用的開源云計算軟件平臺,它在企業(yè)云存儲系統(tǒng)構建中的應用,更是促進了當前企業(yè)信息化管理的發(fā)展。相信隨著越來越多的全球IT 產(chǎn)業(yè)巨頭不斷加入云計算的陣營,基于Hadoop的云存儲技術將勢必會變成一個巨大的全球產(chǎn)業(yè),改技術的不斷發(fā)展和成熟將為企業(yè)信息管理中實現(xiàn)企業(yè)管理信息系統(tǒng)的高性能和低功耗提供有力的保證。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文網(wǎng)址:http://www.oesoe.com/html/support/1112159862.html