近年來,隨著信息系統(tǒng)數(shù)量的快速增長,傳統(tǒng)基于B/S或C/S結(jié)構(gòu)的信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng)已經(jīng)遠遠不能滿足眾多數(shù)據(jù)同時查詢、存取海量檢測信息,以及快速從中對系統(tǒng)數(shù)據(jù)采集分析的基本訴求。而云計算作為多種計算機與網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,具有高效、廉價、容錯、易部署和擴展等特點,能夠從根本上解決傳統(tǒng)車輛檢測系統(tǒng)面臨的諸多問題。本文將從云計算三個層次的服務(wù)模式出發(fā),采用Hadoop開源云計算平臺以及并行數(shù)據(jù)流系綜分類挖掘算法對原有系統(tǒng)進行改造,設(shè)計出信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng),為云計算系統(tǒng)的部署和實施提供了實例參考。
1、相關(guān)知識
云計算是分布式計算、并行計算和網(wǎng)格計算的發(fā)展,是這些計算機科學(xué)技術(shù)的商業(yè)表現(xiàn)形式。它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算能力、存儲空間和各種軟件服到引。根據(jù)云計算提供服務(wù)的層次可將它的服務(wù)模式分為3種即IaaS基礎(chǔ)設(shè)施即服務(wù)、PaaS平臺即服務(wù)、SaaS軟件即服務(wù)。
Hadoop云計算框架是由Apache基金會設(shè)計的開源分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,這樣就可以充分利用集群的能力進行高速運算和存儲,從技術(shù)層面上,Hadoop由兩項關(guān)鍵服務(wù)構(gòu)成:采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲服務(wù),以及利用一種叫做MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)。
2、系統(tǒng)的研究與設(shè)計
云計算系統(tǒng)提供服務(wù)是以IaaS、Paas、SaaS3種模式進行,本文的設(shè)計思路是以Hadoop平臺提供的HDFS、MapReduce分別對應(yīng)laas、PaaS,并且由SOA體系架構(gòu)中的web服務(wù)技術(shù)提供SaaS服務(wù)。系統(tǒng)總體架構(gòu)如圖1所示:
	
圖 1 云計算檢測系統(tǒng)總體設(shè)計
2.1 IaaS
經(jīng)過現(xiàn)場勘察,現(xiàn)有的信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng)是基于B/S結(jié)構(gòu)的,利用一臺運行Oracle數(shù)據(jù)庫的IBM P6-550服務(wù)器作為數(shù)據(jù)中心,一臺DELL PowerEdge SCl425服務(wù)器用作數(shù)據(jù)的備份和系統(tǒng)繁忙時分流,其它集群服務(wù)器提供決策支持、實時視頻監(jiān)控、安全接入驗證等服務(wù)。這種系統(tǒng)架構(gòu)的弊端在于:當檢測高峰時段來臨,大量信息系統(tǒng)產(chǎn)生的數(shù)據(jù)需要同時讀寫、查詢與傳輸,這對于數(shù)據(jù)中心和專用網(wǎng)絡(luò)的壓力顯然是巨大的,且極易產(chǎn)生系統(tǒng)癱瘓、讀寫錯誤等事故。
為滿足系統(tǒng)要求,本文選取HDFS作為底層基礎(chǔ)設(shè)施服務(wù),利用其高容錯性、快速訪問及傳輸數(shù)據(jù)的特點,將其部署在電網(wǎng)信息中心服務(wù)器集群之上,具體方案參照HDFS指南如圖2所示:
	
	圖 2 HDFS部署示意圖
我們選取集群當中一臺中心服務(wù)器作為NameNode節(jié)點,負責(zé)保存以及管理元數(shù)據(jù),執(zhí)行文件系統(tǒng)的namespace操作和客戶端對數(shù)據(jù)的訪問。其余集群服務(wù)器作為DataNode節(jié)點,僅需要管理各自節(jié)點上的block數(shù)據(jù)塊并等待NameNode節(jié)點的指示完成打開、關(guān)閉、復(fù)制、刪除等等數(shù)據(jù)操作即可。這樣做不但降低了數(shù)據(jù)中心的負擔,也可以更加合理的利用集群中的剩余計算及存儲資源,從而提高了數(shù)據(jù)處理效率,增強r數(shù)據(jù)的容錯性。
2.2 PaaS
云計算系統(tǒng)最核心的技術(shù)是并行汁算,為了能夠讓用戶更方便地獲取云服務(wù),Hadoop云計算平臺采用了開源的Google MapReduce計算模型提供PaaS服務(wù)。
由于原有的信息系統(tǒng)很大程度上依賴于人工從檢測數(shù)據(jù)上判斷系統(tǒng)是否符合標準,再由工作人員將結(jié)果錄入系統(tǒng)傳回中心服務(wù)器數(shù)據(jù)庫。這樣不但浪費了大量的人力物力,而且檢測結(jié)果的準確性和可信性也會隨之大打折扣。
通過分析,系統(tǒng)信息具有海量、快速到達等數(shù)據(jù)流特征,采用數(shù)據(jù)流分類挖掘算法自動將被測信息系統(tǒng)分為合格與不合格兩類是可行的。
分類器系綜算法采用訓(xùn)練一系列分類器,根據(jù)其在待分類數(shù)據(jù)上的分類準確率作為權(quán)值,并保留權(quán)值最高的n個分類器,最終加權(quán)投票做出決策。Wang等人在文獻中不但證明了系綜分類在提高分類精度方面的有效性,還同時提出的基于動態(tài)權(quán)重的數(shù)據(jù)流系綜分類算法,但執(zhí)行效率遠不能滿足多檢測線并行檢測的實際問題。為此,引入Hadoop云計算平臺中的MapReduce編程模型并行優(yōu)化基于權(quán)重的數(shù)據(jù)流系綜分類算法,自動完成輔助決策任務(wù)。
算法的執(zhí)行流程為:
(1)將采集的系統(tǒng)信息數(shù)據(jù)流采樣作為訓(xùn)練數(shù)據(jù)并劃分成規(guī)模相當?shù)膎個數(shù)據(jù)塊。
(2)并行在這n個塊上訓(xùn)練出n個基分類器,對每個塊做格式化操作解析出<keyl,valuel>對,在此處<keyl,valuel>等價于<Block,Classifier>,其中Block為塊號,Classifier為基礎(chǔ)分類器。
(3)啟用Master分配進程將n個訓(xùn)練數(shù)據(jù)塊分別發(fā)送至分配了Map任務(wù)的n個結(jié)點,并將新到的待分類數(shù)據(jù)塊放入公共資源池。每個分配了Map任務(wù)的節(jié)點收到<Block,Classifier>后,并行計算各自的分類器在待分類數(shù)據(jù)塊上的MSEr(出錯門限值)、MSEt(均方誤差)以及權(quán)值w=MSEr-MSE,,同時產(chǎn)生中問鍵值對<Classifier,w>(注:Classifier為分類器名稱,w為權(quán)值)
(4)最后由分配了Reduce任務(wù)的節(jié)點接收步驟(3)中產(chǎn)生的<Classifier,w>鍵值對,并調(diào)用加權(quán)投票算法得到用于分類的最優(yōu)分類器。
由上述的算法分析可知,算法采用多數(shù)據(jù)塊并行產(chǎn)生分類器,故算法的時間復(fù)雜度僅為原算法的l/n,大大縮短了自動決策的處理時間,提升了效率。
雖然算法對于信息系統(tǒng)數(shù)據(jù)流的分類精度很高,但實際應(yīng)用中需要輔助決策能夠達到極小的分類出錯率,故本文設(shè)計了單獨的數(shù)據(jù)重分類進程。當數(shù)據(jù)流存入數(shù)據(jù)中心數(shù)據(jù)庫時,利用靜態(tài)數(shù)據(jù)分類挖掘算法離線多遍掃描數(shù)據(jù)來驗證決策的正確性。
2.3 SaaS
云計算作為新一代計算技術(shù),它的服務(wù)交付模式也與以往有很大不同。在SaaS這一層次,系統(tǒng)需要按照用戶需求提供相應(yīng)的服務(wù)模式,也就是說將服務(wù)遍布于云內(nèi)形成服務(wù)集群。而由web服務(wù)構(gòu)建的SOA服務(wù)體系架構(gòu),有利于整合技術(shù)平臺、統(tǒng)一技術(shù)標準,符合SaaS服務(wù)模式的內(nèi)在邏輯和基本訴求。本文設(shè)計的SaaS服務(wù)層次是以web服務(wù)作為基本技術(shù),采用SOAP協(xié)議在web服務(wù)之間傳遞XML格式的檢測信息,同時由wsdl描述web服務(wù)的接口,并提供服務(wù)之間的調(diào)用方法。構(gòu)建SOA服務(wù)體系架構(gòu)示意圖如圖3所示:
	
	圖 3 SOA服務(wù)體系架構(gòu)
參照上圖,流程表述如下:
(1)無論是監(jiān)查主機還是監(jiān)測主機都要先將經(jīng)過MD5加密認證的用戶名以及密碼以SOAP協(xié)議封裝,并通過總線云提供的WSDL接口找到身份安全認證服務(wù)WSDL接口將消息傳遞進去。身份安全認證服務(wù)解封裝后根據(jù)用戶類別賦予用戶相應(yīng)的權(quán)限,許可訪問云系統(tǒng)。
(2)當監(jiān)測主機接收到設(shè)備傳同的數(shù)據(jù)后,將監(jiān)測數(shù)據(jù)和存儲控制命令以xml格式存儲并封裝在SOAP協(xié)議中,通過云服務(wù)總線wsdl接口傳送到數(shù)據(jù)操作服務(wù)wsdl接口,并由數(shù)據(jù)操作服務(wù)將消息解封裝并提取xml中的數(shù)據(jù)進行存儲操作。
(3)監(jiān)測主機發(fā)出以SOAP協(xié)議封裝的自動輔助決策請求,通過云服務(wù)總線的中轉(zhuǎn)將消息轉(zhuǎn)發(fā)給輔助決策服務(wù)。接到請求后,輔助決策服務(wù)通過云服務(wù)總線向數(shù)據(jù)操作服務(wù)發(fā)送提取監(jiān)測數(shù)據(jù)操作請求(SOAP協(xié)議封裝的消息),數(shù)據(jù)操作服務(wù)提供相應(yīng)服務(wù)并以xml格式化數(shù)據(jù)傳給輔助決策服務(wù),最后由輔助決策服務(wù)將系綜分類結(jié)果傳回監(jiān)測主機。
(4)監(jiān)測主機接收到所有預(yù)打印數(shù)據(jù)后,將數(shù)據(jù)xml格式化通過云服務(wù)總線傳給自助打印服務(wù),自助打印服務(wù)提取數(shù)據(jù),經(jīng)過表格標準化、餃驗、備份,添加打印控制命令,傳回監(jiān)測主機實施打印結(jié)果.
(5)監(jiān)察主機可以通過云服務(wù)總線監(jiān)察整個云服務(wù)的行個方面,并擁有修改、增添、終止個服務(wù)的權(quán)限。
3、實例應(yīng)用與分析
為了驗汪設(shè)計方案的實際應(yīng)用效果,本文以某電網(wǎng)信息數(shù)據(jù)采集分析系統(tǒng)為例,將數(shù)據(jù)分析采集服務(wù)平穩(wěn)移植到云計算平臺卜,并對云服務(wù)檢測系統(tǒng)進行了實地部署和分析。
3.1系統(tǒng)開發(fā)軟硬件配置
本文采用MyEclipse8.0作為開發(fā)平臺,利用其自帶的Xfire構(gòu)建web服務(wù),在WebSphere Application Server 5.0上發(fā)布服務(wù)形成云服務(wù)總線。云計算平臺運行近期比較穩(wěn)定的Hadoop 0.20.0版本,用MapReduce編程模型改進MOA中提供的基于權(quán)重的數(shù)據(jù)流系綜分類算法。底層運行Oracle數(shù)據(jù)庫提供數(shù)據(jù)服務(wù)。
硬件方面原系統(tǒng)采用10臺服務(wù)器集群的方案,其中中心服務(wù)器采用IBM P6-550基本配置為:2個3.5GHZPOWER6處理器、8G DDR2內(nèi)存以及2個146G SCSI接口硬盤,其余為戴爾、聯(lián)想等品牌服務(wù)器。
4、總結(jié)
本文提出了基于云計算理論的信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng),能夠?qū)⒃朴嬎愫妥詣踊瘷z測技術(shù)相結(jié)合,為自動化檢測平臺提供高效、準確、安全、靈活的解決方案,為云計算平臺的研究提供了現(xiàn)實依據(jù)。目前該采集分析系統(tǒng)已成功運行于電網(wǎng)系統(tǒng)信息采集工作中并得到用戶的認可,旺明其具有極高的推廣應(yīng)用價值。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標題:基于云計算的數(shù)據(jù)采集分析系統(tǒng)
本文網(wǎng)址:http://www.oesoe.com/html/consultation/10839715897.html



 
	

 相關(guān)文章
  相關(guān)文章
 






















 
  
  
  
  
  
  
  
 