1 大數(shù)據(jù)時代的來臨
隨著通信行業(yè)競爭的不斷加劇,運營商如何有效地利用龐大的信令數(shù)據(jù)進一步實現(xiàn)深度運營和精確營銷已經(jīng)成為當(dāng)務(wù)之急,急需一種可控投入就可滿足可控信令數(shù)據(jù)存儲,并能高效地對其分析、挖掘信令數(shù)據(jù)價值的數(shù)據(jù)平臺。Big Data”大數(shù)據(jù)”是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,對國家治理模式,對企業(yè)決策、組織和業(yè)務(wù)流程,對個人生活方式都將產(chǎn)生巨大的影響。在研究領(lǐng)域,麥肯錫認(rèn)為,數(shù)據(jù)已成為流入全球經(jīng)濟每一個領(lǐng)域的洪流。大數(shù)據(jù)完全能夠成為企業(yè)的新型資產(chǎn),形成競爭力的重要基礎(chǔ),并發(fā)揮重要的經(jīng)濟作用。IDC認(rèn)為,大數(shù)據(jù)處理將在2012年成為一項必備能力。Gartner認(rèn)為,2015年超過85%的財富500強企業(yè)將在大數(shù)據(jù)競爭中失去優(yōu)勢。2012年3月,奧巴馬政府發(fā)布了“大數(shù)據(jù)發(fā)展計劃”,并將其定義為“未來的新石油”。這一系列事件使得大數(shù)據(jù)成為又一個炙手可熱的名詞。
電信運營商引入大數(shù)據(jù)技術(shù),通過可控的成本實現(xiàn)海量數(shù)據(jù)存儲分層的同時,通過縮短數(shù)據(jù)處理路徑和提供超大數(shù)據(jù)處理帶寬,有效減少數(shù)據(jù)分析響應(yīng)時間,提升信令分析的業(yè)務(wù)價值,增強運營商核心競爭力。
2 大數(shù)據(jù)時代面臨的挑戰(zhàn)
2.1 大數(shù)據(jù)概念
(1) 數(shù)據(jù)規(guī)模大:很難給出一個絕對的數(shù)字標(biāo)準(zhǔn)來確定大小,可能用一些模糊的感覺來相對比較;
(2) 數(shù)據(jù)結(jié)構(gòu)復(fù)雜度高:復(fù)雜的數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)能夠傳遞更豐富的信息;
(3) 數(shù)據(jù)關(guān)聯(lián)度高:數(shù)據(jù)關(guān)聯(lián)度的高低關(guān)系到數(shù)據(jù)的可挖掘程度,如果數(shù)據(jù)關(guān)聯(lián)度低,無論數(shù)據(jù)量如何大,結(jié)構(gòu)如何復(fù)雜,也形成不了大數(shù)據(jù)。
2.2 大數(shù)據(jù)時代面臨的問題
(1) 簡單的腳本語言預(yù)處理,無法解析過于復(fù)雜的數(shù)據(jù)結(jié)構(gòu);
(2) 關(guān)系型數(shù)據(jù)庫在大數(shù)據(jù)面前面臨尷尬;
(3) 商業(yè)數(shù)據(jù)庫的優(yōu)化空間有限;
(4) 數(shù)據(jù)質(zhì)量無法做到有效監(jiān)控;
(5) 越來越多的業(yè)務(wù)需求向數(shù)據(jù)運算能力妥協(xié)。
3 基于云計算的大數(shù)據(jù)方案研究與設(shè)計
3.1 大數(shù)據(jù)統(tǒng)一分析平臺設(shè)計思路
圖1 大數(shù)據(jù)平臺體系架構(gòu)
(1) 在企業(yè)內(nèi)構(gòu)建統(tǒng)一的數(shù)據(jù)運算平臺;
(2) 企業(yè)所有者可以直接控制其數(shù)據(jù)實例;
(3) 通過實體整合直接提供企業(yè)級的數(shù)據(jù)訪問功能;
(4) 靈活的擴展和配置降低了投資的平均風(fēng)險。
3.2 大數(shù)據(jù)統(tǒng)一分析平臺軟件架構(gòu)
圖2 大數(shù)據(jù)平臺與傳統(tǒng)方案架構(gòu)比較
云時代的大數(shù)據(jù)平臺不僅以高性價比、高擴展性的硬件體系支撐PB級別,甚至ZB級別的海量結(jié)構(gòu)化、半結(jié)構(gòu)化、甚至非結(jié)構(gòu)化的數(shù)據(jù)存儲。同時還需要能夠高速的挖掘這些數(shù)據(jù)的價值,為企業(yè)創(chuàng)造利潤,真正實現(xiàn)大數(shù)據(jù)等于大價值。
基于云計算的大數(shù)據(jù)統(tǒng)一分析平臺結(jié)合數(shù)據(jù)庫存儲和Map Reduce架構(gòu)為企業(yè)構(gòu)建高效處理的結(jié)構(gòu)化、半結(jié)構(gòu)化、甚至非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)分析平臺,客戶可以以此平臺為基礎(chǔ)實現(xiàn)數(shù)據(jù)資產(chǎn)從成本中心到利潤中心的轉(zhuǎn)變,以數(shù)據(jù)驅(qū)動業(yè)務(wù)。
圖3 大數(shù)據(jù)統(tǒng)一分析平臺數(shù)據(jù)軟件架構(gòu)
(1) 軟件架構(gòu)
通過Master主機和多節(jié)點的Segment主機和數(shù)據(jù)庫通過互聯(lián)網(wǎng)絡(luò)連接。應(yīng)用程序通過Master主機訪問數(shù)據(jù),網(wǎng)絡(luò)中的每一個存儲節(jié)點都是獨立的數(shù)據(jù)庫,相互之間沒有共享。在多存儲節(jié)點和Master主機之間進行數(shù)據(jù)交換。各個節(jié)點的segment服務(wù)器通過互聯(lián)網(wǎng)絡(luò)進行連接,完成相同的任務(wù),從用戶的角度來看是一個服務(wù)器系統(tǒng)。
其基本特征是由segment服務(wù)器(每個segment服務(wù)器為節(jié)點)通過互聯(lián)網(wǎng)絡(luò)連接而成,每個節(jié)點只訪問自己的本地資源包括內(nèi)存、存儲等,是一種完全的無共享結(jié)構(gòu)(share-nothing),因而擴展能力最好,理論上期擴展無限制,目前的技術(shù)可實現(xiàn)512個節(jié)點的互聯(lián),數(shù)千個CPU。每個節(jié)點可運行自己的數(shù)據(jù)庫、操作系統(tǒng),但是每個節(jié)點不能訪問其他節(jié)點的內(nèi)存,節(jié)點之間的信息交互是通過節(jié)點互聯(lián)網(wǎng)實現(xiàn)的,這一過程稱為數(shù)據(jù)重分配。(2) 高可用性方案設(shè)計
圖4 大數(shù)據(jù)平臺高可用性架構(gòu)
Master主機與備Master主機采用一主一備方式同步進程,Master主機與多節(jié)點的Segment主機通過GE網(wǎng)絡(luò)進行連接,每一節(jié)點Segment主機上包含了主網(wǎng)段和鏡像網(wǎng)段兩份數(shù)據(jù),保障整個系統(tǒng)架構(gòu)的高可用性。
3.3 大數(shù)據(jù)統(tǒng)一分析平臺網(wǎng)絡(luò)架構(gòu)
(1) 目前的共享架構(gòu)方案
圖5 完全共享性架構(gòu)
“完全共享”體系局限于單一服務(wù)器(通常是價格比較昂貴的SMP服務(wù)器)。
圖6 共享磁盤架構(gòu)
“磁盤共享”體系允許系統(tǒng)帶有多個服務(wù)器,這些服務(wù)器與SAN或其它共享存儲設(shè)備相連。這種體系需要通過一個狹窄的數(shù)據(jù)管道將所有I/O信息過濾到昂貴的共享磁盤子系統(tǒng)。
從結(jié)構(gòu)上分析,采用“完全共享”或“磁盤共享”體系,其擴展性和性能受到相應(yīng)的限制。而且,通用磁盤共享體系復(fù)雜、脆弱,在處理萬億字節(jié)數(shù)據(jù)時難以勝任。
(2) share-nothing完全不共享架構(gòu)方案
圖7 “完全不共享”架構(gòu)
完全不共享架構(gòu)的磁盤SAN/FC網(wǎng)絡(luò)、網(wǎng)絡(luò)主機SAN/共享磁盤、通用數(shù)據(jù)庫等是針對OLTP處理功能設(shè)計的,在運行大量小規(guī)模交易查詢數(shù)據(jù)時效果最好。
在“完全不共享”體系下,在主機上規(guī)劃查詢項目,并將其分成若干部分在集群上并行執(zhí)行,所有通訊功能都在一個高寬帶網(wǎng)絡(luò)互連體系上實現(xiàn)。這種體系的一個重要優(yōu)勢就是每個節(jié)點都有一個通往本地磁盤的獨立高速通道,從而簡化了體系,并提供擴展性很好的并行掃描和查詢處理功能。
3.4 大數(shù)據(jù)統(tǒng)一分析平臺方案特點
(1) 數(shù)據(jù)保護-節(jié)點鏡像
圖8 大數(shù)據(jù)統(tǒng)一分析平臺數(shù)據(jù)保護
在大數(shù)據(jù)統(tǒng)一分析平臺中,只有Master主機保存了系統(tǒng)的元數(shù)據(jù),每一節(jié)點的Segment主機保存了用戶的部分?jǐn)?shù)據(jù),通過鏡像,Segment主機的鏡像數(shù)據(jù)保存在不同的Segment主機上。
比如:Segment主機1的主要數(shù)據(jù)版本1在Segment主機1,它的鏡像數(shù)據(jù)保存在Segment主機n;Segment主機2的主要數(shù)據(jù)版本2在Segment主機2,它的鏡像數(shù)據(jù)保存在Segment主機1;Segment主機n的主要版本數(shù)據(jù)在Segment主機n,它的鏡像數(shù)據(jù)保存在Segment主機2;
根據(jù)這樣的鏡像配置,如果有Segment主機down機了,仍舊可以從其他節(jié)點的Segment主機恢復(fù)完整的可用數(shù)據(jù)到本Segment主機數(shù)據(jù)庫系統(tǒng)。
(2) 基于外部表的高速數(shù)據(jù)加載
圖9 大數(shù)據(jù)統(tǒng)一分析平臺外部表加載
①并行數(shù)據(jù)流引擎,可以直接用SQL操作外部表;
②加載完全并行,加載速度可達4.5TB/小時。
(3) MapReduce & SQL一體環(huán)境
與傳統(tǒng)的RDBMS系統(tǒng)和編程環(huán)境不同,大數(shù)據(jù)分析平臺采用MapReduce & SQL一體化的環(huán)境。
(4) 私有云計算平臺
硬件采用X86開放架構(gòu)的PC服務(wù)器,數(shù)據(jù)分布式存儲和采用大規(guī)模并行計算,從根本上解決I/O問題,性能線性擴展,高可用保障,資源按需定制。
3.5 大數(shù)據(jù)統(tǒng)一分析平臺優(yōu)勢分析
(1) 允許根據(jù)業(yè)務(wù)優(yōu)先級按需調(diào)配和再分配大量計算資源的敏捷性;
(2) 能夠分析更細化、更多元化的低延遲數(shù)據(jù)集(大數(shù)據(jù)),同時保留數(shù)據(jù)內(nèi)的細微區(qū)別和關(guān)系,以便得出有利于優(yōu)化業(yè)務(wù)績效的差異化洞見點;
(3) 圍繞關(guān)鍵業(yè)務(wù)計劃展開組織范圍的協(xié)作,快速傳播最佳做法和組織發(fā)現(xiàn)的結(jié)果;
(4) 成本優(yōu)勢:可以利用商品化處理組件來分析大數(shù)據(jù),從而利用以前即便能利用也不能經(jīng)濟高效的利用的業(yè)務(wù)機會。
基于云計算的大數(shù)據(jù)統(tǒng)一分析平臺將帶來可大幅擴展的處理容量,允許利用細粒度數(shù)據(jù)集,實現(xiàn)低延遲數(shù)據(jù)訪問以及緊密的數(shù)據(jù)倉庫和分析集成,為公司和企業(yè)提供有實際內(nèi)容并有可操作性的洞見點。
4 結(jié)束語
根據(jù)Gartner的預(yù)測,2012年大數(shù)據(jù)技術(shù)處于高速的發(fā)展時期,不斷取得技術(shù)上的突破,產(chǎn)品密集發(fā)布或者其他能產(chǎn)生重大利益的項目快速大量出現(xiàn)。基于云計算的大數(shù)據(jù)統(tǒng)一分析平臺將有效地支撐數(shù)據(jù)關(guān)聯(lián)度高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的數(shù)據(jù),有效支持PB級別數(shù)據(jù)、有效減少數(shù)據(jù)分析響應(yīng)時間,提升信令分析的業(yè)務(wù)價值。基于云計算的大數(shù)據(jù)統(tǒng)一分析平臺對電信運營商未來業(yè)務(wù)和技術(shù)的發(fā)展有重要的戰(zhàn)略意義和經(jīng)濟意義。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:基于云計算的大數(shù)據(jù)統(tǒng)一分析平臺研究與設(shè)計
本文網(wǎng)址:http://www.oesoe.com/html/support/1112159649.html