眾所周知,這是一個(gè)信息時(shí)代———即充滿數(shù)據(jù)的時(shí)代。隨著
物聯(lián)網(wǎng)的應(yīng)用與發(fā)展,人們突然發(fā)現(xiàn)(事實(shí)上早就存在),數(shù)據(jù)量幾乎成指數(shù)級(jí)增長。有這樣一組數(shù)據(jù):全球每天有43 億部電話和20 億位互聯(lián)網(wǎng)用戶在生成數(shù)據(jù),并與300 億個(gè)RFID 標(biāo)簽和數(shù)百顆人造衛(wèi)星每秒都在不斷發(fā)送更多信號(hào)融合在一起,其中,Twitter 每天就會(huì)增加12 TB 的數(shù)據(jù)———全文本,且每次最多添加140 個(gè)字符,而這只是數(shù)據(jù)在數(shù)量級(jí)上對(duì)大家的一種沖擊。本文將從以下幾個(gè)部分就大數(shù)據(jù)進(jìn)行討論。
1 大數(shù)據(jù)來源及數(shù)量
提到數(shù)據(jù),相信IT從業(yè)人員首先想到的是數(shù)據(jù)庫、數(shù)據(jù)倉庫等技術(shù),畢竟這是一種至今仍然十分流行且占據(jù)主導(dǎo)地位的技術(shù)。但請(qǐng)記住,這些技術(shù)是構(gòu)建在關(guān)系型數(shù)據(jù)庫理論基礎(chǔ)上的,具有明顯的結(jié)構(gòu)化特征,換言之,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫中的數(shù)據(jù)是我們通過分析、建模之后篩選之后出來的、自認(rèn)為有意義的數(shù)據(jù)。而在這個(gè)過程中,已經(jīng)摒棄掉了許多自認(rèn)為無意義的數(shù)據(jù),真的沒有意義嗎?答案當(dāng)然是否定的。但為什么要摒棄呢?原因很簡(jiǎn)單,以前的技術(shù)條件不允許存儲(chǔ)如此龐大的數(shù)據(jù)量。
隨著
物聯(lián)網(wǎng)概念的提出、應(yīng)用和發(fā)展,每天從RFID、傳感器、控制器、智能設(shè)備中都會(huì)產(chǎn)生海量數(shù)據(jù)。據(jù)統(tǒng)計(jì),在2000 年,全球存儲(chǔ)了800 000 PB 的數(shù)據(jù);預(yù)計(jì)到2020 年,這一數(shù)字會(huì)達(dá)到35 ZB[3]。所以,可以得出這樣的結(jié)論:大數(shù)據(jù)從來就是存在的,只是因?yàn)榧夹g(shù)條件的限制而沒有重視或是故意規(guī)避而已。
2 大數(shù)據(jù)類型
以前保存的數(shù)據(jù)類型主要是結(jié)構(gòu)化數(shù)據(jù)。然而,并非所有的數(shù)據(jù)都是可以結(jié)構(gòu)化的,據(jù)統(tǒng)計(jì),可結(jié)構(gòu)化數(shù)據(jù)———即可以存儲(chǔ)在數(shù)據(jù)庫等傳統(tǒng)系統(tǒng)(主要是指關(guān)系型數(shù)據(jù)庫產(chǎn)品)中的數(shù)據(jù)占數(shù)據(jù)總量的20%左右;其他80%的數(shù)據(jù)不能至少是不便于存儲(chǔ)于傳統(tǒng)的系統(tǒng)中,因?yàn)槠浣Y(jié)構(gòu)形式是非結(jié)構(gòu)化的或者是半結(jié)構(gòu)化的(如文本、傳感器數(shù)據(jù)、音頻、視頻、事務(wù)及地震模型類的動(dòng)態(tài)數(shù)據(jù)等非關(guān)系型數(shù)據(jù))。
所以,從這個(gè)角度上來講,大數(shù)據(jù)的類型從結(jié)構(gòu)類型入手可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)3類。
3 大數(shù)據(jù)處理速度及方式
面對(duì)如此龐大的數(shù)據(jù)量、以及豐富(至少不再是單一的)的數(shù)據(jù),不難想像,對(duì)于這些數(shù)據(jù)的處理速度將會(huì)成為企業(yè)應(yīng)用、洞察關(guān)鍵事件的瓶頸。盡管目前還沒有得到具體的可度量的值來說明這個(gè)問題,但換個(gè)角度來考慮,就日常工作中所使用的存儲(chǔ)器的存儲(chǔ)能力、CPU 頻率的變化及不高的工作效率,就完全可以說明數(shù)據(jù)增長速率對(duì)數(shù)據(jù)處理速度的影響。
建議換個(gè)角度來考慮這個(gè)問題。隨著
物聯(lián)網(wǎng)時(shí)代的到來,RFID、傳感器等產(chǎn)生的信息流將導(dǎo)致產(chǎn)生大量的傳統(tǒng)系統(tǒng)無法處理的持續(xù)數(shù)據(jù)流。請(qǐng)牢記一點(diǎn),現(xiàn)在處理的是PB 級(jí)的數(shù)據(jù)流,而非TB 級(jí)的,將來要處理的是ZB 級(jí)甚至有可能更高。所以,需要考慮針對(duì)數(shù)據(jù)產(chǎn)生、流動(dòng)的速度而進(jìn)行的數(shù)據(jù)處理方式的變革,如流數(shù)據(jù)處理;不再是單純地處理傳統(tǒng)系統(tǒng)中的批量數(shù)據(jù)。
4 大數(shù)據(jù)模型
大數(shù)據(jù)的本質(zhì)構(gòu)建如圖1 所示。
圖1 大數(shù)據(jù)模型
從圖1 模型不難看出,大數(shù)據(jù)從本質(zhì)上來講包含數(shù)量、類型、速度3 個(gè)維度的問題,事實(shí)上,要想從根本上區(qū)別這3 個(gè)維度是不可能的。因?yàn),大?shù)據(jù)概念的提出是源于技術(shù)的發(fā)展:首先,以前的存儲(chǔ)器技術(shù)不可能支持如此海量數(shù)據(jù)的存在;隨著存儲(chǔ)器技術(shù)的發(fā)展,才使得海量數(shù)據(jù)的存儲(chǔ)逐漸成為可能,但也帶來了另外一個(gè)問題———數(shù)據(jù)存儲(chǔ)類型豐富起來;隨著數(shù)據(jù)存儲(chǔ)類型的豐富及數(shù)據(jù)的增長速度加速問題,導(dǎo)致了處理數(shù)據(jù)速度的問題,從而引起了處理數(shù)據(jù)技術(shù)的革命性變革。
5 大數(shù)據(jù)處理技術(shù)及策略
近年來,關(guān)于大數(shù)據(jù)處理技術(shù)的探討一直不斷,這方面最具代表性的就是Hadoop 框架 ,其本質(zhì)是一個(gè)用于分析大數(shù)據(jù)集的機(jī)制,不一定位于數(shù)據(jù)存儲(chǔ)中,可以擴(kuò)展到無數(shù)個(gè)節(jié)點(diǎn),處理所有活動(dòng)和相關(guān)數(shù)據(jù)存儲(chǔ)的協(xié)調(diào)。Hadoop 方法建立功能到數(shù)據(jù)的模型,而非傳統(tǒng)的數(shù)據(jù)到功能的模型,這樣就可以從可擴(kuò)展性和分析的角度發(fā)現(xiàn)曾經(jīng)幾乎不可能的大數(shù)據(jù)處理變成可能。
由于Hadoop 布署的復(fù)雜性及不穩(wěn)定性,使其應(yīng)用到目前為止還不是十分廣泛,但無論如何,其為大數(shù)據(jù)處理提供了一種途徑和方式。IBM在Hadoop 的基礎(chǔ)上發(fā)展了GPFS(General Parallel File System,通用并行文件系統(tǒng))無共享集群及相關(guān)技術(shù),提升了靜止大數(shù)據(jù)處理效率;此外,還提出了SPL(StreamsProcessing Language,流處理語言),使得對(duì)流數(shù)據(jù)的處理成為現(xiàn)實(shí)并大大提升了實(shí)際工作效率。
針對(duì)處理大數(shù)據(jù)技術(shù),得出圖2 所示的大數(shù)據(jù)處理策略。
圖2 大數(shù)據(jù)處理策略
如圖2所示,對(duì)于大數(shù)據(jù)的處理策略可作如下理解:①按照類型進(jìn)行分類處理;②對(duì)分類數(shù)據(jù)進(jìn)行分類存儲(chǔ)或流處理;③對(duì)經(jīng)流處理的非結(jié)構(gòu)化存儲(chǔ)部分可轉(zhuǎn)存到傳統(tǒng)存儲(chǔ)系統(tǒng),也可直接生成數(shù)據(jù)應(yīng)用;④對(duì)傳統(tǒng)存儲(chǔ)系統(tǒng)進(jìn)行批量處理生成數(shù)據(jù)應(yīng)用。
6 結(jié)束語
就大數(shù)據(jù)的來源、數(shù)量、類型、處理速度、處理方式等方面對(duì)大數(shù)據(jù)進(jìn)行了探討,給出了大數(shù)據(jù)模型;同時(shí)對(duì)大數(shù)據(jù)模型的3個(gè)維度進(jìn)行解析,并簡(jiǎn)單介紹了大數(shù)據(jù)處理技術(shù)。對(duì)于數(shù)據(jù)工作者,尤其是數(shù)據(jù)分析師關(guān)注的對(duì)象及處理技術(shù)和策略有一定的引導(dǎo)作用。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:解析大數(shù)據(jù)
本文網(wǎng)址:http://www.oesoe.com/html/support/11121810361.html