4.1.4 數(shù)據(jù)分析技術(shù)
數(shù)據(jù)分析是Google 最核心業(yè)務(wù),每一次簡(jiǎn)單的網(wǎng)絡(luò)點(diǎn)擊背后都需要進(jìn)行復(fù)雜的分析過(guò)程,因此Google對(duì)其分析系統(tǒng)進(jìn)行不斷的升級(jí)改造之中。MapReduce是Google最早采用的計(jì)算模型,適用于批處理,其具體內(nèi)容已在上一節(jié)介紹。圖是真實(shí)社會(huì)中廣泛存在的事物之間聯(lián)系的一種有效表示手段,因此對(duì)圖的計(jì)算是一種常見(jiàn)的計(jì)算模式,而圖計(jì)算會(huì)涉及到在相同數(shù)據(jù)上的不斷更新以及大量的消息傳遞,如果采用MapReduce去實(shí)現(xiàn),會(huì)產(chǎn)生大量不必要的序列化和反序列化開(kāi)銷,F(xiàn)有的圖計(jì)算系統(tǒng)并不適用于Google的應(yīng)用場(chǎng)景,因此Google 設(shè)計(jì)并實(shí)現(xiàn)了Pregel 圖計(jì)算模型。Pregel是Google 繼MapReduce 之后提出的又一個(gè)計(jì)算模型,與MapReduce 的離線批處理模式不同,它主要用于圖的計(jì)算。該模型的核心思想源于著名的BSP計(jì)算模型。Dremel是Google 提出的一個(gè)適用于Web 數(shù)據(jù)級(jí)別的交互式數(shù)據(jù)分析系統(tǒng),通過(guò)結(jié)合列存儲(chǔ)和多層次的查詢樹(shù),Dremel 能夠?qū)崿F(xiàn)極短時(shí)間內(nèi)的海量數(shù)據(jù)分析。Dremel 支持著Google 內(nèi)部的一些重要服務(wù),比如Google 的云端大數(shù)據(jù)分析平臺(tái)Big Query。Google 在VLDB 2012 發(fā)表的文章中介紹了一個(gè)內(nèi)部名稱為PowerDrill的分析工具,PowerDrill 同樣采用了列存儲(chǔ),且使用了壓縮技術(shù)將盡可能多的數(shù)據(jù)裝載進(jìn)內(nèi)存。PowerDrill 與Dremel 均是Google 的大數(shù)據(jù)分析工具,但是其關(guān)注的應(yīng)用場(chǎng)景不同,實(shí)現(xiàn)技術(shù)也有很大差異。Dremel 主要用于多數(shù)據(jù)集的分析,而PowerDrill 則主要應(yīng)用于大數(shù)據(jù)量的核心數(shù)據(jù)集分析,數(shù)據(jù)集的種類相較于Dremel 的應(yīng)用場(chǎng)景會(huì)少很多。由于PowerDrill 是設(shè)計(jì)用來(lái)處理少量的核心數(shù)據(jù)集,因此對(duì)數(shù)據(jù)處理速度要求極高,所以其數(shù)據(jù)應(yīng)當(dāng)盡可能的駐留在內(nèi)存,而Dremel 的數(shù)據(jù)則存儲(chǔ)在磁盤中。除此之外,PowerDrill 與Dremel 在數(shù)據(jù)模型、數(shù)據(jù)分區(qū)等方面都有明顯的差別。從實(shí)際的執(zhí)行效率來(lái)看, Dremel可以在幾秒內(nèi)處理PB 級(jí)的數(shù)據(jù)查詢,而PowerDrill 則可以在30 至40 秒里處理7820 億個(gè)單元格的數(shù)據(jù),處理速度快于Dremel。二者的應(yīng)用場(chǎng)景不同,可以相互補(bǔ)充。
微軟提出了一個(gè)類似MapReduce 的數(shù)據(jù)處理模型,稱之為Dryad,Dryad 模型主要用來(lái)構(gòu)建支持有向無(wú)環(huán)圖(Directed Acycline Graph,DAG)類型數(shù)據(jù)流的并行程序。Cascading通過(guò)對(duì)Hadoop MapReduce API 的封裝,支持有向無(wú)環(huán)圖類型的應(yīng)用。Sector/sphere可以視為一種流式的MapReduce,它由分布式文件系統(tǒng)Sector 和并行計(jì)算框架sphere 組成。Nephele/PACTs [68]則包括PACTs(Parallelization Contracts)編程模型和并行計(jì)算引擎Nephele。MapReduce 模型基本成為了批處理類應(yīng)用的標(biāo)準(zhǔn)處理模型,很多應(yīng)用開(kāi)始嘗試?yán)肕apReduce 加速其數(shù)據(jù)處理。
實(shí)時(shí)數(shù)據(jù)處理是大數(shù)據(jù)分析的一個(gè)核心需求。很多研究工作正是圍繞這一需求展開(kāi)的。前面介紹了大數(shù)據(jù)處理的兩種基本模式,而在實(shí)時(shí)處理的模式選擇中,主要有三種思路:
1) 采用流處理模式。雖然流處理模式天然適合實(shí)時(shí)處理系統(tǒng),但其適用領(lǐng)域相對(duì)有限。流處理模型的應(yīng)用主要集中在實(shí)時(shí)統(tǒng)計(jì)系統(tǒng)、在線狀態(tài)監(jiān)控等。
2) 采用批處理模式。近幾年來(lái),利用批處理模型開(kāi)發(fā)實(shí)時(shí)系統(tǒng)已經(jīng)成為研究熱點(diǎn)并取得了很多成果。從增量計(jì)算的角度出發(fā),Google 提出了增量處理系統(tǒng)Percolator,微軟則提出了Nectar和DryadInc。三者均實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)的增量計(jì)算,但是這些系統(tǒng)和MapReduce 并不兼容,因此Incoop和IncMR實(shí)現(xiàn)了MapReduce 框架下的增量計(jì)算。Yahoo 的Nova則支持有狀態(tài)的增量數(shù)據(jù)計(jì)算模式。HOP在MapReduce 處理的過(guò)程中引入管道(pipeline)的概念。在保證Hadoop 容錯(cuò)性的前提下,使數(shù)據(jù)在各個(gè)任務(wù)間以管道的方式交互,增加了任務(wù)的并發(fā)性,提高了數(shù)據(jù)處理的實(shí)時(shí)性。中國(guó)人民大學(xué)WAMDM 實(shí)驗(yàn)室在HOP 基礎(chǔ)上開(kāi)發(fā)的COLA 系統(tǒng)在HOP 系統(tǒng)的基礎(chǔ)上增加了數(shù)據(jù)采樣、結(jié)果估計(jì)、置信區(qū)間計(jì)算等功能模塊,一定程度上提高了HOP 的實(shí)時(shí)性。原位分析可以避免將文件集中傳輸?shù)椒治龇⻊?wù)器上的通訊開(kāi)銷,大大提高了實(shí)時(shí)性。和從原位分析的角度出發(fā),分別實(shí)現(xiàn)了針對(duì)大規(guī)模日志分析的原位MapReduce(In-situ MapReduce)和ContinuousMapReduce。原始的MapReduce 模型并不能很好的支持迭代計(jì)算,計(jì)算代價(jià)很大。而迭代計(jì)算是圖計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域常見(jiàn)的運(yùn)算模式,不少研究工作通過(guò)改進(jìn)MapReduce 模型迭代計(jì)算的效率來(lái)提高其實(shí)時(shí)性。HaLoop通過(guò)在各個(gè)task tracker 對(duì)數(shù)據(jù)進(jìn)行緩存(cache)和創(chuàng)建索引(index)的方式來(lái)減少磁盤IO,并提供了一套新的編程接口。但是HaLoop的動(dòng)靜態(tài)數(shù)據(jù)無(wú)法分離,且沒(méi)有一個(gè)客觀的停止迭代的標(biāo)準(zhǔn)。Twister系統(tǒng)將Hadoop 的全部數(shù)據(jù)存放在內(nèi)存中,采用獨(dú)立模塊傳遞所有的消息和數(shù)據(jù)。但是數(shù)據(jù)駐留內(nèi)存的限制使其難以實(shí)用,且其計(jì)算模型的抽象度不高,支持的應(yīng)用也很有限。Twister 仍處于初步的研究階段。
iMapReduce介紹了一種基于MapReduce 的迭代模型,但是它的靜態(tài)調(diào)度策略和粗粒度的task 可能會(huì)導(dǎo)致資源利用不佳和負(fù)載不均。iHadoop實(shí)現(xiàn)了MapReduce 的異步迭代,但是在task 之間的復(fù)用上并無(wú)太大改進(jìn)。PrIter是在Hadoop 的基礎(chǔ)上開(kāi)發(fā)的,支持帶優(yōu)先級(jí)的迭代計(jì)算,能夠保證迭代過(guò)程的快速收斂,適合top-k 之類的在線查詢。最新版本的PrIter 已經(jīng)支持基于內(nèi)存和基于文件的數(shù)據(jù)存儲(chǔ)方式。Spark將中間結(jié)果存放在內(nèi)存中,支持除Map 和Reduce 之外的多種操作類型。但是Spark 不適用異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用,同時(shí)在容錯(cuò)性方面有待提升。Facebook 結(jié)合自己的應(yīng)用場(chǎng)景構(gòu)建了實(shí)時(shí)的Hadoop 系統(tǒng),主要是實(shí)現(xiàn)了高可用的NameNode,對(duì)并發(fā)讀和實(shí)時(shí)負(fù)載性能進(jìn)行了優(yōu)化,改造HBase 使其適合真實(shí)的實(shí)時(shí)生產(chǎn)環(huán)境。
3) 二者的融合。有不少研究人員嘗試將流處理和批處理模式進(jìn)行融合,主要思路是利用MapReduce 模型實(shí)現(xiàn)流處理。DEDUCE 系統(tǒng)擴(kuò)展了IBM 的流處理軟件System S,使其支持MapReduce。C-MR 系統(tǒng) 通過(guò)3 個(gè)方面的工作實(shí)現(xiàn)了支持流處理的持續(xù)型MapReduce( Continuous-MapReduce):
a)將并行流處理中的窗口概念透明的擴(kuò)展到MapReduce 模型中;
b) 有效結(jié)合了包括CPU、GPU 在內(nèi)的多種異構(gòu)計(jì)算能力;
在Hadoop 系統(tǒng)基礎(chǔ)上進(jìn)行擴(kuò)展,繞開(kāi)HDFS 的限制,實(shí)現(xiàn)了一個(gè)全內(nèi)存處理的高效流處理系統(tǒng)。StreamMapReduce結(jié)合事件流處理(Event Stream Processing)的特點(diǎn),對(duì)MapReduce 中的Mapper 和Reducer 進(jìn)行重新定義,增加了持續(xù)的、低延遲的數(shù)據(jù)處理能力。
在充分調(diào)研基礎(chǔ)上,作者認(rèn)為原始的MapReduce 框架不適合處理快速數(shù)據(jù)。結(jié)合快速數(shù)據(jù)的特點(diǎn),文中設(shè)計(jì)了一個(gè)類似MapReduce 的框架——MapUpdate,并在該框架基礎(chǔ)上實(shí)現(xiàn)了一個(gè)原型系統(tǒng)Muppet。和上述這些系統(tǒng)相比,SSS最大的特點(diǎn)就是在支持快速流處理的同時(shí)也能夠支持大規(guī)模靜態(tài)數(shù)據(jù)的處理,也就是說(shuō)兼具流處理和批處理。中提出名為離散流(Discretized Streams)的編程模型,并在Spark基礎(chǔ)上實(shí)現(xiàn)了一個(gè)原型系統(tǒng)Spark Streaming。
4.2 大數(shù)據(jù)處理工具
關(guān)系數(shù)據(jù)庫(kù)在很長(zhǎng)的時(shí)間里成為數(shù)據(jù)管理的最佳選擇,但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫(kù)在很多場(chǎng)景不再適用。本節(jié)將對(duì)現(xiàn)今主流的大數(shù)據(jù)處理工具進(jìn)行一個(gè)簡(jiǎn)單的歸納和總結(jié)。
Hadoop 是目前最為流行的大數(shù)據(jù)處理平臺(tái)。Hadoop 最先是Doug Cutting 模仿GFS、MapReduce 實(shí)現(xiàn)的一個(gè)云計(jì)算開(kāi)源平臺(tái),后貢獻(xiàn)給Apache。Hadoop 已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(kù)(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem)。某種程度上可以說(shuō)Hadoop 已經(jīng)成為了大數(shù)據(jù)處理工具事實(shí)上的標(biāo)準(zhǔn)。對(duì)Hadoop 改進(jìn)并將其應(yīng)用于各種場(chǎng)景的大數(shù)據(jù)處理已經(jīng)成為新的研究熱點(diǎn)。主要的研究成果集中在對(duì)Hadoop 平臺(tái)性能的改進(jìn)、高效的查詢處理、索引構(gòu)建和使用、在Hadoop 之上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、Hadoop 和數(shù)據(jù)庫(kù)系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等。
除了Hadoop,還有很多針對(duì)大數(shù)據(jù)的處理工具。這些工具有些是完整的處理平臺(tái),有些則是專門針對(duì)特定的大數(shù)據(jù)處理應(yīng)用。表7 歸納總結(jié)了現(xiàn)今一些主流的處理平臺(tái)和工具,這些平臺(tái)和工具或是已經(jīng)投入商業(yè)使用,或是開(kāi)源軟件。在已經(jīng)投入商業(yè)使用的產(chǎn)品中,絕大部分也是在Hadoop 基礎(chǔ)上進(jìn)行功能擴(kuò)展,或者提供與Hadoop 的數(shù)據(jù)接口。
表7 大數(shù)據(jù)工具列表
5、大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn)
綜上所述,大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在著如下幾個(gè)特點(diǎn):多源異構(gòu);分布廣泛;動(dòng)態(tài)增長(zhǎng);先有數(shù)據(jù)后有模式。
正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點(diǎn),使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理面臨著新的挑戰(zhàn),下面會(huì)對(duì)其中的主要挑戰(zhàn)進(jìn)行詳細(xì)分析。
5.1 大數(shù)據(jù)集成
數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來(lái)越多的散布于不同的數(shù)據(jù)管理系統(tǒng)中,為了便于進(jìn)行數(shù)據(jù)分析需要進(jìn)行數(shù)據(jù)的集成。數(shù)據(jù)集成看起來(lái)并不是一個(gè)新的問(wèn)題,但是大數(shù)據(jù)時(shí)代的數(shù)據(jù)集成卻有了新的需求,因此也面臨著新的挑戰(zhàn)。
1、廣泛的異構(gòu)性。傳統(tǒng)的數(shù)據(jù)集成中也會(huì)面對(duì)數(shù)據(jù)異構(gòu)的問(wèn)題,但是在大數(shù)據(jù)時(shí)代這種異構(gòu)性出現(xiàn)了新的變化。主要體現(xiàn)在:
1)數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三者的融合。
2)數(shù)據(jù)產(chǎn)生方式的多樣性帶來(lái)的數(shù)據(jù)源變化。傳統(tǒng)的電子數(shù)據(jù)主要產(chǎn)生于服務(wù)器或者是個(gè)人電腦,這些設(shè)備位置相對(duì)固定。隨著移動(dòng)終端的快速發(fā)展,手機(jī)、平板電腦、GPS 等產(chǎn)生的數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),且產(chǎn)生的數(shù)據(jù)帶有很明顯的時(shí)空特性。
3)數(shù)據(jù)存儲(chǔ)方式的變化。傳統(tǒng)數(shù)據(jù)主要存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,但越來(lái)越多的數(shù)據(jù)開(kāi)始采用新的數(shù)據(jù)存儲(chǔ)方式來(lái)應(yīng)對(duì)數(shù)據(jù)爆炸,比如存儲(chǔ)在Hadoop 的HDFS 中。這就必然要求在集成的過(guò)程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換,而這種轉(zhuǎn)換的過(guò)程是非常復(fù)雜和難以管理的。
2、數(shù)據(jù)質(zhì)量。數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價(jià)值的增大,相反很多時(shí)候意味著信息垃圾的泛濫。一方面很難有單個(gè)系統(tǒng)能夠容納下從不同數(shù)據(jù)源集成的海量數(shù)據(jù);另一方面如果在集成的過(guò)程中僅僅簡(jiǎn)單的將所有數(shù)據(jù)聚集在一起而不做任何數(shù)據(jù)清洗,會(huì)使得過(guò)多的無(wú)用數(shù)據(jù)干擾后續(xù)的數(shù)據(jù)分析過(guò)程。大數(shù)據(jù)時(shí)代的數(shù)據(jù)清洗過(guò)程必須更加謹(jǐn)慎,因?yàn)橄鄬?duì)細(xì)微的有用信息混雜在龐大的數(shù)據(jù)量中。如果信息清洗的粒度過(guò)細(xì),很容易將有用的信息過(guò)濾掉。清洗粒度過(guò)粗,又無(wú)法達(dá)到真正的清洗效果,因此在質(zhì)與量之間需要進(jìn)行仔細(xì)的考量和權(quán)衡。
5.2 大數(shù)據(jù)分析(Analytics)
傳統(tǒng)意義上的數(shù)據(jù)分析(analysis)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi),且已經(jīng)形成了一整套行之有效的分析體系。首先利用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),根據(jù)需要構(gòu)建數(shù)據(jù)立方體進(jìn)行聯(lián)機(jī)分析處理 (OLAP, Online Analytical Processing),可以進(jìn)行多個(gè)維度的下鉆(Drill-down)或上卷(Roll-up)操作。對(duì)于從數(shù)據(jù)中提煉更深層次的知識(shí)的需求促使數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類、關(guān)聯(lián)分析等一系列在實(shí)踐中行之有效的方法。這一整套處理流程在處理相對(duì)較少的結(jié)構(gòu)化數(shù)據(jù)時(shí)極為高效。但是隨著大數(shù)據(jù)時(shí)代的到來(lái),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長(zhǎng),給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn),主要體現(xiàn)在:
1、數(shù)據(jù)處理的實(shí)時(shí)性(Timeliness)。隨著時(shí)間的流逝數(shù)據(jù)中所蘊(yùn)含的知識(shí)價(jià)值往往也在衰減,因此很多領(lǐng)域?qū)τ跀?shù)據(jù)的實(shí)時(shí)處理有需求。隨著大數(shù)據(jù)時(shí)代的到來(lái),更多應(yīng)用場(chǎng)景的數(shù)據(jù)分析從離線(offline)轉(zhuǎn)向了在線(online),開(kāi)始出現(xiàn)實(shí)時(shí)處理的需求,比如KDD 2012最佳論文所探討的實(shí)時(shí)廣告競(jìng)價(jià)問(wèn)題。大數(shù)據(jù)時(shí)代的數(shù)據(jù)實(shí)時(shí)處理面臨著一些新的挑戰(zhàn),主要體現(xiàn)在數(shù)據(jù)處理模式的選擇及改進(jìn)。在實(shí)時(shí)處理的模式選擇中,主要有三種思路:即流處理模式、批處理模式以及二者的融合。相關(guān)研究成果在上一節(jié)已經(jīng)有詳細(xì)介紹。雖然已有的研究成果很多,但是仍未有一個(gè)通用的大數(shù)據(jù)實(shí)時(shí)處理框架。各種工具實(shí)現(xiàn)實(shí)時(shí)處理的方法不一,支持的應(yīng)用類型都相對(duì)有限,這導(dǎo)致實(shí)際應(yīng)用中往往需要根據(jù)自己的業(yè)務(wù)需求和應(yīng)用場(chǎng)景對(duì)現(xiàn)有的這些技術(shù)和工具進(jìn)行改造才能滿足要求。
2、動(dòng)態(tài)變化環(huán)境中索引的設(shè)計(jì)。關(guān)系數(shù)據(jù)庫(kù)中的索引能夠加速查詢速率,但是傳統(tǒng)的數(shù)據(jù)管理中模式基本不會(huì)發(fā)生變化,因此在其上構(gòu)建索引主要考慮的是索引創(chuàng)建、更新等的效率。大數(shù)據(jù)時(shí)代的數(shù)據(jù)模式隨著數(shù)據(jù)量的不斷變化可能會(huì)處于不斷的變化之中,這就要求索引結(jié)構(gòu)的設(shè)計(jì)簡(jiǎn)單、高效,能夠在數(shù)據(jù)模式發(fā)生變化時(shí)很快的進(jìn)行調(diào)整來(lái)適應(yīng)。前面也介紹了通過(guò)在NoSQL 數(shù)據(jù)庫(kù)上構(gòu)建索引來(lái)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的一些方案,但總的來(lái)說(shuō),這些方案基本都有特定的應(yīng)用場(chǎng)景,且這些場(chǎng)景的數(shù)據(jù)模式不太會(huì)發(fā)生變化。在數(shù)據(jù)模式變更的假設(shè)前提下設(shè)計(jì)新的索引方案將是大數(shù)據(jù)時(shí)代的主要挑戰(zhàn)之一。
3、先驗(yàn)知識(shí)的缺乏。傳統(tǒng)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi),這些數(shù)據(jù)在以關(guān)系模型進(jìn)行存儲(chǔ)的同時(shí)就隱含了這些數(shù)據(jù)內(nèi)部關(guān)系等先驗(yàn)知識(shí)。比如我們知道所要分析的對(duì)象會(huì)有哪些屬性,通過(guò)屬性我們又能大致了解其可能的取值范圍等。這些知識(shí)使得我們?cè)跀?shù)據(jù)分析之前就已經(jīng)對(duì)數(shù)據(jù)有了一定的理解。而在面對(duì)大數(shù)據(jù)分析時(shí),一方面是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,這些數(shù)據(jù)很難以類似結(jié)構(gòu)化數(shù)據(jù)的方式構(gòu)建出其內(nèi)部的正式關(guān)系;另一方面很多數(shù)據(jù)以流的形式源源不斷的到來(lái),這些需要實(shí)時(shí)處理的數(shù)據(jù)很難有足夠的時(shí)間去建立先驗(yàn)知識(shí)。
5.3 大數(shù)據(jù)隱私問(wèn)題
隱私問(wèn)題由來(lái)已久,計(jì)算機(jī)的出現(xiàn)使得越來(lái)越多的數(shù)據(jù)以數(shù)字化的形式存儲(chǔ)在電腦中,互聯(lián)網(wǎng)的發(fā)展則使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問(wèn)題越來(lái)越嚴(yán)重。
1、隱性的數(shù)據(jù)暴露。很多時(shí)候人們有意識(shí)的將自己的行為隱藏起來(lái),試圖達(dá)到隱私保護(hù)的目的。但是互聯(lián)網(wǎng),尤其是社交網(wǎng)絡(luò)的出現(xiàn),使得人們?cè)诓煌牡攸c(diǎn)產(chǎn)生越來(lái)越多的數(shù)據(jù)足跡。這種數(shù)據(jù)具有累積性和關(guān)聯(lián)性,單個(gè)地點(diǎn)的信息可能不會(huì)暴露用戶的隱私,但是如果有辦法將某個(gè)人的很多行為從不同的獨(dú)立地點(diǎn)聚集在一起時(shí),他的隱私就很可能會(huì)暴露,因?yàn)橛嘘P(guān)他的信息已經(jīng)足夠多了,這種隱性的數(shù)據(jù)暴露往往是個(gè)人無(wú)法預(yù)知和控制的。從技術(shù)層面來(lái)說(shuō),可以通過(guò)數(shù)據(jù)抽取和集成來(lái)實(shí)現(xiàn)用戶隱私的獲取。而在現(xiàn)實(shí)中通過(guò)所謂的“人肉搜索”的方式往往能更快速、準(zhǔn)確的得到結(jié)果,這種人肉搜索的方式實(shí)質(zhì)就是眾包(Crowdsourcing)。大數(shù)據(jù)時(shí)代的隱私保護(hù)面臨著技術(shù)和人力層面的雙重考驗(yàn)。
2、數(shù)據(jù)公開(kāi)與隱私保護(hù)的矛盾。如果僅僅為了保護(hù)隱私就將所有的數(shù)據(jù)都加以隱藏,那么數(shù)據(jù)的價(jià)值根本無(wú)法體現(xiàn)。數(shù)據(jù)公開(kāi)是非常有必要的,政府可以從公開(kāi)的數(shù)據(jù)中來(lái)了解整個(gè)國(guó)民經(jīng)濟(jì)社會(huì)的運(yùn)行,以便更好的指導(dǎo)社會(huì)的運(yùn)轉(zhuǎn)。企業(yè)則可以從公開(kāi)的數(shù)據(jù)中了解客戶的行為,從而推出針對(duì)性的產(chǎn)品和服務(wù),最大化其利益。研究者則可以利用公開(kāi)的數(shù)據(jù),從社會(huì)、經(jīng)濟(jì)、技術(shù)等不同的角度來(lái)進(jìn)行研究。因此大數(shù)據(jù)時(shí)代的隱私性主要體現(xiàn)在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘,這有別于傳統(tǒng)的信息安全領(lǐng)域更加關(guān)注文件的私密性等安全屬性。統(tǒng)計(jì)數(shù)據(jù)庫(kù)數(shù)據(jù)研究中最早開(kāi)展數(shù)據(jù)隱私性技術(shù)方面的研究,近年來(lái)逐漸成為相關(guān)領(lǐng)域的研究熱點(diǎn)。Dwork 在2006 年提出了新的差分隱私(Differential Privacy)方法。差分隱私保護(hù)技術(shù)可能是解決大數(shù)據(jù)中隱私保護(hù)問(wèn)題的一個(gè)方向,但是這項(xiàng)技術(shù)離實(shí)際應(yīng)用還很遠(yuǎn)。
3、數(shù)據(jù)動(dòng)態(tài)性。大數(shù)據(jù)時(shí)代數(shù)據(jù)的快速變化除了要求有新的數(shù)據(jù)處理技術(shù)應(yīng)對(duì)之外,也給隱私保護(hù)帶來(lái)了新的挑戰(zhàn),F(xiàn)有隱私保護(hù)技術(shù)主要基于靜態(tài)數(shù)據(jù)集,而在現(xiàn)實(shí)中數(shù)據(jù)模式和數(shù)據(jù)內(nèi)容時(shí)刻都在發(fā)生著變化。因此在這種更加復(fù)雜的環(huán)境下實(shí)現(xiàn)對(duì)動(dòng)態(tài)數(shù)據(jù)的利用和隱私保護(hù)將更具挑戰(zhàn)。
5.4 大數(shù)據(jù)能耗問(wèn)題
在能源價(jià)格上漲、數(shù)據(jù)中心存儲(chǔ)規(guī)模不斷擴(kuò)大的今天,高能耗已逐漸成為制約大數(shù)據(jù)快速發(fā)展的一個(gè)主要瓶頸。從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問(wèn)題,但是尚未引起足夠多的重視,相關(guān)的研究成果也較少。在大數(shù)據(jù)管理系統(tǒng)中,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主。理想狀態(tài)下,整個(gè)大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率成正比。但是實(shí)際情況并不像預(yù)期情況,系統(tǒng)利用率為0的時(shí)候仍然有能量消耗。針對(duì)這個(gè)問(wèn)題,《紐約時(shí)報(bào)》和麥肯錫經(jīng)過(guò)一年的聯(lián)合調(diào)查,最終在《紐約時(shí)報(bào)》上發(fā)表文章《Power, Pollution and the Internet》。調(diào)查顯示Google數(shù)據(jù)中心年耗電量約為300萬(wàn)瓦,而Facebook則在60萬(wàn)瓦左右。最令人驚訝的是在這些巨大的能耗中,只有6%-12%的能量被用來(lái)響應(yīng)用戶的查詢并進(jìn)行計(jì)算。絕大部分的電能用以確保服務(wù)器處于閑置狀態(tài),以應(yīng)對(duì)突如其來(lái)的網(wǎng)絡(luò)流量高峰,這種類型的功耗最高可以占到數(shù)據(jù)中心所有能耗的80%。從已有的一些研究成果來(lái)看,可以考慮以下兩個(gè)方面來(lái)改善大數(shù)據(jù)能耗問(wèn)題:
1、采用新型低功耗硬件。從紐約時(shí)報(bào)的調(diào)查中可以知道絕大部分的能量都耗費(fèi)在磁盤上。在空閑的狀態(tài)下,傳統(tǒng)的磁盤仍然具有很高的能耗,并且隨著系統(tǒng)利用率的提高,能耗也在逐漸升高。新型非易失存儲(chǔ)器件的出現(xiàn),給大數(shù)據(jù)管理系統(tǒng)帶來(lái)的新的希望。閃存、PCM等新型存儲(chǔ)硬件具有低能耗的特性。雖然隨著系統(tǒng)利用率的提高,閃存、PCM等的能耗也有所升高,但是其總體能耗仍遠(yuǎn)遠(yuǎn)低于傳統(tǒng)磁盤。
2、引入可再生的新能源。數(shù)據(jù)中心所使用的電能絕大部分都是從不可再生的能源中產(chǎn)生的。如果能夠在大數(shù)據(jù)存儲(chǔ)和處理中引入諸如太陽(yáng)能、風(fēng)能之類的可再生能源,將在很大程度上緩解能耗問(wèn)題。
5.5 大數(shù)據(jù)處理與硬件的協(xié)同
硬件的快速升級(jí)換代有力的促進(jìn)了大數(shù)據(jù)的發(fā)展,但是這也在一定程度上造成了大量不同架構(gòu)硬件共存的局面。日益復(fù)雜的硬件環(huán)境給大數(shù)據(jù)管理帶來(lái)的主要挑戰(zhàn)有:
1、硬件異構(gòu)性帶來(lái)的大數(shù)據(jù)處理難題。整個(gè)數(shù)據(jù)中心(集群)內(nèi)部不同機(jī)器之間的性能會(huì)存在著明顯的差別,因?yàn)椴煌瑫r(shí)期購(gòu)入的不同廠商的服務(wù)器在IOPS、CPU處理速度等性能方面會(huì)有很大的差異。這就導(dǎo)致了硬件環(huán)境的異構(gòu)性(Heterogeneous),而這種異構(gòu)性會(huì)給大數(shù)據(jù)的處理帶來(lái)諸多問(wèn)題。一個(gè)典型的例子就是MapReduce任務(wù)過(guò)程中,其總的處理時(shí)間很大程度上取決于Map過(guò)程中處理時(shí)間最長(zhǎng)的節(jié)點(diǎn)。如果集群中硬件的性能差異過(guò)大,則會(huì)導(dǎo)致大量的計(jì)算時(shí)間浪費(fèi)在性能較好的服務(wù)器等待性能較差的服務(wù)器上。這種情況下服務(wù)器的線性增長(zhǎng)并不一定會(huì)帶來(lái)計(jì)算能力的線性增長(zhǎng),因?yàn)?ldquo;木桶效應(yīng)”制約了整個(gè)集群的性能。一般的解決方案是考慮硬件異構(gòu)的環(huán)境下將不同計(jì)算強(qiáng)度的任務(wù)智能的分配給計(jì)算能力不同的服務(wù)器,但是當(dāng)這種異構(gòu)環(huán)境的規(guī)模擴(kuò)展到數(shù)以萬(wàn)計(jì)的集群時(shí)問(wèn)題將變得極為復(fù)雜。
2、新硬件給大數(shù)據(jù)處理帶來(lái)的變革。所有的軟件系統(tǒng)都是構(gòu)建在傳統(tǒng)的計(jì)算機(jī)體系結(jié)構(gòu)之上,即CPU-內(nèi)存-硬盤三級(jí)結(jié)構(gòu)。CPU的發(fā)展一直遵循著摩爾定律,且其架構(gòu)已經(jīng)從單核轉(zhuǎn)入多核。因此需要深入研究如何讓軟件更好的利用CPU多核心之間的并發(fā)機(jī)制。由于機(jī)械特性的限制,基于磁性介質(zhì)的硬盤(Hard Disk Drive, HDD)的讀寫速率在過(guò)去幾十年中提升不大,而且未來(lái)也不太可能出現(xiàn)革命性的提升;陂W存的固態(tài)硬盤(Solid State Disk,SSD)的出現(xiàn)從硬件層為存儲(chǔ)系統(tǒng)結(jié)構(gòu)的革新提供了支持,為計(jì)算機(jī)存儲(chǔ)技術(shù)的發(fā)展和存儲(chǔ)能效的提高帶來(lái)了新的契機(jī)。SSD具有很多優(yōu)良特性,主要包括極高的讀寫性能、抗震性、低功耗、體積小等,因此正得到越來(lái)越廣泛的應(yīng)用。但是直接將SSD應(yīng)用到現(xiàn)有的軟件上并不一定會(huì)帶來(lái)軟件性能的大幅提升。Sang-Won Lee等人的研究表明雖然SSD的讀寫速率是HDD的60~150倍,基于SSD的數(shù)據(jù)庫(kù)系統(tǒng)的查詢時(shí)間卻僅僅提升了不到10倍。二者之間的巨大差距主要是由SSD的一些特性造成的,這些特性包括:SSD寫前擦除特性導(dǎo)致的讀寫操作代價(jià)不對(duì)稱、SSD存儲(chǔ)芯片的擦除次數(shù)有限等。軟件設(shè)計(jì)之時(shí)必須仔細(xì)考慮這些特性才能夠充分利用SSD的優(yōu)良特性。與大容量磁盤和磁盤陣列相比,固態(tài)硬盤的存儲(chǔ)容量相對(duì)較低,單位容量的價(jià)格遠(yuǎn)高于磁盤。且不同類型的固態(tài)硬盤產(chǎn)品性能差異較大,將固態(tài)硬盤直接替換磁盤應(yīng)用到現(xiàn)有的存儲(chǔ)體系中難以充分發(fā)揮其性能。因此現(xiàn)階段可以考慮通過(guò)構(gòu)建HDD和SSD的混合存儲(chǔ)系統(tǒng)來(lái)解決大數(shù)據(jù)處理問(wèn)題。當(dāng)前混合存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)主要有三種思路:
HDD作為內(nèi)存的擴(kuò)展充當(dāng)SSD寫緩沖;HDD和SSD同做二級(jí)存儲(chǔ);SSD用作內(nèi)存的擴(kuò)展充當(dāng)HDD讀寫緩沖。國(guó)外的Google、Facebook,國(guó)內(nèi)的百度、淘寶等公司已經(jīng)開(kāi)始在實(shí)際運(yùn)營(yíng)環(huán)境中大規(guī)模的使用混合存儲(chǔ)系統(tǒng)來(lái)提升整體性能。在這三級(jí)結(jié)構(gòu)之中,內(nèi)存的發(fā)展處于一個(gè)相對(duì)緩慢的階段,一直沒(méi)有出現(xiàn)革命性的變化。構(gòu)建任何一個(gè)軟件系統(tǒng)都會(huì)假設(shè)內(nèi)存是一個(gè)容量有限的易失結(jié)構(gòu)體。隨著以PCM為代表的SCM的出現(xiàn),未來(lái)的內(nèi)存極有可能會(huì)兼具現(xiàn)在內(nèi)存和磁盤的雙重特性,即處理速度極快且非易失。雖然PCM尚未有可以大規(guī)模量產(chǎn)的產(chǎn)品推出,但是各大主流廠商都對(duì)其非常重視,三星電子在2012年國(guó)際固態(tài)電路會(huì)議(ISSCC 2012)上發(fā)表了采用20nm工藝制程的容量為8G的PCM元件。一旦PCM能夠大規(guī)模的投入使用,必將給現(xiàn)有的大數(shù)據(jù)處理帶來(lái)一場(chǎng)根本性的變革。譬如前面提到的流處理模式就可以不再將內(nèi)存的大小限制作為算法設(shè)計(jì)過(guò)程中的一個(gè)主要考慮因素。
5.6 大數(shù)據(jù)管理易用性(Usability)問(wèn)題
從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋,易用性應(yīng)當(dāng)貫穿整個(gè)大數(shù)據(jù)的流程。易用性的挑戰(zhàn)突出體現(xiàn)在兩個(gè)方面:首先大數(shù)據(jù)時(shí)代的數(shù)據(jù)量大,分析更復(fù)雜,得到的結(jié)果形式更加的多樣化。其復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。其次大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個(gè)方面,很多行業(yè)都開(kāi)始有了大數(shù)據(jù)分析的需求。但是這些行業(yè)的絕大部分從業(yè)者都不是數(shù)據(jù)分析的專家,在復(fù)雜的大數(shù)據(jù)工具面前,他們只是初級(jí)的使用者(NaïveUsers)。復(fù)雜的分析過(guò)程和難以理解的分析結(jié)果限制了他們從大數(shù)據(jù)中獲取知識(shí)的能力。這兩個(gè)原因?qū)е乱子眯猿蔀榇髷?shù)據(jù)時(shí)代軟件工具設(shè)計(jì)的一個(gè)巨大挑戰(zhàn)。關(guān)于大數(shù)據(jù)易用性的研究仍處于一個(gè)起步階段。從設(shè)計(jì)學(xué)的角度來(lái)看易用性表現(xiàn)為易見(jiàn)(Easy to discover)、易學(xué)(Easyto learn)和易用 (Easy to use)。要想達(dá)到易用性,需要關(guān)注以下三個(gè)基本原則[138]:
1、可視化原則(Visibility)。可視性要求用戶在見(jiàn)到產(chǎn)品時(shí)就能夠大致了解其初步的使用方法,最終的結(jié)果也要能夠清晰的展現(xiàn)出來(lái)。針對(duì)MapReduce 使用復(fù)雜的情況,未來(lái)如何實(shí)現(xiàn)更多大數(shù)據(jù)處理方法和工具的簡(jiǎn)易化和自動(dòng)化將是一個(gè)很大的挑戰(zhàn)。除了功能設(shè)計(jì)之外,最終結(jié)果的展示也要充分體現(xiàn)可視化的原則。可視化技術(shù)是最佳的結(jié)果展示方式之一,通過(guò)清晰的圖形圖像展示直觀的反映出最終結(jié)果。但是超大規(guī)模的可視化卻面臨著諸多挑戰(zhàn),主要有:原位分析;用戶界面與交互設(shè)計(jì);大數(shù)據(jù)可視化;數(shù)據(jù)庫(kù)與存儲(chǔ);算法;數(shù)據(jù)移動(dòng)、傳輸和網(wǎng)絡(luò)架構(gòu);不確定性的量化;并行化;面向領(lǐng)域與開(kāi)發(fā)的庫(kù)、框架以及工具;社會(huì)、社區(qū)以及政府參與。
2、匹配原則(Mapping)。人的認(rèn)知中會(huì)利用現(xiàn)有的經(jīng)驗(yàn)來(lái)考慮新的工具的使用。譬如一提到數(shù)據(jù)庫(kù),了解的人都會(huì)想到使用SQL 語(yǔ)言來(lái)執(zhí)行數(shù)據(jù)查詢。在新工具的設(shè)計(jì)過(guò)程中盡可能將人們已有的經(jīng)驗(yàn)知識(shí)考慮進(jìn)去,會(huì)使得新工具非常便于使用,這就是所謂的匹配原則。MapReduce 模型雖然將復(fù)雜的大數(shù)據(jù)處理過(guò)程簡(jiǎn)化為Map 和Reduce 的過(guò)程,但是具體的Map 和Reduce 函數(shù)仍需要用戶自己編寫,這對(duì)于絕大部分沒(méi)有編程經(jīng)驗(yàn)的用戶而言仍過(guò)于復(fù)雜。如何將新的大數(shù)據(jù)處理技術(shù)和人們已經(jīng)習(xí)慣的處理技術(shù)和方法進(jìn)行匹配將是未來(lái)大數(shù)據(jù)易用性的一個(gè)巨大挑戰(zhàn)。這方面現(xiàn)在已經(jīng)有了些初步的研究工作。針對(duì) MapReduce 技術(shù)缺乏類似SQL 標(biāo)準(zhǔn)語(yǔ)言的弱點(diǎn),研究人員開(kāi)發(fā)出更高層的語(yǔ)言和系統(tǒng)。典型代表有Hadoop的HiveQL和Pig Latin、Google 的 Sawzall、微軟的SCOPE和DryadLINQ以及MRQL等。SQL 查詢有自動(dòng)優(yōu)化的過(guò)程,而MapReduce 并沒(méi)有。針對(duì)這點(diǎn),和實(shí)現(xiàn)了MapReduce 的查詢優(yōu)化器。通過(guò)調(diào)研發(fā)現(xiàn)系統(tǒng)I/O 冗余是由于查詢之間的關(guān)聯(lián)(correlations),為了解決這個(gè)問(wèn)題,作者引入了BSP(Batched Stream Processing)模型,并在DryadLINQ 中實(shí)現(xiàn)了查詢優(yōu)化系統(tǒng)Comet。還有部分學(xué)者的工作集中在將SQL 語(yǔ)言自動(dòng)轉(zhuǎn)化成MapReduce 任務(wù)。比較代表性的系統(tǒng)有YSmart、Tenzing等。還有一些其他的工作,比如S4Latin在S4 的基礎(chǔ)上實(shí)現(xiàn)了一個(gè)新的數(shù)據(jù)處理框架,使得用戶可以直接用類似查詢的方式而不是編程的方式創(chuàng)建新的流應(yīng)用。這在很大程度上改善了大數(shù)據(jù)流處理平臺(tái)S4 的易用性。
3、反饋原則(Feedback)。帶有反饋的設(shè)計(jì)使得人們能夠隨時(shí)掌握自己的操作進(jìn)程。進(jìn)度條就是一個(gè)體現(xiàn)反饋原則的經(jīng)典例子。大數(shù)據(jù)領(lǐng)域關(guān)于這方面的工作較少,有部分學(xué)者開(kāi)始關(guān)注MapReduce 程序執(zhí)行進(jìn)程的估計(jì)。傳統(tǒng)的軟件工程領(lǐng)域,程序出現(xiàn)問(wèn)題之后有比較成熟的調(diào)試工具可以對(duì)錯(cuò)誤的程序進(jìn)行交互式的調(diào)試,相對(duì)容易找到錯(cuò)誤的根源。但是大數(shù)據(jù)時(shí)代很多工具其內(nèi)部結(jié)構(gòu)復(fù)雜,對(duì)于普通用戶而言這些工具近似于黑盒(black box),調(diào)試過(guò)程復(fù)雜,缺少反饋性。PerfXplain設(shè)計(jì)并實(shí)現(xiàn)了MapReduce 的簡(jiǎn)便化調(diào)試系統(tǒng)。為了解決大數(shù)據(jù)云(Big Data Cloud)中程序部署和調(diào)試的問(wèn)題,實(shí)現(xiàn)了一個(gè)可擴(kuò)展的輕量級(jí)Hadoop 性能分析器HiTune。如果未來(lái)能夠在大數(shù)據(jù)的處理中大范圍的引入人機(jī)交互技術(shù),使得人們能夠較完整的參與整個(gè)分析過(guò)程,會(huì)有效的提高用戶的反饋感,在很大程度上提高易用性。
滿足三個(gè)基本原則的設(shè)計(jì)就能夠達(dá)到良好的易用性。從技術(shù)層面來(lái)看,可視化、人機(jī)交互以及數(shù)據(jù)起源技術(shù)都可以有效的提升易用性。而在這些技術(shù)的背后,海量元數(shù)據(jù)管理的問(wèn)題是需要我們特別關(guān)注的一個(gè)問(wèn)題。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系以及數(shù)據(jù)本身的一些屬性大都是靠元數(shù)據(jù)來(lái)表示的?梢暬夹g(shù)離不開(kāi)元數(shù)據(jù)的支持,因?yàn)槿绻麩o(wú)法準(zhǔn)確的表征出數(shù)據(jù)之間的關(guān)系,就無(wú)法對(duì)數(shù)據(jù)進(jìn)行可視化的展示。數(shù)據(jù)起源技術(shù)更是離不開(kāi)元數(shù)據(jù)管理技術(shù)。因?yàn)閿?shù)據(jù)起源需要利用元數(shù)據(jù)來(lái)記錄數(shù)據(jù)之間包括因果關(guān)系在內(nèi)的各種復(fù)雜關(guān)系,并通過(guò)這些信息來(lái)進(jìn)行相關(guān)的推斷。如何在大規(guī)模存儲(chǔ)系統(tǒng)中實(shí)現(xiàn)海量元數(shù)據(jù)的高效管理將會(huì)對(duì)大數(shù)據(jù)的易用性產(chǎn)生重要影響。
5.7 性能的測(cè)試基準(zhǔn)(Benchmark)
關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品的成功離不開(kāi)以TPC 系列為代表的測(cè)試基準(zhǔn)的產(chǎn)生。正是有了這些測(cè)試基準(zhǔn),才能夠準(zhǔn)確的衡量不同數(shù)據(jù)庫(kù)產(chǎn)品的性能,并對(duì)其存在的問(wèn)題進(jìn)行改進(jìn)。目前尚未有針對(duì)大數(shù)據(jù)管理的測(cè)試基準(zhǔn),構(gòu)建大數(shù)據(jù)測(cè)試基準(zhǔn)面臨的主要挑戰(zhàn)有:
1、系統(tǒng)復(fù)雜度高。大數(shù)據(jù)管理系統(tǒng)的類型非常多,很多公司針對(duì)自己的應(yīng)用場(chǎng)景設(shè)計(jì)了相應(yīng)的數(shù)據(jù)庫(kù)產(chǎn)品。這些產(chǎn)品的功能模塊各異,很難用一個(gè)統(tǒng)一的模型來(lái)對(duì)所有的大數(shù)據(jù)產(chǎn)品進(jìn)行建模。
2、用戶案例的多樣性。測(cè)試基準(zhǔn)需要定義一系列具有代表性的用戶行為,但是大數(shù)據(jù)的數(shù)據(jù)類型廣泛,應(yīng)用場(chǎng)景也不盡相同,很難從中提取出具有代表性的用戶行為。
3、數(shù)據(jù)規(guī)模龐大。這會(huì)帶來(lái)了兩方面的挑戰(zhàn)。首先數(shù)據(jù)規(guī)模過(guò)大使得數(shù)據(jù)重現(xiàn)非常困難,代價(jià)很大。其次在傳統(tǒng)的 TPC 系列測(cè)試中,測(cè)試系統(tǒng)的規(guī)模往往大于實(shí)際客戶使用的數(shù)據(jù)集,因此測(cè)試的結(jié)果可以準(zhǔn)確的代表系統(tǒng)的實(shí)際性能。但是在大數(shù)據(jù)時(shí)代,用戶實(shí)際使用系統(tǒng)的數(shù)據(jù)規(guī)模往往大于測(cè)試系統(tǒng)的數(shù)據(jù)規(guī)模,因此能否用小規(guī)模數(shù)據(jù)的測(cè)試基準(zhǔn)來(lái)代表實(shí)際產(chǎn)品的性能是目前面臨的一個(gè)挑戰(zhàn)。數(shù)據(jù)重現(xiàn)的問(wèn)題可以嘗試?yán)靡欢ǖ姆椒▉?lái)去產(chǎn)生測(cè)試樣例,而不是選擇下載某個(gè)實(shí)際的測(cè)試數(shù)據(jù)集。但是這又涉及到如何使產(chǎn)生的數(shù)據(jù)集能真實(shí)反映原始數(shù)據(jù)集的問(wèn)題。
4、系統(tǒng)的快速演變。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)其系統(tǒng)架構(gòu)一般比較穩(wěn)定,但是大數(shù)據(jù)時(shí)代的系統(tǒng)為了適應(yīng)數(shù)據(jù)規(guī)模的不斷增長(zhǎng)和性能要求的不斷提升,必須不斷的進(jìn)行升級(jí),這使得測(cè)試基準(zhǔn)得到的測(cè)試結(jié)果很快就不能反映系統(tǒng)當(dāng)前的實(shí)際性能。
5、重新構(gòu)建還是復(fù)用現(xiàn)有的測(cè)試基準(zhǔn)。如果能夠在現(xiàn)有的測(cè)試基準(zhǔn)中選擇合適的進(jìn)行擴(kuò)展的話,那么將極大減少構(gòu)建新的大數(shù)據(jù)測(cè)試基準(zhǔn)的工作量?赡艿暮蜻x測(cè)試標(biāo)準(zhǔn)有SWIM(Statistical Workload Injector for MapReduce)、MRBS、Hadoop 自帶的GridMix、TPC-DS、YCSB++等。
現(xiàn)在已經(jīng)開(kāi)始有工作嘗試構(gòu)建大數(shù)據(jù)的測(cè)試基準(zhǔn),比如一些針對(duì)大數(shù)據(jù)測(cè)試基準(zhǔn)的會(huì)議WBDB 2012、TPCTC 2012 等。但是也有觀點(diǎn)認(rèn)為當(dāng)前討論大數(shù)據(jù)測(cè)試基準(zhǔn)的構(gòu)建為時(shí)尚早。Yanpei Chen 等通過(guò)對(duì)7 個(gè)應(yīng)用MapReduce 技術(shù)的實(shí)際產(chǎn)品的負(fù)載進(jìn)行了跟蹤和分析,認(rèn)為現(xiàn)在根本無(wú)法確定大數(shù)據(jù)時(shí)代的典型用戶案例。因此從這個(gè)角度來(lái)看并不適合構(gòu)建大數(shù)據(jù)的測(cè)試基準(zhǔn),還有很多基礎(chǔ)性的問(wèn)題亟待解決。
總的來(lái)說(shuō),構(gòu)建大數(shù)據(jù)的測(cè)試基準(zhǔn)是有必要的。但是面臨的挑戰(zhàn)非常多,要想構(gòu)建一個(gè)類似TPC 的公認(rèn)的測(cè)試標(biāo)準(zhǔn)難度很大。
6、結(jié)論
隨著云計(jì)算、物聯(lián)網(wǎng)等的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),人們正被數(shù)據(jù)洪流所包圍,大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái)。正確利用大數(shù)據(jù)給人們的生活帶來(lái)了極大的便利,但于此同時(shí)也給傳統(tǒng)的數(shù)據(jù)管理方式帶來(lái)了極大的挑戰(zhàn)。本文對(duì)最近幾年國(guó)內(nèi)外大數(shù)據(jù)相關(guān)的研究成果進(jìn)行了全面的回顧和總結(jié),介紹了大數(shù)據(jù)的基本概念,詳細(xì)分析了大數(shù)據(jù)管理的關(guān)鍵技術(shù),主要是闡述云計(jì)算技術(shù)對(duì)于大數(shù)據(jù)管理的基礎(chǔ)性作用。本文還著重介紹了目前大數(shù)據(jù)研究面臨的新挑戰(zhàn)以及相應(yīng)的一些研究成果?偟膩(lái)說(shuō),眼下對(duì)于大數(shù)據(jù)的研究仍處于一個(gè)非常初步的階段,還有很多基礎(chǔ)性的問(wèn)題有待解決。大數(shù)據(jù)的幾個(gè)特征中究竟哪個(gè)最重要?面對(duì)大數(shù)據(jù)管理我們需要的是簡(jiǎn)單的技術(shù)上的演變(Evolution)還是徹底的變革(Revolution)?不同學(xué)科的研究者之間怎樣協(xié)作才能更有利于大數(shù)據(jù)問(wèn)題的解決?諸如此類的問(wèn)題還有許多,要解決大數(shù)據(jù)問(wèn)題仍有很長(zhǎng)的路要走,期望本文的介紹能給大數(shù)據(jù)研究同行學(xué)者提供一定的參考。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)(下)
本文網(wǎng)址:http://www.oesoe.com/html/support/1112189709.html