那些想要弄清楚“大數(shù)據(jù)”概念的組織需要做出一個(gè)選擇,是要采用傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)概念和現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),還是不熟越來(lái)越流行的開源Hadoop分布式處理平臺(tái),或者使用這二者的結(jié)合。
那些想要從簡(jiǎn)單的BI報(bào)表轉(zhuǎn)向深度數(shù)據(jù)挖掘與預(yù)測(cè)分析的企業(yè),第三種選項(xiàng)看上去是最靠譜的。最近采訪了Forrester機(jī)構(gòu)的高級(jí)數(shù)據(jù)管理分析師James Kobielus,他向我們分析了企業(yè)如何從快速變化的海量數(shù)據(jù)中獲取有價(jià)值的洞察力。在本文中,您將了解到如何將現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的功能發(fā)揮到最大,Hadoop的優(yōu)勢(shì)與劣勢(shì),以及大數(shù)據(jù)時(shí)代中每一個(gè)數(shù)據(jù)倉(cāng)庫(kù)廠商的發(fā)展等。
我看到了對(duì)大數(shù)據(jù)幾個(gè)不同的定義,請(qǐng)問(wèn)Forrester是如何理解時(shí)下這一流行概念的?
James Kobielus:大數(shù)據(jù)事實(shí)上是引用極限可擴(kuò)展分析的概念,“極限可擴(kuò)展分析”這個(gè)詞在我看來(lái)是人們所說(shuō)大數(shù)據(jù)的核心。在某種程度上,是可以用三個(gè)V來(lái)概括的:Volume,數(shù)據(jù)量,可以使TB可以是PB甚至更大;Velocity,數(shù)據(jù)流動(dòng)速度,實(shí)時(shí)的獲取、轉(zhuǎn)換、查詢與訪問(wèn)數(shù)據(jù);Variety,數(shù)據(jù)的種類,包括各種結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。在分析方面,它是指所有能夠挖掘并獲取意義的數(shù)據(jù)集。
企業(yè)對(duì)數(shù)據(jù)倉(cāng)庫(kù)概念應(yīng)如何理解,才能夠搞清大數(shù)據(jù)的意義?
Kobielus:我認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)能夠通過(guò)三種方式來(lái)幫助企業(yè)處理好數(shù)據(jù)問(wèn)題:第一、在一個(gè)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中,你按照主題領(lǐng)域來(lái)劃分組織你的數(shù)據(jù),而這些主題領(lǐng)域往往是比較穩(wěn)定的,很長(zhǎng)一段時(shí)間內(nèi)都不會(huì)有任何改變,比如數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)中的OLAP cube,無(wú)論是物理上實(shí)現(xiàn)還是邏輯上的劃分。換句話說(shuō),你的客戶數(shù)據(jù)在一個(gè)分區(qū)里,財(cái)務(wù)數(shù)據(jù)在另一個(gè),HR數(shù)據(jù)在第三個(gè),以此類推。這樣做的好處就是有利于你根據(jù)數(shù)據(jù)的關(guān)聯(lián)性來(lái)匹配下游的應(yīng)用和用戶。這就是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)管理的核心所在,也是通過(guò)數(shù)據(jù)倉(cāng)庫(kù)來(lái)處理大數(shù)據(jù)的最重要的方式。
那么第二種方式是什么?
Kobielus:第二種方式是數(shù)據(jù)庫(kù)內(nèi)分析的概念以及利用數(shù)據(jù)倉(cāng)庫(kù)執(zhí)行數(shù)據(jù)剖析、數(shù)據(jù)清洗以及數(shù)據(jù)挖掘或者回歸分析。換句話說(shuō),就是做全套的數(shù)據(jù)挖掘,但是是在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部執(zhí)行。這能夠幫助你處理好數(shù)據(jù),因?yàn)槟闶褂脭?shù)據(jù)挖掘或者回歸分析來(lái)從根本上了解數(shù)據(jù)集模式。然后使用數(shù)據(jù)庫(kù)內(nèi)挖掘(in-database data mining)來(lái)填充下游的分析數(shù)據(jù)集市,數(shù)據(jù)挖掘和統(tǒng)計(jì)模型專業(yè)人士可以利用它將復(fù)雜的模式實(shí)現(xiàn)可視化。舉例來(lái)說(shuō),他們使用那些模式來(lái)辨別潛在的大客戶,這樣可以有限將他們?cè)O(shè)定為銷售的目標(biāo)。使用數(shù)據(jù)庫(kù)內(nèi)分析以及像MapReduce這樣的技術(shù),可以在一個(gè)高并發(fā)高擴(kuò)展的數(shù)據(jù)庫(kù)架構(gòu)內(nèi)將數(shù)據(jù)挖掘自動(dòng)化。
數(shù)據(jù)庫(kù)內(nèi)分析目前的應(yīng)用狀況如何?是不是每個(gè)企業(yè)都會(huì)用到它?
Kobielus:雖然不是所有人都會(huì)用到數(shù)據(jù)庫(kù)內(nèi)分析技術(shù),但是我們可以看到越來(lái)越多的企業(yè)已經(jīng)對(duì)它產(chǎn)生了濃厚的興趣。如果你的數(shù)據(jù)挖掘規(guī)模很大,數(shù)據(jù)庫(kù)內(nèi)分析已經(jīng)被視為是最佳實(shí)踐。眾所周知,目前大量實(shí)際生產(chǎn)中的數(shù)據(jù)倉(cāng)庫(kù)都是面向操作型商業(yè)智能的,它們更多的是在生產(chǎn)報(bào)表、執(zhí)行即席查詢(ad hoc query)等,很少進(jìn)行數(shù)據(jù)挖掘。但隨著數(shù)據(jù)量的增長(zhǎng),數(shù)據(jù)挖掘的必要性也就凸現(xiàn)出來(lái),而數(shù)據(jù)庫(kù)內(nèi)分析的價(jià)值也將體現(xiàn)。利用這一技術(shù)的目標(biāo)就是加速并擴(kuò)展你的數(shù)據(jù)挖掘項(xiàng)目,同時(shí)根據(jù)一組通用的參考數(shù)據(jù)使所有的挖掘在數(shù)據(jù)倉(cāng)庫(kù)中保持一致。
第三種最佳實(shí)踐是什么?
Kobielus:第三就是將數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)治理的核心,主數(shù)據(jù)可以合理地在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行維護(hù)。當(dāng)你的數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)治理與數(shù)據(jù)清洗的核心時(shí),它能夠幫助你搞清楚所有的信息。在整個(gè)企業(yè)架構(gòu)中,也許會(huì)有成百上千個(gè)應(yīng)用在向數(shù)據(jù)倉(cāng)庫(kù)中添加數(shù)據(jù)。數(shù)據(jù)就像洪水一般實(shí)時(shí)地流動(dòng),數(shù)據(jù)倉(cāng)庫(kù)就是其中的樞紐,確保大數(shù)據(jù)集可靠恰當(dāng)?shù)赜迷谙掠蔚南M(fèi)當(dāng)中。
在大數(shù)據(jù)蔓延的今天,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)廠商都為客戶做了哪些努力?
Kobielus:Teradata、Oracle-Exadata、IBM-Netezza、HP-Vertica等等都在做大數(shù)據(jù)。絕大一部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)廠商能夠利用網(wǎng)格或者云架構(gòu)將他們的產(chǎn)品擴(kuò)展到PB級(jí)別,而且也有絕大一部分能夠完成數(shù)據(jù)庫(kù)內(nèi)分析,即在大規(guī)模并行數(shù)據(jù)倉(cāng)庫(kù)網(wǎng)格或者云環(huán)境中實(shí)現(xiàn)。他們還可以在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)之內(nèi)來(lái)支持?jǐn)?shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)清洗功能。
從現(xiàn)在大多數(shù)的媒體報(bào)道來(lái)看,處理大數(shù)據(jù)挑戰(zhàn),Hadoop似乎是最好的辦法,您怎么認(rèn)為?
Kobielus:如果你想要處理好大數(shù)據(jù),你需要企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和Hadoop的組合來(lái)完成。我不同意人們把Hadoop看作是處理大數(shù)據(jù)問(wèn)題唯一的救命稻草。其實(shí)現(xiàn)在的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)基本上已經(jīng)能夠做到Hadoop可以實(shí)現(xiàn)的任何功能。Hadoop同傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)相比,優(yōu)勢(shì)就是開源,它是免費(fèi)的,但是需要提醒企業(yè)用戶不要忽視開源Hadoop的許多無(wú)形維護(hù)費(fèi)用。可以說(shuō)Hadoop是未來(lái)五到十年內(nèi)下一代企業(yè)數(shù)據(jù)倉(cāng)庫(kù)發(fā)展的最大動(dòng)力。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:Forrester分析師解讀Hadoop與數(shù)據(jù)倉(cāng)庫(kù)概念
本文網(wǎng)址:http://www.oesoe.com/html/solutions/1401939115.html