一般來(lái)說,大數(shù)據(jù)存儲(chǔ)和分析會(huì)出現(xiàn)在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)中或是與之相關(guān)聯(lián)的場(chǎng)景下。整合大數(shù)據(jù)解決方案的所有部分需要有對(duì)EDW流程每個(gè)部分進(jìn)行轉(zhuǎn)換。本文會(huì)對(duì)圍繞EDW的主要工作進(jìn)行總結(jié),并討論它們是如何受大數(shù)據(jù)影響的,以及如何在實(shí)施之前進(jìn)行規(guī)劃。
數(shù)據(jù)獲取與采集
存儲(chǔ)在EDW中的數(shù)據(jù)是從原始來(lái)源系統(tǒng)獲取的,這些是實(shí)時(shí)處理業(yè)務(wù)數(shù)據(jù)的典型系統(tǒng)。諸如ATM機(jī),銀行用戶服務(wù)系統(tǒng),在線訂單錄入系統(tǒng),客戶檔案管理系統(tǒng)以及會(huì)計(jì)系統(tǒng)等這樣一些客戶接口系統(tǒng)。
數(shù)據(jù)轉(zhuǎn)換與遷移
由于大多業(yè)務(wù)數(shù)據(jù)是以其原有形式呈現(xiàn)的,因此一些需要轉(zhuǎn)換或是‘清洗’。典型的例子包括無(wú)效日期(比如02-31-2013,99-99-9999),缺失數(shù)據(jù)(一個(gè)不存在的客戶所下的訂單),未知數(shù)據(jù)(對(duì)于一個(gè)當(dāng)前開放的賬戶其數(shù)據(jù)賬戶卻是關(guān)閉的)等等。EDW轉(zhuǎn)換流程會(huì)對(duì)源數(shù)據(jù)進(jìn)行清洗,從而把它們以一種可用的形式存儲(chǔ)到數(shù)據(jù)庫(kù)中。
這一子流程的另一部分是將數(shù)據(jù)從源系統(tǒng)遷移到EDW中去。這一過程可能會(huì)包含文件傳輸,消息傳遞,甚至還有高速硬件連接。
數(shù)據(jù)暫存與鍵控
在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中,將最初獲得的數(shù)據(jù)存儲(chǔ)在一個(gè)暫存區(qū)域中是很常見的,暫存區(qū)域通常是臨時(shí)文件或數(shù)據(jù)庫(kù)表。數(shù)據(jù)在載入EDW之前可以在那里得以積累并交叉引用。
鍵控就是為EDW中的實(shí)體分配一個(gè)代理鍵的過程。那為什么不使用數(shù)據(jù)的自然鍵呢,例如賬戶號(hào)或是客戶號(hào)?EDW是來(lái)自多個(gè)業(yè)務(wù)系統(tǒng)的實(shí)體組合。為了跨系統(tǒng)進(jìn)行比較,鍵就必須擁有公共屬性,比如“賬戶號(hào)”。企業(yè)可能就需要支持許多不同格式的數(shù)據(jù)項(xiàng),每個(gè)都有不同的數(shù)據(jù)類型和長(zhǎng)度。而指定一個(gè)代理鍵就可以允許使用公共鍵來(lái)比較這些實(shí)體以進(jìn)行分析。
數(shù)據(jù)訪問與分析
EDW中存入了數(shù)據(jù)之后,就可以展開分析了。大多數(shù)IT供應(yīng)商為用戶提供了軟件工具來(lái)進(jìn)行深入的分析,或者我們把它稱作BI分析。一些軟件能直接訪問EDW數(shù)據(jù),或者提取數(shù)據(jù)的子集以供本地分析。
數(shù)據(jù)歸檔
EDW中的數(shù)據(jù)會(huì)過期或是變得無(wú)關(guān)緊要。將舊數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中刪除并歸檔。EDW人員與業(yè)務(wù)部門協(xié)作進(jìn)行分析以確定歸檔數(shù)據(jù)是否可以存儲(chǔ)在磁帶上,或是必須將其保留以供今后法律及業(yè)務(wù)層面的需求之用,這一點(diǎn)是非常重要的。
大數(shù)據(jù)如何影響數(shù)據(jù)倉(cāng)庫(kù)
業(yè)務(wù)上處理的大數(shù)據(jù)會(huì)包含以下特點(diǎn):
·從源系統(tǒng)捕獲大量數(shù)據(jù)
·數(shù)據(jù)以高速到達(dá)
·半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)
這就提出了一個(gè)非常有趣的問題:在你還沒有進(jìn)行分析的前提下,你如何知道會(huì)存儲(chǔ)什么樣的大數(shù)據(jù)?亦或是,在沒有收集和存儲(chǔ)的情況下你如何分析大數(shù)據(jù)?
這是大數(shù)據(jù)實(shí)施的核心問題。甚至是一個(gè)包含大數(shù)據(jù)分析的小的測(cè)試或是試驗(yàn)項(xiàng)目都要求獲取數(shù)據(jù)并存儲(chǔ)。為了衡量投資一個(gè)分析解決方案的風(fēng)險(xiǎn)和回報(bào),你必須首先進(jìn)行EDW的收集、清洗、暫存以及鍵控這些步驟來(lái)處理大數(shù)據(jù);否則,要比較并連接到EDW就會(huì)極其困難了。
接下來(lái)的步驟就是確定EDW中的每個(gè)流程是如何受影響的。
大數(shù)據(jù)獲取與收集
大數(shù)據(jù)通常意味著的僅僅是:大量數(shù)據(jù)。你必須為數(shù)據(jù)分配軟硬件以及存儲(chǔ)介質(zhì)。包括應(yīng)急存儲(chǔ)數(shù)據(jù),在能夠遷移至EDW之前需要一個(gè)應(yīng)急數(shù)據(jù)存儲(chǔ)機(jī)制以防由于硬件緩慢造成的延遲。而且還要確定這些新設(shè)備和流程會(huì)如何影響你的災(zāi)備預(yù)案。
最初的大數(shù)據(jù)分析測(cè)試可能會(huì)在數(shù)據(jù)源進(jìn)行,而繞過EDW流程。但想要取得成功就應(yīng)該考慮到這樣一個(gè)事實(shí),就是大數(shù)據(jù)分析還是要集成到EDW的數(shù)據(jù)訪問和分析流程中的。
大數(shù)據(jù)轉(zhuǎn)換和遷移
一些大數(shù)據(jù)實(shí)現(xiàn)包含非結(jié)構(gòu)化數(shù)據(jù)。例如音頻,圖像和視頻文件以及傳真等等。盡管從技術(shù)上講,這些數(shù)據(jù)是“結(jié)構(gòu)化”的,因?yàn)樗鼈兪强陕牶涂梢姷摹5Y(jié)構(gòu)化這個(gè)詞用在大數(shù)據(jù)環(huán)境下意味著數(shù)據(jù)擁有實(shí)體,屬性和關(guān)系。換言之就是存儲(chǔ)在數(shù)據(jù)庫(kù)表中的記錄,字段和鍵。
另外一項(xiàng)是半結(jié)構(gòu)化數(shù)據(jù),最常見的例子就是XML流數(shù)據(jù)。很多業(yè)務(wù)應(yīng)用程序以常用格式把XML作為一種數(shù)據(jù)編碼方式。接著數(shù)據(jù)就可以被多個(gè)應(yīng)用程序讀取,存儲(chǔ),和處理。
當(dāng)前版本的DB2允許以本地格式存儲(chǔ)XML數(shù)據(jù),而不需要任何的預(yù)處理或是解碼到DB2表中。這一特性使得存儲(chǔ),恢復(fù)和分析XML數(shù)據(jù)更為容易。
數(shù)據(jù)遷移則引出了另一個(gè)問題?焖龠w移大量數(shù)據(jù)可能會(huì)需要額外資源,甚至是特殊軟件。
大數(shù)據(jù)暫存與鍵控
大數(shù)據(jù)暫存需要額外軟硬件以及存儲(chǔ)介質(zhì)。因此開辟臨時(shí)存儲(chǔ)區(qū)是十分必要的。此外,輔以大數(shù)據(jù)的EDW長(zhǎng)期積累數(shù)據(jù),這些數(shù)據(jù)有必要以日期或是時(shí)間進(jìn)行鍵控。人們普遍在EDW中采用業(yè)務(wù)數(shù)據(jù)并存儲(chǔ)在數(shù)據(jù)庫(kù)表中以日期進(jìn)行分區(qū)。如果這些表中的數(shù)據(jù)以日期進(jìn)行鍵控,那么這些鍵同樣必須添加到大數(shù)據(jù)中去。
另一個(gè)問題是大數(shù)據(jù)量。為了幫助解決這一問題,多數(shù)大數(shù)據(jù)分析解決方案都包含某種形式的數(shù)據(jù)壓縮或是特有的數(shù)據(jù)存儲(chǔ)機(jī)制。
大數(shù)據(jù)訪問與分析
最后我們將數(shù)據(jù)整合進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。此時(shí),用戶可以對(duì)合并后的大數(shù)據(jù)和當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)執(zhí)行分析軟件。這里你便會(huì)最終感受到如此實(shí)施所付出的成本是否值得。
大數(shù)據(jù)歸檔
最后我們要考慮數(shù)據(jù)的歸檔。隨著分析了大量數(shù)據(jù),龐大的數(shù)據(jù)量可能會(huì)占據(jù)寶貴的存儲(chǔ)并使得一些流程變得緩慢。IT部門以及業(yè)務(wù)伙伴必須確定在何時(shí)和以何種方式對(duì)陳舊過期的大數(shù)據(jù)進(jìn)行存檔,以及確定是否需要保留以供后用。這也是另一個(gè)要考慮的成本因素。
總結(jié)
通過對(duì)大數(shù)據(jù)進(jìn)行分析來(lái)增加業(yè)務(wù)的價(jià)值,這樣一個(gè)概念聽起來(lái)十分美妙。但整個(gè)實(shí)施流程會(huì)有一些步驟并且它們會(huì)影響你企業(yè)數(shù)據(jù)倉(cāng)庫(kù)流程的所有部分?匆幌履阏麄(gè)的EDW流程,軟硬件,以此來(lái)確定大數(shù)據(jù)部署所造成的影響。也只有如此,你才能為過渡到大數(shù)據(jù)做好充分準(zhǔn)備。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:企業(yè)數(shù)據(jù)倉(cāng)庫(kù)如何過渡到大數(shù)據(jù)時(shí)代
本文網(wǎng)址:http://www.oesoe.com/html/support/1112159880.html