使用高級(jí)分析工具來對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析是很常見的,特別是對(duì)于有很多面向客戶系統(tǒng)的大型企業(yè)。隨著我們可以訪問的數(shù)據(jù)越來越多,企業(yè)已經(jīng)開始將大數(shù)據(jù)存儲(chǔ)到企業(yè)數(shù)據(jù)倉庫(EDW)中。然而,這些大數(shù)據(jù)部署帶來一系列的問題,它要求數(shù)據(jù)庫管理員(DBA)和相關(guān)支持人員對(duì)數(shù)據(jù)倉庫架構(gòu)進(jìn)行重新設(shè)計(jì)。
大數(shù)據(jù)時(shí)代
在當(dāng)今的商業(yè)化的IT系統(tǒng)中,我們會(huì)收集存儲(chǔ)越來越大量的數(shù)據(jù)。同時(shí)要能夠獲取、分析這些數(shù)據(jù),大多數(shù)企業(yè)開始轉(zhuǎn)向?qū)S杏布、軟件解決方案。這也是一體化設(shè)備開始流行的一個(gè)原因,針對(duì)特定應(yīng)用場景的硬件數(shù)據(jù)存儲(chǔ)與業(yè)務(wù)分析軟件的耦合度越來越高。
比如IBM的DB2 Analytics Accelerator(IDAA),即IBM DB2分析加速器。
這樣的解決方案通常十分昂貴。大數(shù)據(jù)存儲(chǔ)需要擴(kuò)展磁盤和內(nèi)存陣列,高性能訪問則需要大量CPU資源加上復(fù)雜的數(shù)據(jù)訪問以允許多個(gè)進(jìn)程并行訪問數(shù)據(jù)集的各個(gè)部分。
在實(shí)現(xiàn)這樣一個(gè)解決方案之前,企業(yè)需要確認(rèn)并解決以下問題。
基礎(chǔ)設(shè)施需求
就拿IDAA來舉例,它是一個(gè)軟硬件解決方案的混合產(chǎn)物。其硬件包括一個(gè)大型磁盤存儲(chǔ)陣列并結(jié)合可進(jìn)行大規(guī)模并行處理的軟件。技術(shù)支持人員要指定哪些DB2表要在設(shè)備中加以復(fù)制和存儲(chǔ),及其刷新機(jī)制。然后軟件會(huì)與DB2數(shù)據(jù)庫引擎相連接,使得查詢可以訪問設(shè)備中的表備份,這可以提供更快的訪問速度。
除了電力和冷卻這些標(biāo)準(zhǔn)問題,在部署這樣一個(gè)設(shè)備之前,IT人員必須考慮多個(gè)架構(gòu)方面的問題。
IDAA只會(huì)存儲(chǔ)生產(chǎn)系統(tǒng)的數(shù)據(jù)嗎?還是說也可以存儲(chǔ)測試數(shù)據(jù)?換句話說,DBA和業(yè)務(wù)分析人員要怎樣開發(fā)并測試他們的數(shù)據(jù)分析查詢。
究竟需要多少設(shè)備呢?例如,如果在IDAA上正在執(zhí)行的數(shù)據(jù)分析是公司關(guān)鍵任務(wù),那么是不是需要額外的設(shè)備進(jìn)行災(zāi)備?
雖然IDAA可以存儲(chǔ)大量數(shù)據(jù),但只能對(duì)訪問設(shè)備中存儲(chǔ)數(shù)據(jù)的查詢進(jìn)行提速。那么系統(tǒng)中要存儲(chǔ)哪些表呢?
特定的用例
超快的數(shù)據(jù)分析聽上去不錯(cuò),但很多企業(yè)尚沒有為分析開發(fā)特定的查詢或系統(tǒng)。這就導(dǎo)致了很多時(shí)間花費(fèi)在數(shù)據(jù)加載和查詢測試上,而沒有產(chǎn)生切實(shí)的成果。
合理成本會(huì)迅速轉(zhuǎn)化為效益嗎?
大多數(shù)業(yè)務(wù)數(shù)據(jù)分析包括以下一系列步驟:
1.業(yè)務(wù)分析人員審查報(bào)表,查詢以及其他數(shù)據(jù)并形成基于他們分析的邏輯問題;
2.然后開發(fā)一個(gè)或多個(gè)查詢用來分析大型數(shù)據(jù)存儲(chǔ);
3.執(zhí)行查詢;
4.分析人員審查并闡釋結(jié)果。
一體化的解決方案可以顯著減少步驟3的執(zhí)行時(shí)間。但是,其他步驟依然存在。例如,假設(shè)以上的每個(gè)步驟要耗費(fèi)一小時(shí),那么總的消耗時(shí)間就是四小時(shí)。部署一體機(jī)可能會(huì)將查詢執(zhí)行時(shí)間減少為幾分鐘。雖然這是一個(gè)非常顯著的時(shí)間降低,但是總時(shí)間也只縮減為三個(gè)小時(shí)多一點(diǎn)。
總之,減少查詢執(zhí)行時(shí)間肯定是有好處的,但是可能不像之前所認(rèn)為的那樣效果明顯。
業(yè)務(wù)數(shù)據(jù)“消費(fèi)”群體
大多數(shù)業(yè)務(wù)數(shù)據(jù)“消費(fèi)者”可分為以下三類:
1.技術(shù)用戶直接運(yùn)行查詢。這些用戶會(huì)使用SQL針對(duì)數(shù)據(jù)表創(chuàng)建查詢,然后使用一個(gè)在線SQL執(zhí)行工具來運(yùn)行查詢并在原始數(shù)據(jù)表格中生成結(jié)果,這樣他們便可以直接觀察或是下載到一個(gè)電子表格以供進(jìn)一步分析之用。這些用戶熟悉這些數(shù)據(jù)表,擁有SQL相關(guān)知識(shí),并且會(huì)用簡單工具來提煉結(jié)果。
2.復(fù)雜報(bào)表分析人員。這些消費(fèi)者通常會(huì)使用一個(gè)復(fù)雜的報(bào)表工具來顯示數(shù)據(jù)的一個(gè)圖形數(shù)據(jù)模型。然后他們會(huì)通過拖拽表和字段到一個(gè)報(bào)表窗口來操縱此模型。此工具接著會(huì)創(chuàng)建基于模型和其他參數(shù)的適當(dāng)SQL語句,執(zhí)行此查詢,并顯示結(jié)果。這些用戶熟悉數(shù)據(jù),通常不具備SQL專長,而且需要一些高級(jí)查詢和統(tǒng)計(jì)報(bào)告的技術(shù)。
3.數(shù)據(jù)集市的消費(fèi)者。這些用戶擁有他們自己的高度專業(yè)化的業(yè)務(wù)數(shù)據(jù)分析軟件。他們會(huì)直接從源頭提取業(yè)務(wù)數(shù)據(jù)并將之存儲(chǔ)在一個(gè)本地服務(wù)器上。然后他們會(huì)使用專門的軟件來分析數(shù)據(jù) 任何一個(gè)大數(shù)據(jù)解決方案都必須將這些不同的群體需求考慮進(jìn)來。
部署過程中的問題
在部署一體機(jī)的過程中,IT人員通常會(huì)遇到一些常見問題。
相互矛盾的問題
如果我們尚未對(duì)其進(jìn)行分析那么我們要存儲(chǔ)些什么呢?如果我們還沒有數(shù)據(jù)那么我們要分析什么呢?業(yè)務(wù)并不會(huì)完整的理解什么數(shù)據(jù)會(huì)是可用的,并且IT支持人員并不了解在一個(gè)大數(shù)據(jù)解決方案中什么樣的業(yè)務(wù)數(shù)據(jù)對(duì)于整個(gè)部署來說是最為有用的。
這兩個(gè)問題通常是缺乏特定用例或是IT與業(yè)務(wù)部門間缺乏交流所導(dǎo)致。
批量數(shù)據(jù)加載問題
大多數(shù)一體機(jī)支持大數(shù)據(jù)解決方案并能承受超大量的數(shù)據(jù)。最常見的問題之一就是究竟要花多長時(shí)間將那些數(shù)據(jù)加載到一體機(jī)中?
一旦數(shù)據(jù)被加載,其他批量數(shù)據(jù)問題就出現(xiàn)了:我們要如何才能保持?jǐn)?shù)據(jù)是最新的?我們要如何清除大量過期和無用數(shù)據(jù)?
這些并非新問題。有經(jīng)驗(yàn)的IT人員一定不會(huì)陌生,其中之一便是災(zāi)難恢復(fù)(DR)準(zhǔn)備。如果突發(fā)災(zāi)難(火災(zāi),洪水等)在主站點(diǎn)發(fā)生,那么典型的災(zāi)難恢復(fù)站點(diǎn)就必須在數(shù)小時(shí)內(nèi)準(zhǔn)備好,來頂替主站點(diǎn)。對(duì)于當(dāng)今大量的業(yè)務(wù)數(shù)據(jù)來說,最為常見的技術(shù)解決方案就是去維護(hù)一個(gè)在DR站點(diǎn)當(dāng)前業(yè)務(wù)數(shù)據(jù)的完全備份,而此DR站點(diǎn)是通過網(wǎng)絡(luò)連接和軟件將主站數(shù)據(jù)“鏡像”到DR站點(diǎn)的。
有了一個(gè)大數(shù)據(jù)解決方案,IT人員就必須找出一種方法通過數(shù)據(jù)鏡像,定期數(shù)據(jù)加載和定期數(shù)據(jù)歸檔工作的組合來讓一體機(jī)中的數(shù)據(jù)保持新鮮。
災(zāi)難恢復(fù)問題
大多數(shù)數(shù)據(jù)倉庫是用來進(jìn)行分析和報(bào)表之用,并非用來處理客戶事務(wù)之類的業(yè)務(wù)數(shù)據(jù)。一個(gè)大數(shù)據(jù)一體機(jī)通常會(huì)連接到數(shù)據(jù)倉庫,所以這并不是通常所認(rèn)為的在DR站點(diǎn)所需要的東西。但是,在此之前,讓我們來考慮以下場景:
1.你的公司已經(jīng)部署了大數(shù)據(jù)一體機(jī);
2.業(yè)務(wù)分析人員和用戶開始查詢數(shù)據(jù);
3.很多查詢產(chǎn)生的結(jié)果導(dǎo)致更低的成本和更合適的價(jià)格;
4.查詢運(yùn)行迅速,如此之多的分析人員開始執(zhí)行很多查詢;
5.隨著更多的查詢產(chǎn)生可執(zhí)行結(jié)果,管理方認(rèn)同它們的價(jià)值;
6.每周一次性的查詢開始運(yùn)行;某些查詢成為日常報(bào)表;
7.在管理中有價(jià)值的日常報(bào)表結(jié)果數(shù)量指定大數(shù)據(jù)解決方案并分析為“關(guān)鍵任務(wù)”。
然而,IT人員會(huì)突然被告知如果災(zāi)難發(fā)生,大數(shù)據(jù)存儲(chǔ)必須是可用的。
要為企業(yè)中所發(fā)生的這些做好準(zhǔn)備,需要在部署的開始階段審查存儲(chǔ)需求,網(wǎng)絡(luò)容量,硬件能力和容量以及軟件許可需求。要讓這些數(shù)據(jù)在變得關(guān)鍵之前進(jìn)行發(fā)布并使之可用于管理。這會(huì)讓你的企業(yè)提前為其需要做好預(yù)算和規(guī)劃。
最初的部署問題
你也許要部署一臺(tái)進(jìn)行大數(shù)據(jù)分析的一體機(jī)。通常來說,這些數(shù)據(jù)并非在當(dāng)前收集或存儲(chǔ)在數(shù)據(jù)倉庫中,因?yàn)檫@些數(shù)據(jù)太大了。相反,這些數(shù)據(jù)是作為當(dāng)前可操作數(shù)據(jù)的一部分來存儲(chǔ)的。一些例子包括語音響應(yīng)記錄和點(diǎn)擊數(shù)據(jù),在線互動(dòng)和設(shè)備傳感器數(shù)據(jù)。
這就引出了一個(gè)有趣的想法:首個(gè)分析會(huì)是在原始生產(chǎn)系統(tǒng)數(shù)據(jù)上,而非在數(shù)據(jù)倉庫中。這是一個(gè)誘人的想法。你可以擯棄在數(shù)據(jù)倉庫中進(jìn)行獲取,轉(zhuǎn)換,以及存儲(chǔ)大量數(shù)據(jù)所耗費(fèi)的成本和時(shí)間。數(shù)據(jù)可以馬上被訪問,而不用忍受相關(guān)的正常數(shù)據(jù)倉庫的數(shù)據(jù)暫存和加載所帶來的延遲。
然而,直接的生產(chǎn)系統(tǒng)數(shù)據(jù)訪問會(huì)產(chǎn)生問題。某些生產(chǎn)數(shù)據(jù)可能是非完整的或是缺失的,亦或是一種不易訪問的形式。某些數(shù)據(jù)可能是無效的,就像一個(gè)類似“99-99-9999”的日期數(shù)據(jù),或是一個(gè)金額字段包含字母。其他數(shù)據(jù)可能會(huì)需要解釋,例如一個(gè)代碼字段包含0,A或C。
另一個(gè)問題是,大部分的大數(shù)據(jù)分析取決于稱之為維度的跨類型數(shù)據(jù)聚合。例如,客戶訂單數(shù)據(jù)可能會(huì)由地理區(qū)域和產(chǎn)品類型加以歸納。這些維度存在于數(shù)據(jù)倉庫的表中。為了成功執(zhí)行這些查詢,它們必須對(duì)完全在一體機(jī)中的數(shù)據(jù)加以操作。這就意味著數(shù)據(jù)倉庫數(shù)據(jù)必須存在于一體機(jī)中為查詢而工作。
總結(jié)
目前大多數(shù)高級(jí)分析解決方案都能夠應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)。高速一體機(jī)會(huì)通過顯著縮短查詢時(shí)間來為業(yè)務(wù)用戶創(chuàng)造價(jià)值。但是,最好的架構(gòu)解決方案會(huì)要求一體機(jī)作為數(shù)據(jù)倉庫的一部分。
將大數(shù)據(jù)一體機(jī)整合到一個(gè)數(shù)據(jù)倉庫需要充分準(zhǔn)備和深謀遠(yuǎn)慮。DBA和業(yè)務(wù)數(shù)據(jù)客戶必須協(xié)同工作一起確認(rèn)以上實(shí)現(xiàn)過程中的問題并來滿足多種業(yè)務(wù)數(shù)據(jù)客戶的需求。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:大數(shù)據(jù)一體機(jī)融入數(shù)據(jù)倉庫架構(gòu)的解決方法
本文網(wǎng)址:http://www.oesoe.com/html/support/11121512501.html