1數(shù)據(jù)倉庫與OLAP
1·1從數(shù)據(jù)庫到數(shù)據(jù)倉庫
過去幾十年中,數(shù)據(jù)庫技術(shù),特別是OLTP(在線事務(wù)處理)發(fā)展得較為成熟,它的根本任務(wù)就是及時(shí)地、安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來。隨著社會(huì)的發(fā)展,人們提出了利用現(xiàn)有的數(shù)據(jù),進(jìn)行分析和推理,導(dǎo)致了決策支持系統(tǒng)(DSS)的產(chǎn)生.隨著數(shù)據(jù)量的迅速增大以及查詢要求的復(fù)雜化,建立在OLTP的數(shù)據(jù)庫上的DSS,暴露出許多難以克服的困難:
1)缺乏組織性。各個(gè)部門抽取的數(shù)據(jù)沒有統(tǒng)一的時(shí)間基準(zhǔn),抽取算法、抽取級別也各不相同,并且可能參考了不同的外部數(shù)據(jù)。
2)效率極為低下,數(shù)據(jù)難以轉(zhuǎn)化為有用的信息。原始狀態(tài)中的大量數(shù)據(jù),同一字段在不同應(yīng)用中又可能存在著同名異義、異名同義、類型不同、字長不同等許多難以識(shí)別的麻煩。
3)其他困擾著基于傳統(tǒng)DBDSS的問題。DSS對OLTP性能的影響是難以忍受的。另外,OLTP的DB各個(gè)應(yīng)用領(lǐng)域的數(shù)據(jù)保存期限都不一樣,難以滿足DSS需要。
數(shù)據(jù)倉庫最主要的特征是:
l)數(shù)據(jù)倉庫是面向主題的。它與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng),主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對應(yīng)一個(gè)宏觀的分析領(lǐng)域。
2)數(shù)據(jù)倉庫是集成的。原始數(shù)據(jù)與適合DSS分析的數(shù)據(jù)之間差別很大。因此,在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工與集成。
3)數(shù)據(jù)倉庫是穩(wěn)定的。它反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù).因而,數(shù)據(jù)經(jīng)集成進(jìn)人數(shù)據(jù)倉庫后是極少甚至根本不更新的。
4)數(shù)據(jù)倉庫是隨時(shí)間變化的。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)限要遠(yuǎn)遠(yuǎn)長于操作型環(huán)境中的數(shù)據(jù)時(shí)限;數(shù)據(jù)倉庫中的數(shù)據(jù)都是歷史數(shù)據(jù);數(shù)據(jù)倉庫數(shù)據(jù)的碼鍵一般都包含時(shí)間項(xiàng),從而標(biāo)明了該數(shù)據(jù)的歷史時(shí)期。
一種典型的數(shù)據(jù)倉庫結(jié)構(gòu)如圖1所示.它分為四級:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級和高度綜合級。原始數(shù)據(jù)經(jīng)集成以后,首先進(jìn)人當(dāng)前細(xì)節(jié)級,并根據(jù)需要進(jìn)一步進(jìn)行綜合,進(jìn)入輕度綜合級乃至高度綜合級,老化的數(shù)據(jù)則進(jìn)入早期細(xì)節(jié)級。數(shù)據(jù)倉庫中存在著不同的細(xì)節(jié)級別,稱之為“粒度”.粒度越高表示細(xì)節(jié)程度越低、綜合程度越高。數(shù)據(jù)倉庫的另一個(gè)重要技術(shù)是如何定期向數(shù)據(jù)倉庫追加數(shù)據(jù).常用的技術(shù)租方法有:
圖1.數(shù)據(jù)倉庫結(jié)構(gòu)
時(shí)標(biāo)方法:如果數(shù)據(jù)含有時(shí)標(biāo),只需根據(jù)時(shí)標(biāo)判斷即可.
DELTA文件:由應(yīng)用生成,記錄應(yīng)用所改變的所有內(nèi)容。
前后映象文件的方法:在抽取數(shù)據(jù)前后對數(shù)據(jù)庫各作一次快照,然后比較兩幅快照的不同從而確定新數(shù)據(jù)。
日志文件:它不會(huì)影響OLTP的性能.同時(shí),它還具有DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限于日志文件.
1.2從OLTP到OLAP
OLAP(在線分析處理)是以數(shù)據(jù)庫或數(shù)據(jù)倉庫為基礎(chǔ)的,其最終數(shù)據(jù)來源與OLTP一樣,均來自底層的數(shù)據(jù)庫系統(tǒng)。OLTP面對的是操作人員和低層管理人員,而OLAP面對的是決策人員和高層管理人員,所使用的經(jīng)綜合提煉的歷史數(shù)據(jù)均來自O(shè)LTP所依賴的底層數(shù)據(jù)庫,OLAP數(shù)據(jù)較之OLTP只數(shù)據(jù)要多一步數(shù)據(jù)多維化或預(yù)綜合處理。
數(shù)據(jù)模型的分類如表1所示。
絕對模型(CategoriealModel):屬于靜態(tài)數(shù)據(jù)分析。它通過比較歷史數(shù)據(jù)值或行為來描述過去發(fā)生的事實(shí)。
解釋模型(ExegetiealModel):用戶一分析人員利用系統(tǒng)已有的層次綜合路徑層層細(xì)化,找出事實(shí)發(fā)生的原因。
思考模型(ContemplativeModel):屬于動(dòng)態(tài)數(shù)據(jù)分析,它旨在說明在一維或多維上引入一組具體變盤或參數(shù)后將會(huì)發(fā)生什么。
公式模型(FormulaicModel):是動(dòng)態(tài)性最高的一類模型,表示在多個(gè)維上,需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。
OLAP是應(yīng)企業(yè)動(dòng)態(tài)分析而產(chǎn)生的,其功能是通過創(chuàng)建、操作、激活及綜合來自解釋模型、思考模型及公式模型中的信息。它可以識(shí)別變量間的新的或不可預(yù)知的關(guān)聯(lián),通過創(chuàng)建大量的維(綜合路徑)及指定維間的計(jì)算條件和表達(dá)式來處理大量數(shù)據(jù)。
數(shù)據(jù)倉庫系統(tǒng)由三部分組成:數(shù)據(jù)倉庫(Dw)、數(shù)據(jù)倉庫管理系統(tǒng)(DWMS)和數(shù)據(jù)倉庫工具。從數(shù)據(jù)倉庫體系結(jié)構(gòu)(圖2)可以清楚地看到這三部分的關(guān)系。
圖2.數(shù)據(jù)倉庫體系結(jié)構(gòu)
在整個(gè)系統(tǒng)中數(shù)據(jù)倉庫居于核心地位,是信息挖掘的基礎(chǔ);數(shù)據(jù)倉庫管理系統(tǒng)負(fù)貴管理整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn),起著承上啟下的作用;而數(shù)據(jù)分析工具則是整個(gè)系統(tǒng)發(fā)揮作用的關(guān)鍵,只有通過高效的工具,數(shù)據(jù)倉庫才能真正發(fā)揮數(shù)據(jù)寶庫的作用。
信息處理的多層次要求導(dǎo)致了一種新的數(shù)據(jù)環(huán)境一操作數(shù)據(jù)庫ODS的建立.ODS一方面包含細(xì)節(jié)的、當(dāng)前或接近當(dāng)前的數(shù)據(jù),可進(jìn)行聯(lián)機(jī)操作型處理;另一方面,又是一種面向主題、集成的數(shù)據(jù)環(huán)境,可以輔助企業(yè)完成日常決策。
2數(shù)據(jù)倉庫在現(xiàn)代企業(yè)中的應(yīng)用
2.1一個(gè)銷售系統(tǒng)的結(jié)構(gòu)與工作原理
圖3.數(shù)據(jù)庫結(jié)構(gòu)
恩威公司銷售分系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)如圖3所示。其中:各分公司的OLTP數(shù)據(jù)庫位于各分公司的高性能PC機(jī)上,由SQLAnywher。管理。主要用于各分公司的日常事務(wù)處理,涉及到日常銷售、回款、倉儲(chǔ)管理等諸多方面。通過X.25或電話撥號上網(wǎng)與總部OLTP數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交換.銷售總部OLTP數(shù)據(jù)庫位于公司總部的數(shù)據(jù)服務(wù)器上,由SybaseSQLServor管理。主要用于公司銷售總部的日常事務(wù)處理,包括銷售人員檔案管理、業(yè)績考核、日常計(jì)劃的制定以及銷售總部自身的銷售業(yè)務(wù)等。該數(shù)據(jù)庫的地位和作用在很大程度上相當(dāng)于一個(gè)ODS。
銷售數(shù)據(jù)倉庫完整的工作過程如圖4所示。其中的OLAP工具部分由虛線框界定,表示在該系統(tǒng)中尚且缺乏,目前在這個(gè)位置上工作的只是一些模型化的工具。而在IT軟件市場上己經(jīng)出現(xiàn)了許多實(shí)用的OLAP產(chǎn)品,通過考察和引進(jìn),相信這個(gè)問題在不遠(yuǎn)的將來即可得到完善的解決。
圖4.DW工作流程示意
2.2銷售數(shù)據(jù)倉庫的邏輯設(shè)計(jì)
在銷售數(shù)據(jù)倉庫的邏輯設(shè)計(jì)中,我們采用了流行的星型模式(StarSchema)。星型模式是基于關(guān)系型數(shù)據(jù)庫,面向OLAP的一種多維化的數(shù)據(jù)組織方式。
2.2.1星型模式的有關(guān)棍念。關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲(chǔ).關(guān)系數(shù)據(jù)庫將多維數(shù)據(jù)庫中的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)(Fact)表,用來存儲(chǔ)事實(shí)的度量值及各個(gè)維的碼值;另一類是維表,對每一個(gè)維來說,至少有一個(gè)表用來保存該維的元數(shù)據(jù),即維的描述信息,包括維的層次及成員類別等。在相關(guān)事實(shí)表中,這些值會(huì)衍生出該維的列。事實(shí)表是通過每一個(gè)維的碼值同維表聯(lián)系在一起的,該結(jié)構(gòu)即被稱為“星型模式”(如圖5)。.
圖5.星型模式示意圖
有時(shí),對于內(nèi)部層次復(fù)雜的維,可以用多張表來描述一個(gè)維。比如,產(chǎn)品維可以進(jìn)一步劃分為類型表、顏色表、商標(biāo)表等,這樣,在“星”的角上又出現(xiàn)了分支。這種變種的星型模型被稱為“雪片模式”(SnowFlakeSehema)。對層次復(fù)雜、成員類較多的維采用多張表來描述,而對于較為簡單的維可以用一張表來描述。
圖6.星型模式實(shí)例
2.2.2其體設(shè)計(jì)方案;阡N售部的日常業(yè)務(wù),我們選擇了銷售金額與回款金額這兩個(gè)墓本事實(shí)。并選定了與之相關(guān)的四個(gè)維一時(shí)間、市場(地區(qū))、產(chǎn)品和客戶.
于是,事實(shí)表的結(jié)構(gòu)可以表示如下:
為了提供詳盡的銷售業(yè)務(wù)信息,該事實(shí)表的時(shí)間維采用了_比較小的粒度,精確到每天。由于客戶和市場是緊密聯(lián)系的,因此,該事實(shí)表的大小僅與產(chǎn)品、客戶以及時(shí)間的粒度有關(guān)。
市場維是最為復(fù)雜的一個(gè)維,該維是層次結(jié)構(gòu)的。具體分為分公司、小組和基本市場三個(gè)層次。在DW中,市場維表主要有如下一些信息:可以看出,上表中的數(shù)據(jù)只能來自統(tǒng)計(jì)局的年
鑒,更新周期為一年。我們將市場維表的時(shí)間粒度定為一年。市場代碼為6位,符合嚴(yán)格的分段編碼原則,具體規(guī)則如圖7所示。
圖7.市場編碼規(guī)則
調(diào)整前后的代碼是一一對應(yīng)的、當(dāng)然,在事實(shí)表中的市場代碼也必須作相應(yīng)的調(diào)整,否則,Dw將無法工作。
產(chǎn)品維表除了產(chǎn)品代碼、時(shí)間外,還含有名稱、規(guī)格、單價(jià)、劑型(片劑、藥膏、藥液)等信息。我們將產(chǎn)品維表的時(shí)間粒度也定為一年.
客戶維表直接利用公司銷售部的客戶檔案,為了不影響OLTP系統(tǒng)的效率,DW中實(shí)際便用的是該檔案的一個(gè)拷貝,該拷貝定期根據(jù)OLTP數(shù)據(jù)庫中的客戶檔案進(jìn)行刷新。-
另外,DW中還存放有銷售人員、專家顧問和客戶的一些統(tǒng)計(jì)信息。這些信息目前可供查詢和生成相應(yīng)的報(bào)表,而在不遠(yuǎn)的將來,當(dāng)DW拓展主題、加大規(guī)模時(shí),這些數(shù)據(jù)就成為充實(shí)DW的資源。
2·3數(shù)據(jù)采集的實(shí)現(xiàn)
數(shù)據(jù)采集是數(shù)據(jù)倉庫建設(shè)階段的關(guān)鍵所在,亦是數(shù)據(jù)倉庫維護(hù)階段的主要工作之一。在數(shù)據(jù)采集的實(shí)現(xiàn)中有兩個(gè)間題必須予以重視:一是采集的周期和時(shí)機(jī)。二是凈化、集成數(shù)據(jù),生成純凈、統(tǒng)一的企業(yè)數(shù)據(jù)視圖。
目前,數(shù)據(jù)采集的工作是通過前端應(yīng)用來完成的,其技術(shù)基礎(chǔ)是PowerBuilder提供的數(shù)據(jù)庫控件“管道”。數(shù)據(jù)采集模塊的流程如圖8所示。
圖8.數(shù)據(jù)采集流程
之所以要給DBA‘二個(gè)強(qiáng)行執(zhí)行的機(jī)會(huì)是基于這樣的考慮:新舊兩套系統(tǒng)雙軌運(yùn)作的時(shí)期,必須允許DBA采取一些非常措施,以確保數(shù)據(jù)采L集的連續(xù)性。另外,以上流程圖中各部分的具體細(xì)節(jié),尤其是與業(yè)務(wù)緊密相關(guān)的那部分一例如銷售合同OLTPDB中的數(shù)據(jù)何時(shí)可以丟棄,何時(shí)該當(dāng)作壞賬處理,又怎樣回收壞賬等一需要在系統(tǒng)試運(yùn)行中逐漸地予以明確和實(shí)現(xiàn),其中很多的工作還有賴于財(cái)務(wù)、儲(chǔ)運(yùn)、人事等部門的支持與合作。
2. 4數(shù)據(jù)的可視化呈現(xiàn)
直觀的、多樣化的數(shù)據(jù)呈現(xiàn)是OLAP類工具所必不可少的特征之一。一般地,管理人員由可視化的統(tǒng)計(jì)圖中能夠更快地獲得各種趨勢信息,因此盡可能地使數(shù)據(jù)呈現(xiàn)可視化將是博得管理人員認(rèn)可的有效途徑。在將后端數(shù)據(jù)轉(zhuǎn)化為可見的統(tǒng)計(jì)圖的過程中必須解決如下兩個(gè)關(guān)鍵性問題:
1)重組數(shù)據(jù)。由于后端數(shù)據(jù)在到達(dá)統(tǒng)計(jì)圖之前必須通過一定的轉(zhuǎn)換,形成一種多維的數(shù)據(jù)視圖,用OLAP的術(shù)語來說就是數(shù)據(jù)的多維化一般說來,諸如銷售、生產(chǎn)、計(jì)劃等寫時(shí)何緊密相關(guān)的數(shù)據(jù)必然含有時(shí)間維,而人員構(gòu)成、客戶檔案等數(shù)據(jù)則不會(huì)有時(shí)間維。多維化的途徑仍然是通過SQL語句來重組數(shù)據(jù)。
2)維的操作。主要有切片和切塊,事實(shí)上就是對數(shù)據(jù)的過濾。當(dāng)對某一維只保留單一值時(shí)即稱為對該維切片,例如指定日期二1997/。7/24即是對白期的切片。反之,指定如‘舊期在1997/。6/01到1997/。6/3。之間”一類范圍的過濾即被稱為切塊.必須仔細(xì)地分析各數(shù)據(jù)維的可操作性以及固有的相關(guān)程度,有時(shí)統(tǒng)計(jì)圖類型(折線圖、條形圖、堆積圖、餅圖以及散點(diǎn)圖等)也不得不作為一個(gè)維來對待。
3數(shù)據(jù)挖掘與決策支持系統(tǒng)
數(shù)據(jù)挖掘是一種從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預(yù)測性信息的新技術(shù),它能挖掘出數(shù)據(jù)間潛在的模式,找出最有價(jià)值的信息。數(shù)據(jù)挖掘的思想依賴于以下三個(gè)技術(shù)的支持程度;‘大視模數(shù)據(jù)采集、功能強(qiáng)大的并行多處理器計(jì)算機(jī)、教據(jù)挖掘算法.數(shù)據(jù)挖掘可實(shí)現(xiàn)的功能有:自動(dòng)預(yù)側(cè)趨勢和行為;自動(dòng)發(fā)現(xiàn)以前未知的模式。
雖然數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘最初是作為三種獨(dú)立的信息處理技術(shù)出現(xiàn)的,但是,由于它們內(nèi)在的聯(lián)系和互補(bǔ)性,今天,pw+OLAP十DM的結(jié)構(gòu)己被業(yè)內(nèi)人士公認(rèn)為是DSS的有效解決方案。這種全新的DSS構(gòu)架的真正意義在于重新展示了信息的本質(zhì),表明了信息系統(tǒng)的設(shè)計(jì)觀念從處理驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)的轉(zhuǎn)變。在未來的時(shí)代,信息的重點(diǎn)將轉(zhuǎn)移到數(shù)據(jù)模式分析,處理技術(shù)則是應(yīng)數(shù)據(jù)分析的需要而產(chǎn)生的。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:數(shù)據(jù)倉庫研究及其在現(xiàn)代企業(yè)中的應(yīng)用