1 數(shù)據(jù)倉(cāng)庫(kù)(DW)
1.1 數(shù)據(jù)倉(cāng)庫(kù)定義
數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);其次,數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。
1.2 數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)
1、面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。
2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
3、相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉(cāng)庫(kù)的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)工程,也是一個(gè)過程。
1.3 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu):
一般來說,大公司或企業(yè)內(nèi)存在著各種各樣的信息系統(tǒng),這些應(yīng)用驅(qū)動(dòng)的操作型信息系統(tǒng)為企業(yè)不同的業(yè)務(wù)系統(tǒng)服務(wù),具有不同接口和不同的數(shù)據(jù)表示方法,互相孤立。利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以動(dòng)態(tài)地將各個(gè)異構(gòu)系統(tǒng)中的數(shù)據(jù)抽取集成到一起,進(jìn)行清洗、轉(zhuǎn)換等處理之后加載到數(shù)據(jù)倉(cāng)庫(kù)中,通過周期性的刷新,為用戶提供一個(gè)統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個(gè)高質(zhì)量的數(shù)據(jù)源。整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)包含四個(gè)層次的體系結(jié)構(gòu),具體由圖1表示。
圖1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)圖
數(shù)據(jù)源:是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等;
數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為“數(shù)據(jù)集市”)。
OLAP服務(wù)器:對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。
前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用丌發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)倉(cāng)庫(kù)不會(huì)是一個(gè)完善的提供戰(zhàn)略信息的軟件或者硬件產(chǎn)品,而是一個(gè)用戶可以從中找到戰(zhàn)略信息的計(jì)算環(huán)境。在這個(gè)環(huán)境中,用戶可以通過與數(shù)據(jù)的直接接觸來做出更好的決策。它是一個(gè)以用戶為中心的環(huán)境。
1.4 數(shù)據(jù)倉(cāng)庫(kù)的功能
一般來說,大公司或企業(yè)內(nèi)存在著各種各樣的信息系統(tǒng),這些應(yīng)用驅(qū)動(dòng)的操作型信息系統(tǒng)為企業(yè)不同的業(yè)務(wù)系統(tǒng)服務(wù),具有不同接口和不同的數(shù)據(jù)表示方法,互相孤立。利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以動(dòng)態(tài)地將各個(gè)異構(gòu)系統(tǒng)中的數(shù)據(jù)抽取集成到一起,進(jìn)行清洗、轉(zhuǎn)換等處理之后加載到數(shù)據(jù)倉(cāng)庫(kù)中,通過周期性的刷新,為用戶提供一個(gè)統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個(gè)高質(zhì)量的數(shù)據(jù)源。就其在商業(yè)智能過程中的作用而言,數(shù)據(jù)倉(cāng)庫(kù)具有以下功能:
1、數(shù)據(jù)建模;2、數(shù)據(jù)抽。3、數(shù)據(jù)轉(zhuǎn)換;4、數(shù)據(jù)裝載;5、數(shù)據(jù)清洗檢驗(yàn);6、查詢和報(bào)表;7、OLAP;8、內(nèi)部的中間件;9、自身的管理維護(hù)。
2 聯(lián)機(jī)分析處理(OLAP)
2.1 聯(lián)機(jī)分析處理(OLAP)定義
對(duì)于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),可以使用一些增強(qiáng)的查詢和報(bào)表工具進(jìn)行復(fù)雜的查詢和即時(shí)的報(bào)表制作,可以利用OLAP技術(shù)從多種角度對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行多方面的匯總統(tǒng)計(jì)計(jì)算,還可以利用數(shù)據(jù)挖掘技術(shù)自動(dòng)發(fā)現(xiàn)其中隱含的有用信息。
聯(lián)機(jī)分析處理(OLAP)最早由Arbor軟件公司的E.F.Codd于1993年提出,他在《為分析型用戶提供OLAP工具:信息技術(shù)的新需求》首次區(qū)分了面向事務(wù)處理的OLTP系統(tǒng)和面向分析處理的OLAP系統(tǒng),并為OLAP確定了諸如多維概念視圖、透明性、存取能力等12條規(guī)則。這些規(guī)則可概括為業(yè)務(wù)應(yīng)用和技術(shù)應(yīng)用這兩類。其中多維概念視圖,以多角度觀察數(shù)據(jù)的方式方便了業(yè)務(wù)類用戶帶著解決問題的假設(shè)以及自己解決問題的邏輯推理的思維過程,也就是說,OLAP分析提供了用戶在演繹型思考中前提、邏輯兩個(gè)步驟中所需的幫助,因此它有助于提高用戶分析結(jié)果的準(zhǔn)確性?梢姡琌LAP分析工具是綜合分析層次的工具之一。
2.2 OLTP和OLAP的比較
當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理。OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。圖2列出了OLTP與OLAP之間的比較。
圖2 OLTP與OLAP的比較
OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念。
“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分!熬S”一般包含著層次關(guān)系,這種層次關(guān)系有時(shí)會(huì)相當(dāng)復(fù)雜。通過把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維(dimension),使用戶能對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
OLAP分析中要理解變量、維、維層次、維的取值、維的分類等主要術(shù)語(yǔ)。變量指從現(xiàn)實(shí)系統(tǒng)中抽象出來用于描述數(shù)據(jù)的實(shí)際含義:維是與某一事件相關(guān)的因素在關(guān)系模型的抽象。如客戶打電話,含客戶、時(shí)間、地點(diǎn)、業(yè)務(wù)提供商、業(yè)務(wù)類型等這些與客戶打電話相關(guān)聯(lián)緊密的內(nèi)容;維的層次性是人們觀察數(shù)據(jù)細(xì)致程度不同造成的,即數(shù)據(jù)的綜合程度不同導(dǎo)致不同的維層次,如時(shí)間維中以年、以月、以日為單位即形成了不同的維層次。它的目的滿足業(yè)務(wù)類用戶思考問題時(shí)逐層深入的需求:維的取值,也稱為維的成員;維的分類是對(duì)維取值的劃分。目的是為了在不同的類別間進(jìn)行比較。如銷售可分為暢銷、不暢銷、平銷,移動(dòng)業(yè)務(wù)類型可以分為通話、短信、游戲等。一個(gè)實(shí)際的系統(tǒng)中,維分類和維層次常常同時(shí)存在。事實(shí)是指不同維度在某一取值下的交叉點(diǎn),它是對(duì)事件的度量。例如,××公司電視機(jī)4月份銷售800臺(tái)。其中800臺(tái)是事實(shí)。一般來說數(shù)量和金額常作為事實(shí)。
2.3 聯(lián)機(jī)分析處理(OLAP)的基本多維分析操作
OLAP的一個(gè)重要特點(diǎn)是主要通過多維的交互式方式對(duì)數(shù)據(jù)進(jìn)行分析,這與數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補(bǔ)充的關(guān)系。這些基本多維分析操作包括切片(切塊)、鉆取、旋轉(zhuǎn)等,便于用戶從不同維度查詢和分析有關(guān)數(shù)據(jù)。
(1)切片和切塊
通過切片、切塊功能,用戶可以對(duì)數(shù)據(jù)進(jìn)行過濾,專注于某一方面的問題,例如,用戶通過拖拽的方式很容易的得到諸如“××地區(qū)2008年的銷售情況”這樣的數(shù)據(jù)。
(2)鉆取
鉆取包含向下鉆取和向上鉆取操作,鉆取的深度與維所劃分的層次相對(duì)應(yīng)。向下鉆取是通過對(duì)某一行匯總數(shù)據(jù)進(jìn)行細(xì)分來分析數(shù)據(jù)。例如,用戶分析“各地區(qū)、城市的銷售情況”時(shí),可以對(duì)某一個(gè)城市的銷售額細(xì)分為各個(gè)年度的銷售額,對(duì)某一年度的銷售額,可以繼續(xù)細(xì)分為各個(gè)季度的銷售額。通過鉆取的功能,使用戶對(duì)數(shù)據(jù)能更深入了解,更容易發(fā)現(xiàn)問題,做出正確的決策。
向上鉆取是指自動(dòng)生成匯總行的分析方法。通過向?qū)У姆绞,用戶可以定義分析因素的匯總行,例如對(duì)于各地區(qū)各年度的銷售情況,可以生成地區(qū)與年度的合計(jì)行,也可以生成地區(qū)或者年度的合計(jì)行。
(3)旋轉(zhuǎn)
旋轉(zhuǎn),也稱數(shù)據(jù)轉(zhuǎn)軸,就是改變維度的位置關(guān)系,如將行與列互換,或者將某一個(gè)行維移動(dòng)到列維中。為了方便用戶更直觀的查看分析數(shù)據(jù),應(yīng)該支持?jǐn)?shù)據(jù)的旋轉(zhuǎn)功能,可從不同的視角來查看數(shù)據(jù)。對(duì)于一些數(shù)據(jù),通過旋轉(zhuǎn)功能,看起來可以更加直觀,例如時(shí)間序列分析中,各地區(qū)各年度的增長(zhǎng)量情況,把年份作為旋轉(zhuǎn)維度,則同一地區(qū)不同年度的數(shù)據(jù)以及增長(zhǎng)量將在一行顯示,看起來更容易理解。
OLAP分析中的多維分析充分體現(xiàn)為用戶對(duì)某一個(gè)事實(shí)以多種角度展開分析。比如××公司電視機(jī)4月份銷售800臺(tái),若以負(fù)責(zé)××地區(qū)的銷售經(jīng)理這一業(yè)務(wù)類角色來分析,他可以從時(shí)間維(如每日)、地區(qū)維(××地區(qū)的各個(gè)區(qū)縣、各個(gè)區(qū)縣的各個(gè)銷售點(diǎn))、品牌維(不同品牌、規(guī)格的電視機(jī))、銷售人員維(不同點(diǎn)上的銷售員)等等維度以切片方式分別來分析,也可以綜合起來作切塊比較,也可以通鉆取方式進(jìn)行深入分析。
目前,常見的OLAP主要有基于多維數(shù)據(jù)庫(kù)的MOLAP及基于關(guān)系數(shù)據(jù)庫(kù)的ROLAP。在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,聯(lián)機(jī)分析處理應(yīng)用一般是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的前端工具,同時(shí),聯(lián)機(jī)分析處理工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計(jì)分析工具配合使用,增強(qiáng)決策分析功能。
3 數(shù)據(jù)挖掘(DM)
3.1 數(shù)據(jù)挖掘定義
進(jìn)入二十一世紀(jì)以來,隨著科學(xué)技術(shù)飛速的發(fā)展,經(jīng)濟(jì)和社會(huì)都取得了極大的進(jìn)步,與此同時(shí),在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對(duì)太空的探索,銀行每天的巨額交易數(shù)掘。顯然在這些數(shù)據(jù)中豐富的信息,如何處理這些數(shù)據(jù)得到有益的信息,人們進(jìn)行了有益的探索。計(jì)算機(jī)技術(shù)的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動(dòng)了數(shù)據(jù)庫(kù)技術(shù)的極大發(fā)展,但是面對(duì)不斷增加如潮水般的數(shù)據(jù),人們不再滿足于數(shù)據(jù)庫(kù)的查詢功能,提出了深層次問題:能不能從數(shù)據(jù)中提取信息或者知識(shí)為決策服務(wù)。就數(shù)據(jù)庫(kù)技術(shù)而言已經(jīng)顯得無能為力了,同樣,傳統(tǒng)的統(tǒng)計(jì)技術(shù)也面臨了極大的挑戰(zhàn)。這就急需有新的方法來處理這些海量般的數(shù)據(jù)。于是,人們結(jié)合統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等技術(shù),提出數(shù)據(jù)挖掘來解決這一難題。
數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀(jì)90年代以來,它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒有一個(gè)完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫(kù)中尋找有意義、有價(jià)值信息的過程”確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。
3.2 數(shù)據(jù)挖掘的主要功能
數(shù)據(jù)挖掘綜合了各個(gè)學(xué)科技術(shù),有很多的功能,當(dāng)前的主要功能如下:
1、數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、分類:目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:(v1,v2,...,vn;c),其中vi表示字段值,c表示類別。
例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。
3、聚類:是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細(xì)分。在開始細(xì)分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費(fèi)特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對(duì)不同客戶群體的營(yíng)銷方案。
例如:將申請(qǐng)人分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者,低度風(fēng)險(xiǎn)申請(qǐng)者。
4、關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性;序列模式與此類似,尋找的是事件之間時(shí)間上的相關(guān)性,例如:今天銀行利率的調(diào)整,明天股市的變化。
5、預(yù)測(cè):把握分析對(duì)象發(fā)展的規(guī)律,對(duì)未來的趨勢(shì)做出預(yù)見。例如:對(duì)未來經(jīng)濟(jì)發(fā)展的判斷。
6、偏差的檢測(cè):對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營(yíng),就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營(yíng)的風(fēng)險(xiǎn)。
以上數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的,它們?cè)跀?shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
3.3 數(shù)據(jù)挖掘的方法
作為一門處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對(duì)的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。最后,數(shù)據(jù)挖掘是許多學(xué)科的交叉,運(yùn)用了統(tǒng)計(jì)學(xué),計(jì)算機(jī),數(shù)學(xué)等學(xué)科的技術(shù)。以下是常見和應(yīng)用最廣泛的算法和模型:
傳統(tǒng)統(tǒng)計(jì)方法:①抽樣技術(shù):我們面對(duì)的是大量的數(shù)據(jù),對(duì)所有的數(shù)據(jù)進(jìn)行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進(jìn)行合理的抽樣。②多元統(tǒng)計(jì)分析:因子分析,聚類分析等。③統(tǒng)計(jì)預(yù)測(cè)方法,如回歸分析,時(shí)間序列分析等。
可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計(jì)的方法?梢暬夹g(shù)面對(duì)的一個(gè)難題是高維數(shù)據(jù)的可視化。
決策樹:利用一系列規(guī)則劃分,建立樹狀圖,可用于分類和預(yù)測(cè)。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。
神經(jīng)網(wǎng)絡(luò):模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對(duì)數(shù)據(jù)進(jìn)行調(diào)整,計(jì)算,最后得到結(jié)果,用于分類和回歸。
遺傳算法:基于自然進(jìn)化理論,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術(shù)。
關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,形式為“A1∧A2∧...An→B1∧B2∧...Bn”。一般分為兩個(gè)步驟:①求出大數(shù)據(jù)項(xiàng)集。②用大數(shù)據(jù)項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。
除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords,最鄰近算法(k-nearest neighbors method(KNN))等。
3.4 數(shù)據(jù)挖掘的實(shí)施流程
前面我們討論了數(shù)據(jù)挖掘的定義,功能和方法,現(xiàn)在關(guān)鍵的問題是如何實(shí)施,其一般的數(shù)據(jù)挖掘流程如下:
問題理解和提出→數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)整理→建立模型→評(píng)價(jià)和解釋
問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問題,在這個(gè)基礎(chǔ)之上提出問題,對(duì)目標(biāo)有明確的定義。
數(shù)據(jù)準(zhǔn)備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫(kù),其中一個(gè)問題是如果企業(yè)原來的數(shù)據(jù)倉(cāng)庫(kù)滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)挖掘庫(kù)。
數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)掘結(jié)構(gòu),就要對(duì)數(shù)據(jù)進(jìn)行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。
建立模型:根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的特征,選擇合適的模型。
評(píng)價(jià)和解釋:對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行評(píng)價(jià),選擇最優(yōu)的模型,作出評(píng)價(jià),運(yùn)用于實(shí)際問題,并且要和專業(yè)知識(shí)結(jié)合對(duì)結(jié)果進(jìn)行解釋。
以上的流程不是一次完成的,可能其中某些步驟或者全部要反復(fù)進(jìn)行。
3.5 數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀
數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫(kù)中找出有價(jià)值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為企業(yè)進(jìn)行決策的依據(jù)。其應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫(kù),皆可利用數(shù)據(jù)挖掘(DM)技術(shù)進(jìn)行有目的的發(fā)掘分析。常見的應(yīng)用案例多發(fā)生在零售業(yè)、財(cái)務(wù)金融保險(xiǎn)、制造業(yè)、通訊及醫(yī)療服務(wù)行業(yè):
1、零售商從顧客購(gòu)買商品中發(fā)現(xiàn)一定的關(guān)系,提供打折購(gòu)物券等,提高銷售額;
2、保險(xiǎn)公司通過數(shù)據(jù)挖掘建立預(yù)測(cè)模型,辨別出可能的欺詐行為,避免道德風(fēng)險(xiǎn),減少成本,提高利潤(rùn);
3、在制造業(yè)中,半導(dǎo)體的生產(chǎn)和測(cè)試中都產(chǎn)生大量的數(shù)據(jù),就必須對(duì)這些數(shù)據(jù)進(jìn)行分析,找出存在的問題,提高質(zhì)量;
4、電子商務(wù)的作用越來越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進(jìn)行分析,識(shí)別用戶的行為模式,保留客戶,提供個(gè)性化服務(wù),優(yōu)化網(wǎng)站設(shè)計(jì)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:商業(yè)智能(BI)技術(shù)(BI系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)、OLAP和數(shù)據(jù)挖掘技術(shù))