當(dāng)今社會(huì),數(shù)據(jù)量正在以爆炸方式迅猛增長(zhǎng),數(shù)據(jù)表示形式千變?nèi)f化,標(biāo)志著我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。云計(jì)算、三網(wǎng)融合、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的出現(xiàn),更加催生了大數(shù)據(jù)時(shí)代的產(chǎn)生。維基百科對(duì)大數(shù)據(jù)的定義是: 數(shù)據(jù)增長(zhǎng)如此之快,以至于難以使用現(xiàn)有的數(shù)據(jù)庫(kù)管理工具進(jìn)行快速的數(shù)據(jù)獲取、存儲(chǔ)、搜索、共享、分析和可視化等操作,這些數(shù)據(jù)量是如此之大,已經(jīng)不是以傳統(tǒng)的 GB 和 TB 為單位來(lái)衡量,而是以 PB( 1PB =1024TB) 、EB ( 1EB = 1024PB) ,甚至是以 ZB ( 1ZB =1024EB) 、YB( 1YB = 1024ZB) 為計(jì)量單位,所以稱之為大數(shù)據(jù)。有調(diào)查指出,如今大規(guī)模的企業(yè)系統(tǒng)包括由上千臺(tái)服務(wù)器所構(gòu)成的完整數(shù)據(jù)中心。使用大數(shù)據(jù)日益成為企業(yè)超越競(jìng)爭(zhēng)對(duì)手的有力武器。企業(yè)通過(guò)快速獲取、分析由供應(yīng)商和客戶產(chǎn)生的大量有關(guān)產(chǎn)品和服務(wù)的數(shù)據(jù),可以更有針對(duì)性地提升消費(fèi)者所關(guān)心的產(chǎn)品質(zhì)量和服務(wù)質(zhì)量,制定出更加符合市場(chǎng)和客戶需求的產(chǎn)品和服務(wù)策略,從而獲取更多的市場(chǎng)份額,增強(qiáng)企業(yè)的競(jìng)爭(zhēng)實(shí)力。然而,對(duì)于大數(shù)據(jù)時(shí)代下的企業(yè)來(lái)說(shuō),其所需存儲(chǔ)、處理的數(shù)據(jù)量驚人,數(shù)據(jù)來(lái)源和數(shù)據(jù)結(jié)構(gòu)繁多復(fù)雜,為大數(shù)據(jù)的分析和應(yīng)用帶來(lái)很多挑戰(zhàn)。企業(yè)要想充分發(fā)揮大數(shù)據(jù)所賦予的機(jī)遇和優(yōu)勢(shì),前提是必須擁有可靠、準(zhǔn)確、及時(shí)的高質(zhì)量的數(shù)據(jù),只有從高質(zhì)量的大規(guī)模數(shù)據(jù)中提取隱含的、有用的信息,企業(yè)才能做出更加精準(zhǔn)、更加符合市場(chǎng)和客戶需求的決策,否則大數(shù)據(jù)的優(yōu)勢(shì)將化為泡影。為此,企業(yè)需要更加注重大數(shù)據(jù)時(shí)代下的數(shù)據(jù)質(zhì)量及其重要性。
一、大數(shù)據(jù)時(shí)代產(chǎn)生的必然
大數(shù)據(jù)是云計(jì)算技術(shù)的延伸,更是社會(huì)進(jìn)步和發(fā)展的必然結(jié)果,大數(shù)據(jù)時(shí)代的到來(lái)引領(lǐng)了未來(lái) IT 技術(shù)發(fā)展的戰(zhàn)略走向。在信息和網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,越來(lái)越多的企業(yè)業(yè)務(wù)及社會(huì)活動(dòng)實(shí)現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動(dòng)化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長(zhǎng)。同時(shí),隨著存儲(chǔ)設(shè)備、內(nèi)存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲(chǔ)和處理變得十分經(jīng)濟(jì),也使得大數(shù)據(jù)的存在成為可能。有調(diào)查顯示,企業(yè)信息系統(tǒng)中擁有數(shù)萬(wàn)億字節(jié)的客戶信息、供應(yīng)商信息以及業(yè)務(wù)運(yùn)營(yíng)信息,數(shù)據(jù)已經(jīng)成為業(yè)務(wù)活動(dòng)的副產(chǎn)品。全球最大的零售商沃爾瑪公司,每天通過(guò)分布在世界各地的6000 多家商店向全球客戶銷售超過(guò) 2.67 億件的商品,分析交易數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)規(guī)模已經(jīng)達(dá)到 4PB,并且仍在不斷擴(kuò)大。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來(lái)源之一。在物聯(lián)網(wǎng)時(shí)代,成萬(wàn)上億計(jì)的網(wǎng)絡(luò)傳感器嵌入在數(shù)量不斷增長(zhǎng)的智能電表、移動(dòng)電話、汽車等物理設(shè)備中,不斷感知、生成并傳輸超大規(guī)模的有關(guān)地理位置、振動(dòng)、溫度、濕度等新型數(shù)據(jù),其中 2010 年的移動(dòng)電話使用量已經(jīng)超過(guò) 40 億,傳感器的應(yīng)用數(shù)量每年正在以 30%的速度增長(zhǎng)。此外,全球數(shù)據(jù)存儲(chǔ)量也呈現(xiàn)飛速增長(zhǎng)趨勢(shì)。2008 年全球數(shù)據(jù)量?jī)H為0.49ZB; 在金融危機(jī)籠罩下的 2009 年,數(shù)據(jù)量也較2008 年增長(zhǎng)了 63% ,達(dá)到 0.8ZB; 2010 年增至 1.2ZB;2011 年高達(dá) 1.82ZB; 2012 年則達(dá)到 2.7ZB,相比于2011 年的數(shù)據(jù)量增長(zhǎng)了 48% 。若以如此快的速度增長(zhǎng),2015 年的全球數(shù)據(jù)量將會(huì)升至 8ZB,到 2020 年則高達(dá) 35.2ZB,是 2015 年數(shù)據(jù)量的 44 倍之多。
此外,移動(dòng)互聯(lián)網(wǎng)、三網(wǎng)融合、Web 2.0 技術(shù)和電子商務(wù)技術(shù)的飛速發(fā)展,也促進(jìn)了大數(shù)據(jù)時(shí)代的產(chǎn)生和發(fā)展。人們可以通過(guò)智能機(jī)、便攜機(jī)、個(gè)人電腦等終端設(shè)備,隨時(shí)隨地瀏覽網(wǎng)頁(yè),上傳或下載、發(fā)布或共享圖片、視頻、音頻文本等多種媒體格式的文件,其中每秒鐘高清視頻所含的數(shù)據(jù)容量是單頁(yè)文本格式數(shù)據(jù)容量的 2000 倍,大量的多媒體內(nèi)容在指數(shù)增長(zhǎng)的數(shù)據(jù)量中發(fā)揮著重要的作用。在以 Web 2.0 為技術(shù)支撐的社交網(wǎng)站中,大量網(wǎng)絡(luò)用戶的點(diǎn)擊量、瀏覽痕跡、日志、照片、視頻、音頻等多媒體信息都會(huì)被記錄下來(lái),隨著時(shí)間的推移,如此龐大、復(fù)雜的數(shù)據(jù)為跟蹤用戶、分析用戶喜好等提供了基礎(chǔ),從而使社交網(wǎng)站可以有針對(duì)性地開(kāi)發(fā)、投放滿足用戶需求的各種應(yīng)用、廣告及商品。同樣,網(wǎng)上書店則通過(guò)存儲(chǔ)顧客的搜索路徑、瀏覽記錄、購(gòu)買記錄等大量數(shù)據(jù),分析顧客的購(gòu)買傾向,設(shè)計(jì)算法來(lái)預(yù)測(cè)顧客感興趣的書籍類型。
通過(guò)上述典型的大數(shù)據(jù)的例子可以發(fā)現(xiàn),數(shù)字化已經(jīng)成為社會(huì)發(fā)展的必然趨勢(shì)。與生產(chǎn)過(guò)程必須依賴硬件設(shè)備和人力資本一樣,企業(yè)的業(yè)務(wù)活動(dòng)、創(chuàng)新、成長(zhǎng)也越來(lái)越離不開(kāi)大量數(shù)據(jù)的支持。也就是說(shuō),企業(yè)的任何一項(xiàng)業(yè)務(wù)活動(dòng)都與大量的數(shù)據(jù)緊密相聯(lián),而我們每一個(gè)人都是數(shù)據(jù)的產(chǎn)生者,數(shù)據(jù)量與日俱增,數(shù)據(jù)結(jié)構(gòu)繁雜多變,數(shù)據(jù)產(chǎn)生速度非常之快,我們已經(jīng)進(jìn)入了大數(shù)據(jù)的時(shí)代。
二、大數(shù)據(jù)的特點(diǎn)
數(shù)據(jù)無(wú)所不在,充斥于社會(huì)中的每一個(gè)部門、每一個(gè)經(jīng)濟(jì)體、每一個(gè)組織、每一個(gè) IT 技術(shù)的使用者,數(shù)據(jù)的海量生產(chǎn)、共享和應(yīng)用已經(jīng)成為必然。之所以被稱為大數(shù)據(jù),是因?yàn)樗哂袀鹘y(tǒng)數(shù)據(jù)所不具備的獨(dú)特特點(diǎn)( 見(jiàn)表 1) 。
首先,數(shù)據(jù)量龐大。數(shù)據(jù)量大是大數(shù)據(jù)的首要特點(diǎn)之一,大數(shù)據(jù)時(shí)代的數(shù)據(jù)量是以 PB、EB、ZB 為存儲(chǔ)單位的。據(jù)麥肯錫全球研究院( MGI) 估計(jì),2010 年,企業(yè)的磁盤中存儲(chǔ)了超過(guò) 7EB 字節(jié)的新數(shù)據(jù); 用戶在個(gè)人 PC 機(jī)和筆記本等設(shè)備上的新數(shù)據(jù)存儲(chǔ)量也超過(guò)了 6EB 字節(jié)。另有一份報(bào)告顯示,沃爾瑪公司每小時(shí)能夠從顧客交易信息中收集超過(guò) 2. 5PB 字節(jié)的數(shù)據(jù)。截至 2012 年,社會(huì)上每天會(huì)產(chǎn)生 2. 5EB 量的數(shù)據(jù),這個(gè)數(shù)據(jù)量是過(guò)去每 40 個(gè)月所產(chǎn)生數(shù)據(jù)量的兩倍。社會(huì)與企業(yè)被如此龐大的數(shù)據(jù)量所包圍,這也正是大數(shù)據(jù)時(shí)代下企業(yè)的重大變化之一,即用數(shù)據(jù)來(lái)表示企業(yè)的各種業(yè)務(wù)活動(dòng)。
第二,數(shù)據(jù)增長(zhǎng)、變化速度快。這既是大數(shù)據(jù)時(shí)代的特點(diǎn),同時(shí)也是企業(yè)處理大數(shù)據(jù)所面臨的難題與挑戰(zhàn)。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)產(chǎn)生、存儲(chǔ)和變化的速率十分驚人。目前因特網(wǎng)上每秒鐘產(chǎn)生的數(shù)據(jù)量比 20 年前整個(gè)因特網(wǎng)所存儲(chǔ)的數(shù)據(jù)量還要巨大,可見(jiàn)大數(shù)據(jù)產(chǎn)生速度之快。然而,數(shù)據(jù)量飛速增長(zhǎng)的同時(shí),對(duì)數(shù)據(jù)處理速度也提出了更高的要求。在這個(gè)用數(shù)據(jù)說(shuō)話、競(jìng)爭(zhēng)異常激烈的時(shí)代,數(shù)據(jù)產(chǎn)生速率甚至比數(shù)據(jù)產(chǎn)生數(shù)量要重要得多,事先擁有了數(shù)據(jù),就意味著事先擁有了市場(chǎng)話語(yǔ)權(quán),能夠讓企業(yè)率先做出符合企業(yè)和消費(fèi)者需求的戰(zhàn)略決策,使得企業(yè)更加敏捷,從而先于競(jìng)爭(zhēng)對(duì)手快速占領(lǐng)市場(chǎng),增強(qiáng)企業(yè)的競(jìng)爭(zhēng)實(shí)力。如果企業(yè)不能快速、有效地處理如此龐大的數(shù)據(jù)量,就會(huì)被快速增長(zhǎng)的數(shù)據(jù)量所淹沒(méi),喪失了大數(shù)據(jù)的價(jià)值。
第三,數(shù)據(jù)的多樣性。多樣性也是大數(shù)據(jù)的重要特點(diǎn)之一。大數(shù)據(jù)以多種多樣的形式涌現(xiàn),如來(lái)自于傳感器的各種類型數(shù)據(jù)、移動(dòng)電話的 GPS 定位數(shù)據(jù)、社交網(wǎng)絡(luò)中的語(yǔ)音、圖像、視頻、日志文件等等,并且隨著大數(shù)據(jù)時(shí)代的發(fā)展,新的數(shù)據(jù)來(lái)源與數(shù)據(jù)形式也會(huì)不斷出現(xiàn)。在如此多樣化的數(shù)據(jù)結(jié)構(gòu)中,可獲得的數(shù)據(jù)常常是非結(jié)構(gòu)化的,因此,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)已經(jīng)很難存儲(chǔ)并處理多樣性的大數(shù)據(jù)。但是在如此大量、繁雜的信息中卻存在著值得人們?nèi)ネ诰虻臐撛谟杏眯畔ⅲ@也正是大數(shù)據(jù)多樣性價(jià)值的重要體現(xiàn)。
三、大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的重要性及挑戰(zhàn)
大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價(jià)值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強(qiáng)企業(yè)生產(chǎn)能力和競(jìng)爭(zhēng)能力的機(jī)會(huì),能夠給企業(yè)帶來(lái)巨大的潛在商業(yè)價(jià)值。例如在制造領(lǐng)域,嵌入在產(chǎn)品中的傳感器所傳輸?shù)拇髷?shù)據(jù)為企業(yè)開(kāi)發(fā)新型的售后服務(wù)項(xiàng)目、開(kāi)發(fā)下一代新產(chǎn)品提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。又如在醫(yī)療領(lǐng)域,通過(guò)分析患者的臨床和行為數(shù)據(jù),可以更深入地理解患者的病癥,進(jìn)一步為不同的患者人群提供最適合他們的護(hù)理規(guī)劃等等。
大數(shù)據(jù)是企業(yè)決策的基礎(chǔ),但是單純的數(shù)據(jù)量的積累不會(huì)對(duì)企業(yè)產(chǎn)生任何益處,只有建立適當(dāng)?shù)姆治瞿P,并運(yùn)用相應(yīng)的技術(shù)手段,對(duì)大量的數(shù)據(jù)進(jìn)行有效地深加工,發(fā)現(xiàn)隱含在大量數(shù)據(jù)中的信息并加以利用,進(jìn)而指導(dǎo)企業(yè)做出相關(guān)決策,才能將大數(shù)據(jù)的真正效用發(fā)揮到極致。如果說(shuō)云計(jì)算為海量分布的數(shù)據(jù)提供了存儲(chǔ)、訪問(wèn)的平臺(tái),那么如何在這個(gè)平臺(tái)上實(shí)時(shí)挖掘數(shù)據(jù)價(jià)值,使其為個(gè)人、組織和國(guó)家服務(wù),將是云計(jì)算必然的發(fā)展方向,更是大數(shù)據(jù)技術(shù)的關(guān)鍵核心議題。然而要想充分發(fā)揮大數(shù)據(jù)給企業(yè)帶來(lái)的優(yōu)勢(shì),實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值增值,挑戰(zhàn)卻是巨大的。高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),強(qiáng)大、高端的數(shù)據(jù)分析技術(shù)是大數(shù)據(jù)發(fā)揮效能的重要手段。對(duì)大數(shù)據(jù)進(jìn)行有效分析的前提是必須要保證數(shù)據(jù)的質(zhì)量,專業(yè)的數(shù)據(jù)分析工具只有在高質(zhì)量的大數(shù)據(jù)環(huán)境中才能提取出隱含的、準(zhǔn)確的、有用的信息,企業(yè)基于這些高質(zhì)量分析結(jié)果所做出的各項(xiàng)決策才不至于偏離正常軌道; 否則,即使數(shù)據(jù)分析工具再先進(jìn),在充滿“垃圾”的大數(shù)據(jù)環(huán)境中也只能提取出毫無(wú)意義的“垃圾”信息。因此數(shù)據(jù)質(zhì)量在大數(shù)據(jù)環(huán)境下顯得尤其重要。
然而,在大數(shù)據(jù)時(shí)代下,企業(yè)要想保證大數(shù)據(jù)的高質(zhì)量卻并非易事,很小的、容易被忽視的數(shù)據(jù)質(zhì)量問(wèn)題在大數(shù)據(jù)環(huán)境下會(huì)被不斷放大,甚至引發(fā)不可恢復(fù)的數(shù)據(jù)質(zhì)量災(zāi)難。因此,如何保證大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,以及如何有效地挖掘隱藏在大數(shù)據(jù)中的信息,成為企業(yè)日益關(guān)心的問(wèn)題。以制造企業(yè)為例,企業(yè)可以從大量的客戶、產(chǎn)品和銷售信息中獲得更多有價(jià)值的信息,進(jìn)而制定滿足消費(fèi)者需求的銷售策略。然而這些信息的獲取和提煉都必須以高質(zhì)量的數(shù)據(jù)為前提,如果數(shù)據(jù)質(zhì)量低下,必然會(huì)影響提取出的信息的質(zhì)量,甚至是錯(cuò)誤的、無(wú)效的信息。因此在大數(shù)據(jù)環(huán)境下,對(duì)數(shù)據(jù)質(zhì)量的要求更加苛刻。
總之,由于大數(shù)據(jù)具有復(fù)雜、多樣、多變等特點(diǎn),在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)質(zhì)量很難保證。下文重點(diǎn)從流程、技術(shù)和管理三方面來(lái)分析大數(shù)據(jù)環(huán)境下保證大數(shù)據(jù)質(zhì)量的挑戰(zhàn)及重要性。
(一) 流程視角
從流程的角度,也即從數(shù)據(jù)生命周期角度來(lái)看,可以將數(shù)據(jù)生產(chǎn)過(guò)程分為數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)使用三個(gè)階段,三個(gè)階段對(duì)保證大數(shù)據(jù)質(zhì)量分別提出了不同的挑戰(zhàn)。
首先在數(shù)據(jù)收集方面,大數(shù)據(jù)的多樣性決定了數(shù)據(jù)來(lái)源的復(fù)雜性。大數(shù)據(jù)的數(shù)據(jù)來(lái)源眾多,數(shù)據(jù)結(jié)構(gòu)隨著數(shù)據(jù)來(lái)源的不同而各異,企業(yè)要想保證從多個(gè)數(shù)據(jù)源獲取的結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)的質(zhì)量并有效地對(duì)數(shù)據(jù)進(jìn)行整合,是一項(xiàng)異常艱巨的任務(wù)。來(lái)自于大量不同數(shù)據(jù)源的數(shù)據(jù)之間存在著沖突、不一致或相互矛盾的現(xiàn)象,在數(shù)據(jù)量較小的情形下,通過(guò)編寫簡(jiǎn)單的匹配程序,甚至是人工查找,即可實(shí)現(xiàn)多數(shù)據(jù)源中不一致數(shù)據(jù)的檢測(cè)和定位,然而這種方法在大數(shù)據(jù)情形下卻顯得力不從心。在數(shù)據(jù)獲取階段保證數(shù)據(jù)定義的一致性、元數(shù)據(jù)定義的統(tǒng)一性及數(shù)據(jù)質(zhì)量是大數(shù)據(jù)為中國(guó)甚至全世界企業(yè)提出的挑戰(zhàn)。另外,由于大數(shù)據(jù)的變化速度較快,有些數(shù)據(jù)的“有效期”非常之短,如果企業(yè)沒(méi)有實(shí)時(shí)地收集所需的數(shù)據(jù),有可能收集到的就是“過(guò)期的”、無(wú)效的數(shù)據(jù),在一定程度上會(huì)影響大數(shù)據(jù)的質(zhì)量。數(shù)據(jù)收集階段是整個(gè)數(shù)據(jù)生命周期的開(kāi)始,這個(gè)階段的數(shù)據(jù)質(zhì)量對(duì)后續(xù)階段的數(shù)據(jù)質(zhì)量起著直接的決定性的影響。因此,企業(yè)應(yīng)該重視源頭上的大數(shù)據(jù)質(zhì)量問(wèn)題,為大數(shù)據(jù)的分析和應(yīng)用提供高質(zhì)量的數(shù)據(jù)基礎(chǔ)。
其次在數(shù)據(jù)存儲(chǔ)階段,由于大數(shù)據(jù)的多樣性,單一的數(shù)據(jù)結(jié)構(gòu)( 如關(guān)系型數(shù)據(jù)庫(kù)中的二維表結(jié)構(gòu)) 已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)存儲(chǔ)的需要,企業(yè)應(yīng)該使用專門的數(shù)據(jù)庫(kù)技術(shù)和專用的數(shù)據(jù)存儲(chǔ)設(shè)備進(jìn)行大數(shù)據(jù)的存儲(chǔ),保證數(shù)據(jù)存儲(chǔ)的有效性。據(jù)調(diào)查,目前國(guó)內(nèi)大部分企業(yè)的業(yè)務(wù)運(yùn)營(yíng)數(shù)據(jù)仍以結(jié)構(gòu)化數(shù)據(jù)為主,相應(yīng)地主要采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)架構(gòu),如采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ),對(duì)于非結(jié)構(gòu)化數(shù)據(jù),則是先將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后再進(jìn)行存儲(chǔ)、處理及分析。這種數(shù)據(jù)存儲(chǔ)處理方式不僅無(wú)法應(yīng)對(duì)大數(shù)據(jù)數(shù)量龐大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、變化速度快等特點(diǎn),而且一旦轉(zhuǎn)化方式不當(dāng),將會(huì)直接影響到數(shù)據(jù)的完整性、有效性與準(zhǔn)確性等。而北京市科學(xué)技術(shù)委員會(huì)委員陳力工曾指出這種結(jié)構(gòu)化的數(shù)據(jù)只占到互聯(lián)網(wǎng)整體流動(dòng)數(shù)據(jù)的 10%,剩余 90%都為視頻、圖片、音頻等非結(jié)構(gòu)化的數(shù)據(jù),這就對(duì)傳統(tǒng)數(shù)據(jù)存儲(chǔ)架構(gòu)的可靠性及有效性構(gòu)成了挑戰(zhàn)。數(shù)據(jù)存儲(chǔ)是實(shí)現(xiàn)高水平數(shù)據(jù)質(zhì)量的基本保障,如果數(shù)據(jù)不能被一致、完整、有效的存儲(chǔ),數(shù)據(jù)質(zhì)量將無(wú)從談起。因此,企業(yè)要想充分挖掘大數(shù)據(jù)的核心價(jià)值,首先必須完成傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理方式向同時(shí)兼具結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理方式的轉(zhuǎn)變,不斷完善大數(shù)據(jù)環(huán)境下企業(yè)數(shù)據(jù)庫(kù)的建設(shè),為保證大數(shù)據(jù)質(zhì)量提供基礎(chǔ)保障。
同時(shí),企業(yè)數(shù)據(jù)庫(kù)管理員( Database Administrator,DBA) 應(yīng)該根據(jù)大數(shù)據(jù)結(jié)構(gòu)的要求和特點(diǎn)合理地設(shè)計(jì)數(shù)據(jù)存儲(chǔ)和使用規(guī)則,以方便對(duì)數(shù)據(jù)的快速讀取。如果數(shù)據(jù)存儲(chǔ)不合理,不僅會(huì)浪費(fèi)系統(tǒng)的存儲(chǔ)空間,而且還會(huì)給后期的數(shù)據(jù)使用帶來(lái)極大的不便,甚至?xí)a(chǎn)生錯(cuò)誤、無(wú)效的數(shù)據(jù),難以保證數(shù)據(jù)質(zhì)量。此外,DBA 在設(shè)計(jì)相應(yīng)規(guī)則時(shí),還要考慮諸多罕見(jiàn)的情況,因?yàn)樵趥鹘y(tǒng)數(shù)據(jù)量較少的情況下沒(méi)有考慮到的情形在大數(shù)據(jù)情況下卻有可能會(huì)發(fā)生。如果沒(méi)有考慮特殊或罕見(jiàn)情況,或考慮得不夠全面,將會(huì)給大數(shù)據(jù)的數(shù)據(jù)質(zhì)量帶來(lái)嚴(yán)重的影響,甚至是危機(jī)。
最后,在數(shù)據(jù)使用階段,數(shù)據(jù)價(jià)值的發(fā)揮在于對(duì)數(shù)據(jù)的有效分析和應(yīng)用,大數(shù)據(jù)涉及的使用人員眾多,很多時(shí)候是同步地、不斷地對(duì)數(shù)據(jù)進(jìn)行提取、分析、更新和使用,任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,都將嚴(yán)重影響企業(yè)系統(tǒng)中的大數(shù)據(jù)質(zhì)量,影響最終決策的準(zhǔn)確性。舉例來(lái)說(shuō),由于大數(shù)據(jù)規(guī)模龐大、變化速度快,對(duì)數(shù)據(jù)的處理速度要求較高,如果數(shù)據(jù)處理不及時(shí),有些變化速度快的數(shù)據(jù)就失去了其最有價(jià)值的階段,有些“過(guò)期”的數(shù)據(jù)甚至與實(shí)際數(shù)據(jù)不符,企業(yè)根據(jù)這些“過(guò)期”的無(wú)效數(shù)據(jù)所做出的決策必然也是無(wú)效的,甚至是錯(cuò)誤的。從這個(gè)角度來(lái)講,數(shù)據(jù)及時(shí)性也是大數(shù)據(jù)質(zhì)量的一個(gè)重要方面,如果企業(yè)不能快速地進(jìn)行數(shù)據(jù)分析,不能從數(shù)據(jù)中及時(shí)地提取出有用的信息,就將會(huì)喪失預(yù)先占領(lǐng)市場(chǎng)的先機(jī)。
( 二) 技術(shù)視角
本文的技術(shù)視角主要是指從數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)質(zhì)量檢測(cè)識(shí)別技術(shù)、數(shù)據(jù)分析技術(shù)的角度來(lái)研究保證大數(shù)據(jù)質(zhì)量的挑戰(zhàn)及其重要性。大數(shù)據(jù)及其相關(guān)分析技術(shù)的應(yīng)用能夠?yàn)槠髽I(yè)提供更加準(zhǔn)確的預(yù)測(cè)信息、更好的決策基礎(chǔ)以及更精準(zhǔn)的干預(yù)政策,然而如果大數(shù)據(jù)的數(shù)據(jù)質(zhì)量不高,所有這些優(yōu)勢(shì)都將化為泡影。
在數(shù)據(jù)規(guī)模較小的情況下,關(guān)系型數(shù)據(jù)庫(kù)就能滿足企業(yè)數(shù)據(jù)存儲(chǔ)的需要,一般企業(yè)信息系統(tǒng)數(shù)據(jù)庫(kù)中的記錄通常會(huì)達(dá)到幾千條或上萬(wàn)條,規(guī)模稍大的企業(yè),其數(shù)據(jù)記錄能達(dá)到幾十萬(wàn)條,在這種情況下,檢測(cè)數(shù)據(jù)庫(kù)中錯(cuò)誤、缺失、無(wú)效、延遲的數(shù)據(jù)非常容易,幾分鐘甚至幾秒鐘就能完成對(duì)所有記錄的掃描和檢測(cè)。然而在大數(shù)據(jù)時(shí)代,企業(yè)的數(shù)據(jù)量不僅巨大,而且數(shù)據(jù)結(jié)構(gòu)種類繁多,不僅僅有簡(jiǎn)單的、結(jié)構(gòu)化的數(shù)據(jù),更多的則是復(fù)雜的、非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)之間的關(guān)系較為復(fù)雜,若要識(shí)別、檢測(cè)大數(shù)據(jù)中錯(cuò)誤、缺失、無(wú)效、延遲的數(shù)據(jù),往往需要遍歷數(shù)百萬(wàn)甚至數(shù)億條記錄或語(yǔ)句,傳統(tǒng)的技術(shù)和方法常常需要幾小時(shí)甚至幾天的時(shí)間才能完成對(duì)所有數(shù)據(jù)的掃描與檢測(cè),因此,從這個(gè)角度來(lái)講,大數(shù)據(jù)環(huán)境為數(shù)據(jù)質(zhì)量的監(jiān)測(cè)和管理帶來(lái)了巨大的挑戰(zhàn)。這種情況下,傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘工具和數(shù)據(jù)清洗技術(shù)在處理速度和分析能力上已經(jīng)無(wú)法應(yīng)對(duì)大數(shù)據(jù)時(shí)代所帶來(lái)的挑戰(zhàn),處理小規(guī)模數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)工具已經(jīng)不能勝任大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)和識(shí)別任務(wù),這就要求企業(yè)應(yīng)根據(jù)實(shí)際業(yè)務(wù)的需要,在配備高端的數(shù)據(jù)存儲(chǔ)設(shè)備的同時(shí),開(kāi)發(fā)、設(shè)計(jì)或引進(jìn)先進(jìn)的、智能化的、專業(yè)的大數(shù)據(jù)分析技術(shù)和方法,以實(shí)現(xiàn)大數(shù)據(jù)中數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)與識(shí)別,以及對(duì)大數(shù)據(jù)的整合、分析、可視化等操作,充分地提取、挖掘大數(shù)據(jù)潛在的應(yīng)用價(jià)值。
大數(shù)據(jù)是 IT 領(lǐng)域又一次新的技術(shù)變革,國(guó)際數(shù)據(jù)公司( International Data Corporation,IDC) 指出,在大數(shù)據(jù)潮流中,新的數(shù)據(jù)類型與新的數(shù)據(jù)分析技術(shù)的缺失將是阻礙企業(yè)成為其行業(yè)領(lǐng)導(dǎo)者的重要方面。然而,由于大數(shù)據(jù)熱潮在國(guó)內(nèi)剛剛掀起,諸多企業(yè)仍然采用的是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)處理方式及適用于小規(guī)模數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),對(duì)先進(jìn)的大數(shù)據(jù)存儲(chǔ)處理技術(shù)和分析工具仍處于學(xué)習(xí)和了解階段。另外,國(guó)內(nèi)對(duì)于大數(shù)據(jù)相關(guān)技術(shù)的開(kāi)發(fā)多關(guān)注于數(shù)據(jù)分布式存儲(chǔ)及并行計(jì)算方面,能夠滿足大數(shù)據(jù)特點(diǎn)及要求的數(shù)據(jù)質(zhì)量檢測(cè)和清洗的智能化工具十分稀缺。這些都為保障大數(shù)據(jù)質(zhì)量、充分發(fā)揮數(shù)據(jù)質(zhì)量在推動(dòng)大數(shù)據(jù)應(yīng)用有效性方面的重要作用提出了挑戰(zhàn)。
( 三) 管理視角
管理視角主要探討企業(yè)高層管理者、專業(yè)管理和技術(shù)分析人員對(duì)保證大數(shù)據(jù)質(zhì)量的重要性。
首先,大數(shù)據(jù)的管理需要企業(yè)高層管理者的重視和支持。只有得到了企業(yè)高層管理者的高度重視,一系列跟大數(shù)據(jù)有關(guān)的應(yīng)用及發(fā)展規(guī)劃才能有望得到推動(dòng),保證大數(shù)據(jù)質(zhì)量的各項(xiàng)規(guī)章制度才能得到順利的貫徹和落實(shí)。如果企業(yè)高層管理者缺乏大數(shù)據(jù)意識(shí)以及對(duì)大數(shù)據(jù)價(jià)值的正確理解,通常會(huì)給大數(shù)據(jù)管理帶來(lái)阻礙。缺少高層管理者的支持,企業(yè)對(duì)大數(shù)據(jù)管理、分析和應(yīng)用的重視程度就會(huì)有所降低,大數(shù)據(jù)的質(zhì)量就無(wú)法得到全面、有效的保證,從而將會(huì)大大弱化大數(shù)據(jù)價(jià)值的發(fā)揮,不利于企業(yè)競(jìng)爭(zhēng)能力的提升。因此,企業(yè)應(yīng)該在高層管理的領(lǐng)導(dǎo)和帶領(lǐng)下,加強(qiáng)大數(shù)據(jù)質(zhì)量意識(shí),建立完善的數(shù)據(jù)質(zhì)量保證制度。然而,大數(shù)據(jù)在中國(guó)仍然處于“初級(jí)發(fā)展階段”,遠(yuǎn)未達(dá)到系統(tǒng)化使用大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)進(jìn)行深度分析和挖掘的程度,還沒(méi)有充分體會(huì)到大數(shù)據(jù)分析及應(yīng)用給企業(yè)帶來(lái)的巨大商業(yè)價(jià)值,因此企業(yè)高管對(duì)大數(shù)據(jù)的認(rèn)識(shí)還沒(méi)有真正提升到企業(yè)發(fā)展的戰(zhàn)略高度,大數(shù)據(jù)的質(zhì)量也因此并沒(méi)有得到充分地重視,這在很大程度上阻礙了大數(shù)據(jù)在國(guó)內(nèi)企業(yè)的發(fā)展。
其次,專業(yè)數(shù)據(jù)管理人員的配備是保證大數(shù)據(jù)質(zhì)量不可或缺的部分。由于大數(shù)據(jù)本身的復(fù)雜性增加了大數(shù)據(jù)管理的難度,既懂得數(shù)據(jù)分析技術(shù),同時(shí)又諳熟企業(yè)各項(xiàng)業(yè)務(wù)的新型復(fù)合型管理人員是當(dāng)下企業(yè)應(yīng)用大數(shù)據(jù)方案最急需的人才,而首席數(shù)據(jù)官( Chief Data Officer,CDO) 就是這類人才的典型代表。CDO 是有效管理企業(yè)大數(shù)據(jù)、保證大數(shù)據(jù)質(zhì)量的中堅(jiān)力量。企業(yè)要想充分運(yùn)用大數(shù)據(jù)方案,任命 CDO 來(lái)專門負(fù)責(zé)大數(shù)據(jù)所有權(quán)管理、定義元數(shù)據(jù)標(biāo)準(zhǔn)、制定并實(shí)施大數(shù)據(jù)管理決策等一系列活動(dòng)是十分必要的。一份針對(duì)全球500 家企業(yè)的調(diào)查結(jié)果顯示,指定高層管理人員專門負(fù)責(zé)數(shù)據(jù)管理的 50 家企業(yè)的績(jī)效要遠(yuǎn)遠(yuǎn)高于其他企業(yè)的績(jī)效。因此,大數(shù)據(jù)環(huán)境下,需要 CDO 這樣的新型管理人才,根據(jù)企業(yè)的業(yè)務(wù)需求選擇合適的數(shù)據(jù)庫(kù)以及數(shù)據(jù)抽取、轉(zhuǎn)換和分析等工具,進(jìn)行相關(guān)的數(shù)據(jù)挖掘、數(shù)據(jù)處理和分析,并根據(jù)分析結(jié)果對(duì)企業(yè)未來(lái)的業(yè)務(wù)規(guī)劃和發(fā)展戰(zhàn)略提供相應(yīng)的建議和意見(jiàn)。然而,對(duì)于國(guó)內(nèi)傳統(tǒng)的中小型企業(yè)來(lái)說(shuō),其擁有的數(shù)據(jù)規(guī)模較小,數(shù)據(jù)復(fù)雜程度較低,利用數(shù)據(jù)挖掘技術(shù)探究潛在市場(chǎng)機(jī)遇的情況并不多,因此它們對(duì)大數(shù)據(jù)的認(rèn)識(shí)明顯不足,不會(huì)意識(shí)到建立 CDO 職位的必要性和重要性。即使是在擁有大數(shù)據(jù)規(guī)模的大中型企業(yè),它們的數(shù)據(jù)管理和分析部門通常處于分散、被動(dòng)、輔助的地位,沒(méi)有得到企業(yè)的充分高度重視,也同樣沒(méi)有把建立CDO 提升到企業(yè)戰(zhàn)略的高度,沒(méi)有意識(shí)到大數(shù)據(jù)環(huán)境下 CDO 對(duì)企業(yè)的重要作用,很多時(shí)候只是在企業(yè)內(nèi)部設(shè)立了首席信息官( Chief Information Officer,CIO) 一職來(lái)肩負(fù)最基本的數(shù)據(jù)管理職責(zé)。但是由于 CIO 是技術(shù)行家,缺乏全面、專業(yè)地對(duì)企業(yè)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析、整理和挖掘的能力,最終將會(huì)導(dǎo)致企業(yè)漸漸失去大數(shù)據(jù)所賦予的競(jìng)爭(zhēng)優(yōu)勢(shì)。另外,CDO 的門檻很高,既要對(duì)企業(yè)各項(xiàng)業(yè)務(wù)的運(yùn)作流程十分熟悉,又要懂得IT、數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)的應(yīng)用,同時(shí)還要具備極強(qiáng)的數(shù)據(jù)分析能力,集這些技能于一身的人才在國(guó)內(nèi)非常稀少,這種大數(shù)據(jù)應(yīng)用需求高漲與 CDO 人才缺失之間的矛盾將成為國(guó)內(nèi)大數(shù)據(jù)應(yīng)用面臨的最大挑戰(zhàn)之一。
CDO 的缺失是國(guó)內(nèi)數(shù)據(jù)管理方式落后的直接體現(xiàn),而落后的數(shù)據(jù)管理方式是影響大數(shù)據(jù)應(yīng)用、阻礙大數(shù)據(jù)質(zhì)量提升的重要因素之一。傳統(tǒng)的數(shù)據(jù)管理方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的要求。以往大部分企業(yè)在運(yùn)營(yíng)過(guò)程中均由業(yè)務(wù)部門負(fù)責(zé)掌管數(shù)據(jù),IT 部門負(fù)責(zé)信息技術(shù)的應(yīng)用,這種分離式的運(yùn)營(yíng)管理方式容易造成業(yè)務(wù)人員不了解分析不同數(shù)據(jù)所需的不同 IT 工具,而 IT 人員在運(yùn)用 IT 技術(shù)分析數(shù)據(jù)時(shí)不了解數(shù)據(jù)本身的內(nèi)涵,甚至?xí)龀鲥e(cuò)誤的數(shù)據(jù)解釋,影響了企業(yè)決策的準(zhǔn)確性和有效性。為此,企業(yè)應(yīng)該對(duì)組織架構(gòu)體系及其資源配置進(jìn)行重組,讓數(shù)據(jù)管理與分析部門處于企業(yè)的上游位置,而設(shè)立 CDO 便是企業(yè)重組的成功標(biāo)志之一。大數(shù)據(jù)環(huán)境下,同時(shí)還應(yīng)配備專業(yè)、高端的數(shù)據(jù)庫(kù)設(shè)計(jì)和開(kāi)發(fā)人員、程序員、數(shù)學(xué)和統(tǒng)計(jì)學(xué)家,在全面保證大數(shù)據(jù)質(zhì)量的同時(shí),充分挖掘大數(shù)據(jù)潛在的商業(yè)價(jià)值。
此外,在大數(shù)據(jù)生產(chǎn)過(guò)程的任何一個(gè)環(huán)節(jié),企業(yè)都應(yīng)該配備相應(yīng)的專業(yè)數(shù)據(jù)管理人員,通過(guò)熟悉掌握數(shù)據(jù)的產(chǎn)生流程進(jìn)行數(shù)據(jù)質(zhì)量的監(jiān)測(cè)和控制,例如在數(shù)據(jù)獲取階段,應(yīng)指定專門人員負(fù)責(zé)記錄定義并記錄元數(shù)據(jù),以便于數(shù)據(jù)的解釋,保證企業(yè)全體人員對(duì)數(shù)據(jù)的一致、正確理解,保證大數(shù)據(jù)源頭的質(zhì)量。
四、結(jié)語(yǔ)
像互聯(lián)網(wǎng)、云計(jì)算以及物聯(lián)網(wǎng)等技術(shù)一樣,大數(shù)據(jù)時(shí)代的到來(lái)勢(shì)必會(huì)再次讓信息技術(shù)領(lǐng)域煥然一新。大數(shù)據(jù)時(shí)代下,每個(gè)個(gè)體都是數(shù)據(jù)的產(chǎn)生者,企業(yè)的任何一項(xiàng)業(yè)務(wù)活動(dòng)都可以用數(shù)據(jù)來(lái)表示,如何保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績(jī)效、提升企業(yè)決策能力,成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。管理大數(shù)據(jù)如同管理企業(yè)員工一樣,員工人數(shù)越多,管理起來(lái)越復(fù)雜,大數(shù)據(jù)管理也是如此。在數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單、數(shù)據(jù)來(lái)源少的情形下,數(shù)據(jù)管理相對(duì)簡(jiǎn)單,數(shù)據(jù)質(zhì)量也相對(duì)容易保證; 但是在數(shù)據(jù)量大、變化速度快、結(jié)構(gòu)復(fù)雜、來(lái)源眾多的大數(shù)據(jù)情形下,保證數(shù)據(jù)質(zhì)量并非易事。再加上國(guó)內(nèi)大部分企業(yè)的大數(shù)據(jù)及數(shù)據(jù)質(zhì)量重要性意識(shí)還較淡薄,大數(shù)據(jù)方案的建設(shè)及應(yīng)用在我國(guó)尚不成熟,企業(yè)的數(shù)據(jù)存儲(chǔ)分析技術(shù)、數(shù)據(jù)管理方案等各項(xiàng)配套設(shè)施和制度還不完善,可見(jiàn)保證大數(shù)據(jù)的質(zhì)量任重而道遠(yuǎn)。因此,從數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)使用,企業(yè)必須制定詳細(xì)、縝密的數(shù)據(jù)質(zhì)量管理制度,在數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí)要考慮大數(shù)據(jù)在各個(gè)方面可能發(fā)生的種種意外情形,利用專門的數(shù)據(jù)提取和分析工具,任命專業(yè)的數(shù)據(jù)管理人才加強(qiáng)對(duì)大數(shù)據(jù)的管理,提高員工的數(shù)據(jù)質(zhì)量意識(shí),以保證大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,從而挖掘出更多準(zhǔn)確、有效、有價(jià)值的信息。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)
本文網(wǎng)址:http://www.oesoe.com/html/support/11121816028.html