国产乱码一二三区精品_亚洲欧美18岁网站_а√天堂8资源中文在线_csgo暴躁老阿姨高清年龄_中文字幕va一区二区三区__亚洲日韩色欧另类欧美_亚洲精品乱码久久久久久金桔影视__21世纪教育网_国产精品欧美一区二区三区不卡

ERP軟件資訊

| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>技術(shù)支持知識庫

www.oesoe.com拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉庫管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-數(shù)據(jù)清洗經(jīng)驗

數(shù)據(jù)清洗經(jīng)驗

發(fā)布日期：2015-9-19 23:39:49 來源：www.oesoe.com 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：平時習(xí)慣了在某些特定的數(shù)據(jù)集合上做實驗，簡單的tokenization、預(yù)處理等步驟就足夠了。但是在數(shù)據(jù)越來越大的年代，數(shù)據(jù)清洗越來越重要，也越來越復(fù)雜。看到PhilipJ.Guo的這篇英文文章《ParsingRawData》覺得不錯，學(xué)習(xí)并譯成中文，難免謬誤，僅供參考。 原標(biāo)題：數(shù)據(jù)清洗經(jīng)驗 原作者：2015/9/18 來源：Chaoslog 作者：Philip Guo
關(guān)鍵字：大數(shù)據(jù) 數(shù)據(jù)清洗

數(shù)據(jù)清洗

前言

科研工作者、工程師、業(yè)務(wù)分析者這些和數(shù)據(jù)打交道的職業(yè)，數(shù)據(jù)分析在他們工作中是一項核心任務(wù)。這么不僅僅針對“大數(shù)據(jù)”的從業(yè)者，即使你筆記本硬盤上的數(shù)據(jù)也值得分析。數(shù)據(jù)分析的第一步是洗數(shù)據(jù)，原始數(shù)據(jù)可能有各種不同的來源，包括：

1、Web服務(wù)器的日志

2、某種科學(xué)儀器的輸出結(jié)果

3、在線調(diào)查問卷的導(dǎo)出結(jié)果

4、1970s的政府?dāng)?shù)據(jù)

5、企業(yè)顧問準(zhǔn)備的報告

這些來源的共同點是：你絕對料想不到他們的各種怪異的格式。數(shù)據(jù)給你了，那就要處理，但這些數(shù)據(jù)可能經(jīng)常是：

1、不完整的（某些記錄的某些字段缺失）

2、前后不一致（字段名和結(jié)構(gòu)前后不一）

3、數(shù)據(jù)損壞（有些記錄可能會因為種種原因被破壞）

因此，你必須經(jīng)常維護(hù)你的清洗程序來清洗這些原始數(shù)據(jù)，把他們轉(zhuǎn)化成易于分析的格式，通常稱為data wrangling。接下來會介紹一些關(guān)于如何有效清洗數(shù)據(jù)，所有介紹的內(nèi)容都可以由任意編程語言實現(xiàn)。

使用斷言

這是最重要的一點經(jīng)驗：使用斷言(Assertions)揪出代碼中的bug。用斷言的形式寫下你對代碼格式的假設(shè)，如果一旦發(fā)現(xiàn)有數(shù)據(jù)跟你的斷言相悖，就修改這些斷言。

記錄是有序的？如果是，斷言之！每一條記錄都是有7個字段么？如果是，斷言之。每一個字段都是0-26之間的奇數(shù)么？如果是，斷言之！總之，能斷言的都斷言！

在理想世界中，所有記錄都應(yīng)該是整整齊齊的格式，并且遵循某種簡潔的內(nèi)在結(jié)構(gòu)。但是實際當(dāng)中可不是這樣。寫斷言寫到你眼出血，即便是出血還得再寫。

洗數(shù)據(jù)的程序肯定會經(jīng)常崩潰。這很好，因為每一次崩潰都意味著你這些糟糕的數(shù)據(jù)又跟你最初的假設(shè)相悖了。反復(fù)的改進(jìn)你的斷言直到能成功的走通。但一定要盡可能讓他們保持嚴(yán)格，不要太寬松，要不然可能達(dá)不到你要的效果。最壞的情況不是程序走不通，而是走出來不是你要的結(jié)果。

不要默默的跳過記錄

原始數(shù)據(jù)中有些記錄是不完整或者損壞的，所以洗數(shù)據(jù)的程序只能跳過。默默的跳過這些記錄不是最好的辦法，因為你不知道什么數(shù)據(jù)遺漏了。因此，這樣做更好:

1、打印出warning提示信息，這樣你就能夠過后再去尋找什么地方出錯了

2、記錄總共跳過了多少記錄，成功清洗了多少記錄。這樣做能夠讓你對原始數(shù)據(jù)的質(zhì)量有個大致的感覺，比如，如果只跳過了0.5%，這還說的過去。但是如果跳過了35%，那就該看看這些數(shù)據(jù)或者代碼存在什么問題了。

使用Set或者Counter把變量的類別以及類別出現(xiàn)的頻次存儲起來

數(shù)據(jù)中經(jīng)常有些字段是枚舉類型的。例如，血型只能是A、B、AB或者O。用斷言來限定血型只能是這4種之一雖然挺好，但是如果某個類別包含多種可能的值，尤其是當(dāng)有的值你可能始料未及的話，就不能用斷言了。這時候，采用counter這種數(shù)據(jù)結(jié)構(gòu)來存儲就會比較好用。這樣做你就可以：

1、對于某個類別，假如碰到了始料未及的新取值時，就能夠打印一條消息提醒你一下。

2、洗完數(shù)據(jù)之后供你反過頭來檢查。例如，假如有人把血型誤填成C，那回過頭來就能輕松發(fā)現(xiàn)了。

斷點清洗

如果你有大量的原始數(shù)據(jù)需要清洗，要一次清洗完可能需要很久，有可能是5分鐘，10分鐘，一小時，甚至是幾天。實際當(dāng)中，經(jīng)常在洗到一半的時候突然崩潰了。

假設(shè)你有100萬條記錄，你的清洗程序在第325392條因為某些異常崩潰了，你修改了這個bug，然后重新清洗，這樣的話，程序就得重新從1清洗到325391，這是在做無用功。其實可以這么做：1. 讓你的清洗程序打印出來當(dāng)前在清洗第幾條，這樣，如果崩潰了，你就能知道處理到哪條時崩潰了。2. 讓你的程序支持在斷點處開始清洗，這樣當(dāng)重新清洗時，你就能從325392直接開始。重洗的代碼有可能會再次崩潰，你只要再次修正bug然后從再次崩潰的記錄開始就行了。

當(dāng)所有記錄都清洗結(jié)束之后，再重新清洗一遍，因為后來修改bug后的代碼可能會對之前的記錄的清洗帶來一些變化，兩次清洗保證萬無一失。但總的來說，設(shè)置斷點能夠節(jié)省很多時間，尤其是當(dāng)你在debug的時候。

在一部分?jǐn)?shù)據(jù)上進(jìn)行測試

不要嘗試一次性清洗所有數(shù)據(jù)。當(dāng)你剛開始寫清洗代碼和debug的時候，在一個規(guī)模較小的子集上進(jìn)行測試，然后擴(kuò)大測試的這個子集再測試。這樣做的目的是能夠讓你的清洗程序很快的完成測試集上的清洗，例如幾秒，這樣會節(jié)省你反復(fù)測試的時間。

但是要注意，這樣做的話，用于測試的子集往往不能涵蓋到一些奇葩記錄，因為奇葩總是比較少見的嘛。

把清洗日志打印到文件中

當(dāng)運(yùn)行清洗程序時，把清洗日志和錯誤提示都打印到文件當(dāng)中，這樣就能輕松的使用文本編輯器來查看他們了。

可選：把原始數(shù)據(jù)一并存儲下來

當(dāng)你不用擔(dān)心存儲空間的時候這一條經(jīng)驗還是很有用的。這樣做能夠讓原始數(shù)據(jù)作為一個字段保存在清洗后的數(shù)據(jù)當(dāng)中，在清洗完之后，如果你發(fā)現(xiàn)哪條記錄不對勁了，就能夠直接看到原始數(shù)據(jù)長什么樣子，方便你debug。

不過，這樣做的壞處就是需要消耗雙倍的存儲空間，并且讓某些清洗操作變得更慢。所以這一條只適用于效率允許的情況下。

最后一點，驗證清洗后的數(shù)據(jù)

記得寫一個驗證程序來驗證你清洗后得到的干凈數(shù)據(jù)是否跟你預(yù)期的格式一致。你不能控制原始數(shù)據(jù)的格式，但是你能夠控制干凈數(shù)據(jù)的格式。所以，一定要確保干凈數(shù)據(jù)的格式是符合你預(yù)期的格式的。

這一點其實是非常重要的，因為你完成了數(shù)據(jù)清洗之后，接下來就會直接在這些干凈數(shù)據(jù)上進(jìn)行下一步工作了。如非萬不得已，你甚至再也不會碰那些原始數(shù)據(jù)了。因此，在你開始數(shù)據(jù)分析之前要確保數(shù)據(jù)是足夠干凈的。要不然的話，你可能會得到錯誤的分析結(jié)果，到那時候，就很難再發(fā)現(xiàn)很久之前的數(shù)據(jù)清洗過程中犯的錯了。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.oesoe.com/

本文標(biāo)題：數(shù)據(jù)清洗經(jīng)驗

本文網(wǎng)址：http://www.oesoe.com/html/support/11121518569.html

關(guān)鍵詞標(biāo)簽： 數(shù)據(jù)清洗經(jīng)驗,大數(shù)據(jù) 數(shù)據(jù)清洗,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財務(wù)軟件,免費(fèi)倉庫管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：基于HFSS的高速傳輸線仿真網(wǎng)格劃分研究

下一篇： Siemens PLM Software在華成立機(jī)電一體化概念設(shè)計實驗室

相關(guān)文章

服務(wù)支持

ERP技術(shù)支持

技術(shù)支持知識庫

常見問題資料庫

在線學(xué)習(xí)資料庫

日常辦公資料庫

企業(yè)管理知識庫

ERP系統(tǒng)教程

ERP免費(fèi)下載

ERP在線咨詢

ERP軟件選型&體驗

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門軟件下載

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標(biāo)..

金蝶KIS財務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓(xùn)..

拓步ERP財務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標(biāo)準(zhǔn)版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

最新服務(wù)支持

基于HFSS的高速傳輸線仿真網(wǎng)格劃分研究

數(shù)據(jù)清洗經(jīng)驗

盤點：移動電子商務(wù)的七大機(jī)會

綠色制造之理論與技術(shù)支撐

五步判斷企業(yè)信息化建設(shè)需求分析

Siemens PLM Soft..

“互聯(lián)網(wǎng)+”時代，從內(nèi)部顛覆企業(yè)..

淺析發(fā)電企業(yè)一體化信息門戶平臺的..

工業(yè)互聯(lián)網(wǎng)迷局

企業(yè)級市場會是移動互聯(lián)網(wǎng)的下一個..

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

點擊

ERP系統(tǒng)咨詢顧問

聯(lián)系ERP系統(tǒng)咨詢顧問
點擊

ERP系統(tǒng)售前顧問

聯(lián)系ERP系統(tǒng)售前顧問-1
點擊

ERP系統(tǒng)售前顧問

聯(lián)系ERP系統(tǒng)售前顧問-2

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

拓步ERP系統(tǒng)平臺誠證代理

拓步ERP資訊網(wǎng)|隱私條款|法律條款|網(wǎng)站地圖|友情鏈接|在線留言|聯(lián)系我們|微博發(fā)布|新浪微博|騰訊微博

深圳市拓步軟件技術(shù)有限公司 www.oesoe.com 拓步ERP資訊網(wǎng) 拓步ERP平臺版權(quán)所有 © 2004-2015

深圳市暢夢科技有限公司 www.tuhaogame.cn 土豪手游平臺版權(quán)所有 © 2013-2015

本站關(guān)鍵詞：ERP|ERP系統(tǒng)|ERP軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉庫管理軟件|ERP系統(tǒng)免費(fèi)下載|ERP軟件免費(fèi)下載

粵ICP備05017285號

在
線
客
服