| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>解決方案 >>其他ERP解決方案

www.oesoe.com拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費ERP系統(tǒng)|免費ERP軟件|免費進(jìn)銷存軟件|免費倉庫管理軟件|免費下載專業(yè)資訊網(wǎng)-漫談redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式

漫談redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式

發(fā)布日期：2016-6-10 0:31:38 來源：www.oesoe.com 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：今天，我和大家分享下redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式。 原標(biāo)題：漫談redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式 原作者：2016/6/10 來源：運(yùn)維網(wǎng) 作者：胡翀
關(guān)鍵字：redis 運(yùn)維數(shù)據(jù)

今天，我和大家分享下redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式。為了避免混淆，本文中對于redis的數(shù)據(jù)結(jié)構(gòu)做如下約定：

SET：saddkey member

ZSET：zaddkeyscoremember

HYPERLOGLOG:pfaddkey element

STRING:setbitkey offset value

名詞約定：

維度：比如版本、操作系統(tǒng)類型、操作系統(tǒng)版本、運(yùn)營商、設(shè)備型號、網(wǎng)絡(luò)類型等

復(fù)合維度：由兩個或多個維度交錯產(chǎn)生的維度，比如某個版本下的某個設(shè)備型號。

去重統(tǒng)計在數(shù)據(jù)化運(yùn)維的指標(biāo)計算環(huán)節(jié)，并不是一個陌生的字眼，甚至可以說，在大部分的數(shù)據(jù)指標(biāo)的中間計算過程中，最終會分為以下幾種數(shù)據(jù)集：

最大，最小，穩(wěn)定性，疊加，去重統(tǒng)計。

這5種指標(biāo)前面4種在實時處理框架或者大部分nosql中使用相對較小的開銷即可完成計算，基礎(chǔ)指標(biāo)計算的大部分計算瓶頸還是落在io上面，而導(dǎo)致io瓶頸的問題源自于數(shù)據(jù)維度的劃分與聚合，特別是對于去重統(tǒng)計類型的數(shù)據(jù)，如果有一種需要實時顯示的去重指標(biāo)，維度的切分對于io上的開銷簡直是一種災(zāi)難。

例如，假定我們需要獲取手機(jī)終端中某個應(yīng)用版本中的某個設(shè)備型號或者某個系統(tǒng)的活躍設(shè)備數(shù)。那么，目前市場中的設(shè)備型號有幾百種，各種系統(tǒng)版本x系統(tǒng)類型也有很多，對指標(biāo)的去重統(tǒng)計來說每多一個維度，需要的內(nèi)存開銷就要多上一倍，2個維度交叉產(chǎn)生的復(fù)合維度可能多達(dá)上百個，3個維度的交叉產(chǎn)生的復(fù)合維度可能數(shù)以千計。

因此，對于實時顯示的去重統(tǒng)計類型指標(biāo)，最好的處理方式是在設(shè)計時盡量規(guī)避這種指標(biāo)。如果實在無法規(guī)避，我們需要做的犧牲一部分插入時的性能或者空間上的性能換來該部分指標(biāo)在讀取時不是o（n）的。

下面簡單介紹幾種在開發(fā)中基于redis研究出來的幾種數(shù)據(jù)去重方式：

1.于set的去重統(tǒng)計

這種結(jié)構(gòu)的數(shù)據(jù)應(yīng)該是最好理解的統(tǒng)計方式，也是常規(guī)的統(tǒng)計方式之一，直接把要去重的部分作為member插入一個set中，需要統(tǒng)計的時候直接使用scard統(tǒng)計該數(shù)據(jù)集的基數(shù)，對于時間等維度信息，可以放在key中，然后拿取的時候通過拼接維度字段的形式拿取。

圖1 set的去重統(tǒng)計

優(yōu)點：使用簡單，統(tǒng)計精確。

缺點：無法達(dá)成實時統(tǒng)計的功能，要一分鐘統(tǒng)計一次的話需要使用expire命令設(shè)置一個很短的回收時間，單一維度時占用空間過大，信息聚合成本過大，有幾個維度就需要幾倍的內(nèi)存空間，3個以上復(fù)合維度時基本不需要考慮此方案。

適用場景：需要統(tǒng)計的去重內(nèi)容的基數(shù)非常小的情況下可以考慮，在優(yōu)云mobile中，對于用戶基數(shù)較小的影響設(shè)備數(shù)的計算采用了此種方式。

2.基于zset的去重統(tǒng)計

傳統(tǒng)的基于跳表/B樹的統(tǒng)計方式，key為維度信息，score為時間，member為設(shè)備id等原子信息，通過zcount可以拿取所有的成員數(shù)量。

優(yōu)點：插入和統(tǒng)計都是o(log(N))的，可以精確統(tǒng)計從現(xiàn)在開始到某個時間點的用戶，可以保留原子數(shù)據(jù)。

圖2 zset的去重統(tǒng)計

缺點：只能自定義時間域上的左區(qū)間，對于右區(qū)間只能定義為現(xiàn)在時間，否則會出現(xiàn)統(tǒng)計值比實際值偏小的情況（因為同一個設(shè)備如果出現(xiàn)兩次，則會移除舊的那條），單一維度時占用空間過大，有幾個維度就需要幾倍的內(nèi)存空間，3個以上復(fù)合維度時基本不需要考慮此方案。

適用場景：對于查看從現(xiàn)在開始1分鐘 5分鐘 10分鐘等各種時間跨度的用戶基數(shù)時可以考慮，在優(yōu)云mobile中，采用了這種方案來統(tǒng)計活躍設(shè)備數(shù)，早期開發(fā)時我們將各種時間維度和各種復(fù)合維度全部放在了redis中，結(jié)果發(fā)現(xiàn)內(nèi)存開銷過大，現(xiàn)在的版本我們只存放了最近2分鐘的一些簡單維度的數(shù)據(jù)。

3.基于bitset的去重統(tǒng)計

將終端用戶id映射為一個bitset上的一個bit，利用現(xiàn)代處理器的特性進(jìn)行快速計算。

優(yōu)點：統(tǒng)計結(jié)果精確，對于不同維度可以使用and或者or進(jìn)行聚合，數(shù)據(jù)具有原子性，通過較少的操作即可做到跨維度的計算。

圖3 bitset的去重統(tǒng)計

缺點：不適用于分鐘級別的統(tǒng)計，并且用戶id的映射較為麻煩。如果使用hash的方式進(jìn)行映射，將會不可避免的產(chǎn)生hash碰撞，如果使用用戶id進(jìn)行映射，那么必然需要維護(hù)一份用戶id映射表，這份映射表放在內(nèi)存中會占用大量空間，放在磁盤中則會導(dǎo)致整個系統(tǒng)的處理速率降低。

備注：java中的bitset在一個byte字節(jié)上是由低位到高位進(jìn)行存儲，redis中則是由高位到低位進(jìn)行存儲。

適用場景：適用于需要儲存原子數(shù)據(jù)并進(jìn)行較大時間跨度或者自由拼接時間跨度聚合的場景。

4.基于hyperloglog的去重統(tǒng)計

hyperloglog是一種基于概率的統(tǒng)計方式，在redis的2.8.9版本后出現(xiàn)的新數(shù)據(jù)結(jié)構(gòu)

詳細(xì)的內(nèi)容可以查看這幾篇文章：

http：//blog.codinglabs.org/tag.html#基數(shù)估計

優(yōu)點：每個hyperloglog只需要12K的空間，并且誤算率只有0.81%，不同的紀(jì)錄之間可以進(jìn)行聚合，也就是可以通過聚合統(tǒng)計出任意時間范圍的去重結(jié)果，統(tǒng)計單個hyperloglog時時間復(fù)雜度為o(1)。

缺點：對于統(tǒng)計結(jié)果要求較為精確的場合并不是非常適用

適用場景：在對誤算率要求不高的情況下，同bitset。

5.基于布隆過濾器的去重統(tǒng)計

布隆過濾器是一種改良的bit映射方案，通過使用多種不同的hash種子，可以做到在較低誤判率以及較高的空間利用率的情況下進(jìn)行統(tǒng)計，redis中并沒有布隆過濾器這個數(shù)據(jù)結(jié)構(gòu)，不過可以通過lua腳本的方式實現(xiàn)一個布隆過濾器，詳細(xì)源碼可見

https：//github.com/erikdubbelboer/redis-lua-scaling-bloom-filter1

圖4 布隆過濾器的去重統(tǒng)計

優(yōu)點：對于200萬用戶不超過萬分之一誤算率的統(tǒng)計，只需要8M左右redis內(nèi)存即可完成統(tǒng)計，萬分之一的誤算率是在插入的不同設(shè)備數(shù)達(dá)200萬次時才擁有的誤算率，在這之前的誤算率是從0開始線性增長的，在大多數(shù)情況下這個誤算率應(yīng)該是可以容忍的。

缺點：布隆過濾器的統(tǒng)計結(jié)果無法聚合

適用場景：對于一些需要實時顯示的內(nèi)容并且維度較少的內(nèi)容，可以采用此數(shù)據(jù)結(jié)構(gòu)，在優(yōu)云mobile中，總覽頁面的活躍設(shè)備數(shù)采用了此方案來實時顯示今日活躍設(shè)備數(shù)。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.oesoe.com/

本文標(biāo)題：漫談redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式

本文網(wǎng)址：http://www.oesoe.com/html/solutions/14019319372.html

關(guān)鍵詞標(biāo)簽： 漫談redis在運(yùn)維數(shù)據(jù)分析中的去重統(tǒng)計方式,redis 運(yùn)維數(shù)據(jù),ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進(jìn)銷存軟件,免費進(jìn)銷存,免費財務(wù)軟件,免費倉庫管理軟件,免費下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：數(shù)據(jù)中心基礎(chǔ)設(shè)施備品備件管理

下一篇：解讀智能交通產(chǎn)業(yè)需求與發(fā)展新契機(jī)

相關(guān)文章

解決方案

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標(biāo)..

金蝶KIS財務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費下載免費使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓(xùn)..

拓步ERP財務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標(biāo)準(zhǔn)版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎(chǔ)知識 ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學(xué)習(xí)資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務(wù)價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

按ERP應(yīng)用行業(yè)分類

按ERP企業(yè)規(guī)模分類

按ERP管理領(lǐng)域分類

按ERP軟件功能分類

按ERP系統(tǒng)特性分類

用友ERP解決方案

金蝶ERP解決方案

易飛ERP解決方案

速達(dá)ERP解決方案

其他ERP解決方案

即時聯(lián)系

服務(wù)熱線

快捷互動

猜您喜歡