在超級(jí)互聯(lián)網(wǎng)公司,隨著服務(wù)器規(guī)模都早早邁過10萬臺(tái)量級(jí),加之業(yè)務(wù)模式的多樣性和IT架構(gòu)的云化遷移,其
IT運(yùn)維團(tuán)隊(duì)面臨的挑戰(zhàn)與日俱增,常規(guī)的系統(tǒng)和經(jīng)驗(yàn)都需要不斷迭代更新。
本文將給大家介紹在超級(jí)互聯(lián)網(wǎng)公司如何基于網(wǎng)絡(luò)的故障根因自動(dòng)定位技術(shù),提高故障定位速度,從而提高業(yè)務(wù)可用性。
規(guī)模效應(yīng)和云的效應(yīng)極大提升了運(yùn)維的復(fù)雜性
首先,我們先來看看超級(jí)互聯(lián)網(wǎng)公司的業(yè)務(wù)架構(gòu)示例圖:
圖1 超級(jí)互聯(lián)網(wǎng)公司的業(yè)務(wù)架構(gòu)示例圖
在超級(jí)互聯(lián)網(wǎng)公司中,通常不同的層次都由不同的團(tuán)隊(duì)來負(fù)責(zé)運(yùn)維管理,同層次不同的硬件/系統(tǒng)/應(yīng)用都由不同的小組來負(fù)責(zé)運(yùn)維管理。
就基礎(chǔ)設(shè)施即服務(wù)這層來說,隨著IT設(shè)備規(guī)模的不斷增加,IT設(shè)備故障的告警種類與告警數(shù)量也隨之急劇增加。
告警的多面性、冗余性、耦合性,導(dǎo)致某些核心層面的故障會(huì)引起大面積告警的現(xiàn)象,而這些告警又有可能分屬不同小組,運(yùn)維人員處理故障會(huì)增加排查問題的難度以及增加小組間溝通成本。
同時(shí)因?yàn)閷?duì)故障信息缺乏統(tǒng)一的管理,無法對(duì)告警系統(tǒng)進(jìn)行反饋優(yōu)化,致使誤報(bào)漏報(bào)頻出。同樣也無法進(jìn)行全面的故障信息統(tǒng)計(jì)分析,不知道如何對(duì)基礎(chǔ)設(shè)施資源進(jìn)行風(fēng)險(xiǎn)管理。
眾所周知,IT基礎(chǔ)設(shè)施層的運(yùn)維工作,直接影響公司服務(wù)穩(wěn)定性。一次服務(wù)中斷事件便會(huì)對(duì)公司造成極大的經(jīng)濟(jì)損失。
但正如上述現(xiàn)狀描述中提到的問題:
-
工程師水平參差不齊,故障處理自動(dòng)化程度較低。
告警系統(tǒng)缺乏有效的反饋機(jī)制進(jìn)行系統(tǒng)優(yōu)化,同時(shí)缺少全面有效的故障信息沉淀,無法幫助預(yù)算與評(píng)估采購系統(tǒng)進(jìn)行合理采購。
這些都極大約束了運(yùn)維水平的與時(shí)俱進(jìn),新的方法論和新的運(yùn)維技術(shù)有迫切的內(nèi)部需求。
我們收斂匯總一下復(fù)雜運(yùn)維場(chǎng)景下的主要痛點(diǎn):
-
如何提高不同運(yùn)維小組的故障處理協(xié)作效率
-
如何實(shí)現(xiàn)對(duì)IT基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)管理
如何應(yīng)對(duì)?打造以故障定位為核心的運(yùn)維生態(tài)體系!
基于上述背景下的痛點(diǎn)問題,一套以故障定位為核心的運(yùn)維生態(tài)體系的建立便成為高逼格的不可或缺:
-
統(tǒng)一故障信息入口,使用機(jī)器學(xué)習(xí)的算法對(duì)信息進(jìn)行分類整合和推理,自動(dòng)定位故障生成case,設(shè)計(jì)開發(fā)統(tǒng)一故障處理平臺(tái),通知工程師來平臺(tái)進(jìn)行處理故障。
-
同時(shí)將所有數(shù)據(jù)進(jìn)行沉淀分析,反饋給告警系統(tǒng)和質(zhì)量管理系統(tǒng),提高故障處理效率,加強(qiáng)基礎(chǔ)設(shè)施風(fēng)險(xiǎn)管理。
而在這套生態(tài)體系中,故障自動(dòng)定位技術(shù)便是體系是否能夠成功建立的核心要素。
圖2 自動(dòng)定位技術(shù)便是體系是否能夠成功建立的核心要素
故障根因自動(dòng)定位簡(jiǎn)要科普
故障根因自動(dòng)定位系統(tǒng)為人工智能的分支,屬于診斷性專家系統(tǒng),專家系統(tǒng)通常包含:
其中最重要的是知識(shí)庫和推理機(jī)。知識(shí)庫用于專家經(jīng)驗(yàn)的存儲(chǔ),是一種靜態(tài)規(guī)則,推理機(jī)根據(jù)現(xiàn)象結(jié)合知識(shí)庫中的規(guī)則反復(fù)推理得出結(jié)論。規(guī)則集的組成形式有多種方式,本文重點(diǎn)介紹的是二叉決策樹。
圖3 人工智能診斷型專家系統(tǒng)
故障根因定位系統(tǒng)的設(shè)計(jì)架構(gòu)系統(tǒng)
故障根因自動(dòng)定位系統(tǒng)主要由監(jiān)控系統(tǒng)、接入系統(tǒng)、推理系統(tǒng)、通告系統(tǒng)四個(gè)部分組成,分別的功能如下:
-
監(jiān)控系統(tǒng):監(jiān)控系統(tǒng)負(fù)責(zé)各類探針數(shù)據(jù)的采集,根據(jù)監(jiān)控規(guī)則產(chǎn)生告警。
-
接入系統(tǒng):接入系統(tǒng)負(fù)責(zé)對(duì)各類監(jiān)控系統(tǒng)的告警信息進(jìn)行匯總并格式化處理。
-
推理系統(tǒng):推理系統(tǒng)根據(jù)專家推理樹進(jìn)行故障根因定位推理,定位最終告警原因,確定故障根源。
-
通告系統(tǒng):通告系統(tǒng)根據(jù)定位出的故障根因進(jìn)行故障信息通告。
看個(gè)實(shí)際案例,看看到底能解決啥問題?
故障推理算法是整個(gè)故障定位系統(tǒng)的核心,這里重點(diǎn)闡述下故障推理算法的實(shí)現(xiàn)方式。
故障定位算法采用機(jī)器學(xué)習(xí)中的二叉決策樹的方式實(shí)現(xiàn):
一方面希望將故障所產(chǎn)生的所有告警信息整合為一條信息,減少告警量。
另一方面希望能夠智能定位出故障點(diǎn),減少工程師排查問題的時(shí)間,并引入自動(dòng)化處理。
以某公司網(wǎng)絡(luò)故障根因定位為例,實(shí)現(xiàn)上述目標(biāo)需要三步:
第一步:將問題排障過程的經(jīng)驗(yàn)提煉成二叉決策樹。
第二步:將告警信息按照時(shí)間分片算法進(jìn)行分類分組。
第三步:將分組的告警信息輸出給決策樹進(jìn)行自動(dòng)推理輸出推理結(jié)果。
看看推理樹是怎么構(gòu)建的呢?
根據(jù)某公司目前網(wǎng)絡(luò)故障時(shí)的告警特點(diǎn)和網(wǎng)絡(luò)工程師運(yùn)維的特點(diǎn),得出下面的一些結(jié)論,而這些結(jié)論可幫助我們構(gòu)建出經(jīng)驗(yàn)推理樹。
A、告警信息是分層次的:
第一層是交換機(jī)級(jí)別,如ROUTER_ID、CPU、TM告警。
第二層次是板卡告警,比如板卡芯片問題,板卡故障。
第三層次是端口告警,LINK-NEW告警等與端口相關(guān)的告警。
B、每一層的告警又可分為原子告警,衍生性告警。
比如:
第三層告警,LINK-NEW便是衍生性的告警,而PORTDOWN的告警為原子告警,即PORTDOWN了一定會(huì)有LINK-NEW的告警,反之不然。
根據(jù)以上結(jié)論,故障定位的原則為:重要性從最高層往最低層報(bào),每層中重要性從原子告警到衍生性告警報(bào)。
比如:
收到了ROUTER_ID,PORTDOWN,LINK-NEW的告警,那么只需報(bào)ROUTER_ID的告警。
如果只有PORTDOWN,LINK-NEW的告警,就重點(diǎn)報(bào)`PORT。
DOWN的告警,如果只有LINK-NEW的告警,則只能報(bào)LINK-NEW`的告警。
引入故障追蹤列表,比如第二層的【B
OARD告警】引起第三層的告警【PORT、OSPF、LINK-NEW】,每個(gè)故障追蹤列表形成一個(gè)Case,即Case的生成過程不是以某交換機(jī)為單位,而是以故障追蹤列表為單位。
根據(jù)上述的分析,設(shè)計(jì)推理樹如下圖所示:
圖4 設(shè)計(jì)推理樹
沒太看明白?看看推理樹的構(gòu)建原則和實(shí)現(xiàn)方式
A、推理樹的構(gòu)建有以下四個(gè)原則:
原則一:告警從高層向底層,在邏輯層次上面,越根源性的告警越先判斷。
例如:
A出現(xiàn)問題必然導(dǎo)致B出現(xiàn)問題,B出現(xiàn)問題必然導(dǎo)致C出現(xiàn)問題,在邏輯層次上面,A的根源性最高,當(dāng)A、B、C告警同時(shí)到達(dá),先判斷A,判定A、B、C故障的根因?yàn)锳。
在告警關(guān)聯(lián)度上面,越明確關(guān)聯(lián)的告警越先判斷。
例如:
故障A對(duì)應(yīng)有A1、A2、A3三種告警,關(guān)聯(lián)度依次為A1>A2>A3,先判斷A1,由A1直接確定A1、A2、A3的故障根因?yàn)锳。
原則二:從原子到衍生告警。
原則三:推理樹的建立根據(jù)告警來定。
原則四:驗(yàn)證規(guī)則,根據(jù)經(jīng)驗(yàn)和知識(shí)庫來定。
B、推理過程實(shí)現(xiàn),有以下三種方式:
方式一:
給出特征—>推理機(jī)—>結(jié)論—>驗(yàn)證—>發(fā)出結(jié)果
方式二:
自主收集特征—>推理機(jī)—>結(jié)論—>驗(yàn)證—>發(fā)出結(jié)果
方式三:
數(shù)據(jù)—>根據(jù)特征設(shè)計(jì)的推理機(jī)—>結(jié)論—>驗(yàn)證—>發(fā)出結(jié)果
簡(jiǎn)單來說,方式一就是半人工方式、方式二就是簡(jiǎn)單機(jī)器學(xué)習(xí)方式、方式三就是智能機(jī)器學(xué)習(xí)方式。
來個(gè)總結(jié)吧!4步搭建你的故障根因定位系統(tǒng)
看完是不是有點(diǎn)小激動(dòng),想動(dòng)手試試如何構(gòu)建一套智能故障根因定位系統(tǒng),需要如下幾個(gè)步驟:
第一步:構(gòu)建CMDB
CMDB是監(jiān)控系統(tǒng)的基礎(chǔ),數(shù)據(jù)部分通常分為靜態(tài)、動(dòng)態(tài)兩大類。
就網(wǎng)絡(luò)設(shè)備而言,靜態(tài)數(shù)據(jù)通常包括:
動(dòng)態(tài)數(shù)據(jù)通常包括:
第二步:告警標(biāo)準(zhǔn)化
需要統(tǒng)一告警信息的格式,便于故障定位系統(tǒng)提取關(guān)鍵特征級(jí)并進(jìn)行分類分組。
第三步:梳理告警關(guān)系
理清告警之間的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)關(guān)系需要是邏輯上面的,形成必要的關(guān)系,例如A是B上游模塊,A出現(xiàn)問題必然會(huì)導(dǎo)致B出現(xiàn)問題。
第四步:構(gòu)建推理樹
根據(jù)人工故障定位判斷邏輯,構(gòu)建推理樹,設(shè)定每個(gè)推理節(jié)點(diǎn)的判決條件。
OK啦!做完以上幾步,您就搭建了一個(gè)簡(jiǎn)單的故障根因自動(dòng)定位系統(tǒng),通過對(duì)每個(gè)推理節(jié)點(diǎn)判斷條件的不斷優(yōu)化,您可以不斷提升故障自動(dòng)定位準(zhǔn)確率,讓您的運(yùn)維效率得到大幅提升,IT運(yùn)營水平逐步與BAT等超級(jí)互聯(lián)網(wǎng)公司運(yùn)營水平對(duì)齊。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:復(fù)雜運(yùn)維場(chǎng)景下,如何實(shí)現(xiàn)分鐘級(jí)的故障根因定位
本文網(wǎng)址:http://www.oesoe.com/html/solutions/14019319508.html