4 數(shù)據(jù)庫PaaS云平臺帶來的運維和管理的轉(zhuǎn)變
4.1 數(shù)據(jù)庫PaaS云平臺的運維管理模式
從本質(zhì)上來說,云計算并不是一種技術(shù)的革命,而是一種管理模式的革命。云計算的技術(shù)基礎(chǔ),不論是服務(wù)器虛擬化、存儲虛擬化,還是平臺軟件級別的集群和資源控制,都是已經(jīng)存在了若干年的技術(shù)。從技術(shù)手段上來說,這些技術(shù)手段短則出現(xiàn)了10年,長的在30年前就已經(jīng)存在了(如服務(wù)器虛擬化)。但是云計算之所以能對IT的建設(shè)和運維帶來新的創(chuàng)新,關(guān)鍵在于對整個IT架構(gòu)的日常管理和運維帶來的革命性變更。將所有的資源虛擬化后,伴隨著動態(tài)可調(diào)的能力,大大加快了新應(yīng)用建設(shè)在平臺層的建設(shè)速度,而且能按照實際的運行情況進(jìn)行動態(tài)調(diào)整。
但是這種管理模式革命性的變更,也帶來了對應(yīng)用/系統(tǒng)管理維護(hù)的新需求。傳統(tǒng)方式中,在大多數(shù)的實際情況下,應(yīng)用軟件的開發(fā)商SI不僅僅是對自己的應(yīng)用提供運維,而且也對其應(yīng)用之下的平臺軟件/硬件進(jìn)行主要的運維操作,并根。據(jù)實際運行的情況,對用戶提出基礎(chǔ)架構(gòu)擴(kuò)容和調(diào)整的需求。在采用PaaS提供數(shù)據(jù)庫云的方式下。之前的SI全部負(fù)責(zé)的方式必然不可行。因為SI不再負(fù)責(zé)包括基礎(chǔ)硬件和數(shù)據(jù)庫軟件的數(shù)據(jù)庫平臺的運維,而只是一個數(shù)據(jù)庫作為服務(wù)的消費者,必須要有第三方負(fù)責(zé)相應(yīng)云平臺的運維。同時,由于實際的情況,SI往往會提出自己的數(shù)據(jù)庫服務(wù)需要的資源變更請求,對于這些資源變更請求的評估和批準(zhǔn)。當(dāng)然也應(yīng)該由SI之外的人員/組織予以完成。簡單總結(jié)一下,在采用數(shù)據(jù)庫云平臺后,原來的SI和最終用戶的關(guān)系會演變成如下4方面的關(guān)系,如圖8所示。
首先引入的是SI的數(shù)據(jù)庫云平臺維護(hù)者,負(fù)責(zé)對數(shù)據(jù)庫云平臺的日常監(jiān)控、安全管理等工作。而且需要由數(shù)據(jù)庫云平臺管理者負(fù)責(zé)對開發(fā)商提出的資源變更需求進(jìn)行決策,判斷是否應(yīng)當(dāng)進(jìn)行資源調(diào)整。數(shù)據(jù)庫云平臺的管理者也需要根據(jù)實際業(yè)務(wù)的情況和云平臺維護(hù)者給出的系統(tǒng)報告。主動地進(jìn)行資源調(diào)整,以確保系統(tǒng)的資源利用率和各個應(yīng)用的服務(wù)質(zhì)量。
這樣的管理模式變革,對數(shù)據(jù)庫云平臺也提出了相應(yīng)的技術(shù)要求。例如,必須有完整的監(jiān)控手段,監(jiān)控各個應(yīng)用資源的使用情況,而且不僅僅是監(jiān)控。還需要提供更高層次的診斷和優(yōu)化工具,避免由于SI開發(fā)應(yīng)用的低效率而導(dǎo)致的資源浪費,避免誰的應(yīng)用越爛,誰就能分配更多資源的不良情況。
對于數(shù)據(jù)庫云平臺的維護(hù)者來說,也需要更高的技能提升,能在多租戶的情況下,從數(shù)據(jù)庫的運維上升到數(shù)據(jù)庫云的運維。對平臺維護(hù)者來說,也是一個全新的課題。
4.2 目前在數(shù)據(jù)庫PaaS云平臺上的運維管理實踐
基于廣東移動網(wǎng)絡(luò)運維部門數(shù)據(jù)庫系統(tǒng)多而雜的特點,在數(shù)據(jù)庫云平臺部署過程中,對云平臺的管理和運維也相應(yīng)總結(jié)了一套實用的管理流程。其主要涵蓋了從部署云資源池、應(yīng)用申請云平臺資源需求、評估和審批資源,到部署應(yīng)用服務(wù)和所對應(yīng)的計算和存儲資源、服務(wù)資源SLA管理和按需資源調(diào)度。再到最終應(yīng)用退出和資源回收的一套完整過程。下面簡單舉例說明部分管理流程要點,如圖9所示。
圖8 原來的SI和最終用戶的關(guān)系
圖9 部分管理流程要點
4.2.1創(chuàng)建資源服務(wù)池
首先基于Exadata構(gòu)建廣東移動網(wǎng)絡(luò)運維的多個數(shù)據(jù)庫資源池,分為OLTP型應(yīng)用資源池、OLAP型應(yīng)用資源池、空閑資源池等,如圖10所示。將部分服務(wù)器劃分在各個對應(yīng)的資源池內(nèi)。
圖10 數(shù)據(jù)庫資源池分類
4.2.2評估原有生產(chǎn)系統(tǒng)業(yè)務(wù)特點
對原有各個生產(chǎn)系統(tǒng)進(jìn)行調(diào)研和評估,評估原有系統(tǒng)的硬件配置和系統(tǒng)容量,如圖11所示。對應(yīng)用特點進(jìn)行評估,評估業(yè)務(wù)特點和處理峰值。評估業(yè)務(wù)系統(tǒng)遷移到Exadata數(shù)據(jù)庫云平臺后,對所需的存儲和計算能力需求以及對應(yīng)用的重要程度進(jìn)行評估分類,以便在數(shù)據(jù)庫云平臺中進(jìn)行資源控制和服務(wù)級別管理。
4.2.3創(chuàng)建業(yè)務(wù)服務(wù)并配置對應(yīng)分配的資源
將各個業(yè)務(wù)應(yīng)用創(chuàng)建成數(shù)據(jù)庫應(yīng)用服務(wù),在所對應(yīng)的資源池內(nèi)進(jìn)行部署,并按照各個數(shù)據(jù)庫應(yīng)用服務(wù)的評估所需的資源進(jìn)行初始資源劃分,如圖12所示。并按照各個應(yīng)用服務(wù)服務(wù)的生產(chǎn)規(guī)律性周期頻度,進(jìn)行規(guī)律性資源計劃定義。
5 現(xiàn)網(wǎng)應(yīng)用效果對比
5.1性能對比
經(jīng)過實際測試,基于現(xiàn)網(wǎng)真實數(shù)據(jù)和應(yīng)用,測試Exadata數(shù)據(jù)庫云平臺的多/直ffi(0LTP+0LAP),性能提升從44倍到6 750倍。原來數(shù)小時的大作業(yè)類似于OLAP,目前只需要幾秒鐘完成,基本都提高了上千倍。原來大量循環(huán)+游標(biāo)類似于OLTP的存儲過程也有“倍和127倍的提高,見表1。
表1 實際測試結(jié)果
5.2系統(tǒng)擴(kuò)展能力
對于Exadata的數(shù)據(jù)庫云平臺擴(kuò)展能力測試,告警SQL5(CPU高負(fù)載SQL,SQL達(dá)34 KB)從1/4配(執(zhí)行時間0:01:08)擴(kuò)展到1/2配(執(zhí)行時間0:00:31)時,可以明顯發(fā)現(xiàn)執(zhí)行時間線性減少(從68 8到31s),如圖13所示。
圖11 原有生產(chǎn)系統(tǒng)評估實例
圖12 初始資源劃分
圖13 數(shù)據(jù)庫云平臺擴(kuò)展能力測試
5.3壓縮比
經(jīng)過測試,用現(xiàn)網(wǎng)生產(chǎn)數(shù)據(jù)在Exadata數(shù)據(jù)庫云平臺中壓縮存儲,Exadata對兩個大表的壓縮率分別可達(dá)到7倍和10倍,見表2。
表2 壓縮比測試結(jié)果
5.4數(shù)據(jù)庫云服務(wù)資源池和服務(wù)定義
配置兩個數(shù)據(jù)庫服務(wù)Servicel、Service2,可以在數(shù)據(jù)庫云服務(wù)虛擬池內(nèi)實現(xiàn)服務(wù)的動態(tài)擴(kuò)展、回收和遷移。建立ora.gmsp服務(wù)池,管理dm01db01、dm01db02兩個服務(wù)器的資源。Srvctl add srvpool—g ora.gmsp—10一u—1—i0一n dm01dbol。din01db02也可以在Oracle企業(yè)管理器界面中添加服務(wù)器池。
添加dbfsdg_mount資源具體操作方法如下。
·在Oracle企業(yè)管理器界面中服務(wù)器集群dm01一cluster上的資源管理處添加資源。
·資源名:dbfsdg_mount。
·資源類型:local—resource。
·操作程序:代理文件和操作腳本。
5.5服務(wù)資源分配
在數(shù)據(jù)庫云平臺內(nèi),可以按照業(yè)務(wù)優(yōu)先級配置系統(tǒng)資源供給。能夠配置的資源包括業(yè)務(wù)的CPU、內(nèi)存、并發(fā)會話數(shù)以及I/0優(yōu)先級和吞吐量。
通過在Oracle企業(yè)管理器界面中定義資源計劃,可以基于多種條件將不同的會話劃分到多個資源組中,對不同的資源組分配不同的CPU資源,分配CPU資源可以基于CPU百分比,定義多個優(yōu)先級進(jìn)行分配。
5.5.1對CPU的分配
在系統(tǒng)中定義了0LTP-GROUP、OLAP__GROUP和OTHER GROUP 3個資源組,根據(jù)需求,為不同的資源組分配不同的CPU比例。
·OLAP GROUP:60%。
·0U11P_GROUP:20%。
·OTHER_GROUP:20%。
通過分配,可以保證資源組中的會話獲得所需的CPU資源,高優(yōu)先級的會話獲得更多的資源。
5.5.2對最大活動會話數(shù)的分配
通過定義O皿GROUP、OLAP_GROUP和OTHERGROUP3個資源組,對資源組中的用戶限制最大活動會話數(shù)。
·OLAP_GROUP:300。
·OLTP_GROUP:50。
·OTHER_GROUP:100。
資源組中的用戶的并發(fā)會話不能超過設(shè)定的上限,超過上限的會話創(chuàng)建請求會被放置在隊列中。
5.5.3對I/O資源的分配
通過定義OLTP_GROUP、OLAP_GROUP和OTHER_GROUP 3個資源組,對可使用的I/0帶寬和每秒鐘的I/0次數(shù)進(jìn)行限制,保證高優(yōu)先級的用戶獲得更快的I/O響應(yīng)。
·OLAP_GROUP:每秒最高I/O帶寬使用10 000 MB,I/0次數(shù)上限為100 000次。
·0LTP—GROUP:每秒最高ⅣO帶寬使用100 MB,I/0次數(shù)不受限制。
·OTHER—GROUP:每秒最高I/0帶寬使用1 000MB,I/O次數(shù)不受限制。
5.6集中化管理和監(jiān)控
通過云管理平臺監(jiān)控系統(tǒng)運行情況,可查看主機、存儲、網(wǎng)絡(luò)、數(shù)據(jù)庫等基本信息,查看日志和告警信息等。
登錄Oracle企業(yè)管理器的管理界面,在目標(biāo)主機中找到Exadata的主機,打開主機后在性能選項卡中可以看到CPU、內(nèi)存、磁盤I/O的使用率曲線,如圖14所示。
圖14 集中化管理和監(jiān)控數(shù)據(jù)界面
6 結(jié)束語
云計算給電信企業(yè)帶來了技術(shù)的創(chuàng)新。也帶來了管理的變革、支撐形式的挑戰(zhàn)和業(yè)務(wù)運營的機遇。隨著數(shù)據(jù)庫云平臺的逐漸成熟和落地,會看到更加靈活、快捷的應(yīng)用的部署;更加低能耗、低成本的運營;更加簡單的維護(hù)和管理;更加容易實現(xiàn)的大規(guī)模系統(tǒng)建設(shè)甚至全國性集中化系統(tǒng)的建設(shè),由此而帶來的是企業(yè)規(guī)模式效益、全網(wǎng)化的營銷和服務(wù)、統(tǒng)一和集中化的管理等價值,對電信企業(yè)的轉(zhuǎn)型起到關(guān)鍵的作用。所以進(jìn)一步深人探索和實現(xiàn)低成本、大規(guī)模數(shù)據(jù)庫云計算技術(shù),特別是與之配合的管理和運維問題,是下一步深化數(shù)據(jù)庫云計算技術(shù)的關(guān)鍵任務(wù)。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:企業(yè)級數(shù)據(jù)庫云平臺的建設(shè)與運維方案(下)
本文網(wǎng)址:http://www.oesoe.com/html/support/1112156952.html