事實上,數(shù)據(jù)也是具有生命周期的,不同時期有其存在的不同意義。數(shù)據(jù)剛生成時,訪問頻率最高,數(shù)據(jù)的價值也最高;隨著時間的推移,訪問頻率降低,數(shù)據(jù)的價值也隨之下降,低訪問頻率的數(shù)據(jù)量遠遠超過高訪問頻率的數(shù)據(jù)量。如果全部用高性能存儲設(shè)備來存儲所有數(shù)據(jù),費用非常高,管理也復(fù)雜,也沒有必要。
一般對企業(yè)來說,數(shù)據(jù)從產(chǎn)生到存儲、利用、歸檔,最后超過存儲期限被刪除,數(shù)據(jù)被讀取的頻率逐漸下降,數(shù)據(jù)存儲的位置也應(yīng)該隨之變化,以提高存儲設(shè)備的使用率,降低存儲成本。因此有必要進行分級存儲,企業(yè)在存儲其關(guān)鍵業(yè)務(wù)數(shù)據(jù)時,采用昂貴的存儲設(shè)備、存儲技術(shù)和存儲方式。
存儲設(shè)備包括高性能的磁盤或磁盤陣列,存儲技術(shù)如RAID磁盤、復(fù)制、定時拷貝、多級備份等。當(dāng)數(shù)據(jù)已經(jīng)不再為企業(yè)帶來效益時,將這類數(shù)據(jù)遷移到較便宜的存儲介質(zhì)上;最后,當(dāng)數(shù)據(jù)過時或一段時期不再訪問時,應(yīng)考慮將其刪除或者遷移,如果是法律要求或政府規(guī)定要保留多年的數(shù)據(jù),應(yīng)將其遷移到近線磁盤或者離線磁帶上進行歸檔,既安全又節(jié)省費用。
同時,信息量的急劇增長,也使存儲管理復(fù)雜性增加,數(shù)據(jù)的分級存儲也是簡化存儲管理的需要。通過設(shè)定優(yōu)化的數(shù)據(jù)遷移規(guī)則,能使重要數(shù)據(jù)和常用數(shù)據(jù)在最短的時間內(nèi)訪問到,使極少使用的數(shù)據(jù)備份在廉價的海量存儲器中供以后使用。
概念
分級存儲是根據(jù)數(shù)據(jù)的重要性、訪問頻率、保留時間、容量、性能等指標,將數(shù)據(jù)采取不同的存儲方式分別存儲在不同性能的存儲設(shè)備上,通過分級存儲管理實現(xiàn)數(shù)據(jù)客體在存儲設(shè)備之間的自動遷移。數(shù)據(jù)分級存儲的工作原理是基于數(shù)據(jù)訪問的局部性。通過將不經(jīng)常訪問的數(shù)據(jù)自動移到存儲層次中較低的層次,釋放出較高成本的存儲空間給更頻繁訪問的數(shù)據(jù),可以獲得更好的性價比。這樣,一方面可大大減少非重要性數(shù)據(jù)在一級本地磁盤所占用的空間,還可加快整個系統(tǒng)的存儲性能。
在分級數(shù)據(jù)存儲結(jié)構(gòu)中,存儲設(shè)備一般有磁帶庫、磁盤或磁盤陣列等,而磁盤又可以根據(jù)其性能分為FC磁盤、SCSI磁盤、SATA磁盤等多種,而閃存存儲介質(zhì)(非易失隨機訪問存儲器)(NVRAM)也因為較高的性能可以作為分級數(shù)據(jù)存儲結(jié)構(gòu)中較高的一級。一般,磁盤或磁盤陣列等成本高、速度快的設(shè)備,用來存儲經(jīng)常訪問的重要信息,而磁帶庫等成本較低的存儲資源用來存放訪問頻率較低的信息。
信息生命周期管理(InformationLifecycleManagement,ILM)是StorageTek公司針對不斷變化的存儲環(huán)境推出的先進存儲管理理念,ILM試圖實現(xiàn)根據(jù)數(shù)據(jù)在整個生命周期過程中不斷變化的數(shù)據(jù)訪問需求而進行數(shù)據(jù)的動態(tài)分布。分級存儲和ILM在存儲體系結(jié)構(gòu)上基本相同,目標也都是使不同級別的數(shù)據(jù)在給定時間和不同級別的存儲資源能夠更好的匹配。二者本質(zhì)差別是數(shù)據(jù)分級的標準不同:前者標準為數(shù)據(jù)近期被訪問的概率;后者標準為數(shù)據(jù)近期對企業(yè)的價值。
存儲方式
傳統(tǒng)的數(shù)據(jù)存儲一般分為在線(On-line)存儲和離線(Off-line)存儲兩級存儲方式。
而在分級存儲系統(tǒng)中,一般分為在線(On-line)存儲、近線(Near-line)存儲和離線(Off-line)存儲三級存儲方式。
在線存儲是指將數(shù)據(jù)存放在高速的磁盤系統(tǒng)(如閃存存儲介質(zhì)、FC磁盤或SCSI磁盤陣列)等存儲設(shè)備上,適合存儲那些需要經(jīng)常和快速訪問的程序和文件,其存取速度快,性能好,存儲價格相對昂貴。在線存儲是工作級的存儲,其最大特征是存儲設(shè)備和所存儲的數(shù)據(jù)時刻保持“在線”狀態(tài),可以隨時讀取和修改,以滿足前端應(yīng)用服務(wù)器或數(shù)據(jù)庫對數(shù)據(jù)訪問的速度要求。
近線存儲是指將數(shù)據(jù)存放在低速的磁盤系統(tǒng)上,一般是一些存取速度和價格介于高速磁盤與磁帶之間的低端磁盤設(shè)備。近線存儲外延相對比較廣泛,主要定位于客戶在線存儲和離線存儲之間的應(yīng)用。就是指將那些并不是經(jīng)常用到(例如一些長期保存的不常用的文件歸檔),或者說訪問量并不大的數(shù)據(jù)存放在性能較低的存儲設(shè)備上。但對這些設(shè)備的要求是尋址迅速、傳輸率高。因此,近線存儲對性能要求相對來說并不高,但又要求相對較好的訪問性能。同時多數(shù)情況下由于不常用的數(shù)據(jù)要占總數(shù)據(jù)量的較大比重,這也就要求近線存儲設(shè)備在需要容量上相對較大。近線存儲設(shè)備主要有SATA磁盤陣列、DVD-RAM光盤塔和光盤庫等設(shè)備。
離線存儲則指將數(shù)據(jù)備份到磁帶或磁帶庫上。大多數(shù)情況下主要用于對在線存儲或近線存儲的數(shù)據(jù)進行備份,以防范可能發(fā)生的數(shù)據(jù)災(zāi)難,因此又稱備份級存儲。離線存儲通常采用磁帶作為存儲介質(zhì),其訪問速度低,但價格低廉的海量存儲。
分級存儲設(shè)備是根據(jù)具體應(yīng)用可以變化的,這種存儲級別的劃分是相對的,可以分為多種級別。如可以采取FC磁盤-SCSI磁盤-SATA磁盤這種三級存儲結(jié)構(gòu),也可以采取SSD盤-FC磁盤-SCSI磁盤-SATA磁盤-磁帶這種五級存儲結(jié)構(gòu),具體采用哪些存儲級別需要根據(jù)具體應(yīng)用而定。
管理的關(guān)鍵技術(shù)
分級存儲管理(HierarchicalStorageManagement,HSM)起源于1978年,首先使用于大型機系統(tǒng)。存儲實現(xiàn)分級以后,在線存儲、近線存儲和離線存儲存放的數(shù)據(jù)價值不同,在同一級別存儲內(nèi)部(比如在線存儲和離線存儲),存放的數(shù)據(jù)也應(yīng)該不同,實現(xiàn)每一級別內(nèi)的“分級存儲”。如何將各個級別存儲中數(shù)據(jù)統(tǒng)一管理起來便成了最為關(guān)鍵的問題。
分級存儲管理是將離線存儲、近線存儲和在線存儲融為一體的技術(shù)。在分級存儲系統(tǒng)中涉及許多技術(shù),如數(shù)據(jù)增量掃描技術(shù)、基于多指標的數(shù)據(jù)分級策略、在線遷移中的一致性保證技術(shù)、數(shù)據(jù)自動遷移存儲技術(shù)、存儲虛擬化技術(shù)、分級存儲管理技術(shù)等等。這里主要就幾個關(guān)鍵技術(shù)進行討論。
增量掃描技術(shù)
在一個文件數(shù)為10億級的大規(guī)模文件系統(tǒng)中,選擇分級存儲管理操作的候選對象可能是非常耗費資源的,一般須掃描整個文件系統(tǒng)的名字空間。而每秒大約能掃描5000個文件,掃描10億個文件大約需要27小時,F(xiàn)有的分級存儲管理工具一種是集成到文件系統(tǒng)之中,一種是存在于文件系統(tǒng)之外。無論是哪一種,能夠獲得文件訪問情況并利用這一特性,大幅度減少文件掃描規(guī)模,減少維護文件訪問信息的開銷是非常重要的。
如于一個20萬個文件的文件系統(tǒng),每天只有不到1%的文件被訪問。隨著文件系統(tǒng)規(guī)模增加,訪問百分比期內(nèi)所有被訪問文件的訪問統(tǒng)計(包括訪問次數(shù)和文件大小)、總訪問熱度等信息,通過增量掃描技術(shù),元數(shù)據(jù)服務(wù)器不必掃描整個文件系統(tǒng),而通過定期獲取近期訪問過的文件信息,這樣就可大大減少維護文件訪問信息的開銷。
基于多指標的數(shù)據(jù)分級策略
分級存儲采用的存儲方式與選擇的存儲設(shè)備的依據(jù)是數(shù)據(jù)的重要性、訪問頻次等多個指標。多指標的數(shù)據(jù)信息分級策略,是指根據(jù)基于數(shù)據(jù)的生命周期、上次訪問時間、大小、數(shù)據(jù)信息的關(guān)聯(lián)性等多個參數(shù)對數(shù)據(jù)的價值進行分級;如果數(shù)據(jù)一創(chuàng)建就能預(yù)測其訪問特性進而給出相應(yīng)級別,將能夠減少不必要的遷移顛簸。因為數(shù)據(jù)分級變化意味著數(shù)據(jù)要在不同級別的存儲設(shè)備間遷移,以保證合適的數(shù)據(jù)在合適的時間存放在合適的存儲級別上。
在實際應(yīng)用中,如能充分挖掘數(shù)據(jù)的靜態(tài)特征和訪問的動態(tài)特征為基礎(chǔ)的分級將能獲得更好的效果。如以文件分級為例,第一,文件系統(tǒng)的靜態(tài)特征,如大小文件的分布;第二,文件系統(tǒng)的宏觀訪問規(guī)律,如大小文件的訪問次數(shù)分布;第三,文件個體的訪問模式,如是否具有訪問局部性;第四,文件之間的訪問關(guān)聯(lián)特征,如同一作業(yè)中的一個文件被訪問,另一個文件何時被訪問。根據(jù)這些文件特征和存儲設(shè)備的分級情況,確定文件分級標準及文件分級變化的觸發(fā)條件,從而可以在合適的時間把合適的文件存放在合適的存儲級別上。
在線遷移中的一致性保證技術(shù)
在分級存儲系統(tǒng)中,不可避免地要在不同存儲設(shè)備上進行數(shù)據(jù)遷移,數(shù)據(jù)遷移可分為升級遷移和降級遷移。升級遷移是指數(shù)據(jù)由慢速存儲設(shè)備和低一級存儲設(shè)備往快速存儲設(shè)備或高一級的存儲設(shè)備遷移,降級遷移正好相反。但由于遷移目的不同,這兩種遷移有不同的特征。對于降級遷移來說,很可能在遷移的過程中并不會有I/O請求發(fā)生;但對于升級遷移來說,遷移幾乎是發(fā)生在I/O最密集的時候,如何保證在遷移過程中,盡可能減小遷移進程對前臺I/O的影響,這是分級存儲系統(tǒng)需要解決的問題之一。
目前可以采用讀寫鎖來保證數(shù)據(jù)一致性,以數(shù)據(jù)塊為調(diào)度粒度來減小對前臺I/O性能的影響。遷移進程為當(dāng)前數(shù)據(jù)塊申請讀寫鎖,以保證遷移進程與寫操作進程之間的數(shù)據(jù)一致性。
數(shù)據(jù)自動遷移存儲技術(shù)
分級存儲中數(shù)據(jù)需要在線遷移,這就需要考慮數(shù)據(jù)移動對前臺I/O負載的性能影響。數(shù)據(jù)自動遷移技術(shù)是指最大限度的降低數(shù)據(jù)遷移動作本身對計算結(jié)點的I/O性能影響,且對前端透明,它根據(jù)前臺I/O負載的變化,來調(diào)整數(shù)據(jù)遷移速率,使得數(shù)據(jù)遷移動作本身對存儲系統(tǒng)的QoS的影響非常小,同時使得數(shù)據(jù)遷移任務(wù)能夠盡快完成。數(shù)據(jù)自動遷移存儲涉及的主要技術(shù)有:數(shù)據(jù)遷移的速率控制與調(diào)度、數(shù)據(jù)遷移對應(yīng)用的延遲隱藏、文件訪問塊位置序列預(yù)測等等。
在實際應(yīng)用中,當(dāng)數(shù)據(jù)信息達到遷移觸發(fā)條件時,數(shù)據(jù)遷移結(jié)點自動遷移數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)信息的降級或升級存儲,如數(shù)據(jù)升級遷移對用戶的延遲隱藏技術(shù)使得應(yīng)用程序感受不到數(shù)據(jù)升級遷移的延遲,并使整個存儲系統(tǒng)的性能與最高性能級別的存儲設(shè)備相當(dāng)。
目前,分級存儲管理更多從降低成本、不影響數(shù)據(jù)應(yīng)用效果、提高效率的角度解決數(shù)據(jù)的存儲問題。隨著單盤成本的下降,有業(yè)內(nèi)專家預(yù)測,不久的將來,近線存儲技術(shù)將取代數(shù)據(jù)遷移技術(shù),用戶將以模擬海量備中,為分級存儲的發(fā)展起到關(guān)鍵的推動作用。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標題:分級存儲與管理及數(shù)據(jù)自動遷移存儲技術(shù)
本文網(wǎng)址:http://www.oesoe.com/html/support/11121511846.html