醫(yī)療大數(shù)據(jù)的關鍵技術及其發(fā)展趨勢
由于醫(yī)療大數(shù)據(jù)涉及到電子病歷、醫(yī)學影像、醫(yī)院視頻等多種類型的數(shù)據(jù),下面針對不同類型的數(shù)據(jù)對象,簡要介紹醫(yī)療大數(shù)據(jù)分析的關鍵技術。
1.面向醫(yī)療電子病歷的結構化信息抽取
電子病歷(ElectronicMedicalRecord,EMR)是指醫(yī)務人員在醫(yī)療活動過程中,利用電子設備生成的文字、符號、圖表、圖形、數(shù)據(jù)、影像等不同種類的數(shù)字化醫(yī)療信息,實現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄,并蘊含著富有價值的信息。自由文本形式是電子病歷數(shù)據(jù)的主要格式,沒有嚴格的語法和句法結構,且包含大量名詞縮寫和名詞短語,甚至還存在醫(yī)生書寫記錄時的拼寫錯誤,是典型的非(半)結構化數(shù)據(jù)。面向電子病歷的結構化信息抽取,主要涉及醫(yī)療命名實體及其屬性識別、醫(yī)療知識圖譜構建和醫(yī)療知識圖譜應用等幾個方面。
醫(yī)療命名實體識別的主要任務包括:①疾病、癥狀、手術、醫(yī)療檢查等醫(yī)療命名實體的識別;②相關命名實體的屬性識別,核心在于否定觸發(fā)詞的探測(NegationDetection)與識別,例如某疾病史的有無、某癥狀的程度等;③命名實體之間的關聯(lián)分析,利用不同命名實體或概念之間的共現(xiàn)關系,建立命名實體之間的聯(lián)系。目前,醫(yī)療命名實體識別主要利用自然語言處理、信息抽取等技術對電子病歷文本進行分析,命名實體抽取一般采用基于詞典和規(guī)則的方法,基于隱馬爾科夫模型、SVM等機器學習方法。
醫(yī)療知識圖譜構建,是指在醫(yī)療命名實體及其屬性信息抽取的基礎上,構建不同命名實體之間的關聯(lián)模型,現(xiàn)有的主要方法包括馬爾可夫隨機場、貝葉斯網(wǎng)絡等概率圖模型方法。
醫(yī)療知識圖譜應用,則是利用醫(yī)療知識圖譜,面向醫(yī)療的實際應用需求,建立掛號咨詢、醫(yī)療輔助診斷、疾病治療預案等實際應用系統(tǒng)。
2.面向醫(yī)學影像的數(shù)據(jù)分析
隨著信息技術及醫(yī)學影像技術的發(fā)展,醫(yī)學圖像處理在臨床中發(fā)揮著越來越重要的作用,對推動醫(yī)學科學研究和臨床的進步發(fā)揮了重要作用。
面向醫(yī)學影像的數(shù)據(jù)分析研究重點在于如何利用圖像分析理論和方法成果,結合臨床醫(yī)學的實際需求,探索面向醫(yī)學影像分析的新方法、新技術,進而實現(xiàn)高效定量分析與可視化,降低疾病診斷與治療的盲目性和不可靠性,為臨床醫(yī)生準確診斷,快速地制定治療方案和有效地評估治療效果提供重要支持。
目前的研究主要集中在兩個方面:一是醫(yī)學影像處理研究包括醫(yī)學影像的增強、分割、配準、融合以及三維重建等,這些技術為醫(yī)學影像數(shù)據(jù)應用提供技術支撐;二是醫(yī)學圖像的分析,通過對醫(yī)學影像的模式識別與分類,實現(xiàn)對醫(yī)學圖像的自動標注,并根據(jù)圖像的特征及標簽為圖像建立索引,以實現(xiàn)后期用戶的圖像檢索任務。
3.面向醫(yī)院監(jiān)控視頻的智能分析
隨著視頻監(jiān)控技術和
物聯(lián)網(wǎng)技術的發(fā)展,目前各個醫(yī)院安裝了大量攝像頭,尤其在住院病房,通過視頻監(jiān)控可以對病人的異常行為、醫(yī)護人員的日常工作等進行實時監(jiān)控。
傳統(tǒng)的視頻監(jiān)控系統(tǒng)主要用于日常調度和事后取證,需要專人監(jiān)控并分析監(jiān)控畫面,成本高昂且效率低下。
近年來,面向醫(yī)院的智能視頻監(jiān)控系統(tǒng)的研究、設計和實現(xiàn)已經(jīng)引起了學術界和工業(yè)界的廣泛關注。2013年,美國CMU的CAREMEDIA項目,將智能視頻監(jiān)控系統(tǒng)應用于監(jiān)護中心,該系統(tǒng)可以自動識別醫(yī)護人員和患者的日常行為(如行走、交談、診斷、肢體沖突等),并對異常行為實時預警。
4.醫(yī)療大數(shù)據(jù)的數(shù)據(jù)治理體系
醫(yī)療大數(shù)據(jù)涉及的數(shù)據(jù)類型多樣,數(shù)據(jù)覆蓋面廣,服務用戶多樣,如何構建以病人、醫(yī)生、醫(yī)院和政府等多中心的數(shù)據(jù)治理體系,進而面向不同的用戶提供不同的數(shù)據(jù)視圖和分析結果,也是醫(yī)療大數(shù)據(jù)研究中的重要問題。
在現(xiàn)有醫(yī)院各類信息系統(tǒng)(HIS、PACS等)的基礎上,構建面向分析的數(shù)據(jù)環(huán)境是實現(xiàn)大數(shù)據(jù)分析的前提。一方面,從數(shù)據(jù)驅動出發(fā),在數(shù)據(jù)層面上,實現(xiàn)面向主題(Subject-oriented)的數(shù)據(jù)組織、多個不同數(shù)據(jù)源的數(shù)據(jù)集成、反映醫(yī)療數(shù)據(jù)的時空變化的數(shù)據(jù)環(huán)境,是醫(yī)療大數(shù)據(jù)組織存儲的基本要求;另一方面,從平臺層面出發(fā),需要利用云技術,構建新的運行環(huán)境,滿足海量數(shù)據(jù)的存儲要求。目前,國內在該方面的研究亟待加強。
5.醫(yī)療大數(shù)據(jù)的隱私保護技術
醫(yī)療數(shù)據(jù)中包含大量的患者個人的隱私信息,該數(shù)據(jù)的擴散性使用非常容易導致隱私信息的泄露,一旦發(fā)生數(shù)據(jù)隱私泄露,將損害患者人格和尊嚴,甚至給患者的健康或者生活帶來不良的影響。國內外針對醫(yī)療數(shù)據(jù)的隱私保護研究主要從法律和技術兩個方面展開。技術層面上,常用的有基于訪問控制的技術、基于匿名化的技術和基于數(shù)據(jù)加密的技術等。
近年來,隱私保護和隱私攻擊模型同步發(fā)展,對各類方法的有效性提出了嚴峻挑戰(zhàn)。近期以差分隱私保護為代表的新的研究方向,成為面向醫(yī)療信息發(fā)布的隱私保護方法的主流,該方法不關心攻擊者擁有多少背景知識,通過向查詢或者分析結果中添加適當噪音來達到隱私保護。
醫(yī)療大數(shù)據(jù)面臨的主要挑戰(zhàn)
目前,醫(yī)療大數(shù)據(jù)的研究和應用剛剛起步,眾多的研究仍然處于實驗階段,存在著一些挑戰(zhàn)。其中數(shù)據(jù)質量差和不確定度量是典型問題。
1.數(shù)據(jù)質量
目前醫(yī)療數(shù)據(jù)的來源主要為醫(yī)療機構(例如醫(yī)院、醫(yī)學藥學實驗室、醫(yī)療康復中心等)和互聯(lián)網(wǎng)。采集的數(shù)據(jù)范圍廣、維度高、類型種類繁多且不針對特定的問題。
首先,從數(shù)據(jù)量的角度來看,醫(yī)療行業(yè)的數(shù)據(jù)量與互聯(lián)網(wǎng)搜索及消費等行業(yè)PB級別的大數(shù)據(jù)仍有一定差距。即使公共衛(wèi)生與醫(yī)療健康的數(shù)據(jù)量在不斷增長,然而由于目前國內十分缺乏醫(yī)療健康信息的合理接口,導致醫(yī)療數(shù)據(jù)的采集與應用嚴重脫節(jié),醫(yī)療數(shù)據(jù)還未真正釋放潛能。另外,大數(shù)據(jù)的相關技術(例如NoSQL等),在短時間內不太可能進入到醫(yī)院的主流技術中。
其次,從數(shù)據(jù)質量的角度來看,醫(yī)療數(shù)據(jù)的采集由于缺乏統(tǒng)一的標準或標準未及時更新(例如醫(yī)院之間、科室之間標準不一等),以及采集人員的主觀錯誤或數(shù)據(jù)采集系統(tǒng)本身的設計問題,導致其中存在大量的不確定性。例如采集某感冒發(fā)燒患者的癥狀信息時,假設患者為感冒發(fā)燒狀態(tài),在記錄患者狀態(tài)時,使用“發(fā)燒”和“體溫37.5°C”在語義上存在一定差異,這種語義信息差異會給最終的數(shù)據(jù)挖掘和模式分類模型帶來偏差。另外,統(tǒng)計獲得的數(shù)據(jù)分布很可能在其統(tǒng)計過程中被人為改變,而導致估計出的數(shù)據(jù)分布失真或者實際的數(shù)據(jù)分布根本無法獲得,導致最終的統(tǒng)計學習模型不可靠。
2.不確定性的度量問題
目前比較成熟且進入實用階段的大數(shù)據(jù)模型多數(shù)都是面向藥廠和保險公司的。美國的醫(yī)療大數(shù)據(jù)應用中,面向醫(yī)生和患者業(yè)務通常較難,很難找到合適的切入點。面向企業(yè)的業(yè)務相對容易,尤其是針對保險公司和藥廠,而醫(yī)院則相對難一些。由于大數(shù)據(jù)模型精度有限,在安全性要求極高的醫(yī)院和醫(yī)生中其實用價值非常有限,例如,一個95%準確度的模型對醫(yī)生來說可能仍然不夠精確,因為醫(yī)生在決策時是針對患者個體的,而不是基于統(tǒng)計意義的。
模型本身的誤差度量準則是否具有統(tǒng)計學理論的支持以及背后的統(tǒng)計學意義也值得商榷。在傳統(tǒng)的生物統(tǒng)計學中,如果基于完備的統(tǒng)計理論可以構造出準確刻畫模型的統(tǒng)計量,那么在很少的樣本量下,模型也可以達到很高的置信水平。在統(tǒng)計學習模型中,希望數(shù)據(jù)的規(guī)模較大,所以需要新的誤差度量準則。比如在決策樹中,使用基尼不純度(GiniImpurity)來判斷哪個特征對數(shù)據(jù)的區(qū)分度更大,最終獲得最簡單高效的分類或回歸決策樹,這里的基尼不純度和統(tǒng)計學中的AU-ROC和Mann-Whitney-U檢驗十分類似,但兩者之間細微的差別是否會導致在大規(guī)模數(shù)據(jù)集上的巨大偏差有待考量。
另外,統(tǒng)計學習模型的可解釋性也較差,往往只有統(tǒng)計學家和計算機科學家才能精確完整地解釋模型,而對于模型真正的使用者如醫(yī)生和政府官員等存在巨大的障礙。
醫(yī)療大數(shù)據(jù)的應用案列
下面,簡要介紹一下醫(yī)療大數(shù)據(jù)在計算流行病學和藥物學領域的研究進展。
1.醫(yī)療大數(shù)據(jù)在計算流行病學研究的進展
計算流行病學是從傳統(tǒng)流行病學延伸出來的利用數(shù)學方法、計算機模型的新型交叉學科,其目的主要是識別和控制疾病在人群中的時間與空間維度上的擴散、發(fā)展問題。
從研究內容來分,計算流行病學主要分為以下6個方面:①預測流行病的發(fā)病率;②識別流行病易感人群;③評估可獲得的干預方法;④估計干預方法可實施的概率;⑤從流行病發(fā)展、控制中學習經(jīng)驗教訓;⑥促進公眾對流行病的認知。
除以上研究內容外,計算流行病學還關注研究疾病是否引起生理退化(例如阿爾茲海默綜合癥、輕度認知障礙、青光眼等),疾病是否發(fā)展且發(fā)展過程是否可控(例如青光眼、脂肪肝等),疾病是否可完全治愈或部分治愈(例如創(chuàng)傷性腦損傷、脂肪肝等),等等。
從研究目標來分,計算流行病學主要分為以下3個方面:①識別引發(fā)疾病的風險因子及抑制疾病的保護因子(如生活方式、用藥史、基因等);②干預措施對患者健康狀態(tài)的影響以及對疾病發(fā)展的控制情況;③疾病發(fā)展模式及其影響因素,患者健康狀態(tài)及其影響因素。
醫(yī)療大數(shù)據(jù)在計算流行病學研究中的成功應用很多。U.Niemann等通過隨機抽樣方法獲得縱向遺傳病樣本數(shù)據(jù),共578例,學習分類和預測具體的特征因素變量引起脂肪肝的可能性。A.I.Rughani等基于入院記錄和物理檢查結果數(shù)據(jù)構建了30個帶負采樣的人工神經(jīng)網(wǎng)絡模型來預測病人因創(chuàng)傷性腦損傷而入院后的生還概率。Z.F.Siddiqui等通過使用截面數(shù)據(jù)評價創(chuàng)傷性腦損傷病人在臨床治療后認知能力的恢復情況。
2.醫(yī)療大數(shù)據(jù)在藥物學研究的進展
藥物學是目前醫(yī)療大數(shù)據(jù)挖掘領域發(fā)展較為成熟的一個方向。在藥物學研究中有以下兩個問題目前最受關注。
(1)藥物安全學:藥物安全學是目前醫(yī)療大數(shù)據(jù)領域研究比較廣泛的一個方向。簡單來說就是從海量EMR數(shù)據(jù)中識別藥物不良反應(adversedrugreaction)和藥物相互作用(drug-druginteraction),來彌補因為樣本局限在臨床試驗中未能發(fā)現(xiàn)的藥物治療問題,最終目標是使藥廠制出療效更好的藥,醫(yī)生開出更安全合理的藥方。
一方面,藥物數(shù)據(jù)容易從醫(yī)學實驗室和藥廠獲得,且多為易理解和處理的結構化數(shù)據(jù);另一方面,藥物制造背后巨大的商業(yè)利益驅使。在美國的科研機構、藥廠以及類似IBM這樣的技術公司都有大量專業(yè)人士從事與生物醫(yī)藥開發(fā)相關的工作。
(2)個性化藥事服務:個性化藥事服務是指根據(jù)一個人特有的生理狀況(如基因、器官結構等)、病理狀況(疾病發(fā)展周期、多疾病復合等)甚至心理狀況為患者量身定制一個合理且高效的醫(yī)療方案。
結語
隨著醫(yī)療信息化、醫(yī)療
物聯(lián)網(wǎng)和健康云的發(fā)展,醫(yī)療行業(yè)進入大數(shù)據(jù)時代。醫(yī)療大數(shù)據(jù)挖掘對于改進醫(yī)療診治服務、提升醫(yī)療效率、降低醫(yī)療成本、提高全民健康水平等提供重要的技術支撐。醫(yī)療大數(shù)據(jù)在數(shù)據(jù)分析和隱私保護等關鍵技術領域取得了長足的進展,但是在數(shù)據(jù)質量、不確定性問題等方面還面臨著眾多挑戰(zhàn)。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標題:醫(yī)療大數(shù)據(jù)的關鍵技術及其發(fā)展趨勢
本文網(wǎng)址:http://www.oesoe.com/html/consultation/10839719531.html