近些年來,機器學習技術(shù)取得了巨大的進步,使得計算機系統(tǒng)能夠解決復雜的現(xiàn)實問題。其中一項先進技術(shù)就是由Google研究院的Expander組開發(fā)的大規(guī)模、基于圖的機器學習平臺。基于圖的機器學習是一款功能強大的工具,被廣泛用于我們?nèi)粘=佑|到的Google產(chǎn)品和功能,比如用于收件箱的提醒功能和Allo的智能消息,或是用于深度神經(jīng)網(wǎng)絡來支持Google Photos的最新圖像識別系統(tǒng)。
最少監(jiān)督的學習
近期大多數(shù)在深度學習和機器學習領域取得的進展,都可以歸因于較好預測能力的模型,這些模型是在大量有標記數(shù)據(jù)集上訓練得到,通常有上百萬的訓練樣本。由于需要監(jiān)督式的訓練機器學習模型,即用人工標記過的訓練數(shù)據(jù),因此這種方法也被稱為“監(jiān)督式學習”。(相反的,有些機器學習方法直接處理原始數(shù)據(jù),不存在監(jiān)督,它們被稱為非監(jiān)督式學習。)
然而,待完成的任務越復雜,則越難獲取足夠多的高質(zhì)量標記數(shù)據(jù)。每遇到一個新問題,往往需要投入大量的人力和時間來標記數(shù)據(jù)。這促使了Expander團隊投入研發(fā)新的技術(shù)來驅(qū)動大規(guī)模的機器學習應用,以盡可能減少人工監(jiān)督。
Expander團隊的技術(shù)是受到人類概況和推演的啟發(fā),將已知的知識(已標記數(shù)據(jù))與新鮮的、不熟知的觀察內(nèi)容(未標記數(shù)據(jù))相聯(lián)系。這個強大的技術(shù)稱作“半監(jiān)督式學習”,它可以讓我們利用稀疏的訓練數(shù)據(jù)搭建系統(tǒng)。基于圖的半監(jiān)督式學習的主要優(yōu)勢之一就是(a)它可以在學習階段對已標記的數(shù)據(jù)和未標記的數(shù)據(jù)共同建模,利用數(shù)據(jù)的底層結(jié)構(gòu),(b)可以便捷地組合多類信號(例如原始特征與知識圖譜的關系信息相結(jié)合)形成一個獨立的圖表示,基于此來學習。這有別于與其它的傳統(tǒng)機器學習方法,比如神經(jīng)網(wǎng)絡方法,后者是先用標記的訓練數(shù)據(jù)和特征訓練得到一個模型,然后將模型用于預測未標記的數(shù)據(jù)。
圖學習的原理
在其核心部分,Expander的平臺構(gòu)建了數(shù)據(jù)的一個多圖表達,各個節(jié)點對應于物體和概念,相似的概念節(jié)點之間有邊相連,因此它將半監(jiān)督式學習與大規(guī);趫D的學習結(jié)合在一起。圖往往包含了標記數(shù)據(jù)(輸出類別或標簽已知的節(jié)點)和未標記數(shù)據(jù)(沒有標簽的節(jié)點)。接著,Expander的框架在圖上傳播標簽信息,用半監(jiān)督式的學習方法給所有節(jié)點打上標記。
然而,說起來容易做起來難!我們需要:
(1)用最少的監(jiān)督來有效率地學習(即極少量的標記數(shù)據(jù));
(2)處理多種形態(tài)的數(shù)據(jù)(即數(shù)據(jù)的異形表達和多種數(shù)據(jù)源);
(3)解決高維數(shù)據(jù)的預測難題(高維、復雜的輸出空間),數(shù)據(jù)可能還含有噪音。
整個學習過程中的關鍵成分就是圖與節(jié)點的連接方式。圖的形狀、尺寸千變?nèi)f化。我們注意到,用多種數(shù)據(jù)源的不同表達形式組合而成的信息構(gòu)建多圖結(jié)構(gòu),這樣的效果比較好(比如,Allo的PhotoReply采用了圖片像素、物體類別和對話反饋信息等)。Expander團隊的圖學習平臺基于數(shù)據(jù)間推測或已知的關系直接自動地生成關系圖。數(shù)據(jù)可以是結(jié)構(gòu)化的(如關系型數(shù)據(jù))或是非結(jié)構(gòu)化數(shù)據(jù)(如,從原始數(shù)據(jù)中提取的稀疏或稠密特征表達)。
為了理解Expander的系統(tǒng)如何學習,我們來看一下下圖所示的例子。
圖中有兩類節(jié)點:“灰色”表示未標記數(shù)據(jù),彩色的是標記過的數(shù)據(jù)。節(jié)點之間的關系用邊來表示,邊的粗細表示關系的強弱。我們可以這樣來刻畫這個半監(jiān)督式學習問題:預測圖中每個節(jié)點的顏色(“紅色”或“藍色”)。注意,圖的結(jié)構(gòu)和節(jié)點顏色需要根據(jù)實際任務而定。舉個例子,在我們最近發(fā)表的一篇文章中,我們?yōu)槭占渲悄芑貜凸δ茉O計的圖的節(jié)點是郵件信息,顏色表示用戶回復的語義類別(比如,“是的”,“好棒”,“有意思”)。
Expander圖學習框架把這類標記問題當做優(yōu)化問題來處理。在最簡單的層面,它學會根據(jù)每個節(jié)點的周邊節(jié)點顏色和連接強度來給所有節(jié)點指定顏色。一種簡單的方法是一次性處理所有的節(jié)點數(shù)據(jù) —— 這種方法無法擴展到大圖上。我們可以對此問題做優(yōu)化,將已標記節(jié)點的顏色信息傳播到它們的鄰居節(jié)點,然后重復這個過程。在每一步中,未標記節(jié)點會根據(jù)其鄰居節(jié)點中的顏色標記上顏色。我們可以反復迭代這個過程,直到所有的節(jié)點都被打上標記。這個方法的效率非常高,在本例中,迭代的結(jié)果最終是收斂的。
基于圖的半監(jiān)督式學習
實際上,我們基于圖結(jié)構(gòu)設計了復雜的優(yōu)化函數(shù),其中包括了額外的信息和限制,形成了復雜的非凸問題。然而,正在的挑戰(zhàn)在于將這種方法高效地推廣到包含幾十億節(jié)點、幾百億邊的大規(guī)模圖模型中,乃至包含上億種不同標簽的復雜問題。
為了解決這一問題,我們創(chuàng)造了一種分布式流式方法,去年發(fā)表了論文Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation。此文介紹的流式算法可以快速處理非常大的圖數(shù)據(jù)。此文,它還解決了其它實際問題,它保證了系統(tǒng)的空間復雜度和內(nèi)存需求保持恒定,與任務的難度無關,即無論是兩個標簽還是成千上萬個標簽,整個系統(tǒng)使用的內(nèi)存量都不變。它推動了圖技術(shù)廣泛地應用與自然語言理解、機器感知、用戶建模,甚至文本、圖像、語音糅合的多態(tài)學習任務。
言語幽默的圖表達
我們舉一個基于圖的機器學習方法在語言理解方面的應用案例,比如收件箱智能回復功能中的情感識別,它的目標是給文本中的詞語標記上細粒度的情感類別。首先,使用神經(jīng)網(wǎng)絡模型在文本集上訓練得到詞向量表達,即每個詞的意思都用一個向量表示。然后,用詞向量構(gòu)建一個稀疏的圖,每個節(jié)點表示一個詞語,邊表示詞語之間的語義聯(lián)系。邊的權(quán)值通過詞向量的相似度計算得到 —— 舍棄相似度過低的邊。我們先給其中一小部分節(jié)點打上情感標記(比如,“笑”被標記為“有趣”),然后在整個圖上應用半監(jiān)督式學習方法,給剩余的詞語都標記上合適的類別(ROTFL由于與“笑”語義上比較接近,也被標記為“有趣”的類別)。
用詞向量和圖結(jié)構(gòu)方法學習詞語的情感關系
對于大數(shù)據(jù)集的應用產(chǎn)品,比如觀察到的數(shù)據(jù)(如圖像的像素值)或者通過神經(jīng)網(wǎng)絡學到的表達(如詞向量),不可能直接計算圖上兩兩節(jié)點之間的相似度。Expander團隊采用近似計算的方法來解決這一問題。
基于圖方法的實踐應用
Expander團隊的機器學習系統(tǒng)如今已經(jīng)被廣泛應用于大規(guī)模的圖數(shù)據(jù)上(十億級節(jié)點和百億級邊),用于識別和理解自然語言、圖像、視頻、搜索詞等,支持Google的眾多產(chǎn)品,比如問答、翻譯、物體識別、對話理解等等。
隨著最近Allo的版本升級,幾百萬的聊天用戶都能體驗到由Expander團隊的系統(tǒng)所支持的對話助手功能。而且,這種技術(shù)不僅僅用于云端的大規(guī)模模型,也能用于安卓系統(tǒng)的智能移動設備。我們期待未來幾年內(nèi)Expander能夠解決更多挑戰(zhàn)性的問題。
評論
基于圖的傳播方法早在十多年前就被人廣為使用。Google的貢獻在于將這一的方法推廣到海量數(shù)據(jù)集,使得用有限的空間和計算資源能夠處理幾十億節(jié)點和幾百億關聯(lián)的巨型圖。而且,半監(jiān)督式的學習方法只需要少量的標記數(shù)據(jù),解決了傳統(tǒng)機器學習方法面臨的人工標注大量數(shù)據(jù)的問題。因此,我們可以充分利用大數(shù)據(jù)時代在各個渠道生產(chǎn)的各種結(jié)構(gòu)和類型的數(shù)據(jù)。
文中介紹了這套系統(tǒng)已經(jīng)應用于Allo的智能回復功能,它可以自動分析前后對話和對方發(fā)送的圖片,自動幫用戶生成要回復的話語。本人比較好奇的是基于圖的方法在個性化回復方面有什么改進,系統(tǒng)如何針對用戶的聊天習慣生產(chǎn)回復內(nèi)容,在龐大數(shù)據(jù)的前提下它能多像使用者。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標題:Goolge圖學習技術(shù)揭秘
本文網(wǎng)址:http://www.oesoe.com/html/solutions/14019320187.html