1、引言
大數(shù)據(jù)的3V特性(volume、variety、velocity)正在逐步改善用戶體驗(yàn)和生產(chǎn)效率。電信運(yùn)營(yíng)商提供基礎(chǔ)通信平臺(tái)連接每一位用戶。每天數(shù)以億計(jì)的用戶在管道中留下的通信行為數(shù)據(jù)構(gòu)成電信大數(shù)據(jù)。如何挖掘大數(shù)據(jù)來(lái)智能支撐運(yùn)營(yíng)商各項(xiàng)業(yè)務(wù)并進(jìn)行業(yè)務(wù)轉(zhuǎn)型,是一個(gè)需要深入思考的問(wèn)題。首要任務(wù)就是匯集豐富的用戶行為數(shù)據(jù),存儲(chǔ)在統(tǒng)一的電信大數(shù)據(jù)分析平臺(tái),并根據(jù)業(yè)務(wù)需求靈活部署統(tǒng)計(jì)、規(guī)則和預(yù)測(cè)算法,在不改變業(yè)務(wù)人員使用習(xí)慣的情況下做到及時(shí)、多屏、準(zhǔn)確、直白、客觀地沉淀用戶數(shù)據(jù)(例如不同時(shí)間跨度的知識(shí)標(biāo)簽),幫助企業(yè)減少營(yíng)銷成本的同時(shí)做到360度營(yíng)銷,降低業(yè)務(wù)人員的學(xué)習(xí)成本,賦能、提高營(yíng)銷效率?傮w而言,電信大數(shù)據(jù)沉淀了海量用戶7個(gè)維度的信息:1維用戶真實(shí)ID(基本信息)、1維行為數(shù)據(jù)(通信行為、互聯(lián)網(wǎng)行為、消費(fèi)行為、投訴行為、網(wǎng)絡(luò)體驗(yàn)、反饋行為)、1維社交數(shù)據(jù)、1維時(shí)間數(shù)據(jù)和3維空間數(shù)據(jù)(室外宏基站定位和室內(nèi)微基站定位)。通過(guò)對(duì)7維用戶數(shù)據(jù)建模,可以實(shí)現(xiàn)運(yùn)營(yíng)商在3個(gè)數(shù)據(jù)業(yè)務(wù)方向的升級(jí):用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開(kāi)放。如圖1所示,電信大數(shù)據(jù)平臺(tái)的目標(biāo)是實(shí)現(xiàn)用戶、網(wǎng)絡(luò)和數(shù)據(jù)的統(tǒng)一自動(dòng)化管理,實(shí)現(xiàn)“三個(gè)了解”和“三個(gè)提升”,即了解用戶、了解產(chǎn)品(服務(wù)和渠道)、了解網(wǎng)絡(luò),提升營(yíng)銷轉(zhuǎn)化率、提升決策準(zhǔn)確率和提升自動(dòng)化率(數(shù)據(jù)化→信息化→智能化)。
圖1 電信大數(shù)據(jù)平臺(tái)的目標(biāo)
全生命周期的用戶洞察是電信大數(shù)據(jù)的基礎(chǔ),目標(biāo)是改善用戶體驗(yàn),提升營(yíng)銷效率,從而沉淀更多用戶的行為數(shù)據(jù)作為反饋。以用戶為中心的網(wǎng)絡(luò)洞察有助于提升運(yùn)營(yíng)商在網(wǎng)絡(luò)規(guī)劃、網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)維護(hù)方面的投資效率,改善用戶網(wǎng)絡(luò)體驗(yàn),并降低運(yùn)營(yíng)成本。面向全行業(yè)的數(shù)據(jù)開(kāi)放的重點(diǎn)是利用電信大數(shù)據(jù)優(yōu)勢(shì)構(gòu)建數(shù)據(jù)產(chǎn)業(yè)生態(tài)鏈,使其能提供面向全行業(yè)的數(shù)據(jù)服務(wù),例如幫助行業(yè)客戶進(jìn)行獲客、營(yíng)銷、選址分析、人流量檢測(cè)、區(qū)域價(jià)值規(guī)劃等。然而,在3個(gè)業(yè)務(wù)方向的升級(jí)都急需強(qiáng)有力的電信大數(shù)據(jù)分析平臺(tái)支撐,這將面臨9個(gè)方面的技術(shù)挑戰(zhàn),分別是特征工程、預(yù)測(cè)算法、根本原因分析、實(shí)時(shí)分析、時(shí)空數(shù)據(jù)挖掘、知識(shí)管理、多媒體數(shù)據(jù)挖掘、圖數(shù)據(jù)挖掘和隱私保護(hù)。本文重點(diǎn)描述這些技術(shù)挑戰(zhàn)的來(lái)源和可能的解決方案,討論如何構(gòu)建高效的電信大數(shù)據(jù)平臺(tái)。
2、電信大數(shù)據(jù)分析
電信大數(shù)據(jù)平臺(tái)是一個(gè)提供統(tǒng)一數(shù)據(jù)存儲(chǔ)、分析處理、數(shù)據(jù)服務(wù)的
云計(jì)算平臺(tái)。如圖2所示,平臺(tái)需要融合并存儲(chǔ)來(lái)自BSS(B域)和OSS(O域)系統(tǒng)的數(shù)據(jù),提供6種通用數(shù)據(jù)的處理。BSS是商業(yè)支撐系統(tǒng),包括客戶關(guān)系、計(jì)費(fèi)、營(yíng)銷和傳統(tǒng)商業(yè)智能系統(tǒng),記錄用戶的話單、賬單、基礎(chǔ)信息和營(yíng)銷反饋記錄。BSS數(shù)據(jù)特點(diǎn)是量小(約占電信大數(shù)據(jù)總量的3%)、匯總、離線(非實(shí)時(shí)更新)、貼近用戶行為。OSS是網(wǎng)絡(luò)運(yùn)營(yíng)支撐系統(tǒng),包括基站、傳輸、固網(wǎng)和核心網(wǎng)等網(wǎng)絡(luò)單元(CS系統(tǒng)負(fù)責(zé)語(yǔ)音/短信、PS系統(tǒng)負(fù)責(zé)上網(wǎng)流量),記錄大量信令數(shù)據(jù),包括用戶聯(lián)接網(wǎng)絡(luò)體驗(yàn)、互聯(lián)網(wǎng)內(nèi)容和位置信息。OSS數(shù)據(jù)特點(diǎn)是量大(約占電信大數(shù)據(jù)總量97%,主要是位置數(shù)據(jù)和互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù))、精細(xì)、實(shí)時(shí)和貼近網(wǎng)絡(luò)行為。以600萬(wàn)個(gè)活躍用戶為例,每天產(chǎn)生大約14 TB數(shù)據(jù),這些數(shù)據(jù)大部分來(lái)自O(shè)SS,通過(guò)擴(kuò)展,可估算中國(guó)12億用戶每天產(chǎn)生的數(shù)據(jù)量。盡管數(shù)據(jù)來(lái)源不同,但所有數(shù)據(jù)可抽象為六大通用數(shù)據(jù)類型,分別是時(shí)空數(shù)據(jù)、圖數(shù)據(jù)、表數(shù)據(jù)、流數(shù)據(jù)、多媒體數(shù)據(jù)和文本數(shù)據(jù)。建模算法可以面向這六大類通用數(shù)據(jù)類型進(jìn)行設(shè)計(jì)和部署。

圖2 融合BSS和OSS數(shù)據(jù)
電信大數(shù)據(jù)核心資產(chǎn)是海量用戶的7個(gè)維度信息。如圖3所示,這些數(shù)據(jù)可以支撐對(duì)內(nèi)和對(duì)外服務(wù)優(yōu)化,如全生命周期的用戶管理和基于位置的服務(wù)。用戶洞察的核心是圍繞用戶回答7個(gè)W的問(wèn)題:who(用戶ID)、when(時(shí)間)、where(空間)、what(行為結(jié)果)、how(行為過(guò)程)、why(行為根本原因)、Web(社交)。通過(guò)7D用戶數(shù)據(jù)建模實(shí)現(xiàn)7W洞察是電信大數(shù)據(jù)分析的核心需求。
圖3 7維度用戶數(shù)據(jù)建模和7W洞察
大數(shù)據(jù)時(shí)代,建模思維逐漸從研究各種映射算法到研究數(shù)據(jù)本身,如從豐富的數(shù)據(jù)中抽取更加合理的特征表示、從數(shù)據(jù)中根據(jù)業(yè)務(wù)規(guī)則自動(dòng)定義標(biāo)簽和訓(xùn)練數(shù)據(jù)以及利用用戶營(yíng)銷反饋數(shù)據(jù),自動(dòng)化整個(gè)營(yíng)銷流程等。從數(shù)據(jù)出發(fā),尋求合適、好用的算法是建模的核心。清晰定義訓(xùn)練數(shù)據(jù),熟悉業(yè)務(wù)流程,才能將挖掘算法的價(jià)值發(fā)揮到最大。用戶和基站聯(lián)接行為將BSS和OSS數(shù)據(jù)打通,因此通用的用戶模型可以用二分圖表示,即一層節(jié)點(diǎn)是用戶,另一層節(jié)點(diǎn)是網(wǎng)絡(luò),兩層節(jié)點(diǎn)之間的邊表示用戶聯(lián)接網(wǎng)絡(luò)的時(shí)間?傮w而言,可以通過(guò)電信大數(shù)據(jù)的二分圖表示實(shí)現(xiàn)用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開(kāi)放3個(gè)業(yè)務(wù)目標(biāo)。
3、數(shù)據(jù)融合中的模式轉(zhuǎn)換
電信大數(shù)據(jù)分析面臨9個(gè)關(guān)鍵的挑戰(zhàn),分別是特征工程、預(yù)測(cè)算法、根本原因分析、實(shí)時(shí)分析、時(shí)空數(shù)據(jù)挖掘、知識(shí)工程、多媒體挖掘、圖挖掘和隱私保護(hù)。
3.1、以時(shí)空數(shù)據(jù)為核心的特征工程
隨著移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的普及,隨時(shí)隨地使用移動(dòng)終端已經(jīng)成為人們的一種基本生活習(xí)慣。因而電信數(shù)據(jù)成為獲取城市用戶、區(qū)域細(xì)粒度時(shí)空行為信息的重要數(shù)據(jù)源。這些細(xì)粒度行為信息可以被用作建模的重要特征,從而大幅提升電信數(shù)據(jù)挖掘效果[1]。因?yàn)殡娦艛?shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)源,如BSS(B域)的數(shù)據(jù)來(lái)自
CRM(customer relationship management,
客戶關(guān)系管理)、賬單、BI(business intelligence,商業(yè)智能)、客服和渠道等系統(tǒng),OSS(O域)的數(shù)據(jù)來(lái)自于MR(measurement report,測(cè)量報(bào)告)、Gn口和Mc口等系統(tǒng),時(shí)空和用戶ID關(guān)聯(lián)是把這些數(shù)據(jù)整合成統(tǒng)一特征集合的關(guān)鍵因素。以時(shí)空數(shù)據(jù)為核心的特征工程需要結(jié)合B域和O域進(jìn)行關(guān)聯(lián)分析,找出網(wǎng)絡(luò)和用戶特征的關(guān)聯(lián)性。如圖4所示,復(fù)雜的特征工程可以在以時(shí)空數(shù)據(jù)為核心的各種數(shù)據(jù)類型上構(gòu)建。如人的社交關(guān)系可以表述為電話網(wǎng)絡(luò)、短信網(wǎng)絡(luò)和接觸網(wǎng)絡(luò)(兩個(gè)人在相近時(shí)間、相近地點(diǎn)出現(xiàn)算是一次有效接觸)。每個(gè)電話、短信或接觸都有發(fā)生的時(shí)間和地點(diǎn)。需要設(shè)計(jì)有效的算法研究如何在這種有時(shí)空約束的圖中提取反映用戶復(fù)雜社會(huì)關(guān)系的特征。另一個(gè)例子是將用戶的賬單、影響力或者離網(wǎng)行為映射到每個(gè)位置上來(lái)評(píng)估每個(gè)位置的價(jià)值,從而可以得到高價(jià)值用戶或者離網(wǎng)用戶聚集的位置,開(kāi)展基于位置的服務(wù)和營(yíng)銷。同時(shí)也可以構(gòu)建基于用戶行為的基站投資分析,得出精確基站選址目標(biāo)。將通信行為、互聯(lián)網(wǎng)行為、消費(fèi)行為、營(yíng)銷反饋行為映射到時(shí)空位置坐標(biāo),也可以開(kāi)放給其他行業(yè),輸出專業(yè)性的評(píng)估報(bào)告,有助零售業(yè)或者旅游業(yè)掌握移動(dòng)用戶的行為。例如,西班牙電信Telefonica的SmartSteps洞察方案將時(shí)空數(shù)據(jù)脫敏后開(kāi)放給行業(yè)客戶,每年有數(shù)千萬(wàn)歐元營(yíng)收。其他的多媒體數(shù)據(jù)(客服語(yǔ)音記錄)、文本數(shù)據(jù)(服務(wù)記錄和移動(dòng)搜索記錄)和用戶軌跡數(shù)據(jù)等都需要設(shè)計(jì)有效的特征提取算法。所以電信大數(shù)據(jù)挖掘的第一個(gè)核心挑戰(zhàn)是以時(shí)空數(shù)據(jù)為核心的異構(gòu)特征工程。
圖4 以時(shí)空數(shù)據(jù)為核心的特征工程
3.2、更加精準(zhǔn)的預(yù)測(cè)算法
當(dāng)特征工程完成以后,下一步需要做的是預(yù)測(cè)(如離網(wǎng)預(yù)測(cè)[1]),并根據(jù)預(yù)測(cè)結(jié)果做決策。業(yè)務(wù)價(jià)值通常取決于預(yù)測(cè)的精度,精度越高越好。圖5對(duì)比了傳統(tǒng)數(shù)據(jù)挖掘的預(yù)測(cè)流程和大數(shù)據(jù)下的預(yù)測(cè)流程,主要區(qū)別之一是傳統(tǒng)數(shù)據(jù)挖掘采用的預(yù)測(cè)模型較簡(jiǎn)單(參數(shù)少),無(wú)法刻畫(huà)數(shù)據(jù)統(tǒng)計(jì)分布的細(xì)節(jié),而大數(shù)據(jù)背景下,通常采用大規(guī)模參數(shù)學(xué)習(xí)(如支撐十億級(jí)別的模型參數(shù)處理百萬(wàn)級(jí)別的稠密連續(xù)特征向量),從而充分刻畫(huà)統(tǒng)計(jì)細(xì)節(jié)和數(shù)據(jù)的相互依賴關(guān)系,達(dá)到更高的預(yù)測(cè)精度和更好的解釋。傳統(tǒng)的梯度下降(上升)算法在并行架構(gòu)下可以優(yōu)化大規(guī)模參數(shù)的神經(jīng)網(wǎng)絡(luò)模型,是未來(lái)高精度預(yù)測(cè)算法發(fā)展的主要方向之一。但是,電信領(lǐng)域的數(shù)據(jù)種類相對(duì)互聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)種類較少,通常使用較少的特征也能帶來(lái)業(yè)務(wù)性能的提升。未來(lái)需要更多的實(shí)驗(yàn)驗(yàn)證高維豐富的特征對(duì)電信業(yè)務(wù)的有效性和必要性。
圖5 精確的預(yù)測(cè)算法
3.3、根本原因推斷輔助商業(yè)決策
商業(yè)智能的核心競(jìng)爭(zhēng)力是分析用戶行為的根本原因,即明確哪些主要變量影響用戶最終的行為。如圖6所示,運(yùn)營(yíng)商關(guān)心的是何種原因(如網(wǎng)絡(luò)質(zhì)量體驗(yàn)、資費(fèi)、服務(wù)體驗(yàn)不好)導(dǎo)致用戶離網(wǎng)行為,從而可以針對(duì)性地改進(jìn)產(chǎn)品和服務(wù),持續(xù)改善在網(wǎng)用戶體驗(yàn)。未來(lái)個(gè)性化的營(yíng)銷也需要對(duì)用戶多個(gè)行為變量進(jìn)行排序,從而匹配到最為需要的產(chǎn)品。根本原因推斷技術(shù)的主要方向仍然是特征變量的排序和變量之間相關(guān)性分析。由于大部分特征變量?jī)H僅反映表象,根本原因分析需要對(duì)隱藏變量進(jìn)行推斷,然而目前大部分統(tǒng)計(jì)學(xué)習(xí)算法仍然難以有效地產(chǎn)生可以解釋的隱藏變量,需要持續(xù)探索。
圖6 根本原因推斷算法輔助商業(yè)智能
3.4、實(shí)時(shí)分析能力逐步成為基本需求
OSS數(shù)據(jù)的一個(gè)特點(diǎn)是更新速度快,如用戶對(duì)網(wǎng)絡(luò)的體驗(yàn)、網(wǎng)絡(luò)故障診斷和位置更新信息,都是在秒級(jí)或者分鐘級(jí)采集產(chǎn)生的。這些數(shù)據(jù)一旦不及時(shí)處理分析,將失去商業(yè)價(jià)值。例如,客戶當(dāng)時(shí)上網(wǎng)體驗(yàn)不好(例如無(wú)法使用支付寶或者微信支付出租車費(fèi)),很有可能會(huì)即時(shí)撥打投訴電話,因此需要即時(shí)得到分析結(jié)果,并做一些補(bǔ)償措施,給用戶良好的體驗(yàn)。又例如網(wǎng)絡(luò)故障診斷,需要在故障發(fā)生之后,立即分析并隔離相關(guān)的網(wǎng)絡(luò)單元,啟動(dòng)備用方案;谖恢玫臓I(yíng)銷需要及時(shí)判斷用戶的當(dāng)前位置,推送附近商鋪的合理產(chǎn)品,或者是當(dāng)用戶靠近營(yíng)業(yè)廳附近時(shí),推送合適的業(yè)務(wù)服務(wù)。實(shí)時(shí)分析能力需要流處理架構(gòu)和在線學(xué)習(xí)算法,通過(guò)統(tǒng)計(jì)、預(yù)測(cè)一個(gè)短時(shí)間窗口內(nèi)的數(shù)據(jù)流,迅速更新模型參數(shù),并做出決策。之后的決策都基于模型,不需要重新學(xué)習(xí)歷史數(shù)據(jù),因此大大加快了模型的更新速度和分析速度,達(dá)到實(shí)時(shí)處理的目標(biāo)。尤其對(duì)于海量OSS數(shù)據(jù),流處理和在線學(xué)習(xí)技術(shù)是非常必要的。另一個(gè)挑戰(zhàn)的技術(shù)方向是時(shí)間序列的挖掘,如何在數(shù)據(jù)流中快速捕捉數(shù)據(jù)在時(shí)序上的依賴關(guān)系(上下文關(guān)系),做出準(zhǔn)確的預(yù)測(cè),仍然十分困難,需要持續(xù)研究。
3.5、時(shí)空數(shù)據(jù)挖掘
電信數(shù)據(jù)相較于其他數(shù)據(jù)的一個(gè)核心優(yōu)勢(shì)就是含有用戶細(xì)粒度的時(shí)空行為信息。有效的挖掘并利用這些時(shí)空數(shù)據(jù)可以充分地發(fā)揮電信數(shù)據(jù)的價(jià)值。但是,電信時(shí)空數(shù)據(jù)的挖掘面臨4個(gè)核心挑戰(zhàn):數(shù)據(jù)的不精確性、數(shù)據(jù)的超稀疏性、數(shù)據(jù)的強(qiáng)依賴性和異構(gòu)性,如圖7所示。數(shù)據(jù)的不精確性是指通過(guò)電信數(shù)據(jù)計(jì)算的用戶位置精度遠(yuǎn)低于GPS精度(但是電信位置數(shù)據(jù)的好處是不需要客戶端任何負(fù)擔(dān),位置數(shù)據(jù)天然存在于網(wǎng)絡(luò)側(cè))。如圖7中淺色圓圈是某區(qū)域用戶真實(shí)GPS位置,淺色圓圈是使用基于距離的定位算法從電信記錄恢復(fù)的用戶位置[2]?梢钥吹街苯邮褂煤(jiǎn)單的基于位置的定位算法,數(shù)據(jù)存在很大的不精確性。如何設(shè)計(jì)更好的定位算法,如充分利用指紋和地圖等信息,降低位置數(shù)據(jù)的不確定性,是第1個(gè)挑戰(zhàn)。第2個(gè)挑戰(zhàn)是數(shù)據(jù)的超稀疏性。每個(gè)用戶只會(huì)出現(xiàn)在城市的一個(gè)很小的區(qū)域和一些小的時(shí)間片段中。如果把所有用戶的時(shí)空數(shù)據(jù)放在一起,把每個(gè)小時(shí)間片段和地點(diǎn)的組合看成一個(gè)記錄點(diǎn),一個(gè)用戶在絕大多數(shù)的記錄點(diǎn)都是沒(méi)有信息的。所以時(shí)空數(shù)據(jù)是一個(gè)超稀疏的數(shù)據(jù)集,如何處理并清洗這種超稀疏的數(shù)據(jù)集是一個(gè)技術(shù)挑戰(zhàn)。時(shí)空數(shù)據(jù)有很強(qiáng)的時(shí)間和空間關(guān)聯(lián)關(guān)系,如果按照時(shí)間切片或者地點(diǎn)切分將時(shí)空數(shù)據(jù)輸入數(shù)據(jù)挖掘模型,這種關(guān)聯(lián)關(guān)系就無(wú)法被有效地使用[3]。如何有效地組合使用有效的算法,如時(shí)間序列和神經(jīng)網(wǎng)絡(luò)來(lái)有效地表述時(shí)空數(shù)據(jù)的時(shí)空強(qiáng)依賴性,是第3個(gè)技術(shù)挑戰(zhàn)。第4個(gè)技術(shù)挑戰(zhàn)是時(shí)空數(shù)據(jù)和其他數(shù)據(jù)結(jié)合時(shí)導(dǎo)致的數(shù)據(jù)異構(gòu)性,如圖、文本挖掘都需要考慮相關(guān)數(shù)據(jù)產(chǎn)生的時(shí)間和地點(diǎn)才能進(jìn)行更有效的信息提取。
圖7 電信時(shí)空數(shù)據(jù)挖掘的4個(gè)核心挑戰(zhàn)
3.6、知識(shí)管理是智慧延展的基礎(chǔ)
運(yùn)營(yíng)商每年有大量業(yè)務(wù)人員沉淀經(jīng)驗(yàn)知識(shí)用于營(yíng)銷、網(wǎng)絡(luò)優(yōu)化和客服。大部分知識(shí)都是通過(guò)文本的形式保存下來(lái),但是這并不方便查詢和尋找知識(shí)之間的關(guān)系。文本挖掘的一個(gè)重要方向是自動(dòng)構(gòu)建知識(shí)圖譜,通過(guò)發(fā)現(xiàn)文檔中知識(shí)單元之間的相互關(guān)系,方便用戶查詢和學(xué)習(xí)。如圖8所示,左邊是從幾十萬(wàn)份網(wǎng)絡(luò)故障相關(guān)的文本中提出的關(guān)鍵詞(知識(shí)單元)和相互之間的關(guān)系,通過(guò)點(diǎn)擊相關(guān)的知識(shí)單元,可以查到對(duì)應(yīng)的文本摘要,大大縮短定位問(wèn)題的時(shí)間。類似地,客服系統(tǒng)每年都存有大量用戶投訴咨詢記錄,通過(guò)構(gòu)建知識(shí)圖譜,可以容易地發(fā)現(xiàn)投訴熱點(diǎn),并做出持續(xù)改進(jìn),節(jié)省大量人力、物力。
圖8 知識(shí)圖譜用于沉淀并管理業(yè)務(wù)知識(shí)
3.7、多媒體數(shù)據(jù)挖掘
電信數(shù)據(jù)中的多媒體數(shù)據(jù)主要指客服的語(yǔ)音記錄。語(yǔ)音記錄中包含了客戶關(guān)注的問(wèn)題和客服服務(wù)質(zhì)量和有效性信息。與客服人員手工記錄的文字信息相比,客服語(yǔ)音信息包含更原始和真實(shí)的信息,如客戶的情緒、關(guān)注點(diǎn)和客服的效率等信息。有效地挖掘這些信息可以自動(dòng)化地發(fā)現(xiàn)咨費(fèi)、網(wǎng)絡(luò)、服務(wù)和競(jìng)爭(zhēng)對(duì)手的問(wèn)題,提升服務(wù)質(zhì)量。語(yǔ)音數(shù)據(jù)中提取的特征也可以被有效地應(yīng)用于其他數(shù)據(jù)挖掘模型。語(yǔ)音數(shù)據(jù)的處理包含兩個(gè)部分,語(yǔ)音識(shí)別和文本自然語(yǔ)言處理。語(yǔ)音識(shí)別主要有兩個(gè)挑戰(zhàn),一個(gè)是當(dāng)前電信記錄系統(tǒng)很多是8音道數(shù)據(jù),數(shù)據(jù)質(zhì)量較差;另一個(gè)挑戰(zhàn)是語(yǔ)音中含有很多方言和電信業(yè)務(wù)相關(guān)專用詞匯,需要特殊的算法提升識(shí)別精度。語(yǔ)音識(shí)別為文本后,需要自然語(yǔ)言處理算法準(zhǔn)確地提取關(guān)注主題、客戶情緒和服務(wù)質(zhì)量等信息。當(dāng)前深度學(xué)習(xí)技術(shù)已經(jīng)在百度和谷歌等公司的語(yǔ)音識(shí)別和自然語(yǔ)言處理方面顯示出強(qiáng)大的能力。如圖9所示,如何針對(duì)電信語(yǔ)音數(shù)據(jù)設(shè)計(jì)合適的深度學(xué)習(xí)算法是多媒體數(shù)據(jù)挖掘的技術(shù)挑戰(zhàn)。
圖9 深度學(xué)習(xí)技術(shù)應(yīng)用于多媒體數(shù)據(jù)挖掘
3.8、圖數(shù)據(jù)挖掘與社交分析
電信數(shù)據(jù)包含3種基本的用戶社交網(wǎng)絡(luò):電話網(wǎng)絡(luò)、短信網(wǎng)絡(luò)和用戶接觸網(wǎng)絡(luò)。圖挖掘技術(shù)已經(jīng)在很多數(shù)據(jù)挖掘場(chǎng)景(如推薦系統(tǒng))中取得了很好的效果。電信圖數(shù)據(jù)的主要特點(diǎn)是每個(gè)圖不僅包含社交信息,還包含社交發(fā)生的時(shí)間和地點(diǎn)信息。含有時(shí)間和地點(diǎn)的圖的分析算法需要新的設(shè)計(jì)[4]。如何在時(shí)間和地點(diǎn)都有約束的網(wǎng)絡(luò)中構(gòu)建有效的并行分析算法,并將算法結(jié)果轉(zhuǎn)化為模型分析的重要特征是一個(gè)技術(shù)挑戰(zhàn)。如圖10所示。
圖10 電信圖數(shù)據(jù)挖掘與社交分析
3.9、隱私保護(hù)
電信數(shù)據(jù)含有用戶的通信行為、消費(fèi)行為、互聯(lián)網(wǎng)行為、社交行為和時(shí)空行為等高隱私信息。隱私保護(hù)是需要考慮的一個(gè)核心技術(shù)。當(dāng)前隱私保護(hù)最有效的方法是差分隱私保護(hù)[5]。差分隱私將數(shù)據(jù)分析人員和分析數(shù)據(jù)隔離,保證攻擊者在有任何背景知識(shí)的情況下,都只能以極小的概率區(qū)分某個(gè)特定用戶是否在數(shù)據(jù)集中。如何將差分隱私保護(hù)緊密地結(jié)合在電信挖掘的算法中是一個(gè)值得研究的課題。從當(dāng)前實(shí)際系統(tǒng)需求分析,另外一個(gè)更加重要的隱私問(wèn)題是防止數(shù)據(jù)濫用技術(shù)的研發(fā)。當(dāng)前數(shù)據(jù)挖掘都是經(jīng)過(guò)用戶授權(quán)使用數(shù)據(jù),但是電信運(yùn)營(yíng)商為了保障數(shù)據(jù)隱私安全,要求分析人員只能在嚴(yán)格控制的內(nèi)網(wǎng)分析匿名數(shù)據(jù),從而隔絕分析人員和分析數(shù)據(jù)。而推薦系統(tǒng)等應(yīng)用需要不斷迭代的特征工程以保證最優(yōu)的挖掘效果,在這種場(chǎng)景下的分析技術(shù)尚不成熟,例如無(wú)法不斷迭代特征工程來(lái)保證推薦系統(tǒng)等應(yīng)用的最優(yōu)挖掘效果。實(shí)際商業(yè)中最緊迫的場(chǎng)景是和第三方合作,即授權(quán)第三方使用數(shù)據(jù)完成某項(xiàng)數(shù)據(jù)挖掘任務(wù)(用戶授權(quán)情況下)時(shí),如何限制分享的數(shù)據(jù)只能被用在這個(gè)特定的數(shù)據(jù)挖掘任務(wù)而不被使用在任何其他場(chǎng)景,即閱后即焚的功能。
4、結(jié)束語(yǔ)
電信大數(shù)據(jù)沉淀于通信管道內(nèi),覆蓋12億中國(guó)用戶,需要運(yùn)營(yíng)商、設(shè)備商和大數(shù)據(jù)產(chǎn)業(yè)鏈共同努力以發(fā)揮其巨大的商業(yè)價(jià)值。本文提出的9個(gè)技術(shù)挑戰(zhàn)中,一部分已經(jīng)有相對(duì)完善的解決方案,但大部分還需要研發(fā)人員和市場(chǎng)人員的努力,在數(shù)據(jù)挖掘和商業(yè)模式方面做進(jìn)一步突破。2014年是中國(guó)電信大數(shù)據(jù)元年,到2015年,電信大數(shù)據(jù)已經(jīng)在用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開(kāi)放3個(gè)業(yè)務(wù)方向上積累了不少成功的經(jīng)驗(yàn)。隨著技術(shù)進(jìn)步,電信大數(shù)據(jù)將逐漸釋放巨大的商業(yè)價(jià)值,提升用戶體驗(yàn),降低運(yùn)營(yíng)成本,催熟整個(gè)大數(shù)據(jù)產(chǎn)業(yè)鏈。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.oesoe.com/
本文標(biāo)題:電信大數(shù)據(jù)關(guān)鍵技術(shù)挑戰(zhàn)
本文網(wǎng)址:http://www.oesoe.com/html/solutions/14019319779.html