新一輪科技革命已然開啟,5G、大數(shù)據(jù)中心、人工智能等領(lǐng)域發(fā)展如火如荼。而隨著這些新型科技在各行業(yè)內(nèi)應(yīng)用普及,數(shù)據(jù)量級遞增,其價(jià)值也越來越受到全社會(huì)重視。
近年來,重大數(shù)據(jù)泄漏事件頻發(fā),對數(shù)據(jù)安全領(lǐng)域從業(yè)者是機(jī)遇更是挑戰(zhàn)。創(chuàng)新技術(shù)的應(yīng)用和發(fā)展,為數(shù)據(jù)安全產(chǎn)業(yè)提供新的發(fā)展力,如AI在數(shù)據(jù)防泄漏中的應(yīng)用。
那么,現(xiàn)行的數(shù)據(jù)防泄漏架構(gòu)是怎樣的?AI應(yīng)用下產(chǎn)生的知識圖譜又是怎么一回事?讓我們跟著明朝萬達(dá)的數(shù)據(jù)安全專家一同來探討一二。
數(shù)據(jù)防泄漏問題
明朝萬達(dá)現(xiàn)有數(shù)據(jù)防泄漏架構(gòu)主要基于PPDR模型來實(shí)現(xiàn),PPDR由策略、防護(hù)、檢測、響應(yīng)四部分機(jī)制組成。
其中,策略是核心,描述系統(tǒng)哪些資源需要保護(hù);防護(hù)是加密機(jī)制等技術(shù);響應(yīng)是應(yīng)急策略;檢測是入侵檢測、數(shù)據(jù)防泄漏等技術(shù)。
數(shù)據(jù)防泄漏其核心能力就是內(nèi)容識別,識別出要保護(hù)的數(shù)據(jù)對象,然后對數(shù)據(jù)進(jìn)行分類分級,最后根據(jù)客戶需求設(shè)置相應(yīng)等級響應(yīng)策略完成相應(yīng)的數(shù)據(jù)防泄漏防護(hù)策略,從而達(dá)到保護(hù)系統(tǒng)安全和數(shù)據(jù)防泄漏的目的。
PPDR模型示意圖
-----
數(shù)據(jù)內(nèi)容識別技術(shù)發(fā)展
明朝萬達(dá)數(shù)據(jù)安全專家表示,當(dāng)下數(shù)據(jù)內(nèi)容識別技術(shù)的發(fā)展已經(jīng)到了第三代。在數(shù)據(jù)內(nèi)容識別技術(shù)發(fā)展過程中:
第一代是基于規(guī)則匹配方法實(shí)現(xiàn),進(jìn)而對識別內(nèi)容進(jìn)行分類分級策略,該方法不具備智能性,無法做到準(zhǔn)確分類分級,且局限性很大,不利于擴(kuò)展到其他行業(yè)。
第二代識別技術(shù)是基于機(jī)器學(xué)習(xí)方法去實(shí)現(xiàn),該方法已具備初步的智能性,基于機(jī)器學(xué)習(xí)方法時(shí),需要人工進(jìn)行標(biāo)注數(shù)據(jù),而后構(gòu)建復(fù)雜的特征對文本內(nèi)容進(jìn)行分類,此方法已具備初步智能,但是需要耗費(fèi)大量人力物力來進(jìn)行數(shù)據(jù)標(biāo)注和特征構(gòu)建。
第三代數(shù)據(jù)識別技術(shù)是基于知識圖譜來實(shí)現(xiàn),基于知識圖譜技術(shù)能利用正向反饋機(jī)制和自我學(xué)習(xí)兩種方式減少人工標(biāo)注量,減少專家先驗(yàn)知識和避免知識片面性,基于遠(yuǎn)程監(jiān)督學(xué)習(xí)達(dá)到數(shù)據(jù)自動(dòng)分類分級的目的,構(gòu)建出行業(yè)知識體系和領(lǐng)域內(nèi)知識圖譜,繼而擴(kuò)展到其他行業(yè)領(lǐng)域。
數(shù)據(jù)識別技術(shù)發(fā)展歷程時(shí)間軸
-----
知識圖譜簡介
知識圖譜的架構(gòu)包括自身的邏輯結(jié)構(gòu)以及構(gòu)建知識圖譜所采用的技術(shù)結(jié)構(gòu)。
邏輯結(jié)構(gòu)分為數(shù)據(jù)層和模式層兩個(gè)層次,數(shù)據(jù)層由各個(gè)節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示“實(shí)體”,邊表示實(shí)體間的“關(guān)系”,然后基于實(shí)體與關(guān)系經(jīng)過知識融合得到某一類的數(shù)據(jù)本體。模式層在數(shù)據(jù)層之上,是知識圖譜的核心,由數(shù)據(jù)層經(jīng)過提煉抽象得到。
明朝萬達(dá)數(shù)據(jù)安全專家解釋:知識圖譜由這兩部分結(jié)構(gòu)提供從“關(guān)系”的角度去分析問題的能力,利用模式層預(yù)測能力去分析問題,在分析問題的過程中可以根據(jù)分析的結(jié)果,反饋到數(shù)據(jù)層,利用正向反饋過程中的先驗(yàn)知識在數(shù)據(jù)層加入正反向樣本使模型更加智能化,從而達(dá)到不斷自我學(xué)習(xí)目的,在完善與構(gòu)建知識圖譜的過程中通過不斷增加正反樣本來逐步減少人為的干預(yù),使知識圖譜更加完善,最后構(gòu)建出領(lǐng)域內(nèi)知識。
知識圖譜構(gòu)建與應(yīng)用流程圖
-----
知識圖譜簡介
基于知識圖譜的文本分類結(jié)構(gòu)圖
實(shí)施步驟:
本實(shí)例基于已知標(biāo)簽文本的合同等類別和未知標(biāo)簽文本的數(shù)據(jù)進(jìn)行分類來對知識圖譜進(jìn)行實(shí)施運(yùn)用,大致分為數(shù)據(jù)輸入,實(shí)體關(guān)系等屬性抽取,知識融合和數(shù)據(jù)分類,然后對未知的文本進(jìn)行正向反饋和自我學(xué)習(xí),達(dá)到識別敏感數(shù)據(jù)分類分級的目的。
-----
意義與展望
知識圖譜作為人工智能的支撐基礎(chǔ),是人工智能的必經(jīng)之路,企業(yè)在發(fā)展技術(shù)的同時(shí)更應(yīng)重視領(lǐng)域+知識圖譜發(fā)展。
在未來,技術(shù)不是公司的核心競爭力,多年積累的行業(yè)領(lǐng)域數(shù)據(jù)才是壁壘,要形成數(shù)據(jù)養(yǎng)育知識,知識反哺數(shù)據(jù),領(lǐng)域數(shù)據(jù)和知識圖譜應(yīng)相輔相成,共同發(fā)展。知識圖譜因其能不斷自我學(xué)習(xí)和具備正向反饋機(jī)制可以很好遷移到其他領(lǐng)域。
知識圖譜擴(kuò)展領(lǐng)域應(yīng)用示意圖