● 產(chǎn)品簡介
Chinasec(安元)互聯(lián)網(wǎng)數(shù)據(jù)泄漏監(jiān)測系統(tǒng),針對敏感文檔互聯(lián)網(wǎng)泄漏的監(jiān)測和溯源需求,為政企用戶提供基于云的文檔內(nèi)容監(jiān)測和溯源服務。用戶可以登錄互聯(lián)網(wǎng)數(shù)據(jù)泄漏監(jiān)測服務平臺,通過提供監(jiān)測規(guī)則(關鍵字、正則表達式、文檔指紋、文檔特征)建立針對特定網(wǎng)站的互聯(lián)網(wǎng)數(shù)據(jù)泄露監(jiān)測任務,平臺可以預警及隨時查詢互聯(lián)網(wǎng)上是否有泄漏敏感內(nèi)容的本單位文檔,并了解泄漏的時間和上傳賬號。
● 產(chǎn)品功能
產(chǎn)品通過SaaS模式對外提供服務為客戶提供互聯(lián)網(wǎng)上的文檔泄漏監(jiān)測服務,數(shù)據(jù)可以通過服務接口進行調(diào)用。通過文檔內(nèi)容檢索引擎,為企業(yè)用戶提供特定互聯(lián)網(wǎng)網(wǎng)站上文檔內(nèi)容的檢索功能。
l 提供基于關鍵字、正則表達式和文檔指紋的監(jiān)測服務分析挖掘
l 檢索的文檔和內(nèi)容范圍
已經(jīng)支持的:百度文庫、豆丁文庫、CSDN、金鋤頭、IT168文庫、天涯社區(qū)、博客園;計劃支持的:MBA智庫、愛問知識人、微信公眾號、新浪微博、知乎、今日頭條、抖音短視頻、快手短視頻、小紅書等
l 支持NLP,能夠?qū)A康奈臋n數(shù)據(jù)進行訓練,形成文檔分類識別模型
● 總體架構圖
系統(tǒng)的物理部署架構如上圖所示,云端部署大數(shù)據(jù)存儲和檢索平臺,同時通過網(wǎng)絡爬蟲從互聯(lián)網(wǎng)重點網(wǎng)站爬取文本內(nèi)容和非結構化文檔內(nèi)容,信息經(jīng)過清洗加工后存儲到云端。通過Web或接口對外提供單次或批量的數(shù)據(jù)檢索服務。