大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)的價(jià)值越來越受到社會(huì)各界的重視,各類基于大量數(shù)據(jù)的信息處理平臺(tái)不斷涌現(xiàn),而如何實(shí)現(xiàn)對(duì)信息系統(tǒng)中數(shù)據(jù)規(guī)范化管理及使用,成為擺在眾人面前重要的問題。
信息系統(tǒng),是指由計(jì)算機(jī)硬件、網(wǎng)絡(luò)和通訊設(shè)備、計(jì)算機(jī)軟件、信息資源、信息用戶和規(guī)章制度組成的以處理信息流為目的的人機(jī)一體化系統(tǒng)。簡單地說,信息系統(tǒng)就是輸入數(shù)據(jù)信息,通過加工處理產(chǎn)生信息的系統(tǒng)。
盡管信息系統(tǒng)根據(jù)具體搭建目的不同,需要收錄、使用的數(shù)據(jù)也不盡相同,但諸多系統(tǒng)都面臨一個(gè)共同的問題:平臺(tái)數(shù)據(jù)來源多樣,格式混亂,阻礙數(shù)據(jù)進(jìn)一步使用。
因此,信息治理首先需要解決的就是數(shù)據(jù)不規(guī)范。今日,明朝萬達(dá)數(shù)據(jù)專家將以“基于字典樹的中文地址信息治理”為例,為您解讀數(shù)據(jù)處理的具體措施。
字典樹(單詞查找樹)應(yīng)用背景
目前,信息系統(tǒng)中會(huì)記錄多種地址字段,包括單位地址、收件地址、寄件地址、住所地址等。字段中又包含區(qū)域信息(省、市、區(qū)/縣)和詳細(xì)信息(街道、街道號(hào)/小區(qū)名稱、樓號(hào)、樓層、房間號(hào)等)。以上地址信息可用于信息關(guān)聯(lián)、信息統(tǒng)計(jì)、信息分類等,具有很大的利用價(jià)值。
但是由于地址信息的來源存在多樣性、不可控性,導(dǎo)致大量的地址數(shù)據(jù)不規(guī)范,對(duì)系統(tǒng)合理充分利用形成了一定的阻礙。因此:
對(duì)地址信息進(jìn)行標(biāo)準(zhǔn)化處理來提高地址信息的利用率,成為信息系統(tǒng)很重要的一項(xiàng)功能。
實(shí)現(xiàn)目標(biāo)
01 區(qū)域信息治理
在地址信息中,提取或者還原省、市、區(qū)/縣信息
在地址信息中,提取區(qū)域信息以外的數(shù)據(jù),并按照詳細(xì)規(guī)范進(jìn)行數(shù)據(jù)格式化輸出。
處理過程
步驟一:使用最新的民政部行政區(qū)劃代碼,構(gòu)建兩棵字典樹
※ 綠色代表葉子節(jié)點(diǎn),葉子節(jié)點(diǎn)存儲(chǔ)完整的區(qū)域信息。
舉例:在完整字典樹中北辰區(qū)節(jié)點(diǎn)存儲(chǔ):天津,天津市,北辰區(qū);在縮略字典樹中西安節(jié)點(diǎn)存儲(chǔ):陜西省,西安市&吉林省,遼源市,西安區(qū)&黑龍江省,牡丹江市,西安區(qū)。
步驟二:區(qū)域信息計(jì)算
※ 將地址信息在完整字典樹中從前向后進(jìn)行掃描。
如果命中完整字典樹某一個(gè)分支,設(shè)置閾值1.0, 讀取保存的省市區(qū)縣信息;
※ 接著在縮略字典樹中進(jìn)行掃描。
設(shè)置閾值為0.8,由于大部分地區(qū)會(huì)以某些城市名稱作為街道命名,故程序在處理過程中,向后探先探一位,如果包含“街”,“道”,“路”,“鄉(xiāng)”,“鎮(zhèn)”,“弄”,“坊”等,則將前面命中的一個(gè)分支作為詳細(xì)信息處理。如果包含“東”,“南”,“西”,“北”,“中”,“一”,“二”,“三”,“四”,“五”等,再向后探一位,如果包含“街”,“道”,“路”,“鄉(xiāng)”,“鎮(zhèn)”,“弄”,“坊”等也作為詳細(xì)信息處理。
※ 然后對(duì)各個(gè)省市縣信息進(jìn)行閾值的累加。
※ 最后和完整字典樹掃描的結(jié)果進(jìn)行相加,然后就會(huì)得出最終的區(qū)域信息。
舉例:處理地址信息,西安雁塔區(qū)科技7路4號(hào)
|
![]() |

步驟三:詳細(xì)信息處理
※ 對(duì)詳細(xì)信息進(jìn)行格式化處理。
使用xx街(路/道/弄等)xx號(hào)/小區(qū)xx樓xx單元/xx樓xx室,這樣的格式對(duì)詳細(xì)信息進(jìn)行格式化。以上,便是基于字典樹的中文地址信息治理方式。
信息系統(tǒng)所收錄的地址信息經(jīng)過字典樹處理后,利用程度得到進(jìn)一步提高,同時(shí)提高了系統(tǒng)運(yùn)作能力,促進(jìn)集約化管理。
-----
作為中國新一代信息安全技術(shù)企業(yè),明朝萬達(dá)專注數(shù)據(jù)安全、公共安全、云安全、大數(shù)據(jù)安全等服務(wù),客戶覆蓋金融、政府、公安、電信運(yùn)營商等諸多領(lǐng)域,其中在金融領(lǐng)域數(shù)據(jù)安全的市場占有率超80%。
明朝萬達(dá)始終將技術(shù)創(chuàng)新作為企業(yè)的立足之本,截至2020年6月,公司已申請(qǐng) 300余項(xiàng)發(fā)明技術(shù)專利,累計(jì)授權(quán)專利 近100項(xiàng),多項(xiàng)技術(shù)填補(bǔ)了國內(nèi)空白并達(dá)到世界先進(jìn)水平。