日韩精品自拍小视频_丰满的少妇被猛烈进入_99福利免费视频_亚洲色中文字幕在线播放_久久久亚州最大综合精品_小仙女av资源导航_年轻的老师3在观整有限中字_国产免费不卡一级片_歐美精品偷自拍另類在線觀看_成人网站APP下载

?
公司新聞
當(dāng)前位置: 首頁 > 新聞中心 > 公司新聞 > AI干貨丨明朝萬達(dá)中文地址信息智能治理實(shí)踐 返回
AI干貨丨明朝萬達(dá)中文地址信息智能治理實(shí)踐
發(fā)布時(shí)間:2020-07-21 打印 字號(hào):



大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)的價(jià)值越來越受到社會(huì)各界的重視,各類基于大量數(shù)據(jù)的信息處理平臺(tái)不斷涌現(xiàn),而如何實(shí)現(xiàn)對(duì)信息系統(tǒng)中數(shù)據(jù)規(guī)范化管理及使用,成為擺在眾人面前重要的問題。


信息系統(tǒng),是指由計(jì)算機(jī)硬件、網(wǎng)絡(luò)和通訊設(shè)備、計(jì)算機(jī)軟件、信息資源、信息用戶和規(guī)章制度組成的以處理信息流為目的的人機(jī)一體化系統(tǒng)。簡單地說,信息系統(tǒng)就是輸入數(shù)據(jù)信息,通過加工處理產(chǎn)生信息的系統(tǒng)。


盡管信息系統(tǒng)根據(jù)具體搭建目的不同,需要收錄、使用的數(shù)據(jù)也不盡相同,但諸多系統(tǒng)都面臨一個(gè)共同的問題:平臺(tái)數(shù)據(jù)來源多樣,格式混亂,阻礙數(shù)據(jù)進(jìn)一步使用。


因此,信息治理首先需要解決的就是數(shù)據(jù)不規(guī)范。今日,明朝萬達(dá)數(shù)據(jù)專家將以“基于字典樹的中文地址信息治理”為例,為您解讀數(shù)據(jù)處理的具體措施。


字典樹(單詞查找樹)應(yīng)用背景


目前,信息系統(tǒng)中會(huì)記錄多種地址字段,包括單位地址、收件地址、寄件地址、住所地址等。字段中又包含區(qū)域信息(省、市、區(qū)/縣)和詳細(xì)信息(街道、街道號(hào)/小區(qū)名稱、樓號(hào)、樓層、房間號(hào)等)。以上地址信息可用于信息關(guān)聯(lián)、信息統(tǒng)計(jì)、信息分類等,具有很大的利用價(jià)值。

但是由于地址信息的來源存在多樣性、不可控性,導(dǎo)致大量的地址數(shù)據(jù)不規(guī)范,對(duì)系統(tǒng)合理充分利用形成了一定的阻礙。因此:

對(duì)地址信息進(jìn)行標(biāo)準(zhǔn)化處理來提高地址信息的利用率,成為信息系統(tǒng)很重要的一項(xiàng)功能。




實(shí)現(xiàn)目標(biāo)


01 區(qū)域信息治理

在地址信息中,提取或者還原省、市、區(qū)/縣信息


02 詳細(xì)信息治理

在地址信息中,提取區(qū)域信息以外的數(shù)據(jù),并按照詳細(xì)規(guī)范進(jìn)行數(shù)據(jù)格式化輸出。


處理過程


步驟一:使用最新的民政部行政區(qū)劃代碼,構(gòu)建兩棵字典樹

綠色代表葉子節(jié)點(diǎn),葉子節(jié)點(diǎn)存儲(chǔ)完整的區(qū)域信息。

舉例:在完整字典樹中北辰區(qū)節(jié)點(diǎn)存儲(chǔ):天津,天津市,北辰區(qū);在縮略字典樹中西安節(jié)點(diǎn)存儲(chǔ):陜西省,西安市&吉林省,遼源市,西安區(qū)&黑龍江省,牡丹江市,西安區(qū)。



步驟二:區(qū)域信息計(jì)算

將地址信息在完整字典樹中從前向后進(jìn)行掃描。

如果命中完整字典樹某一個(gè)分支,設(shè)置閾值1.0, 讀取保存的省市區(qū)縣信息;

接著在縮略字典樹中進(jìn)行掃描。

設(shè)置閾值為0.8,由于大部分地區(qū)會(huì)以某些城市名稱作為街道命名,故程序在處理過程中,向后探先探一位,如果包含“街”,“道”,“路”,“鄉(xiāng)”,“鎮(zhèn)”,“弄”,“坊”等,則將前面命中的一個(gè)分支作為詳細(xì)信息處理。如果包含“東”,“南”,“西”,“北”,“中”,“一”,“二”,“三”,“四”,“五”等,再向后探一位,如果包含“街”,“道”,“路”,“鄉(xiāng)”,“鎮(zhèn)”,“弄”,“坊”等也作為詳細(xì)信息處理。

然后對(duì)各個(gè)省市縣信息進(jìn)行閾值的累加。

最后和完整字典樹掃描的結(jié)果進(jìn)行相加,然后就會(huì)得出最終的區(qū)域信息。

舉例:處理地址信息,西安雁塔區(qū)科技7路4號(hào)





根據(jù)權(quán)值計(jì)算,最終陜西?。簷?quán)值1.8,故省部分取陜西省,結(jié)合陜西省確定西安市,最后根據(jù)西安市確定雁塔區(qū),故最后區(qū)域信息為:陜西省,西安市,雁塔區(qū)。




步驟三:詳細(xì)信息處理

對(duì)詳細(xì)信息進(jìn)行格式化處理。

使用xx街(路/道/弄等)xx號(hào)/小區(qū)xx樓xx單元/xx樓xx室,這樣的格式對(duì)詳細(xì)信息進(jìn)行格式化。

以上,便是基于字典樹的中文地址信息治理方式。

信息系統(tǒng)所收錄的地址信息經(jīng)過字典樹處理后,利用程度得到進(jìn)一步提高,同時(shí)提高了系統(tǒng)運(yùn)作能力,促進(jìn)集約化管理。


-----


作為中國新一代信息安全技術(shù)企業(yè),明朝萬達(dá)專注數(shù)據(jù)安全、公共安全、云安全、大數(shù)據(jù)安全等服務(wù),客戶覆蓋金融、政府、公安、電信運(yùn)營商等諸多領(lǐng)域,其中在金融領(lǐng)域數(shù)據(jù)安全的市場占有率超80%。

明朝萬達(dá)始終將技術(shù)創(chuàng)新作為企業(yè)的立足之本,截至2020年6月,公司已申請(qǐng) 300余項(xiàng)發(fā)明技術(shù)專利,累計(jì)授權(quán)專利 近100項(xiàng),多項(xiàng)技術(shù)填補(bǔ)了國內(nèi)空白并達(dá)到世界先進(jìn)水平。


400-650-8968