国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 行業(yè)動(dòng)態(tài) > 提升非規(guī)范化敏感數(shù)據(jù)識(shí)別率,為數(shù)據(jù)安全保駕護(hù)航

提升非規(guī)范化敏感數(shù)據(jù)識(shí)別率,為數(shù)據(jù)安全保駕護(hù)航

時(shí)間:2022-03-23 17:36:01 | 來(lái)源:行業(yè)動(dòng)態(tài)

時(shí)間:2022-03-23 17:36:01 來(lái)源:行業(yè)動(dòng)態(tài)

首先,數(shù)據(jù)脫敏系統(tǒng)需要采集業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中的元數(shù)據(jù),包括模式名、表名、字段名、字段類型、注釋信息,系統(tǒng)會(huì)根據(jù)字段類型對(duì)數(shù)據(jù)的類型進(jìn)行初步的判斷。隨后,數(shù)據(jù)脫敏系統(tǒng)會(huì)采集業(yè)務(wù)系統(tǒng)的樣本數(shù)據(jù),對(duì)每張數(shù)據(jù)表進(jìn)行隨機(jī)抽樣,抽樣時(shí)需要剔除噪聲數(shù)據(jù),包括空字符、null對(duì)象等,從而提高數(shù)據(jù)樣本質(zhì)量。

樣本采集后,系統(tǒng)會(huì)對(duì)樣本數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化處理。如果樣本數(shù)據(jù)是規(guī)范且具有某種數(shù)據(jù)特征,數(shù)據(jù)脫敏系統(tǒng)會(huì)對(duì)樣本數(shù)據(jù)進(jìn)行精準(zhǔn)識(shí)別。但通常會(huì)有一些樣本數(shù)據(jù)并不規(guī)范,會(huì)導(dǎo)致系統(tǒng)識(shí)別出現(xiàn)誤差。比如客戶在錄入電話號(hào)碼的時(shí)候,可能將88188286寫成02888188286、028-88188286、(028)-88188286、88188286。對(duì)此,系統(tǒng)需要對(duì)樣本數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化處理,比如:將影響識(shí)別的字符諸如空格、非常用特殊字符、括號(hào)、中橫杠等去掉;將全角類字符自動(dòng)轉(zhuǎn)換為半角字符;將亂碼字符替換成漢字或剔除等。

最后,數(shù)據(jù)脫敏系統(tǒng)會(huì)對(duì)獲取的樣本數(shù)據(jù)進(jìn)行分類與識(shí)別。在初步的分類中,系統(tǒng)會(huì)根據(jù)樣本數(shù)據(jù)的數(shù)據(jù)類型進(jìn)行歸類,比如字符類型的數(shù)據(jù)通常不會(huì)存儲(chǔ)金額類數(shù)據(jù);數(shù)值類型的數(shù)據(jù)不會(huì)存儲(chǔ)名稱、地址類數(shù)據(jù);日期類型的數(shù)據(jù)只能是日期時(shí)間類數(shù)據(jù);大對(duì)象字段通常存儲(chǔ)有文本、圖片、報(bào)文等特殊的數(shù)據(jù)。

在對(duì)樣本數(shù)據(jù)的識(shí)別上,數(shù)據(jù)脫敏系統(tǒng)會(huì)進(jìn)行三輪識(shí)別。首輪識(shí)別中,系統(tǒng)根據(jù)數(shù)據(jù)的詞匯特點(diǎn)進(jìn)行初步匹配,對(duì)數(shù)據(jù)進(jìn)行敏感信息大類劃分,例如,全是漢字或漢字占比較高的可能是名稱、地址等敏感信息類,全是數(shù)字或數(shù)字占比較高的可能是電話、賬號(hào)等敏感信息類。首輪的識(shí)別和分類,可以減少數(shù)據(jù)脫敏系統(tǒng)對(duì)敏感數(shù)據(jù)識(shí)別的總體時(shí)間,提升識(shí)別效率;第二輪精確識(shí)別中,系統(tǒng)通過(guò)內(nèi)置的高級(jí)識(shí)別算法對(duì)樣本數(shù)據(jù)特征進(jìn)行詞法分析,并完成敏感數(shù)據(jù)的精確識(shí)別,識(shí)別成功的數(shù)據(jù)根據(jù)分類自動(dòng)歸納到某種敏感信息類,識(shí)別失敗的數(shù)據(jù)則交給AI敏感數(shù)據(jù)掃描引擎處理;AI敏感數(shù)據(jù)掃描引擎會(huì)加載某敏感類型和訓(xùn)練模型,經(jīng)過(guò)模型運(yùn)算輸出敏感信息識(shí)別率,通過(guò)敏感信息識(shí)別率與敏感類型閥值大小比較判斷是否識(shí)別成功,完成第三輪深度掃描識(shí)別。

通過(guò)AI敏感數(shù)據(jù)掃描引擎識(shí)別非規(guī)范化敏感數(shù)據(jù)的精確度會(huì)遠(yuǎn)遠(yuǎn)高于非AI識(shí)別算法。以下面的掃描對(duì)比情況為例:ADDRESS的數(shù)據(jù)是規(guī)范化數(shù)據(jù),CLIENT_ADDRESS的數(shù)據(jù)是非規(guī)范化數(shù)據(jù),通過(guò)非AI識(shí)別算法,掃描CLIENT_ADDRESS的識(shí)別率僅僅13.33,而使用AI敏感數(shù)據(jù)掃描引擎后,識(shí)別率能達(dá)到73.33%。





基于強(qiáng)大的數(shù)據(jù)安全管理能力,目前,神州數(shù)碼TDMP數(shù)據(jù)脫敏系統(tǒng)已在銀行、保險(xiǎn)、證券等領(lǐng)域多個(gè)頭部客戶的實(shí)際應(yīng)用場(chǎng)景中落地。未來(lái),以數(shù)據(jù)安全法提出的更高要求為目標(biāo),神州數(shù)碼將繼續(xù)積極探索,為企業(yè)的數(shù)據(jù)安全保駕護(hù)航,為數(shù)字經(jīng)濟(jì)發(fā)展提供安全穩(wěn)定的保障。

關(guān)鍵詞:數(shù)據(jù),安全,保駕

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉