異常分析需要解決兩個(gè)子問題:
(1)在給定數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時(shí)代 > 異常分析(數(shù)據(jù)庫)

異常分析(數(shù)據(jù)庫)

時(shí)間:2022-12-06 18:30:01 | 來源:信息時(shí)代

時(shí)間:2022-12-06 18:30:01 來源:信息時(shí)代

    異常分析 : 發(fā)現(xiàn)數(shù)據(jù)集中明顯不同于其他數(shù)據(jù)對(duì)象的過程。異常是一個(gè)數(shù)據(jù)集中所包含的明顯不同于其他對(duì)象的數(shù)據(jù)。
異常分析需要解決兩個(gè)子問題:
(1)在給定數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為是異常。
(2)找到一個(gè)有效的方法來挖掘這樣的異常。
大多數(shù)聚類算法(如DBSCAN、BIRCH等),都具有一定的噪聲處理能力,在一定程度上可以檢測異常數(shù)據(jù)。但聚類算法定義中的“噪聲”和“異?!痹诟拍钌喜煌? “噪聲”是定義在簇的基礎(chǔ)上,是不隸屬于任何簇的數(shù)據(jù); 而異常分析中定義的“異常”是不依賴于是否存在簇。聚類算法中具有處理噪聲能力的出發(fā)點(diǎn)和目的是優(yōu)化簇,在生成結(jié)果簇時(shí),噪聲是可以容忍或忽略的。而異常分析的目的是找出這樣的數(shù)據(jù)對(duì)象。
異常分析算法有以下幾類:
(1)基于統(tǒng)計(jì)的異常分析方法:首先使用統(tǒng)計(jì)分布(如正態(tài)分布Normal、泊松Poisson分布等)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行建模,然后用不一致檢驗(yàn)(discordancy test)確定異常。該方法要求預(yù)先得到關(guān)于數(shù)據(jù)集合參數(shù)的知識(shí),如分布模型(如假設(shè)的數(shù)據(jù)分布)、分布參數(shù)(如平均值和方差)、預(yù)期的異常數(shù)目和異常數(shù)據(jù)類型等,但在許多情況下,數(shù)據(jù)分布可能是未知的,特別是在高維情況下,估計(jì)數(shù)據(jù)點(diǎn)的分布是極其困難的。
(2)基于深度的異常分析方法:每一個(gè)數(shù)據(jù)被映射到一個(gè)k維數(shù)據(jù)空間上的點(diǎn),并且每個(gè)點(diǎn)被賦予一個(gè)特定定義的“深度”。根據(jù)不同的深度,數(shù)據(jù)被劃分成不同層次,異常往往存在于較“淺”的層次中,而存在于較“深”層次中的可能性較小。但當(dāng)k值較大時(shí)(一般地k≥4),該方法并不是很有效。
(3)基于偏差的異常分析方法:不采用統(tǒng)計(jì)檢驗(yàn)或基于距離的度量值來確定異常對(duì)象,而是通過檢查一組對(duì)象的主要特征來確定異常。該方法將異常定義為與給出的描述偏離的對(duì)象,即“偏差”(deviation)。主要有兩種分析技術(shù): 序列異常技術(shù);采用OLAP數(shù)據(jù)立方體方法。
(4)基于距離的異常分析方法: 將異常定義為:如果數(shù)據(jù)集中與點(diǎn)p的距離小于d的點(diǎn)的個(gè)數(shù)不超過M,那么就稱p為相對(duì)于M和d的異常。即是那些沒有“足夠多”鄰居的對(duì)象(鄰居是基于距給定對(duì)象的距離來定義的),其中距離可以是任意的距離函數(shù)度量。典型的算法是Knorr&Ng算法,但是該算法的輸入?yún)?shù)M和d難以確定,并且不同參數(shù)M和d對(duì)結(jié)果的影響有很大不穩(wěn)定性。這種需要用戶擁有相當(dāng)?shù)念I(lǐng)域知識(shí),并且進(jìn)行人工干預(yù)算法的辦法也并不理想。Rastogi和Ramaswamy引入新的基于距離異常定義:Dnk異常,并提出循環(huán)嵌套、基于索引和基于劃分的算法。
(5)基于密度的異常分析方法:一些算法中的異常被認(rèn)為是二元性質(zhì)的,即要么在數(shù)據(jù)集中該對(duì)象是異常,要么不是異常,然而在大多數(shù)應(yīng)用中,情況是復(fù)雜的。基于距離的異常分析中因?yàn)榭紤]的是整個(gè)數(shù)據(jù)集,找出的異常是全局意義的,因此只能發(fā)現(xiàn)某些類型的異常。而異常這個(gè)概念本身具有一定的“局部”性,即某一點(diǎn)異常是指這一點(diǎn)與之鄰近的簇相對(duì)較遠(yuǎn)。Breunig和Kriegel引入了局部異常因子的概念,認(rèn)為異常不應(yīng)該是對(duì)象的二元性質(zhì),而是某個(gè)度量。
基于統(tǒng)計(jì)的方法由于必須事先知道數(shù)據(jù)的分布特征,因此,限制了它的應(yīng)用范圍; 基于偏差的方法中的序列異常技術(shù)中的序列異常概念由于序列異常在概念上仍然有一定缺陷,遺漏了不少的異常數(shù)據(jù),而沒有得到普遍的認(rèn)同; 基于距離的方法跟基于統(tǒng)計(jì)的方法相比,不需要用戶擁有任何領(lǐng)域知識(shí),與“序列異常”相比,在概念上更加直觀,更重要的是,距離異常更接近于Hawkins的異常的本質(zhì)性的定義; 基于密度的異常觀點(diǎn)比基于距離的異常觀點(diǎn)更貼近Hawkins的異常的本質(zhì)性的定義,因此能夠挖掘出基于距離異常算法所不能識(shí)別的一類異常數(shù)據(jù)——局部異常,局部異常觀點(diǎn)擯棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,更加符合現(xiàn)實(shí)生活中的應(yīng)用。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉