国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 數(shù)據(jù)流挖掘(數(shù)據(jù)庫)

數(shù)據(jù)流挖掘(數(shù)據(jù)庫)

時間:2022-11-01 14:30:01 | 來源:信息時代

時間:2022-11-01 14:30:01 來源:信息時代

    數(shù)據(jù)流挖掘 : 針對數(shù)據(jù)流進(jìn)行的數(shù)據(jù)挖掘。數(shù)據(jù)流是指大量連續(xù)到達(dá)的、潛在的、無限的數(shù)據(jù)的有序序列,具有四個主要特征: ①數(shù)據(jù)總量假定是無限的; ②數(shù)據(jù)到達(dá)速率快; ③數(shù)據(jù)到達(dá)次序不受應(yīng)用約束; ④除非可以保存,每個元素均只能夠“看”一次。
數(shù)據(jù)流對數(shù)據(jù)挖掘技術(shù)提出了特殊的要求: ①算法必須能夠快速處理每一個數(shù)據(jù),實時輸出處理結(jié)果; ②算法的空間復(fù)雜度要低,算法的空間占用量的增長速度遠(yuǎn)小于數(shù)據(jù)自身規(guī)模的增長速度;③由于空間復(fù)雜度低、處理數(shù)據(jù)速率高,往往只能夠得到近似解,但近似解必須具備一定的精確度; ④算法的適應(yīng)性要強(qiáng)。數(shù)據(jù)流挖掘主要有:
(1)數(shù)據(jù)流聚類: 由于完整甚至部分地存儲過去數(shù)據(jù)的方法不可行,需要能夠只使用新數(shù)據(jù)就能夠追蹤聚類變化的算法,這就要求算法必須是增量式的,對聚類表示要簡潔,對新數(shù)據(jù)的處理要快速,對噪音和異常數(shù)據(jù)是穩(wěn)健的。因為數(shù)據(jù)流可看成是隨時間不斷變化的無限過程,其隱含的聚類可能隨時間動態(tài)地變化而導(dǎo)致聚類質(zhì)量降低。一些應(yīng)用于大規(guī)模數(shù)據(jù)集的一趟聚類算法,如Squeezer算法和BIRCH算法,可用于某些流數(shù)據(jù)問題; 也有專門針對流數(shù)據(jù)的聚類算法,典型的有STREAM算法和CluStream算法。
(2) 數(shù)據(jù)流分類: Hoefding決策樹分類算法VFDT(Very Fast Decision Tree)使用恒定的內(nèi)存大小和時間處理每個樣本,有效地解決了時間、內(nèi)存和樣本對數(shù)據(jù)挖掘,特別是高速流數(shù)據(jù)上的數(shù)據(jù)挖掘的限制。
(3)數(shù)據(jù)流頻繁模式挖掘: 與對靜態(tài)數(shù)據(jù)集的挖掘相比,流數(shù)據(jù)有更多信息要追蹤和更復(fù)雜的情況要處理,頻繁項集會隨時間而變化,非頻繁項在后來可能成為頻繁項而不容忽視,存儲結(jié)構(gòu)需要動態(tài)調(diào)整以反映頻繁項集隨時間進(jìn)化的情況。挖掘算法如基于FP樹模型的FP-Stream,它采用傾斜時間窗口技術(shù)來維護(hù)頻繁模式以解決時間敏感問題; 利用有限存儲空間通過一趟掃描來估計數(shù)據(jù)流中最大頻繁項集的算法,采用Count Sketch數(shù)據(jù)結(jié)構(gòu),使得可在流中可靠地估計頻繁項集的頻率。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉