時(shí)間:2022-12-22 08:30:02 | 來(lái)源:信息時(shí)代
時(shí)間:2022-12-22 08:30:02 來(lái)源:信息時(shí)代
高維數(shù)據(jù)挖掘 : 針對(duì)高維數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘。高維數(shù)據(jù)是指所處理的數(shù)據(jù)記錄有較多個(gè)屬性(可能有幾十、幾百或成千上萬(wàn)個(gè)屬性),如交易數(shù)據(jù)、文檔詞頻數(shù)據(jù)、用戶(hù)評(píng)分?jǐn)?shù)據(jù)、生物序列數(shù)據(jù)、Web使用數(shù)據(jù)、基因表達(dá)數(shù)據(jù)、用向量空間模型表示的文檔數(shù)據(jù)及多媒體數(shù)據(jù)等。
高維數(shù)據(jù)挖掘的最大問(wèn)題是維災(zāi)。維災(zāi)主要表現(xiàn)在兩個(gè)方面: 一方面隨著維數(shù)的升高,索引結(jié)構(gòu)的修剪效率迅速下降,當(dāng)維數(shù)增加到一定時(shí)候時(shí),采用索引結(jié)構(gòu)還不如順序掃描; 另一方面,在高維空間中由于查詢(xún)點(diǎn)到它的最近鄰和最遠(yuǎn)鄰在很多情況下幾乎是等距離的,最近鄰的概念常常會(huì)失去意義。這樣,如果將用于低維數(shù)據(jù)的挖掘方法直接應(yīng)用于高維數(shù)據(jù)可能會(huì)產(chǎn)生完全不同的結(jié)果。由于維災(zāi)使索引結(jié)構(gòu)的性能下降或失效,從而使得算法的復(fù)雜度增加,導(dǎo)致查詢(xún)效率的下降。
高維數(shù)據(jù)挖掘的主要工作如下:
(1)高維空間中的距離函數(shù)或相似性度量函數(shù)設(shè)計(jì): 通過(guò)重新定義合適的距離函數(shù)或相似性度量函數(shù)。
(2)高效的高維數(shù)據(jù)相似性搜索算法: 設(shè)計(jì)更為高效的相似性搜索算法,包括: 對(duì)現(xiàn)未涉及或研究較少的其他類(lèi)型高維數(shù)據(jù)相似性搜索方法的研究; 對(duì)現(xiàn)有高維索引結(jié)構(gòu)或搜索算法性能的改進(jìn)。
(3) 高效的高維數(shù)據(jù)聚類(lèi)算法和異常檢測(cè)算法: 在高維索引結(jié)構(gòu)失效的情況下,在聚類(lèi)算法或異常檢測(cè)算法中采用并行算法、增量算法以及采樣技術(shù)等提高算法的效率。
(4)在高維空間中對(duì)失效的問(wèn)題的處理: 在高維情況下,最近鄰的概念失去了意義,從而也會(huì)導(dǎo)致基于距離的聚類(lèi)問(wèn)題和異常檢測(cè)問(wèn)題失去意義。這些問(wèn)題在高維情況下需要重新進(jìn)行定義,并設(shè)計(jì)相應(yīng)的挖掘算法。
(5)選維和降維: 通過(guò)選維或降維,將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),然后采用低維數(shù)據(jù)的處理方法進(jìn)行處理。研究有效的選維和降維技術(shù)是解決高維問(wèn)題的重要手段之一。
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。