時間:2022-11-24 04:30:01 | 來源:信息時代
時間:2022-11-24 04:30:01 來源:信息時代
圖像數(shù)據(jù)挖掘技術 : 從圖像數(shù)據(jù)庫和Web數(shù)據(jù)庫的海量數(shù)據(jù)中挖掘有用的圖像信息,發(fā)現(xiàn)和識別有意義的圖像模式與知識的一種技術。如今互聯(lián)網(wǎng)和Web技術已成為人們獲取信息的重要手段與途徑,使得在全球范圍內實現(xiàn)資源共享和信息交換成為可能。然而,Web上的數(shù)據(jù)是海量的,Web數(shù)據(jù)具有無結構性、動態(tài)性、異構性和Web頁面的復雜性,使人們要從眾多的Web站點中找到有用信息,尤其是圖像信息,已變得越發(fā)困難。Web數(shù)據(jù)挖掘(Web data mining)是指采用數(shù)據(jù)挖掘技術從Web站點和Web活動中抽取人們感興趣的、潛在的有用模式和隱藏在其中的有用信息,其中包括大量的圖像信息。如Web的新聞、廣告、金融、電子商務、教育等信息服務中,就包含了大量的圖像信息,它為數(shù)據(jù)挖掘提供了豐富的信息資源。
1.基于Web的圖像數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘,又稱為Internet網(wǎng)上的數(shù)據(jù)挖掘服務,是實現(xiàn)對Web存取模式、Web結構與規(guī)則,以及動態(tài)Web內容進行查找的一種技術。Web數(shù)據(jù)挖掘一般可以分為三類: Web內容挖掘、Web結構挖掘和Web用戶日志挖掘。如下以Web內容挖掘(Web content mining)為例,來說明圖像數(shù)據(jù)挖掘。Web內容挖掘是用于發(fā)現(xiàn)Web數(shù)據(jù)庫文檔中的有用信息或知識的一種挖掘方法。Web內容挖掘的對象有文本信息和多媒體信息兩類。其中多媒體信息主要是針對網(wǎng)上的各種非結構化數(shù)據(jù)(包括圖形圖片等靜態(tài)圖像、視頻/音頻動態(tài)圖像數(shù)據(jù)等復雜對象)。目前,由于網(wǎng)絡帶寬加大,圖像等多媒體信息在網(wǎng)上呈增長趨勢,這對圖像信息的挖掘提出了更高的要求。由于涉及復雜對象,實現(xiàn)這種數(shù)據(jù)挖掘技術的難度更大。
圖像數(shù)據(jù)挖掘泛指對空間數(shù)據(jù)庫、圖形庫和圖像數(shù)據(jù)庫中的圖形、光柵圖像、數(shù)字圖像和視頻圖像中的圖像數(shù)據(jù)進行挖掘,以發(fā)現(xiàn)有意義的模式。這些圖像數(shù)據(jù)包括由點、線、多邊形(區(qū)域)及其組合(如網(wǎng)格及劃分)組成的數(shù)字光柵矢量(vector)形式的圖像數(shù)據(jù)(如地圖、設計圖紙、蛋白質分子鏈三維排列圖、衛(wèi)星遙感圖像、X射線斷層攝影圖像等),也有以位圖(bitmap)形式表示的各種數(shù)字圖像數(shù)據(jù)(如彩色圖像、多光譜圖像、多視圖像和視頻(運動)圖像等)。近年來,隨著3G時代的來臨,對圖像等多媒體數(shù)據(jù)的挖掘的要求與日俱增。
2. 圖像數(shù)據(jù)挖掘算法
圖像數(shù)據(jù)的挖掘算法主要有相似搜索、多維分析、分類、聚類、關聯(lián)分析和預測分析等?,F(xiàn)以相似搜索算法為例來說明。在圖像數(shù)據(jù)庫中搜索相似數(shù)據(jù),既可基于數(shù)據(jù)描述,也可基于數(shù)據(jù)內容的搜索方法來實現(xiàn)?;跀?shù)據(jù)描述的方法,主要是在圖像描述之上建立標引(如關鍵詞、標題等)和執(zhí)行對象檢索; 基于數(shù)據(jù)內容的搜索方法,可支持多種圖像內容(如顏色、紋理、形狀、對象、小波變換等)的檢索。
(1)基于圖像內容的數(shù)據(jù)挖掘:這種挖掘方法主要采用圖像的視覺特征來標引圖像,并依賴圖像視覺特征的相似性來檢索圖像對象。常用的挖掘方法有兩種: 一種是基于圖像樣本的挖掘,它通過找出所有與給定圖像樣本視覺特征相似的圖像。其作法是從樣本中提取特征矢量或特征標識,將其與已經(jīng)提取出來并在圖像數(shù)據(jù)庫中已經(jīng)索引過的圖像特征矢量相比較,以得到與樣本圖像相似的圖像。而基于圖像特征的挖掘是指給出圖像的特征描述(如顏色、紋理、形狀等),將其轉換為特征矢量后,與圖像數(shù)據(jù)庫中的已有的圖像特征矢量相匹配。目前,基于圖像內容的數(shù)據(jù)挖掘方法已在氣象預報、醫(yī)學診斷、TV制作、針對圖像內容的Web搜索引擎和電子商務中應用。目前,已研制成功的圖像數(shù)據(jù)挖掘系統(tǒng),如按圖像內容的查詢QBIC(query by image content)系統(tǒng),可同時支持樣本查詢和按圖像特征描述查詢。有的系統(tǒng)則能同時支持基于內容和基于特征描述的查詢。以下為在圖像數(shù)據(jù)庫中常采用的一些基于圖像特征標識的相似圖像數(shù)據(jù)挖掘方法: ①基于顏色直方圖的特征標識: 其圖像特征標識僅包括圖像顏色的直方圖,而不包括任何形狀、位置或紋理信息,用于對比兩幅顏色相似的圖像; ②多特征構成的特征標識: 此法中,圖像特征標識由顏色直方圖、形狀、位置和紋理等多種特征組成。通常,可對每一個特征定義其距離函數(shù),然后綜合出總的結果; ③基于小波的特征標識: 此法中,利用圖像的小波系數(shù)作為優(yōu)勢特征標識,小波可在一個單一的框架內表示形狀、位置和紋理等信息,從而減少需查詢多種特征所耗費的時間,提高圖像數(shù)據(jù)挖掘的效率;④帶有區(qū)域粒度的小波特征標識: 此法中,特征標識的計算和比較在一定的區(qū)域粒度上進行,而不是搜索整個圖像。這種基于區(qū)域相似的搜索可以迅速找到包含有相似對象的圖像,而這些對象或許是經(jīng)過變換或伸縮過的。
(2)圖像數(shù)據(jù)的分類和預測:在多媒體數(shù)據(jù)挖掘技術中,圖像數(shù)據(jù)的分類和預測具有重要作用,它在天文學、地震學、氣象學和地理與地球科學等領域具有廣闊的應用前景。在圖像數(shù)據(jù)挖掘中,常采用決策樹實現(xiàn)圖像的分類和預測。在天文學研究中,可以天文學家分類過的天空圖像為訓練集,根據(jù)圖像特征(大小、面積、密度、圖像要素和位置)構造天體模型,以后,可以此模型為基礎,通過天文望遠鏡和太空探測器對搜集到的大量圖像進行分析處理,用于識別星系和發(fā)現(xiàn)新的天體。目前,已用這種方法成功地識別出金星上的火山。
圖像數(shù)據(jù)的分類和聚類與各種圖像處理技術密切相關,通常許多有效的圖像處理技術都可以用來實現(xiàn)圖像數(shù)據(jù)挖掘。如對圖像和視頻圖像進行關聯(lián)分析時,可以采用以下三類規(guī)則:①圖像內容和非圖像內容特征之間的關聯(lián); ②與空間關系無關的圖像內容的關聯(lián);③與空間關系有關的圖像內容的關聯(lián)。通常,在圖像數(shù)據(jù)庫與事務數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘之間存在一定的差異。首先,一個圖像包含多種對象,每個對象又具有許多特征(如關鍵詞、顏色、形狀、紋理和位置),這里存在多種關聯(lián)。因此,要采用多級分辨率逐步求精的數(shù)據(jù)挖掘策略,來降低圖像數(shù)據(jù)挖掘的代價;第二,在圖像關聯(lián)分析中,要考慮到包含多個對象的圖片可能在分析中重復出現(xiàn),因此應對圖像的關聯(lián)及其度量的定義(如支持度、可信度等)做相應的調整;第三,圖像對象之間存在重要的空間關系,如之上、之下、之間、附近等,這些特征對挖掘對象的關聯(lián)的相關性非常有用。因此,空間關系,可同其他圖像特征(如顏色、形狀、紋理和關鍵詞)一起,構成有意義的關聯(lián)。顯然,拓撲空間關系特性和空間數(shù)據(jù)挖掘方法對圖像數(shù)據(jù)挖掘具有重要作用。
(3)可視化圖像及視頻圖像挖掘:這種圖像挖掘方法是指采用數(shù)據(jù)與知識的可視化技術從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)集中發(fā)現(xiàn)隱藏在其中的有用知識,并通過人的視覺系統(tǒng)由人眼和腦來識別?!耙粓D勝過千言萬語”,對可視化數(shù)據(jù)挖掘具有現(xiàn)實意義。目前,已采用多種圖像處理語言和圖像用戶界面等在網(wǎng)絡上實現(xiàn)對靜態(tài)和動態(tài)圖像進行可視化數(shù)據(jù)挖掘。其中包括:①數(shù)據(jù)可視化: 對數(shù)據(jù)能用多種可視化方法來描述,如數(shù)據(jù)空間分布圖、曲線、曲面、三維立方圖等; ②挖掘過程可視化: 用可視化形式描述挖掘過程,如抽取、清洗、集成、預處理等各種挖掘過程用圖形或圖像表示;③挖掘結果可視化: 將挖掘后得到的知識和結果用可視化的形式表示,如散列圖、盒狀圖、決策樹、族、孤立點等。可視化圖像及視頻圖像挖掘技術與各種圖像處理技術相結合,在建立遺傳基因及DNA數(shù)據(jù)庫、空間數(shù)據(jù)庫、時序數(shù)據(jù)庫等領域獲得廣泛應用。
微信公眾號
版權所有? 億企邦 1997-2022 保留一切法律許可權利。