時間:2022-11-10 18:30:01 | 來源:信息時代
時間:2022-11-10 18:30:01 來源:信息時代
時空數(shù)據(jù)挖掘 : 從時空數(shù)據(jù)庫中發(fā)現(xiàn)知識,即從時空數(shù)據(jù)庫中提取用戶感興趣的時空模式與特征、時空與非時空數(shù)據(jù)的普遍關系及其他一些隱含在數(shù)據(jù)庫中普遍的數(shù)據(jù)特征的一種工具,或稱時空知識發(fā)現(xiàn)(spatiotemporal knowledge discovery)?,F(xiàn)實世界中,時間、屬性、空間是地理事物的三個不可分割的特性。與一般的關系數(shù)據(jù)庫相比,時空數(shù)據(jù)庫中既存在著非時空數(shù)據(jù)之間的語義關聯(lián)信息,還存在著時空數(shù)據(jù)之間、時空數(shù)據(jù)與非時空數(shù)據(jù)之間的特殊語義信息。時空數(shù)據(jù)挖掘技術對于交通管理、環(huán)境監(jiān)測等時空應用具有重要的意義。
1. 時空數(shù)據(jù)及其類型
在現(xiàn)實世界中,不同的時空應用所關注的時空數(shù)據(jù)的類型有所差別,不同的時空數(shù)據(jù)模型所能夠表達的時空數(shù)據(jù)類型也有所不同。時空數(shù)據(jù)類型的差異使得時空數(shù)據(jù)挖掘所針對的數(shù)據(jù)對象不同,從而形成不同類型的時空數(shù)據(jù)挖掘問題。在時空數(shù)據(jù)挖掘研究中,時空數(shù)據(jù)主要可以分為以下幾類:
(1)數(shù)值型序列時空數(shù)據(jù):按時間序列構成的數(shù)值時空數(shù)據(jù)序列。對時間序列而言,單個或多個時間序列都可以作為時空挖掘對象。
(2)事務型序列時空數(shù)據(jù):按時間序列構成的事務型記錄序列。對事務序列而言,一般都是以一組這類序列的集合構成挖掘的對象。
(3)事件序列時空數(shù)據(jù):按時間序列構成的事件序列。大多數(shù)事件序列的挖掘研究是對單個事件序列進行的。
2. 時空知識及其類型
針對時空數(shù)據(jù)的特點,從時空數(shù)據(jù)庫中可以發(fā)現(xiàn)的知識,主要有以下幾種類型:
(1)一般的幾何知識:指某類對象的大小、形狀等一般的幾何特征。可通過計算和統(tǒng)計得出時空對象幾何特征的最小值、最大值、均值、方差、直方圖等,再根據(jù)背景知識歸納出高水平的一般幾何知識。
(2) 時空分布規(guī)律:指時空對象在地理空間的分布規(guī)律,包括垂直方向分布規(guī)律、水平方向分布規(guī)律以及垂直和水平方向的聯(lián)合分布規(guī)律。垂直方向分布指時空對象沿高程帶的分布,水平方向分布指時空對象在二維空間區(qū)域的分布規(guī)律,垂直和水平方向的聯(lián)合分布指不同的空間區(qū)域中時空對象沿高程帶的分布規(guī)律。
(3)時空關聯(lián)規(guī)則: 指時空對象間相離、相鄰、相接、部分覆蓋、相交、包含等與空間關系相關的關聯(lián)規(guī)則。
(4)時空聚類規(guī)則:指時空對象按相似特征進行聚類的規(guī)則。
(5)時空特征規(guī)則:指時空對象的幾何特征和屬性特征的共性特征規(guī)律。
(6)時空區(qū)分規(guī)則:指時空對象間幾何特征和屬性特征的區(qū)別特性,即可以區(qū)分不同類對象的特征規(guī)律。
(7)時空演變規(guī)則:指時空對象按時間的演變規(guī)則,即時空變化的規(guī)律。
3. 時空數(shù)據(jù)的挖掘方法
時空數(shù)據(jù)挖掘繼承了空間數(shù)據(jù)挖掘和時態(tài)數(shù)據(jù)挖掘的一些相關方法。時空數(shù)據(jù)挖掘的研究主要有兩種方式: 一種是在空間數(shù)據(jù)挖掘方法中嵌入時間特征; 另一種是在時態(tài)數(shù)據(jù)挖掘方法中加入空間特征。目前提出的時空數(shù)據(jù)挖掘方法主要有:
(1)統(tǒng)計方法:是時空數(shù)據(jù)分析的常用方法,可有效地處理數(shù)字型數(shù)據(jù)。使用該方法一般先建立一個統(tǒng)計模型,然后根據(jù)模型進行知識抽取。這類方法有時需要數(shù)據(jù)滿足統(tǒng)計不相關假設。但對于時空數(shù)據(jù)庫,這種假設在很多情況下難以滿足。另外統(tǒng)計方法難以處理字符型數(shù)據(jù)。
(2)歸納方法:通過數(shù)據(jù)概括和綜合來歸納出一般性的時空模式或特征。歸納法一般需要背景知識,常以概念樹的形式給出。在時空數(shù)據(jù)庫中,背景知識一般可通過屬性概念樹和時空關系概念樹給出。
(3)聚類方法:按一定的距離或相似度將數(shù)據(jù)聚類成若干可相互區(qū)分的集合。它與歸納方法不同之處在于可以不需要舊知識而直接發(fā)現(xiàn)一些有意義的結構與模式。時空聚類方法可采用時空拓撲關系分析、時空距離分析等方法,旨在發(fā)現(xiàn)時空對象在時空上的相接、相鄰等關聯(lián)關系。
(4)粗糙集(rough set)方法: 粗糙集理論是波蘭華沙大學Z. Pawlak教授在1982年提出的一種智能數(shù)據(jù)決策分析工具,被廣泛研究并應用于不精確、不確定、不完全的信息的分類分析和知識獲取。粗糙集理論為時空數(shù)據(jù)挖掘開辟了一條新途徑,可用于時空數(shù)據(jù)庫屬性數(shù)據(jù)的一致性分析、屬性的重要性、屬性依賴、屬性表簡化、最小決策和分類算法生成,使得在保持普遍化數(shù)據(jù)內涵的前提條件下最大限度地精練知識。
(5)云理論: 是用于處理不確定性的一種新理論,由云模型、不確定性推理和云變換三大支柱構成。云理論將模糊性和隨機性結合起來,彌補了作為模糊集理論基石的隸屬函數(shù)概念的固有缺陷,為時空數(shù)據(jù)挖掘中定量與定性相結合的處理方法奠定了基礎。
在時空數(shù)據(jù)挖掘系統(tǒng)中,常常要綜合應用以上的時空數(shù)據(jù)挖掘方法,此外還需要與常規(guī)的數(shù)據(jù)庫技術充分結合。例如在時空數(shù)據(jù)庫中挖掘空間演變規(guī)則時首先可利用空間數(shù)據(jù)庫的疊置分析等方法提取出變化了的數(shù)據(jù),再用綜合統(tǒng)計方法和歸納方法得到空間演變規(guī)則。此外,除了上述等方法,還有一些其他技術,如數(shù)據(jù)可視化技術、知識表示技術等。雖然這些技術并不普遍地應用于時空數(shù)據(jù)挖掘,但其處理方法也會對時空數(shù)據(jù)挖掘有所啟發(fā)。
4.時空數(shù)據(jù)挖掘的實現(xiàn)步驟
時空數(shù)據(jù)挖掘的實現(xiàn),一般包括以下步驟:
(1)數(shù)據(jù)準備:熟悉相關領域的背景知識,調查和分析用戶需求。
(2)數(shù)據(jù)選擇:根據(jù)用戶需求從時空數(shù)據(jù)庫中選擇數(shù)據(jù)集合。
(3)數(shù)據(jù)預處理:檢查被選擇的數(shù)據(jù)集合的完整性及一致性,除去其中的噪音數(shù)據(jù),并補充缺失的數(shù)據(jù)。
(4)數(shù)據(jù)縮減:通過投影等操作減少數(shù)據(jù)集的大小,根據(jù)用戶需求確定時空數(shù)據(jù)挖掘的目標以及擬挖掘的知識類型。
(5)確定時空數(shù)據(jù)挖掘算法:根據(jù)時空數(shù)據(jù)挖掘的目標確定合適的挖掘算法,包括選取合適的模型和參數(shù),并使得算法和整個時空數(shù)據(jù)挖掘的評判標準相一致。
(6)數(shù)據(jù)挖掘:執(zhí)行時空數(shù)據(jù)挖掘的過程,即使用確定的挖掘算法從數(shù)據(jù)集中提取出用戶所需的知識。這些知識可以用一種特定的方式表示,或使用一些常用表示方式,如產(chǎn)生式規(guī)則等。
(7)模式解釋:對挖掘出來的結構、模式或特征等進行解釋。此過程可能會返回到前面的某些步驟反復提取以取得更為有效的知識。
(8)知識呈現(xiàn)與評價:將挖掘出來的知識呈現(xiàn)給用戶,并對知識進行一致性檢驗,以保證所抽取的知識不與以前的知識沖突。
微信公眾號
版權所有? 億企邦 1997-2022 保留一切法律許可權利。