(1) 內容數(shù)據(jù)(content data):是Web頁面中可見的數(shù)據(jù)。它是提供信息的主體," />
時間:2022-11-27 02:30:01 | 來源:信息時代
時間:2022-11-27 02:30:01 來源:信息時代
Web數(shù)據(jù)挖掘 : 針對Web數(shù)據(jù)(Web data)進行的數(shù)據(jù)挖掘。Web數(shù)據(jù)指Web文檔數(shù)據(jù)和服務包含的數(shù)據(jù)。分為以下三類:
(1) 內容數(shù)據(jù)(content data):是Web頁面中可見的數(shù)據(jù)。它是提供信息的主體,包括文本、聲音、圖像和元數(shù)據(jù)。內容數(shù)據(jù)主要以各種文檔(document)的形式存在,如HTML文件和其他各種非文本的媒體文件。
(2)結構數(shù)據(jù)(structure data):是組織內容數(shù)據(jù)而派生的數(shù)據(jù)。Web上存在著由各種超鏈接形成的結構(也包含超鏈接的描述),分為站點結構和站間結構兩部分。
(3)使用數(shù)據(jù)(usage data): 是由用戶使用Web而衍生的數(shù)據(jù),描述Web頁面使用模式。如Web服務器端收集的Web日志,包括IP地址、頁面引用和訪問時間等。
根據(jù)Web數(shù)據(jù)種類的不同,Web數(shù)據(jù)挖掘分為以下三類:
(1) Web內容挖掘(Web content mining):是從文檔內容或其描述中抽取知識的過程。其目的是揭示網頁的主題,但并不關心誰會真正閱讀它,例如,內容挖掘可用于找出所有關于“data mining”主題的網頁。搜索引擎是內容挖掘的一個最有用的例子,但Web內容挖掘又超越基本的信息檢索技術,是基本搜索引擎的擴展。它包括兩種策略: Web文檔挖掘和搜索結果挖掘。前者是直接挖掘文檔的內容,后者是對搜索引擎的查詢結果進行進一步的處理,得到更為精確和更為有用的信息。常見的Web內容挖掘技術主要有對Web上大量文檔集合的內容或搜索結果的文本摘要、分類、聚類、關聯(lián)分析,以及利用Web文檔進行趨勢預測等。
特別需要注意的是,Web上的文本挖掘與一般的文本挖掘功能和方法類似,但是Web文檔中的標記,如〈Title〉、〈Heading〉等蘊涵了額外的信息,這些信息可以用于提高Web文檔挖掘的性能。
(2) Web結構挖掘(Web structure mining): 是從Web的組織結構和鏈接關系中挖掘規(guī)律其目的在于揭示蘊涵在這些文檔結構信息中的有用模式。例如,揭示哪些頁面通過當前頁面可以兩步內到達,但并不關心多少人會實際用到這條通路。結構挖掘的源數(shù)據(jù)是一套將文檔聯(lián)系起來的超鏈接。結構挖掘常用的表達方式是圖形方式(有向圖),這種有向圖可以映射整個網絡中鏈接所有文檔的全部鏈接。
由于文檔之間的互連,Web提供除文檔內容之外的有用信息,利用這些信息,可以對頁面進行排序,發(fā)現(xiàn)重要的頁面,通過挖掘Web結構可以發(fā)現(xiàn)頁面的結構和Web站點的結構,在此基礎上對頁面進行分類和聚類從而找到權威頁面(一個被許多Hub頁面指向的頁面稱為權威頁面; 一個鏈接到許多權威頁面的頁面稱為中樞頁面Hub),這方面工作的代表有PageRank和Hub/Authority等。
(3)Web使用挖掘(Web usage mining):是通過分析和研究Web訪問記錄中的規(guī)律,從中抽取感興趣的模式。主要包括兩個方面: 一般的訪問模式發(fā)現(xiàn)和個性化的使用記錄追蹤。一般的訪問模式發(fā)現(xiàn)通過分析使用記錄來了解用戶的訪問模式和傾向,以改進站點的組織結構。而個性化的使用記錄追蹤則傾向于分析單個用戶的偏好,其目的是根據(jù)不同用戶的訪問模式,為每個用戶提供定制的站點。使用挖掘主要集中于客戶行為的分析,特別是隨時間變化的行為分析,有時感興趣的時間片(timeframe)很短,例如,對于訪問者在一次單獨的會話中在一個站點中的訪問路徑的分析; 在其他時候時間片又會比較長,例如,對于在一個零售站點長期注冊的購買者有反復的購買行為的分析。