文本數(shù)據(jù)挖掘(text datamining)
針對(duì)文本數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘。文本數(shù)據(jù)是一類(lèi)常見(jiàn)的數(shù)據(jù)。比如,電子書(shū)籍、電子報(bào)刊、電子郵件、網(wǎng)頁(yè)和各種文" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢(xún) 在線咨詢(xún)
18143453325 在線咨詢(xún)
所在位置: 首頁(yè) > 營(yíng)銷(xiāo)資訊 > 信息時(shí)代 > 文本數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(數(shù)據(jù)庫(kù))

文本數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(數(shù)據(jù)庫(kù))

時(shí)間:2022-11-28 08:30:02 | 來(lái)源:信息時(shí)代

時(shí)間:2022-11-28 08:30:02 來(lái)源:信息時(shí)代

    文本數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn) : 參見(jiàn)文本數(shù)據(jù)挖掘。
文本數(shù)據(jù)挖掘(text datamining)
針對(duì)文本數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘。文本數(shù)據(jù)是一類(lèi)常見(jiàn)的數(shù)據(jù)。比如,電子書(shū)籍、電子報(bào)刊、電子郵件、網(wǎng)頁(yè)和各種文本格式的文檔資料等都是文本數(shù)據(jù)。文本數(shù)據(jù)中有些是結(jié)構(gòu)化的,如,標(biāo)題、作者出版日期等; 有些是非結(jié)構(gòu)化的,如,摘要、內(nèi)容和圖表等。文本數(shù)據(jù)挖掘主要包括:
(1)文本摘要:從文檔中抽取關(guān)鍵信息,用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行摘要或解釋,以便用戶不需要瀏覽全文即可了解文檔或文檔集合的總體內(nèi)容。例如,搜索引擎在向用戶返回查詢(xún)結(jié)果時(shí),常常給出文檔摘要,目前,大部分搜索引擎采用的方法是簡(jiǎn)單截取文檔的前幾行。
(2)文本分類(lèi):按照預(yù)先定義的主題類(lèi)別,為文檔集合中的每個(gè)文檔確定一個(gè)類(lèi)別。從而使用戶不但能夠方便地瀏覽文檔,而且可以通過(guò)限制搜索范圍使得文檔的查找更為容易。典型的算法如TFIDF和Naive Bayes等。
(3)文本聚類(lèi):不同于文本分類(lèi),文本聚類(lèi)沒(méi)有預(yù)先定義好主題類(lèi)別,其目的是將文檔集合分成若干簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能大,而不同簇間的相似度盡可能小。例如,利用文本聚類(lèi)技術(shù)將搜索引擎的檢索結(jié)果劃分為若干個(gè)簇,從而使用戶只需要考慮那些相關(guān)的簇,大大縮小了所需要瀏覽結(jié)果的數(shù)量。典型的算法有以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的劃分法。
(4)文本關(guān)聯(lián)分析:從文檔集合中找出不同詞語(yǔ)之間的關(guān)系。如Brin提出了一種從大量文檔中發(fā)現(xiàn)一對(duì)詞語(yǔ)出現(xiàn)模式的算法,并用來(lái)在文本文檔上尋找作者和書(shū)名的出現(xiàn)模式,從而發(fā)現(xiàn)了數(shù)千本在Amazon網(wǎng)站上找不到的新書(shū)籍。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉