国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 信息時(shí)代 > 信息檢索(數(shù)據(jù)庫(kù))

信息檢索(數(shù)據(jù)庫(kù))

時(shí)間:2022-12-02 06:30:01 | 來(lái)源:信息時(shí)代

時(shí)間:2022-12-02 06:30:01 來(lái)源:信息時(shí)代

    信息檢索 : 信息檢索包括信息的表示、存儲(chǔ)、組織和存取。信息檢索的目的是使用戶的查詢能夠從大量的信息中找到滿意的相關(guān)結(jié)果。信息檢索的處理對(duì)象是文檔(document)資源,文本(text)是文檔的一種典型的形式,但文檔并不僅僅只有文本。在信息檢索中,把文檔看作一個(gè)檢索單元,把組成檢索對(duì)象的多個(gè)文檔稱為文檔集合(document collection)。用戶可以通過(guò)自然語(yǔ)言或是關(guān)鍵詞(keyword)表達(dá)檢索需求,用戶提交的檢索需求稱為一個(gè)查詢(query)。另外,對(duì)于多媒體資源的視聽(tīng)特性的查詢,僅有關(guān)鍵詞查詢還不夠,用戶還可以提交示例查詢(query by example)。例如,一幅圖像或一段音樂(lè)。用戶的信息需求首先用查詢的形式輸入到檢索系統(tǒng)中,檢索系統(tǒng)將用戶查詢轉(zhuǎn)換成內(nèi)部表示的同時(shí),與文檔集合的內(nèi)部表示進(jìn)行比較匹配,輸出一組與用戶信息需求相關(guān)的文檔。如果用戶對(duì)結(jié)果不滿意,可以適當(dāng)調(diào)整查詢并進(jìn)行再次檢索,系統(tǒng)通過(guò)相關(guān)反饋(relevance feedback)技術(shù)使檢索結(jié)果盡量滿足用戶需求,如此反復(fù)進(jìn)行,直到用戶終止檢索為止。
早期的(或是傳統(tǒng)的)信息檢索是對(duì)純文本信息進(jìn)行檢索,各種信息檢索模型也是在檢索文本文檔的基礎(chǔ)上發(fā)展成熟的。為了實(shí)現(xiàn)信息檢索,用戶查詢和文檔集都需要轉(zhuǎn)換成某種內(nèi)部表示形式。檢索系統(tǒng)根據(jù)查詢表示,對(duì)文檔集的所有文檔進(jìn)行相似性匹配,獲取與用戶查詢相關(guān)的文檔。檢索系統(tǒng)采用的查詢和文檔集內(nèi)部表示、相似匹配的方式?jīng)Q定所采用的檢索策略和模式,從而產(chǎn)生出各種不同的信息檢索模型。
文本信息檢索是將用戶提交的查詢請(qǐng)求與文本文檔集合中的信息進(jìn)行相似度比較,檢索系統(tǒng)根據(jù)相似匹配度量模式,將檢索出的一組相似度高的信息反饋給用戶。在文本信息檢索中,常常用文檔中含有的詞匯集合來(lái)近似表示文檔的內(nèi)容。但并不是全部詞匯都可以用來(lái)描述文檔。當(dāng)用一組詞匯近似描述文檔時(shí),提取能夠描述文檔內(nèi)容的特征詞就顯得極為重要。我們稱這種特征詞為索引項(xiàng)(indexing term),從文檔中提取索引項(xiàng)的處理稱為索引(indexing)。索引項(xiàng)的加權(quán)是對(duì)各個(gè)索引項(xiàng)賦予使查準(zhǔn)率(precision)和查全率(recall)提高的權(quán)重。查準(zhǔn)率和查全率則是衡量信息檢索效率的兩個(gè)重要指標(biāo)。文本信息檢索技術(shù)已被后來(lái)發(fā)展的多媒體信息檢索技術(shù)繼承和改進(jìn)。
多媒體信息檢索是指根據(jù)用戶查詢請(qǐng)求,在文本、圖形、圖像、視頻和音頻等為表現(xiàn)形式的各種媒體數(shù)據(jù)庫(kù)中,按相似匹配度量模式與用戶查詢進(jìn)行比較,將相似度高的一組多媒體信息反饋給用戶。由于早期計(jì)算機(jī)處理能力的限制,無(wú)法實(shí)現(xiàn)快速處理圖像、視頻和音頻等信息,信息檢索的主要對(duì)象以純文本文檔為主,傳統(tǒng)的信息檢索也就是指針對(duì)無(wú)結(jié)構(gòu)的文本的檢索。為了檢索圖像、視頻和音頻等媒體信息,需要對(duì)這些媒體進(jìn)行文本(關(guān)鍵字)標(biāo)注,采用檢索純文本的檢索技術(shù)實(shí)現(xiàn)對(duì)多媒體信息的檢索。隨著通信網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)的迅速發(fā)展,多媒體信息已經(jīng)廣泛應(yīng)用于Internet以及各個(gè)領(lǐng)域的信息系統(tǒng)中,采用人工標(biāo)注檢索多媒體信息的方法難以適應(yīng)發(fā)展需要。這不僅由于大量的多媒體標(biāo)注費(fèi)時(shí)、費(fèi)力,人工難以勝任,而且圖像、視頻、音頻數(shù)據(jù)本身包含大量的難以用文本表示的信息線索,由此基于內(nèi)容的檢索(consent-based retrieval CBR)技術(shù)應(yīng)運(yùn)而生?;趦?nèi)容的檢索是指計(jì)算機(jī)自動(dòng)對(duì)圖像、視頻、音頻等媒體內(nèi)容進(jìn)行分析,提取媒體和媒體對(duì)象的內(nèi)容語(yǔ)義特征,根據(jù)這些特征和上下文聯(lián)系進(jìn)行檢索。為了在大量的應(yīng)用中都能使用多媒體內(nèi)容,實(shí)現(xiàn)多媒體內(nèi)容檢索,很重要的一點(diǎn)是需要制定對(duì)多媒體內(nèi)容的描述標(biāo)準(zhǔn)。MPEG-7標(biāo)準(zhǔn)為實(shí)現(xiàn)基于內(nèi)容的檢索提供了共同的描述基礎(chǔ),使得多媒體數(shù)據(jù)的創(chuàng)建、交換、重用和檢索更加有效。
與通常的系統(tǒng)性能評(píng)價(jià)不同,檢索系統(tǒng)的性能評(píng)價(jià)主要考察系統(tǒng)的檢索結(jié)果和用戶信息請(qǐng)求的匹配程度,是否完備、排序等情況。由于信息檢索的需求是不斷變化,無(wú)法窮盡的,因此,對(duì)檢索系統(tǒng)的有限次的檢索結(jié)果評(píng)價(jià)只能反映系統(tǒng)暫時(shí)的性能,只能得到近似指標(biāo)。目前常用的評(píng)價(jià)方案是在公認(rèn)的測(cè)試文檔集上,選擇有代表性的若干檢索請(qǐng)求,在一定的相關(guān)性判定準(zhǔn)則基礎(chǔ)上,通過(guò)比較各系統(tǒng)返回結(jié)果,得到系統(tǒng)檢索性能的評(píng)價(jià)結(jié)論。評(píng)價(jià)結(jié)論常常用一些可度量的評(píng)價(jià)指標(biāo)來(lái)表示,評(píng)價(jià)中最常用的指標(biāo)就是查準(zhǔn)率和查全率。目前,一些國(guó)際、國(guó)內(nèi)的信息檢索領(lǐng)域會(huì)議,提供檢索系統(tǒng)的性能評(píng)測(cè)比賽以促進(jìn)檢索技術(shù)的進(jìn)步和實(shí)用化。最著名的信息檢索評(píng)測(cè)國(guó)際會(huì)議是文本檢索會(huì)議(text retrieval conference,TREC),每年舉行一次。TREC把信息檢索劃分成不同的技術(shù)領(lǐng)域,這也反映了目前信息檢索技術(shù)的發(fā)展方向。
相關(guān)反饋是一種提高信息檢索系統(tǒng)服務(wù)質(zhì)量的技術(shù)手段。在信息檢索過(guò)程中,用戶通過(guò)對(duì)系統(tǒng)返回的結(jié)果進(jìn)行相關(guān)程度的評(píng)價(jià),以便能獲得更為滿意的查詢結(jié)果。一般來(lái)說(shuō),檢索系統(tǒng)會(huì)在“相關(guān)”和“不相關(guān)”之間,設(shè)定多個(gè)等級(jí),讓用戶在眾多的返回結(jié)果中,根據(jù)具體情況對(duì)某個(gè)檢索結(jié)果設(shè)定反饋評(píng)價(jià)等級(jí),有些檢索系統(tǒng)提供的評(píng)價(jià)方式是簡(jiǎn)短的描述。系統(tǒng)會(huì)在下一次檢索處理時(shí),綜合考慮用戶的反饋信息,提高檢索結(jié)果的準(zhǔn)確度。支持相關(guān)反饋的檢索系統(tǒng),一次檢索處理過(guò)程,用戶往往需要和檢索系統(tǒng)進(jìn)行多次反饋交互才能獲得比較滿意的檢索結(jié)果。相關(guān)反饋技術(shù)的主要應(yīng)用領(lǐng)域有: Web信息檢索、圖像信息檢索、音視頻信息檢索等。
Web信息必須以文檔的形式或數(shù)據(jù)庫(kù)的形式有序地組織起來(lái),才便于用戶搜索和查詢。按信息組織形式不同,網(wǎng)絡(luò)信息的檢索方式主要有下面三種基本形式: 基于超鏈的信息瀏覽、基于目錄索引的信息查詢、基于搜索引擎的信息檢索。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的進(jìn)步,20世紀(jì)80~90年代Internet得到蓬勃發(fā)展,成為全球最大的信息資源庫(kù)。Internet的迅速發(fā)展和普及導(dǎo)致網(wǎng)上信息成指數(shù)地增長(zhǎng),也極大地促進(jìn)了信息檢索技術(shù)的發(fā)展和應(yīng)用,信息檢索的對(duì)象不僅僅是可以集中管理的相對(duì)穩(wěn)定的文檔庫(kù),而是開(kāi)放的、動(dòng)態(tài)的、分布的、管理松散的網(wǎng)絡(luò)多媒體信息內(nèi)容。Web信息具有大規(guī)模、分布性、無(wú)結(jié)構(gòu)性、動(dòng)態(tài)性和非規(guī)范性的特點(diǎn)。這些特點(diǎn)對(duì)檢索Web信息帶來(lái)了新的挑戰(zhàn)。
搜索引擎是幫助用戶檢索網(wǎng)上信息的檢索系統(tǒng),用戶向系統(tǒng)輸入與所需信息有關(guān)的關(guān)鍵詞(或是關(guān)鍵詞構(gòu)成的查詢式),系統(tǒng)輸出顯示含有關(guān)鍵詞的網(wǎng)頁(yè)一覽表。通常,檢索結(jié)果中包含網(wǎng)頁(yè)的URL和標(biāo)題、關(guān)鍵詞所在位置的前后若干行,用戶從結(jié)果中再選取適當(dāng)?shù)木W(wǎng)頁(yè)。自1994年以來(lái),已經(jīng)有眾多的搜索引擎在Internet上運(yùn)行,搜索引擎逐漸成為Web信息檢索利用的主要方式之一。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉