時(shí)間:2022-11-24 18:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-11-24 18:30:01 來(lái)源:信息時(shí)代
搜索引擎 : 幫助用戶(hù)檢索網(wǎng)上信息的檢索系統(tǒng)。用戶(hù)向系統(tǒng)輸入與所需信息有關(guān)的關(guān)鍵詞(或是關(guān)鍵詞構(gòu)成的查詢(xún)式),系統(tǒng)輸出顯示含有關(guān)鍵詞的網(wǎng)頁(yè)一覽表。通常,檢索結(jié)果中包含網(wǎng)頁(yè)的URL和標(biāo)題、關(guān)鍵詞所在位置的前后若干行,用戶(hù)從結(jié)果中再選取適當(dāng)?shù)木W(wǎng)頁(yè)。自1994年以來(lái),已經(jīng)有眾多的搜索引擎在Internet上運(yùn)行,搜索引擎逐漸成為Web信息檢索利用的主要方式之一。
搜索引擎基本設(shè)計(jì)思想是,由一個(gè)Robot(或crawler,spider)程序以某種策略自動(dòng)地遍歷Web,搜集和發(fā)現(xiàn)信息。將搜集到的信息下載到本地文檔庫(kù),由索引器為搜集到的信息建立索引。對(duì)于用戶(hù)提出的查詢(xún)要求,由檢索器對(duì)索引庫(kù)進(jìn)行搜索,找出匹配的文檔并將查詢(xún)結(jié)果返回給用戶(hù)。在查詢(xún)時(shí),用戶(hù)不需要知道搜索引擎中索引的具體組織形式。這類(lèi)搜索引擎一般具有龐大的全文索引數(shù)據(jù)庫(kù),能很好地實(shí)現(xiàn)信息的全面獲取和即時(shí)更新,信息量大、范圍廣,且不需人工干預(yù)。缺點(diǎn)是返回信息過(guò)多,有許多無(wú)關(guān)信息,需要用戶(hù)從結(jié)果中進(jìn)行篩選。
從搜索結(jié)果來(lái)源的角度,搜索引擎又可細(xì)分為兩種,一種是擁有自己的搜索程序,既Robot程序,并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,如Google(http://www.google.com/)和百度(http://www.baidu.com/); 另一種則是租用其他引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos引擎(http://www.lycos.com/)等。
還有一種目錄索引的網(wǎng)上信息檢索方式。目錄索引中最具代表性的就是雅虎(http://www.yahoo.com/)。與全文搜索引擎的工作方式不同。首先目錄索引并不使用自動(dòng)搜集軟件Robot下載Web文檔,而是由人工方式或半自動(dòng)方式搜集,或者由Web站點(diǎn)的作者主動(dòng)提交信息,建立數(shù)據(jù)庫(kù)。其次目錄一般也不對(duì)文檔全文自動(dòng)建立索引,而是由人工對(duì)某個(gè)站點(diǎn)進(jìn)行訪問(wèn)后,對(duì)該站點(diǎn)進(jìn)行評(píng)價(jià)和簡(jiǎn)要描述,并根據(jù)站點(diǎn)內(nèi)容將其歸為一個(gè)預(yù)先分好的類(lèi)別。經(jīng)過(guò)處理的Web信息資源按照主題分類(lèi),一般一級(jí)的種類(lèi)有12~26個(gè)類(lèi)別,各級(jí)子類(lèi)逐層向下深入,葉結(jié)點(diǎn)含有指向Web資源的信息。盡管這種分類(lèi)可以看作為是一棵樹(shù),但各子類(lèi)之間也存在交叉引用關(guān)系,所以這是一個(gè)有向非循環(huán)圖。目錄的覆蓋率非常低,用戶(hù)得到的結(jié)果通常更相關(guān)。
目錄信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接查詢(xún)服務(wù)。其特點(diǎn)是信息準(zhǔn)確、導(dǎo)航質(zhì)量高;缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。需要說(shuō)明的是,目錄提供的是對(duì)分類(lèi)以及Web信息描述的索引,這與搜索引擎提供對(duì)文檔內(nèi)容的全文索引是不同的。
隨著網(wǎng)上信息越來(lái)越多,單純靠人工整理網(wǎng)站目錄取得較高精度查詢(xún)結(jié)果的優(yōu)勢(shì)逐漸退化——對(duì)海量的信息進(jìn)行高質(zhì)量的人工分類(lèi)已經(jīng)不太現(xiàn)實(shí)。目前有兩個(gè)發(fā)展方向。一是利用文本自動(dòng)分類(lèi)技術(shù),在搜索引擎上提供對(duì)每篇網(wǎng)頁(yè)的自動(dòng)分類(lèi); 另一個(gè)發(fā)展方向是將自動(dòng)網(wǎng)頁(yè)抓取和一定的人工分類(lèi)目錄相結(jié)合,希望形成一個(gè)既有高信息覆蓋率,也有高查詢(xún)準(zhǔn)確性的服務(wù)。
搜索引擎和目錄索引系統(tǒng)這兩種Web信息檢索系統(tǒng)各有所長(zhǎng)。通常,由于搜索引擎具有龐大的全文索引數(shù)據(jù)庫(kù),因此適用于檢索難以查找的信息或者一些比較模糊的主題。而目錄索引有助于逐步縮小主題或者查找某個(gè)主題的常見(jiàn)的、質(zhì)量較高的信息。由于這兩種系統(tǒng)彼此互補(bǔ),因此,便出現(xiàn)將兩者特點(diǎn)結(jié)合起來(lái)的混合系統(tǒng)?,F(xiàn)有的一些著名的搜索引擎和目錄索引系統(tǒng)也呈現(xiàn)出逐漸融合的趨勢(shì)。Google借用Open Directory目錄提供分類(lèi)查詢(xún),Yahoo!也已正式推出自己的全文搜索引擎。但它最顯著的特點(diǎn)在于瀏覽,以及連接著數(shù)據(jù)庫(kù)中每一記錄的超文本分類(lèi)體系。
各個(gè)搜索引擎都有各自的特點(diǎn)和優(yōu)勢(shì),為了對(duì)同一查詢(xún)請(qǐng)求在不同的搜索引擎上搜索得到更有效的檢索結(jié)果,又提出了元搜索引擎的概念。元搜索引擎的設(shè)計(jì)思想是,通過(guò)一個(gè)統(tǒng)一的用戶(hù)查詢(xún)接口,向各個(gè)搜索引擎提交相同的查詢(xún),并組合這些資源的查詢(xún)結(jié)果返回給用戶(hù),以幫助用戶(hù)在多個(gè)搜索引擎中選擇合適的搜索引擎來(lái)實(shí)現(xiàn)檢索。元搜索引擎是對(duì)分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制。元搜索引擎與搜索引擎的主要區(qū)別在于: 搜索引擎擁有獨(dú)立的網(wǎng)絡(luò)資源搜集器和索引數(shù)據(jù)庫(kù),元搜索引擎一般沒(méi)有自己獨(dú)立的索引數(shù)據(jù)庫(kù),也不需要搜集網(wǎng)頁(yè)。
搜索引擎、元搜索引擎等Web信息檢索系統(tǒng)通常作為大型的檢索服務(wù)程序運(yùn)行,同時(shí)響應(yīng)多個(gè)用戶(hù)的請(qǐng)求,但是這些系統(tǒng)不能根據(jù)用戶(hù)的興趣需求來(lái)定制檢索結(jié)果。不同的領(lǐng)域背景、知識(shí)結(jié)構(gòu)的用戶(hù)對(duì)文檔要求是不同的,其對(duì)文檔的相關(guān)性判斷也是不同的。即使是同一個(gè)用戶(hù),在不同時(shí)期所要求的結(jié)果也各有不同。
目前,主要的搜索引擎大都是用戶(hù)驅(qū)動(dòng)模式的,即由用戶(hù)提出查詢(xún)請(qǐng)求,系統(tǒng)做出響應(yīng)。這樣缺乏對(duì)Web信息進(jìn)行監(jiān)控,并在出現(xiàn)用戶(hù)感興趣的信息時(shí)主動(dòng)通知用戶(hù)的能力。
信息檢索代理提供了一種完全不同的Web信息檢索模式。信息檢索代理是一些智能化程序,通過(guò)用戶(hù)日常的檢索、瀏覽等行為來(lái)學(xué)習(xí)用戶(hù)的興趣,推理用戶(hù)的需求,對(duì)信息進(jìn)行過(guò)濾,為用戶(hù)提供預(yù)定(定制)的信息。例如,Carnegie Mellon大學(xué)開(kāi)發(fā)的WebWatcher、Washington大學(xué)開(kāi)發(fā)的ShopBot、Stanford大學(xué)開(kāi)發(fā)的Fab等。在這些系統(tǒng)中,信息檢索工作的開(kāi)展不需要用戶(hù)的參與,而由檢索代理利用自身的機(jī)制、知識(shí)等進(jìn)行任務(wù)規(guī)劃、問(wèn)題求解,從而實(shí)現(xiàn)主動(dòng)的、個(gè)性化的信息檢索。
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
客戶(hù)&案例
營(yíng)銷(xiāo)資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。