java+jsp+sqlserver 2008+Tomcat實(shí)現(xiàn)一個(gè)簡(jiǎn)單的搜索引擎
時(shí)間:2023-03-20 08:34:01 | 來源:電子商務(wù)
時(shí)間:2023-03-20 08:34:01 來源:電子商務(wù)
導(dǎo)讀:搜索引擎的定義就是指按照既定的策略與方法,采取相關(guān)的計(jì)算機(jī)程序,通過在互聯(lián)網(wǎng)中進(jìn)行尋找信息,并顯示信息,最后把找到的信息進(jìn)行整理和篩選,為搜索引擎的使用者提供檢索信息的服務(wù),終極目標(biāo)是為了提供給使用者,他所搜索信息相關(guān)的資料的計(jì)算機(jī)系統(tǒng)。搜索引擎的種類繁多,既可以進(jìn)行全文的索引,還可以進(jìn)行目錄的索引,不僅有集合式的搜索引擎,還有垂直搜索的引擎以及元搜索引擎。除此之外,還有門戶搜索引擎和免費(fèi)鏈接列表等等。
如今搜索引擎提供的信息資源導(dǎo)航服務(wù)已發(fā)展成互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù)之一,搜索引擎網(wǎng)站也被稱之為 “網(wǎng)絡(luò)門戶”。
根據(jù)搜集資源與提供給用戶的方式進(jìn)行區(qū)別,如今的搜索引擎可以劃分為兩類:
(1)目錄式搜索引擎:按照人為地方案或者是半自動(dòng)的工作模式去搜索信息,然后指定職業(yè)的工作人員查看信息,采取人工的方式對(duì)信息進(jìn)行篩選,最終會(huì)把檢索到的信息分類存放在指定的框架當(dāng)中。這一類信息大多數(shù)是直接與網(wǎng)站進(jìn)行交互的,只可以提供文檔目錄的查看以及直接檢索的服務(wù)。由于這一類型的搜索引擎引入了人的智能的功能,所以提供的信息質(zhì)量非常高,精確地匹配所檢索的信息;但由于需要指定人員進(jìn)行查看和分類,這無疑會(huì)使得信息的更新不夠及時(shí),而且信息量如此之大,會(huì)使得維護(hù)任務(wù)異常繁重。雅虎(yahoo!)就是這一類型的典型代表。
(2)機(jī)器人搜索引擎:利用蜘蛛 (spider)程序在互聯(lián)網(wǎng)中進(jìn)行自主的檢索資源,通過索引器搜索的信息繪制索引表,索引器就是依照使用者的輸入請(qǐng)求,查看索引庫(kù)中的內(nèi)容,最終將匹配到的結(jié)果顯示出來,供用戶查看。這一類型的服務(wù)方式是面向web的全文檢索。該類搜索引擎相比于目錄式的搜索引擎,省去了人工操作的環(huán)節(jié),使得更新更加及時(shí),而且由于是計(jì)算機(jī)自動(dòng)進(jìn)行查詢,會(huì)使得查詢得到的信息量大幅提升;但正是由于這樣,會(huì)使得返回的信息匹配率相比于目錄式檢索會(huì)有所下降,用戶所看到的信息過于龐大,還需自身進(jìn)行篩選。由于其優(yōu)點(diǎn)突出,目前,比較流行的搜索引擎大多數(shù)采取了這一種方式,這其中代表性最強(qiáng)的引擎有: google(谷歌)、Baidu(百度)、360、等等。
現(xiàn)在網(wǎng)絡(luò)的搜索引擎也已經(jīng)有不少,國(guó)際上比較著名的有Google(谷歌)等等。國(guó)內(nèi)目前也建立了很多的搜索引擎,比如:百度、360、搜狐、新浪等。其中,在信息檢索的準(zhǔn)確率和全面性這兩個(gè)指標(biāo)上,做得較好有Google、百度。 同時(shí)搜索引擎的準(zhǔn)確度及相關(guān)性還是有待科技人員進(jìn)一步提高和完善的。
以Google為例再具體的闡述一下,它可以在檢索信息時(shí)做到了快、準(zhǔn)、狠。它最厲害的優(yōu)勢(shì)在于:1、超大容量的web存儲(chǔ)空間。據(jù)保守估計(jì),Google目前收錄的Web網(wǎng)頁(yè)總量己經(jīng)高達(dá)80億。2、響應(yīng)速度及時(shí)。據(jù)數(shù)據(jù)顯示,Google(谷歌)通常搜尋所用時(shí)間大致上小于0.3 s,這么卓越的性能是基于數(shù)百臺(tái)高性能的硬件服務(wù)器以及谷歌公司所使用的的分布式并行查詢的系統(tǒng)。3、反饋信息全面。據(jù)了解,Google查詢反饋的信息不僅僅集中于各個(gè)大型熱門網(wǎng)站,同時(shí)針對(duì)的是更多的特定的Web頁(yè)面(即便是存放這些頁(yè)面的網(wǎng)站很冷門),但正是由于這樣,才會(huì)使得谷歌可以獲取的信息,能夠和使用者查找的請(qǐng)求具有較高的相關(guān)度、匹配性、準(zhǔn)確度,Google(谷歌)不斷發(fā)展改善的頁(yè)面優(yōu)先度程序和查詢到的信息最優(yōu)化的排序機(jī)制,使得谷歌能夠在搜索引擎中處于佼佼者的地位。
目錄 基本功能
項(xiàng)目結(jié)構(gòu)
項(xiàng)目截圖
總結(jié)
下載地址
基本功能 經(jīng)過對(duì)搜索引擎的研究同時(shí)與Lucene自身的特性相結(jié)合,搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)需要實(shí)現(xiàn)的功能闡述如下:
(1)支持桌面文件搜索,格式包括txt、doc、xls和ppt;
(2)支持分詞查詢
(3)支持全文搜索
(4)能夠高亮顯示搜索關(guān)鍵字
(5)顯示查詢所用的時(shí)間
(6)顯示搜索歷史、過濾關(guān)鍵字
項(xiàng)目結(jié)構(gòu) 圖中標(biāo)記文件為數(shù)據(jù)庫(kù),使用時(shí)請(qǐng)單獨(dú)使用,項(xiàng)目導(dǎo)入編譯器即可。
項(xiàng)目截圖
總結(jié) 環(huán)球信息網(wǎng)(World Wide Web),即3W,一般在計(jì)算機(jī)與信息行業(yè)用Web這個(gè)詞匯來來表示,萬維網(wǎng)是它進(jìn)入中國(guó)時(shí)所賦予的稱呼,其實(shí),這就是一個(gè)資料的匯集與存儲(chǔ)的空間。
在這個(gè)空間中,以事物為單位,一個(gè)事物也可以稱為一樣“資源”,利用URL來標(biāo)識(shí),統(tǒng)一資源標(biāo)識(shí)符”(URL。這些資源通過超文本傳輸協(xié)議(Hypertext Transfer Protocol,HTP)傳送給終端用戶,其中給到用戶手上的是一個(gè)個(gè)鏈接,然后用戶通過逐層點(diǎn)擊鏈接,就可以查看到資源,也可以獲得到資源。
萬維網(wǎng)也常常被人們誤以為是因特網(wǎng)的近義詞,在這里必須要表明的概念是:萬維網(wǎng)與因特網(wǎng)存在著本質(zhì)的區(qū)別。因特網(wǎng)(Internet)是指,把全世界所有的各類型電腦,利用網(wǎng)絡(luò)連接,所形成的硬件框架,這是一個(gè)實(shí)實(shí)在在的“網(wǎng)”。萬維網(wǎng),其本質(zhì)是一種功能,即讓使用者光看網(wǎng)絡(luò)頁(yè)面,而頁(yè)面之間又交相輝映,從而讓使用者覺得這也是一種“網(wǎng)”,但這種網(wǎng)是虛擬的,是不存在的。
可以說1994年在信息時(shí)代是一個(gè)重大突破的一年,因?yàn)槿f維網(wǎng)(World Wide Web)出現(xiàn)了。在這一改變之前,人們的信息獲取方式還是通過各種傳統(tǒng)文化傳媒,相對(duì)于萬維網(wǎng)來說是很傳統(tǒng)、笨拙的,它在開放性和廣泛的可訪問性極大的激勵(lì)了人們創(chuàng)作的積極性。所以萬維網(wǎng)的出現(xiàn)極大的縮短了人們信息獲取的時(shí)間,同時(shí)信息的時(shí)效性也得到了保障。萬維網(wǎng)一出現(xiàn)就收到了全世界各國(guó)人的追捧,人們?cè)谒霈F(xiàn)的十幾年的一個(gè)時(shí)間段中,就在萬維網(wǎng)這一平臺(tái)上發(fā)布了幾十億條的網(wǎng)頁(yè)信息,他的一個(gè)數(shù)據(jù)量是那么的龐大,粗略計(jì)算一下,萬維網(wǎng)上的網(wǎng)頁(yè)信息每天都會(huì)不斷增長(zhǎng)幾十萬。因?yàn)榫W(wǎng)絡(luò)化、數(shù)字化的信息資源,所以網(wǎng)絡(luò)信息也是有利有弊:利的一面是提高了我們的信息量;不利的一面是龐大的信息一并向我們開來,猶如破堤的江水,洶涌澎湃,造成了我們無所適從。
關(guān)于搜索引擎的由來,北美加拿大(Canada)的麥吉爾大學(xué)就必須要介紹一下了,早在上世紀(jì),90年代之初,由于網(wǎng)絡(luò)資源眾多,分散性特別大,人們?cè)谡屹Y料的時(shí)候特別費(fèi)力。麥吉爾大學(xué)的團(tuán)隊(duì)也意識(shí)到了這個(gè)問題,所以他們就研發(fā)出了Archie,這是一個(gè)可以自動(dòng)運(yùn)行的系統(tǒng),可以完成在FTP上搜集有用資源的作用。該系統(tǒng)定期會(huì)自動(dòng)搜索FTP系統(tǒng)上保存的文檔名以及相關(guān)的資源,而且還可以自行分析,如果有客戶端發(fā)出搜索請(qǐng)求,該系統(tǒng)會(huì)根據(jù)搜索請(qǐng)求的內(nèi)容,自動(dòng)提供保存在主機(jī)中文件。在以Web網(wǎng)頁(yè)為對(duì)象的搜索引擎系統(tǒng)的大背景下,搜索引擎被人們當(dāng)做了在網(wǎng)上查找信息的重要手段,通過搜索引擎系統(tǒng)人們可以在浩瀚的網(wǎng)絡(luò)海洋中第一時(shí)間找到自己真正想要的信息,并且搜索引擎的智能以及現(xiàn)在網(wǎng)頁(yè)的特性使得人們只要輸入相關(guān)的詞語(即關(guān)鍵詞)就可以找到相關(guān)的信息。
現(xiàn)如今,人們看到的百度、Google取得的顯著成效,可以說是成為了行業(yè)的領(lǐng)頭羊,所以整個(gè)世界也都把視覺一部分放置在了搜索引擎這一領(lǐng)域當(dāng)中,各種各樣的搜索服務(wù)猶如雨后春筍一般爭(zhēng)相冒出。搜索引擎不僅種類愈來愈多,而且其服務(wù)的質(zhì)量也越來越全面,從最初期的國(guó)外的Google引擎、Yahoo引擎,到如今的中國(guó)的Baidu引擎、360引擎等等。隨著web技術(shù)的不斷完善,網(wǎng)絡(luò)信息資源也是翻倍增長(zhǎng)的(變化關(guān)系是成正比的)。所以為了滿足用戶的需要,既可以快速的找到到資源,而且還可以提高資源的質(zhì)量,各類型的引擎中,必須引入檢索這一概念。此外,在企業(yè)級(jí)應(yīng)用的市場(chǎng)上,由于搜索的資源需求量大,要求的精度更加高,全文檢索的功能也就被人們重視起來了,例如在各種文件檔案的處理過程中、企業(yè)管理的軟件中。
在這樣的環(huán)境下,搜索引擎的技術(shù)也在迅猛發(fā)展。各種討論搜索引擎的文章、博客、雜志等席卷網(wǎng)絡(luò)的相關(guān)信息。在這個(gè)信息化全面進(jìn)入人們生活各層各面的時(shí)代,搜索引擎這項(xiàng)技術(shù)無疑會(huì)在最熱門的技術(shù)中占有一席之地。
下載地址
關(guān)鍵詞:簡(jiǎn)單,索引,實(shí)現(xiàn)