垂直搜索框架
時(shí)間:2022-02-12 11:00:01 | 來源:信息時(shí)代
時(shí)間:2022-02-12 11:00:01 來源:信息時(shí)代
抓取
也就是蜘蛛程序,負(fù)責(zé)從信息源抓取數(shù)據(jù),蜘蛛程序通常是基于預(yù)先構(gòu)造的模板工作的,無模板的蜘蛛程序只能處理結(jié)構(gòu)相對(duì)簡(jiǎn)單的信息,抓取系統(tǒng)涉及的關(guān)鍵技術(shù)點(diǎn)有爬行路徑分析、增量抓取與全抓取、信息構(gòu)造完整性、信息唯一性識(shí)別、多網(wǎng)頁信息整合、自動(dòng)標(biāo)引(此功能也可以單獨(dú)提出)等。
索引
把抓來的信息建立類似書目的數(shù)據(jù)文件,以便于實(shí)現(xiàn)高速檢索。索引系統(tǒng)涉及的關(guān)鍵技術(shù)點(diǎn)有分詞技術(shù)、預(yù)評(píng)分和后評(píng)分、增量索引與全索引、排序技術(shù)、熱點(diǎn)詞高速緩存、標(biāo)準(zhǔn)檢索語句解析等。
搜索
就是提供搜索功能的網(wǎng)站,網(wǎng)站的具體表現(xiàn)形式大不相同,但是都提供全文搜索功能,除了搜索功能外,還提供與業(yè)務(wù)相關(guān)的其他功能,譬如按地域?qū)Ш綑z索、會(huì)員注冊(cè)、訂閱等。很多人把GOOGLE、百度稱之為站外搜索,而把其他基于數(shù)據(jù)庫的搜索稱之為站內(nèi)搜索,其實(shí)所有的搜索引擎提供的都是站內(nèi)搜索,數(shù)據(jù)都是預(yù)先存儲(chǔ)在本地的。