国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務(wù) > SE處理查詢、建立摘要及判斷重要性

SE處理查詢、建立摘要及判斷重要性

時(shí)間:2023-02-04 02:04:01 | 來源:電子商務(wù)

時(shí)間:2023-02-04 02:04:01 來源:電子商務(wù)

為了便于闡述,以下我們簡(jiǎn)稱“搜索引擎”為“SE”。

SE是如何面對(duì)上網(wǎng)者的查詢?

查詢方式指的是SE允許上網(wǎng)者提交查詢的形式??紤]到各種上網(wǎng)者的不同背景和不同的信息需求,不可能有一種普適的方式。一般認(rèn)為,對(duì)于普通上網(wǎng)者來說,最自然的方式就是“要什么就輸入什么”。但這是一種相當(dāng)模糊的說法。例如上網(wǎng)者輸入“中鐵快運(yùn)”,可能是他想了解中鐵快運(yùn)公司的聯(lián)系方式,也可能是想看看這方面的報(bào)道,也可能是他想了解外界目前對(duì)中鐵快運(yùn)有些什么評(píng)價(jià)(或是希望看到的是其他權(quán)威網(wǎng)站上關(guān)于中鐵的消息)。這是兩種相當(dāng)不同的需求。

       在其他一些情況下,上網(wǎng)者可能關(guān)心的是間接信息,例如“喜馬拉雅山的高度”,8848米應(yīng)該是他需要的,但不可能包含在這短語中。而上網(wǎng)者輸入“窗前明月光”則很可能是想知道該詞的作者是誰,或者希望能提醒前面幾句是什么。盡管如此,用一個(gè)詞或者短語來直接表達(dá)信息需求,希望網(wǎng)頁中含有該詞或者該短語中的詞,依然是主流的SE查詢模式。這不僅是因?yàn)樗拇_代表了大多數(shù)的情況,還因?yàn)樗容^容易實(shí)現(xiàn)。這樣,一般來講,系統(tǒng)面對(duì)的是查詢短語。

       就英文來說,它是一個(gè)詞的序列;就中文來說,它是包含若干個(gè)詞的一段文字。一般地,我們用q0表示上網(wǎng)者提交的原始查詢,例如,q0 =“網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室”。它首先需要被“切詞”或稱“劃詞”,即把它分成一個(gè)詞的序列。如上例,則為“網(wǎng)絡(luò) 與 分布式 系統(tǒng) 實(shí)驗(yàn)室”(注意,不同的劃詞軟件可能得出不同的結(jié)果)。然后需要?jiǎng)h除那些沒有查詢意義或者幾乎在每篇網(wǎng)頁中都會(huì)出現(xiàn)的詞(例如“的”),在本例中即為“與”。最后形成一個(gè)用于參加匹配的查詢?cè)~表,q = {t1, t2, …, tm},在本例中就是q = {網(wǎng)絡(luò),分布式,系統(tǒng),實(shí)驗(yàn)室}。

網(wǎng)頁摘要是怎么形成的?

SE給出的結(jié)果是一個(gè)有序的條目列表,每一個(gè)條目有三個(gè)基本的元素:標(biāo)題,網(wǎng)址和摘要。其中的摘要需要從網(wǎng)頁正文中生成。一般來講,從一篇文字中生成一個(gè)恰當(dāng)?shù)恼亲匀徽Z言理解領(lǐng)域的一個(gè)重要課題,人們已經(jīng)做了多年的工作并取得了一些成果。但相關(guān)的技術(shù)用到網(wǎng)絡(luò)SE來有兩個(gè)基本困難。

      一是網(wǎng)頁的寫作通常不規(guī)范,文字比較隨意,因此從語言理解的角度難以做。復(fù)雜的語言理解算法耗時(shí)太多,不適應(yīng)SE要高效處理海量網(wǎng)頁信息的需求。有人做過統(tǒng)計(jì),即使是劃詞這一項(xiàng)工作(文本理解的基礎(chǔ)),在高檔微機(jī)上每秒鐘也只能完成20篇左右網(wǎng)頁的處理。因此SE在生成摘要時(shí)要簡(jiǎn)便許多,基本上可以歸納為兩種方式,一是靜態(tài)方式,即獨(dú)立于查詢,按照某種規(guī)則,事先在預(yù)處理階段從網(wǎng)頁內(nèi)容提取出一些文字,例如截取網(wǎng)頁正文的開頭512個(gè)字節(jié)(對(duì)應(yīng)256個(gè)漢字),或者將每一個(gè)段落的第一個(gè)句子拼起來,等等。這樣形成的摘要存放在查詢子系統(tǒng)中,一旦相關(guān)網(wǎng)頁被選中與查詢項(xiàng)匹配,就讀出返回給上網(wǎng)者。

        顯然,這種方式對(duì)查詢子系統(tǒng)來說是最輕松的,不需要做另外的處理工作。但這種方式的一個(gè)最大的缺點(diǎn)是摘要和查詢無關(guān)。一篇網(wǎng)頁有可能是多個(gè)不同查詢的結(jié)果,當(dāng)上網(wǎng)者輸入某個(gè)查詢,他一般是希望摘要中能夠突出顯示和查詢直接對(duì)應(yīng)的文字,希望摘要中出現(xiàn)和他關(guān)心的文字相關(guān)的句子。因此有了“動(dòng)態(tài)摘要”方式,即在響應(yīng)查詢的時(shí)候,根據(jù)查詢?cè)~在網(wǎng)頁中的位置,提取出周圍的文字來,在顯示時(shí)將查詢?cè)~標(biāo)亮。這是目前大多數(shù)SE采用的方式。為了保證查詢的效率,需要在預(yù)處理階段劃詞的時(shí)候記住每個(gè)關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的位置。

如何鑒別一個(gè)網(wǎng)頁是否重要?

Web上的信息具有異質(zhì)性和動(dòng)態(tài)性,由于受時(shí)間和存儲(chǔ)空間的限制,即使是最大的SE也不可能將全球所有的網(wǎng)頁全部搜找過來,一個(gè)好的搜找策略是優(yōu)先搜找重要的網(wǎng)頁,以便能夠在最短的時(shí)間內(nèi)把最重要的網(wǎng)頁抓取過來。在此要求下,一方面要采用分布并行的體系結(jié)構(gòu)來協(xié)同工作,一方面要優(yōu)先搜找重要的網(wǎng)頁。對(duì)于網(wǎng)頁重要程度的評(píng)定,要依據(jù)搜找信息所針對(duì)的不同應(yīng)用而定。從而信息的搜找可以采用不同的策略。對(duì)于信息量相對(duì)較小的應(yīng)用,如為發(fā)現(xiàn)專業(yè)信息而設(shè)計(jì)的主題Web信息搜找系統(tǒng),可以依據(jù)定制的關(guān)鍵詞,優(yōu)先搜找網(wǎng)頁中包含或部分包含這些關(guān)鍵詞的網(wǎng)頁,通過提高該網(wǎng)頁URL及包含的URL的權(quán)值來達(dá)到目的。對(duì)于為處理海量數(shù)據(jù)而設(shè)計(jì)的可擴(kuò)展Web信息搜找系統(tǒng),如何評(píng)定一個(gè)網(wǎng)頁的“重要度”,目前還是一個(gè)值得研究探討的問題。

根據(jù)搜找經(jīng)驗(yàn),體現(xiàn)網(wǎng)頁重要度的特征有:

1) 網(wǎng)頁的入度大,表明被其他網(wǎng)頁引用的次數(shù)多;

2) 某網(wǎng)頁的父網(wǎng)頁入度大;

3) 網(wǎng)頁的鏡像度高,說明網(wǎng)頁內(nèi)容比較熱門,從而顯得重要;

4) 網(wǎng)頁的目錄深度小,易于上網(wǎng)者瀏覽到。

這里定義“URL目錄深度”為:網(wǎng)頁URL中除去域名部分的目錄層次,這樣的特征并非臆斷,而是從長期從事SE工作中得來的,從SE多年的工作及上網(wǎng)者行為日志中,可以反映出這種一般性規(guī)律,這樣的例子如:重要的學(xué)術(shù)論文網(wǎng)頁,因?yàn)榻?jīng)常被引用,就表現(xiàn)為入度大;如果被重要的網(wǎng)頁引用或多次被其他站點(diǎn)鏡像,也可被認(rèn)為有價(jià)值、重要,如網(wǎng)頁URL目錄深度淺,說明位于網(wǎng)站“淺層”,通常是被編輯網(wǎng)頁的人認(rèn)為重要而放在易于訪問到的地方,網(wǎng)站的主頁或各板塊的首頁一般被經(jīng)常瀏覽而顯得重要。

關(guān)鍵詞:判斷,處理,建立

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉