搜索引擎query分析有哪些技術(shù)點(diǎn)?
時(shí)間:2023-03-20 09:00:01 | 來源:電子商務(wù)
時(shí)間:2023-03-20 09:00:01 來源:電子商務(wù)
收藏別人的一些分享,感覺不錯。
Query即用戶在搜索引擎輸入查詢條件。在通用搜索引擎中,一般是指輸入的關(guān)鍵詞。而在各類行業(yè)或者垂直搜索引擎,還可以輸入類目,如優(yōu)酷網(wǎng)站中可以選擇“電影”、“電視劇”這樣的類目。在電子商務(wù)網(wǎng)站中,各種產(chǎn)品品牌、型號、款式、價(jià)格等也是常見的查詢條件。
要分析query中每個term的內(nèi)容,分詞是必不可少的工具。分詞算法從最簡單的最大正向、最大反向分詞算法,到復(fù)雜的隱馬爾科夫、CRF模型。CRF模型是一種序列標(biāo)注的機(jī)器學(xué)習(xí)方法。分詞算法最關(guān)鍵的是如何得到足夠的標(biāo)注準(zhǔn)確的語料庫,足夠的訓(xùn)練語料是模型成功的基礎(chǔ)條件。
Query按照PV從高到低排序之后。橫坐標(biāo)為query編號,縱坐標(biāo)是query的PV。從下圖可以明顯看出,query的PV分布是一個長尾分布。
每種搜索引擎的query
都有自己的特點(diǎn)。根據(jù)query的特點(diǎn)來設(shè)計(jì)自己的算法和相應(yīng)產(chǎn)品是非常必要的。例如:百度有很多查詢“從A到B怎么走”,“××怎么樣”。相信百度正是研究了這些查詢,才力推百度“貼吧”和“知道”,“百科”等產(chǎn)品的。通用搜索引擎和電子商務(wù)網(wǎng)站的query區(qū)別一定很大。例如joyo當(dāng)當(dāng)一定有大量書籍名稱的查詢。而在電子商務(wù)網(wǎng)站,有大量類目+屬性的查詢方式。如何組合的輸入條件,準(zhǔn)確分析用戶意圖,保證搜索引擎結(jié)果的召回率和準(zhǔn)確率是一個挑戰(zhàn)。
20-80定律:query 和cache
我們發(fā)現(xiàn)20%的top query,占據(jù)了80%的PV流量。如果解決了這20%的query的分析和排序問題,我們就解決了絕大多數(shù)流量的問題。
針對20%的query,我們可以優(yōu)化搜索引擎的索引結(jié)構(gòu),盡量直接返回用戶需要的信息。在query分析的模塊,我們可以存儲query的分詞、詞性標(biāo)注以及query分類等結(jié)果??傊咝Ю脙?nèi)存,用內(nèi)存換取性能的極大提升。
query的分類和“框計(jì)算”
query分類是目前通用搜索引擎必須解決的問題。當(dāng)你在百度或者google上面輸入“××市天氣”,會顯示天氣狀態(tài)圖片、溫度等;輸入“中石油”直接顯示出中石油的股價(jià);輸入“航班”直接從航班起點(diǎn)和終點(diǎn)的選擇。這也是百度所謂的“框計(jì)算”,也就是直接在搜索框完成解析,直達(dá)具體的應(yīng)用。
如何做分類呢?
假設(shè)搜索引擎已經(jīng)對網(wǎng)頁分類,那么統(tǒng)計(jì)每個query下點(diǎn)擊的頁面分類,把頁面類別的概率按照從高到低排列,也就是query的分類。也就可以知道這個query的分類。但是這種只能用在當(dāng)query的點(diǎn)擊數(shù)量足夠的時(shí)候。
另外一種辦法是通過頁面分類,用貝葉斯的方法,反推每個query可能屬于那些類別。
query的導(dǎo)航
query的分類其實(shí)是導(dǎo)航的一個基本條件。只有當(dāng)你對query的分類準(zhǔn)確,對query中每個term的詞性理解準(zhǔn)確的時(shí)候,導(dǎo)航才真正開始。
在電子商務(wù)網(wǎng)站,如Amazon、京東等網(wǎng)站。準(zhǔn)確的導(dǎo)航是非常必要的。
而準(zhǔn)確的導(dǎo)航是第一步。根據(jù)用戶輸入,在導(dǎo)航中體現(xiàn)相關(guān)熱門推薦,或者個性化推薦,是對導(dǎo)航的更進(jìn)一步的要求。
在淘寶搜索產(chǎn)品上,當(dāng)用戶輸入關(guān)鍵詞,會自動提示相應(yīng)的類目和屬性,并且把熱門的類目屬性展示在前面,而把相對冷門的類目和屬性折疊起來。最大利用網(wǎng)頁有限的展示空間。
query suggestiong
query與個性化
說到個性化,必然涉及到對用戶數(shù)據(jù)的收集。根據(jù)用戶的行為或者設(shè)置,分析用戶的年齡、性別、偏好等。同樣是搜索“咖啡館”,你在北京和上海搜索得到結(jié)果可能差異很大。
而這些分析數(shù)據(jù)來源于對每個用戶在搜索引擎的行為日志。搜索引擎都會分析每個用戶的搜索和點(diǎn)擊等行為。存儲的時(shí)候存在在分布式key-value內(nèi)存數(shù)據(jù)庫中。
用戶行為不僅僅對個別用戶本身有用。大量用戶的行為日志,被廣泛用于推薦系統(tǒng)的數(shù)據(jù)挖掘。例如用戶在當(dāng)當(dāng)joyo上面購買的書籍,就來自于大量用戶的購買和瀏覽記錄。推薦系統(tǒng)從常見的關(guān)聯(lián)規(guī)則分析,已經(jīng)進(jìn)化到各種復(fù)雜的圖關(guān)系分析算法。