pagerank算法總結(jié)
時(shí)間:2023-06-20 09:42:01 | 來(lái)源:營(yíng)銷(xiāo)百科
時(shí)間:2023-06-20 09:42:01 來(lái)源:營(yíng)銷(xiāo)百科
pagerank算法總結(jié):
1.PageRank 基本思想:如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/C(T)
其中PR(T)為T(mén)的PageRank值,C(T)為T(mén)的出鏈數(shù),則A的PageRank值為一系列類(lèi)似于T的頁(yè)面重要性得分值的累加。
優(yōu)點(diǎn):是一個(gè)與查詢(xún)無(wú)關(guān)的靜態(tài)算法,所有網(wǎng)頁(yè)的PageRank值通過(guò)離線(xiàn)計(jì)算獲得;有效減少在線(xiàn)查詢(xún)時(shí)的計(jì)算量,極大降低了查詢(xún)響應(yīng)時(shí)間。
不足:人們的查詢(xún)具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很?chē)?yán)重的對(duì)新網(wǎng)頁(yè)的歧視。
2.Topic-Sensitive PageRank(主題敏感的PageRank) 基本思想:針對(duì)PageRank對(duì)主題的忽略而提出。核心思想:通過(guò)離線(xiàn)計(jì)算出一個(gè)PageRank向量集合,該集合中的每一個(gè)向量與某一主題相關(guān),即計(jì)算某個(gè)頁(yè)面關(guān)于不同主題的得分。主要分為兩個(gè)階段:主題相關(guān)的PageRank向量集合的計(jì)算和在線(xiàn)查詢(xún)時(shí)主題的確定。
優(yōu)點(diǎn):根據(jù)用戶(hù)的查詢(xún)請(qǐng)求和相關(guān)上下文判斷用戶(hù)查詢(xún)相關(guān)的主題(用戶(hù)的興趣)返回查詢(xún)結(jié)果準(zhǔn)確性高。
不足:沒(méi)有利用主題的相關(guān)性來(lái)提高鏈接得分的準(zhǔn)確性。
3.Hilltop 基本思想:與PageRank的不同之處:僅考慮專(zhuān)家頁(yè)面的鏈接。主要包括兩個(gè)步驟:專(zhuān)家頁(yè)面搜索和目標(biāo)頁(yè)面排序。
優(yōu)點(diǎn):相關(guān)性強(qiáng),結(jié)果準(zhǔn)確。
不足:專(zhuān)家頁(yè)面的搜索和確定對(duì)算法起關(guān)鍵作用,專(zhuān)家頁(yè)面的質(zhì)量決定了算法的準(zhǔn)確性,而專(zhuān)家頁(yè)面的質(zhì)量和公平性難以保證;忽略了大量非專(zhuān)家頁(yè)面的影響,不能反應(yīng)整個(gè)Internet的民意;當(dāng)沒(méi)有足夠的專(zhuān)家頁(yè)面存在時(shí),返回空,所以Hilltop適合對(duì)于查詢(xún)排序進(jìn)行求精。