6-利用社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行推薦
時(shí)間:2023-03-13 22:16:02 | 來(lái)源:電子商務(wù)
時(shí)間:2023-03-13 22:16:02 來(lái)源:電子商務(wù)
本篇的思維導(dǎo)圖如下:
1、社交網(wǎng)絡(luò)數(shù)據(jù)自從搜索引擎谷歌誕生后,大家都在討論互聯(lián)網(wǎng)的下一個(gè)金礦是什么?,F(xiàn)在,幾乎所有的人都認(rèn)為那就是社交網(wǎng)絡(luò)。根據(jù)尼爾森2010年的報(bào)告,用戶在互聯(lián)網(wǎng)上22%的時(shí)間花費(fèi)在社交網(wǎng)站 和社交媒體上1。Facebook和Twitter作為兩種不同類型社交網(wǎng)絡(luò)的代表,是目前互聯(lián)網(wǎng)界的寵兒。谷歌公司也不甘落后,連續(xù)推出了很多社交網(wǎng)絡(luò)產(chǎn)品(Buzz和Google Plus)。國(guó)內(nèi)的互聯(lián)網(wǎng)以新浪微博為代表,也吸引了很多人的眼球。
社交網(wǎng)絡(luò)數(shù)據(jù)的來(lái)源有下面幾個(gè):
電子郵件用戶注冊(cè)信息:比如公司、學(xué)校等
用戶的位置數(shù)據(jù):IP地址或者GPS數(shù)據(jù)
論壇和討論組即時(shí)聊天工具社交網(wǎng)站2、社交網(wǎng)絡(luò)數(shù)據(jù)簡(jiǎn)介一般來(lái)說(shuō),有3種不同的社交網(wǎng)絡(luò)數(shù)據(jù):
雙向確認(rèn)的社交網(wǎng)絡(luò)數(shù)據(jù):一般通過無(wú)向圖表示
單向關(guān)注的社交網(wǎng)絡(luò)數(shù)據(jù):用戶關(guān)系是單向的,可以通過有向圖表示
基于社區(qū)的社交網(wǎng)絡(luò)數(shù)據(jù):比如豆瓣小組
社交網(wǎng)絡(luò)數(shù)據(jù)中也存在長(zhǎng)尾分布,主要根據(jù)用戶的入度和出度,用戶的入度反映了用戶的社會(huì)影響力,而用戶的出度代表了一個(gè)用戶關(guān)注的用戶數(shù)。從下圖可以看出,一個(gè)社交網(wǎng)絡(luò)中影響力大的用戶總是占少數(shù),同時(shí)關(guān)注很多人的用戶占少數(shù),而絕大多數(shù)只關(guān)注很少的人。
用戶入度分布
用戶出度分布
3、基于社交網(wǎng)絡(luò)的推薦社會(huì)化推薦之所以受到很多網(wǎng)站的重視,是源于如下的優(yōu)點(diǎn):
好友推薦可以增加推薦的信任度社交網(wǎng)絡(luò)可以解決冷啟動(dòng)問題當(dāng)然,社會(huì)化推薦有時(shí)候也有一定的缺點(diǎn),主要是不一定提高推薦算法的離線精度,因?yàn)樯缃痪W(wǎng)絡(luò)中好友關(guān)系不是基于共同興趣產(chǎn)生的,所以用戶好友的興趣往往和用戶的興趣不一致。
3.1 基于鄰域的社會(huì)化推薦算法如果給定一個(gè)社交網(wǎng)絡(luò)和一份用戶行為數(shù)據(jù)集。其中社交網(wǎng)絡(luò)定義了用戶之間的好友關(guān)系,而用 戶行為數(shù)據(jù)集定義了不同用戶的歷史行為和興趣數(shù)據(jù)。那么我們想到的最簡(jiǎn)單算法是給用戶推薦好友喜歡的物品集合。即用戶u對(duì)物品i的興趣pui可以通過如下公式計(jì)算。
其中out(u)是用戶u的好友集合,如果用戶v喜歡物品i,則rvi=1,否則rvi=0。不過,即使都是 用戶u的好友,不同的好友和用戶u的熟悉程度和興趣相似度也是不同的。因此,我們應(yīng)該在推薦 算法中考慮好友和用戶的熟悉程度以及興趣相似度:
這里,wuv 由兩部分相似度構(gòu)成,一部分是用戶u和用戶v的熟悉程度,另一部分是用戶u和用 戶v的興趣相似度。熟悉度可以用用戶之間的共同好友比例來(lái)度量:
而興趣相似度可以通過和UserCF類似的方法度量,即如果兩個(gè)用戶 喜歡的物品集合重合度很高,兩個(gè)用戶的興趣相似度很高。
3.2 基于圖的社會(huì)化推薦算法在社交網(wǎng)站中存在兩種關(guān)系,一種是用戶對(duì)物品的興趣關(guān)系,一種是用戶之間的社交網(wǎng)絡(luò)關(guān)系。用戶的社交網(wǎng)絡(luò)可以表示為社交網(wǎng)絡(luò)圖,用戶對(duì)物品的行為可以表示為用戶物品二分圖,而這兩種圖可以結(jié)合成一個(gè)圖。如下圖所示:
在定義完圖中的頂點(diǎn)和邊后,需要定義邊的權(quán)重。其中用戶和用戶之間邊的權(quán)重可以定義為用戶之間相似度的?a 倍(包括熟悉程度和興趣相似度),而用戶和物品之間的權(quán)重可以定義為用 戶對(duì)物品喜歡程度的 ? b倍。?a 和b ? 需要根據(jù)應(yīng)用的需求確定。如果我們希望用戶好友的行為對(duì) 推薦結(jié)果產(chǎn)生比較大的影響,那么就可以選擇比較大的?a 。相反,如果我們希望用戶的歷史行為 對(duì)推薦結(jié)果產(chǎn)生比較大的影響,就可以選擇比較大的 ?b 。
在定義完圖中的頂點(diǎn)、邊和邊的權(quán)重后,我們就可以利用基于隨機(jī)游走的PersonalRank圖排序算法給每個(gè)用戶生成推薦結(jié)果。
關(guān)鍵詞:推薦,數(shù)據(jù),社交,網(wǎng)絡(luò),利用