電商數(shù)據(jù)初分析
時(shí)間:2023-03-15 21:02:01 | 來源:電子商務(wù)
時(shí)間:2023-03-15 21:02:01 來源:電子商務(wù)
1、選擇數(shù)據(jù)集選擇數(shù)據(jù)集:淘寶和天貓購買嬰兒用品的信息,表1購買商品字段,表2嬰兒信息。
數(shù)據(jù)集來源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45表1數(shù)據(jù)集有29972條信息記錄,共有7個(gè)字段,分別為:
- user_id:用戶id
- auction_id:物品編號(hào),即具體的商品編號(hào)
- cat_id:商品種類id, 以奶粉種類分類為例,則可分為1段/2段/3段/4段/孕媽奶粉/特殊配方奶粉/有機(jī)奶粉/羊奶粉(參考京東分類)
- cat1:商品種類id(商品一級(jí)分類)以母嬰用品分類為例,則可分為媽媽專區(qū)/嬰童寢居/奶粉/營養(yǎng)輔食/尿褲濕巾/喂養(yǎng)用品/洗護(hù)用品/童車童床/童裝/童鞋(參考京東分類)
- property:商品屬性,以奶粉為例,屬性包括規(guī)格/包裝單位/奶源地等信息
- buy_mount:購買數(shù)量
- day:購買時(shí)間
表2數(shù)據(jù)集有954條信息記錄,共有3個(gè)字段,分別為:
- user_id:用戶id
- birthday:出生日期
- gender:性別(0女性;1男性;2未知性別)
2、分析思路梳理通過這兩張表格,我們想了解以下信息:
(1)整體的銷售情況
- 年度銷售情況
- 哪一類商品最受歡迎(銷量最多)?
- 同類商品,哪個(gè)子類更受歡迎(銷量最多)?
- 用戶更喜歡在哪個(gè)時(shí)間段下單?即計(jì)算用戶下單次數(shù)最多的時(shí)間
- 哪類商品分別在什么時(shí)間下單最多?
(2)購買數(shù)量最多的用戶和購買次數(shù)最多的用戶,找出高價(jià)值用戶和忠誠度高的用戶
- 哪些用戶回購次數(shù)多?
- 哪些用戶購買數(shù)量多?
(3)用戶偏好
3、數(shù)據(jù)清洗(1)選擇子集表1中property商品屬性這一列為商品信息,里面信息多但與本次分析內(nèi)容不相關(guān),我們選擇隱藏該列:
(2)列名重命名分別對(duì)標(biāo)1表2的列名進(jìn)行重命名
(3)刪除重復(fù)值在購物場(chǎng)景i中用戶可以多次重復(fù)購買,因此不對(duì)表1數(shù)據(jù)集進(jìn)行去重;
表2中對(duì)用戶id進(jìn)行去重,沒有發(fā)現(xiàn)重復(fù)值。
(4)缺失值處理用ctrl+G定位表1、表2均沒有發(fā)現(xiàn)空值。
(5)一致化處理將表1、表2中的購買時(shí)間和出生日期按照yyyy-m-d類型設(shè)置時(shí)出現(xiàn)如下結(jié)果:
通過百度查找,需要進(jìn)行分列處理,選擇日期格式即可:
- vlookup函數(shù)聯(lián)結(jié)表2 和表1
表2的列比較少,因此可以考慮用vlookup函數(shù),通過統(tǒng)一的用戶id將表1中的購買信息與表2相結(jié)合,豐富表2數(shù)據(jù):
剩余列依次類推,在購買時(shí)間列時(shí),卻出現(xiàn)數(shù)字:
百度查詢后,才發(fā)現(xiàn)是該列沒有設(shè)置成日期格式導(dǎo)致,設(shè)置成yyyy-m-d日期格式后即恢復(fù)正常。
運(yùn)用DATEDIF函數(shù)根據(jù)“出生日期”和“購買日期”計(jì)算出用戶購買時(shí)的年齡:
計(jì)算后發(fā)現(xiàn)有錯(cuò)誤值:
檢查發(fā)現(xiàn),原因是出生日期晚于購買時(shí)間導(dǎo)致,總共有143條錯(cuò)誤數(shù)據(jù)。因?yàn)橘徺I物品為母嬰用品,可以推斷是用戶在孕期購買所致,可將這一部分?jǐn)?shù)據(jù)剔除,單獨(dú)生成一張表3,后續(xù)對(duì)用戶孕期購買情況進(jìn)行分析。
(6)數(shù)據(jù)排序對(duì)表1中購買數(shù)量列進(jìn)行降序處理,可以看到用戶2288344467在2014年11月13日購買了10000個(gè)編號(hào)為39769942518的物品,大手筆:
(7)異常值處理對(duì)表2的年齡進(jìn)行篩選,發(fā)現(xiàn)有一個(gè)用戶購買年齡為28,因母嬰用品使用年齡一般在1-12歲內(nèi),因此判斷為異常值,對(duì)這一條數(shù)據(jù)進(jìn)行刪除。
數(shù)據(jù)清洗后,表1數(shù)據(jù)集有29972條信息記錄,表2數(shù)據(jù)集有811條信息記錄。
4、數(shù)據(jù)分析(1)整體的銷售情況表1收錄了2012年第三、四季度、2013、2014全年和2015年第一季度數(shù)據(jù),購買總數(shù)為76250。
銷量最多的商品在表1數(shù)據(jù)透視表中選擇商品種類(二類)作為列,物品編號(hào)作為行,將購買數(shù)量之和降序排列,得出類別為50018831的物品編號(hào)為39768842518銷量為10000,銷量最多;
哪一類商品最受歡迎(銷量最多)?在表1數(shù)據(jù)透視表中選擇商品種類(二類)和購買數(shù)量,得出50018831銷量為12657,銷量最多;
同類商品,哪個(gè)子類更受歡迎(銷量最多)?在表1數(shù)據(jù)透視表中選擇商品種類(一類)作為列,商品種類(二類)作為行,將購買數(shù)量之和降序排列,得出在6個(gè)一類中:
一類50014815中的子類50018831銷量為12657,銷量最多;
一類28中的子類50011993銷量為3609,銷量最多;
一類50008168中的子類50007016銷量為2759,銷量最多;
一類38中的子類211122銷量為2058,銷量最多;
一類122650008中的子類50012359銷量為593,銷量最多;
一類50022520中的子類50023591銷量為487,銷量最多;
此外,一類28中的多個(gè)二類商品購買數(shù)量遠(yuǎn)高于其他類別,說明這些商品為用戶頻繁購買系列,可重點(diǎn)關(guān)注。
用戶更喜歡在哪個(gè)時(shí)間段下單?在表1數(shù)據(jù)透視表中選擇商品購買時(shí)間作為行,將購買時(shí)間計(jì)數(shù)項(xiàng)降序排列,得出用戶在11月份購買次數(shù)最多,達(dá)到3753次,其次是12月份,推斷11月和12月為“雙十一”、“雙十二”活動(dòng)所致。最低購買月份在2月份,可推斷2月份為春節(jié)期間,快遞停發(fā)所致。
哪類商品分別在什么時(shí)間下單最多?在表1數(shù)據(jù)透視表中選擇購買時(shí)間作為列,商品種類(二類)作為行,將購買數(shù)量之和降序排列,得出:
用戶在11月份購買50018831最多,達(dá)10906個(gè);
用戶在1月份購買50011993最多,1721個(gè);
用戶在12月份購買50012788最多,2827個(gè);
用戶在9月份購買5000716最多,2750個(gè);
通過表格可發(fā)現(xiàn)用戶更喜歡在下半年購買這幾類商品,不知是否與商品的使用屬性有關(guān)系。
(2)找出購買數(shù)量/次數(shù)最多的用戶,定位高價(jià)值/忠誠度高的用戶哪些用戶回購次數(shù)多?在表1數(shù)據(jù)透視表中選擇用戶id作為行,用戶id計(jì)數(shù)進(jìn)行降序排列,得出:
id為814316568的用戶下單次數(shù)最多,為4次。通過表格發(fā)現(xiàn)用戶的下單次數(shù)多為1次,復(fù)購率不高。
哪些用戶購買數(shù)量多?在表1數(shù)據(jù)透視表中選擇用戶id作為行,商品種類(二類)作為列,購買數(shù)量求和進(jìn)行降序排列,得出:
id為2288344467的用戶下單購買數(shù)量最多,為10000,用戶117730165、173701616、1945590674、32141414購買數(shù)量也都在1000以上,屬于高價(jià)值用戶,后續(xù)需要重點(diǎn)關(guān)注。
(3)用戶偏好不同性別的用戶購買偏好?在表2數(shù)據(jù)透視表中選擇性別作為列(0女性;1男性;2未知性別),商品種類(二類)作為行,購買數(shù)量求和進(jìn)行降序排列,得出:
在購買總數(shù)上,女性是男性的1.82倍,尤其在種類50018831商品上,女性購買數(shù)量遠(yuǎn)高于男性,是其12倍。
不同年齡的用戶購買偏好?在表2數(shù)據(jù)透視表中選擇年齡作為列,商品種類(二類)作為行,購買數(shù)量求和進(jìn)行降序排列,得出:
在購買總數(shù)上,0-3歲用戶(并非購買人實(shí)際年齡)占購買總數(shù)的80%,其中
0-3歲的用戶購買較多的種類為50018831、50013636、211122、50006602、50018825這5類。
(4)孕期購買情況在表3的143條數(shù)據(jù)進(jìn)行數(shù)據(jù)透視,選擇商品種類(二類)作為行,購買數(shù)量求和進(jìn)行降序排列,得出用戶購買總量為235,喜歡購買的種類分別為250822、50011993、50006602、50012456、50006032,推測(cè)這幾類商品為初生嬰兒用品或者孕期營養(yǎng)品。
5、總結(jié)- 11月份為銷售高峰期,2月份為全年銷售低谷;
- id為2288344467的用戶商品種類(二類)50018831為銷量最多商品,但是基本上由2288344467用戶購買;該用戶很有可能為經(jīng)銷商或者批發(fā)商,為高價(jià)值用戶,可重點(diǎn)持續(xù)關(guān)注,防止流失;
- 大多數(shù)用戶的下單次數(shù)為1次,復(fù)購率不高;
- 0-3歲用戶(并非購買人實(shí)際年齡)占購買總數(shù)的80%,為嬰兒用品購買主力,其中女童用品更受歡迎。