母嬰電商數(shù)據(jù)集分析
時(shí)間:2023-03-26 04:10:02 | 來(lái)源:電子商務(wù)
時(shí)間:2023-03-26 04:10:02 來(lái)源:電子商務(wù)
本文應(yīng)用的數(shù)據(jù)集為淘寶天貓母嬰數(shù)據(jù)集,來(lái)源為阿里云天池?cái)?shù)據(jù)(https://tianchi.aliyun.com/dataset/dataDetail?dataId=45)。
一、分析目的- 用戶角度:通過(guò)數(shù)據(jù)分析,深入了解用戶信息、用戶行為、用戶喜好,并有針對(duì)性地為不同客戶推薦不同商品,以提高用戶的人均購(gòu)買量和復(fù)購(gòu)率。
- 產(chǎn)品角度:發(fā)現(xiàn)以往銷售表現(xiàn)中存在的問(wèn)題,解決問(wèn)題,提高產(chǎn)品總銷量。
二、理解數(shù)據(jù)- 數(shù)據(jù)集1為tianchi_mum_baby_trade_history(表1購(gòu)買產(chǎn)品),此數(shù)據(jù)集包含了淘寶用戶的交歷史易信息,其中有7個(gè)字段和29971條記錄。
字段含義如下:
item_id(商品ID):用于識(shí)別不同商品。
user_id(用戶ID):用戶ID用于識(shí)別淘寶天貓的每一位用戶。
cat1(商品一級(jí)分類):例如童裝、洗護(hù)用品、孕產(chǎn)婦穿搭。一級(jí)分類下會(huì)有二級(jí)分類
cat_id(商品二級(jí)分類):兒童外套和兒童裙子(一級(jí)分類為童裝)、紙尿褲和嬰兒濕巾 (一級(jí)分類為洗護(hù)用品)、孕婦裝和哺乳文胸(一級(jí)分類為孕產(chǎn)婦穿搭)
property(商品屬性):代表對(duì)應(yīng)商品的參數(shù)。例如某奶瓶的品牌、顏色分類、容量和口徑大小。
buy_mount: 購(gòu)買數(shù)量。
day(購(gòu)買日期):對(duì)應(yīng)商品被購(gòu)買的日期。
2. 數(shù)據(jù)集2為tianchi_mum_baby(表2嬰兒信息),此數(shù)據(jù)集包含了嬰兒父母所提供的嬰兒信 息,其中有3個(gè)字段和953條記錄。
字段含義如下:
user_id(用戶ID):與數(shù)據(jù)集1中的用戶ID相對(duì)應(yīng)。
birthday(嬰兒出生日期):可用于計(jì)算當(dāng)前每一位嬰兒的年齡,并根據(jù)年齡推薦相應(yīng)商品。
gender(嬰兒性別):"0"為男,"1"為女,"2"為未知??筛鶕?jù)同嬰兒性別推薦適合的商品。
三、提出問(wèn)題- 購(gòu)買母嬰產(chǎn)品用戶的寶寶的年齡分布
- 不同性別寶寶的購(gòu)買偏好
- 最受歡迎的產(chǎn)品(一級(jí)類別)是什么?
- 復(fù)購(gòu)率最高的產(chǎn)品(一級(jí)類別)是什么?
- 產(chǎn)品各年的月銷量是否有較大波動(dòng),波動(dòng)的原因是什么?
分析思路圖四、數(shù)據(jù)清洗1.選擇子集
在此步驟中,我們可以選擇需要進(jìn)行數(shù)據(jù)分析的幾個(gè)列,并將不需要的字段進(jìn)行列隱藏。根據(jù)業(yè)務(wù)問(wèn)題,我們暫時(shí)不需要表1property(商品屬性)這一列的信息,所以我們可以先將此列進(jìn)行列隱藏。
2.數(shù)據(jù)重命名
為了方便對(duì)數(shù)據(jù)后續(xù)的分析和使用,我們可以通過(guò)雙擊列名將英文列名修改為中文。
3.刪除重復(fù)值
表2嬰兒信息中的用戶ID應(yīng)該是唯一的,因此,我們可以點(diǎn)擊數(shù)據(jù)選項(xiàng)卡下的刪除重復(fù)項(xiàng)來(lái)刪除重復(fù)的數(shù)據(jù)。在此數(shù)據(jù)集中未發(fā)現(xiàn)重復(fù)項(xiàng)。
4.缺失值處理
點(diǎn)擊唯一標(biāo)識(shí)用戶ID,屏幕右下角會(huì)顯示列總數(shù)。與其他列的列總數(shù)對(duì)比,我們即可知道其他列的缺失值的個(gè)數(shù)為多少。在此步驟中,我們可以發(fā)現(xiàn),數(shù)據(jù)集1和數(shù)據(jù)集2均不存在缺失值。
5.一致化處理
為了便于我們對(duì)數(shù)據(jù)的理解和使用,我們可以將用數(shù)字識(shí)別的嬰兒性別信息更改為中文。此步驟可應(yīng)用IF函數(shù)實(shí)現(xiàn),if函數(shù)語(yǔ)法為if(邏輯測(cè)試,正確時(shí)的返回值,錯(cuò)誤時(shí)的返回值)。
6.數(shù)據(jù)排序
排序的步驟為:點(diǎn)擊開(kāi)始-排序和篩選-點(diǎn)擊自定義-選擇根據(jù)哪一列排序-選擇升序或降序。
在表1中,我們根據(jù)購(gòu)買數(shù)量進(jìn)行降序排序,可以得知2014年11月銷量最高的產(chǎn)品編號(hào)為39769942518,購(gòu)買用戶為2288344467,銷量為10000。在表2嬰兒信息中,根據(jù)出生日期進(jìn)行升序排序,可以得知客戶寶寶中出生最早的出生日期為1984年6月16日(異常值)。
7.異常值處理
先點(diǎn)擊篩選,再點(diǎn)擊每一列名的下拉箭頭可以得到每組字段所包含的全部數(shù)據(jù)類別。通過(guò)排查,我們發(fā)現(xiàn)表2的出生日期中有一個(gè)寶寶的出生日期為1984年,可能的原因是父母錄入了錯(cuò)誤的日期,因?yàn)槲覀兛蓪⒋诵行畔h除。
五.分析問(wèn)題1、購(gòu)買母嬰產(chǎn)品用戶的寶寶的年齡分布如上圖所示,有約1/3的寶寶位于0-3歲年齡段,而僅有不到1%的寶寶位于9-12歲年齡段。
此外,按性別進(jìn)行多維度拆分,我們還可以得知各個(gè)年齡段不同性別的占比。如下圖所示,隨著年齡的增長(zhǎng),女寶寶的占比越來(lái)越高。
結(jié)論:0-3歲的寶寶用戶數(shù)占比最高,9-12歲寶寶用戶數(shù)占比最少。小于3歲的用戶男女占比較為均衡,但隨著年齡的增大,女寶寶占比也逐漸增大。 2. 不同性別寶寶的購(gòu)買偏好如上圖所示,不同性別的寶寶對(duì)6種不同類別的商品的偏好無(wú)明顯差異。具體來(lái)說(shuō),與其他5種類別的商品相比,50008168在男寶寶(占比39.5%)和女寶寶(占比43.44%)中均最受歡迎,且在女寶寶中更受歡迎。
按年齡段進(jìn)行多維度拆解,我們還可以得知不同年齡段不同性別寶寶的購(gòu)買偏好。如下圖所示,無(wú)論在男寶寶中還是女寶寶中,50008168的購(gòu)買量占比都隨著年齡的增大增大,而50014815的占比都隨著年齡的增大而減小。值得注意的是,由于9-12歲年齡段的樣本數(shù)較?。?人,女4人),所以結(jié)果可能不具有參考性。
結(jié)論:不同性別的寶寶對(duì)產(chǎn)品的喜好無(wú)明顯區(qū)別,但50008168類的產(chǎn)品在男女寶寶中都最受歡迎,喜歡50008168類產(chǎn)品的用戶數(shù)占比隨著年齡增大而增大,而50014815的占比都隨著年齡的增大而減小。3. 最受歡迎的產(chǎn)品(一級(jí)類別)結(jié)論:銷量最好的Top3一級(jí)類別分別為28、50014815和50008168。4. 復(fù)購(gòu)率最高的產(chǎn)品(一級(jí)類別)結(jié)論:所有類別的母嬰產(chǎn)品的復(fù)購(gòu)率均低于1%。復(fù)購(gòu)率最高的產(chǎn)品類別為38,而50022520和122650008的復(fù)購(gòu)率為0。5. 母嬰產(chǎn)品各年的月銷量是否有較大波動(dòng),波動(dòng)的原因是什么?如上圖所示,整體來(lái)說(shuō),各年的月銷量均波動(dòng)較大。2012年的月銷量在9月和11月都有明顯上升,且在11月銷量達(dá)到頂峰。2013年的月銷量在7月、9月和11月的月銷量有明顯上升,且在12月到達(dá)峰值。2014年的月銷量在5月和9月均有明顯上升,且在11月達(dá)到峰值
用假設(shè)檢驗(yàn)分析方法對(duì)各年月銷量的波動(dòng)的原因進(jìn)行分析問(wèn)題1:為什么2012年、2013年和2014年的月銷量在9月均有明顯上升?假設(shè)1:由于9月10日是教師節(jié),商家有針對(duì)教師節(jié)的促銷活動(dòng),導(dǎo)致銷量上漲。
假設(shè)2: 由于10月1日是國(guó)慶節(jié),買家在9月提前為國(guó)慶節(jié)購(gòu)買了過(guò)節(jié)所需商品。
收集證據(jù) :2012-2014年9月銷量趨勢(shì)如上圖所示,在2012-2014年的9月10日當(dāng)日(教師節(jié))我們沒(méi)有發(fā)現(xiàn)銷量有明顯的漲幅,但在9月6日銷量出現(xiàn)小高峰。此外,在歷年的9月20日-9月25日期間,日銷量均出現(xiàn)較明顯的漲幅。
2012-2014年9月下旬至10月上旬銷量趨勢(shì)對(duì)比如上圖所示,2012-2014年的9月下旬的日銷量整體高于10月上旬的日銷量。日銷量在9月20-9月29日出現(xiàn)多次小高峰,從9月30日開(kāi)始日銷量出現(xiàn)明顯下跌,直到10月3日才開(kāi)始出現(xiàn)較明顯的增長(zhǎng)。
結(jié)論:在歷年的9月6日,日銷量均出現(xiàn)小高峰。因此,買家可能是為了教師節(jié)提前購(gòu)買禮品,假設(shè)1成立。在歷年的9月20-29日期間,日銷量均呈現(xiàn)出小高峰,且9月下旬的日銷量整體高于10月上旬日銷量。因此,買家可能在九月下旬為慶祝十月的國(guó)慶節(jié)提前購(gòu)買了所需商品,并提前滿足了購(gòu)買需求,假設(shè)2成立。問(wèn)題2:為什么2013年和2014年5月的銷量都出現(xiàn)小高峰。假設(shè):5月節(jié)日較多,例如勞動(dòng)節(jié)在5.1日、青年節(jié)在5.4日、母親節(jié)在5.12日左右。收集證據(jù):如上圖所示,在2013年的5月3日、5月10日,5月20日的日銷量均出現(xiàn)小高峰。在2014年的5月3日、5月12日、5月22日的日銷量也呈現(xiàn)小高峰。
結(jié)論:在2013年的5月和2014年5月,尤其是勞動(dòng)節(jié)和母親節(jié)前后的近幾日銷量呈現(xiàn)多次小高峰。因此,可能由于5月的節(jié)日較多且商家的促銷活動(dòng)也較多,導(dǎo)致了5月份總銷量明顯上升,假設(shè)成立。問(wèn)題3:為什么2012-2014年的月銷量在11月的環(huán)比漲幅十分明顯?假設(shè):雙11大促活動(dòng)。
收集證據(jù) :2012-2014年11月銷量趨勢(shì)如上圖所示,2012年的11月10日和11月19日銷量出現(xiàn)小高峰,2013年的11月11日和11月29日出現(xiàn)小高峰,2014年的11月11日和11月13日銷量出現(xiàn)小高峰。
結(jié)論:11月11日為淘寶最大型的購(gòu)物狂歡節(jié),促銷力度大,因此導(dǎo)致了11月份的銷量漲幅明顯,假設(shè)成立。六. 結(jié)論用戶角度:
- 購(gòu)買母嬰產(chǎn)品的用戶中,大部分的寶寶位于0-3歲年齡段,而只有不到1%位于9-12歲年齡段。
- 未出生的寶寶,男女占比較為均衡。但隨著年齡的增長(zhǎng),女寶寶的占比逐漸增加。
產(chǎn)品角度:
- 28、500148145和5008168為最受歡迎的三種商品類別,且50008168的購(gòu)買量占比隨著寶寶年齡的增大增大。
- 無(wú)論是老用戶的人數(shù)占比還是各類商品的復(fù)購(gòu)率都較低,反映出母嬰產(chǎn)品的用戶粘性低。
- 5月、9月由于節(jié)日較多,用戶購(gòu)買需求較大,導(dǎo)致月銷量漲幅明顯。11月由于雙11大促,也使11月的月銷量漲幅明顯。
七、建議- 調(diào)整對(duì)應(yīng)不同年齡段和性別寶寶的產(chǎn)品的數(shù)量和種類。例如采購(gòu)更多針對(duì)年齡段較大女寶寶的商品樣式,使商品能吸引更多的女寶寶的父母購(gòu)買。
- 將銷量Top3類別的商品特別是50008168在首頁(yè)推薦為熱銷類別,吸引更多用戶購(gòu)買,且要提前準(zhǔn)備好庫(kù)存。
- 預(yù)測(cè)用戶的寶寶的年齡,根據(jù)年齡推薦相應(yīng)的熱銷商品,提高復(fù)購(gòu)率。
- 抓住用戶在節(jié)日期間對(duì)普通商品和禮品的需求量較大的機(jī)會(huì),多舉辦促銷活動(dòng),發(fā)放滿減券等等,以提高銷量、銷售額。