淘寶母嬰商品電商數(shù)據(jù)分析(一)
時間:2023-03-26 01:44:01 | 來源:電子商務
時間:2023-03-26 01:44:01 來源:電子商務
因為對互聯(lián)網(wǎng)電商行業(yè)比較感興趣,自己現(xiàn)階段需要累積項目經(jīng)驗,所以選擇淘寶電商母嬰用品購買數(shù)據(jù)進行練習,將近期學得的知識與業(yè)務相結合,學會如何分析電商行業(yè)數(shù)據(jù)。此次分析的主要使用工具為EXCEL。
數(shù)據(jù)分析的步驟通常分為:
- 熟悉數(shù)據(jù)集
- 提出問題
- 數(shù)據(jù)清洗與整理
- 數(shù)據(jù)分析與建模
- 數(shù)據(jù)可視化
我將通過這五個步驟,分析此淘寶母嬰店鋪數(shù)據(jù),發(fā)現(xiàn)業(yè)務問題,并為其提出改進建議。
一、熟悉數(shù)據(jù)集
我選擇的是淘寶和天貓嬰兒用品數(shù)據(jù)分析,一共包含兩個數(shù)據(jù)集
:數(shù)據(jù)來源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45表1:購買商品.csv 是淘寶會員的歷史貿(mào)易記錄,共包含2012年6月-2015年2月的29972條信息記錄和7個字段。
表1:購買商品.csv 數(shù)據(jù)集部分截圖表中字段信息及其含義如下:user_id:用戶ID 該字段表示用戶登陸app時使用的賬號名稱,每個用戶都有唯一獨立的ID。
auction_id:購買行為編號 用戶在進行購買時的唯一行為標號,用數(shù)字作為標認細化處理用戶行為的數(shù)據(jù)字段。
cat_id:商品種類ID 表示每個用戶id購買的對應的商品種類,比如童裝、童褲、童鞋??梢詭椭袛囝櫩拖矚g什么種類的商品。
cat1:商品類別 顧客購買的商品類別,是商品種類下的二級分類。比如商品種類為童裝,則商品類別分為:外套、襯衫、褲子等。通過分析判斷顧客喜歡購買哪一細分類別的商品,重要字段,可了解顧客購買偏好。
property:商品屬性 商品的一些基本參數(shù),幫助顧客在購買時了解商品,比如:顏色、尺寸、材質(zhì)、品牌。
buy_mount:購買數(shù)量 代表顧客購買商品的數(shù)量,用于統(tǒng)計銷量,了解哪一類商品銷量較高。
day:購買日期 顧客購買商品的年月日
,可以了解商品在某段時間內(nèi)是否復購及復購頻率,商品是否集中在某一時間段熱銷。
表2:嬰兒信息.csv共有954條數(shù)據(jù)信息,共包含三個字段:user_id:用戶ID 用戶登陸app時使用的賬號名稱??赏ㄟ^此字段將表1和表2結合,得到用戶購買的商品和嬰兒年齡/性別關系。
birthday:出生日期 購買商品用戶的嬰兒年齡,可用于了解各年齡段購買情況
gender:性別(0男性,1女性)嬰兒性別,可了解嬰兒性別與用戶購買的關系
表2:嬰兒信息.csv 數(shù)據(jù)集部分截圖二、提出問題并選擇子集
分析完字段信息后,要思考我們想用數(shù)據(jù)獲得什么信息,
想通過分析解決哪些業(yè)務問題。在思考業(yè)務問題時,我將站在賣方,也就是店鋪/企業(yè)的角度去進行思考,根據(jù)現(xiàn)有數(shù)據(jù)分析關鍵指標,評估店鋪運營情況,并給出改進建議。作為店鋪,最終的目標是盈利+給用戶帶來價值,以此為出發(fā)點,我提出的問題有:1. 店鋪整體銷售表現(xiàn):- 店鋪年度/季度/月度總銷量情況?并預測2015年銷量趨勢
以不同的時間維度去看店鋪的銷量情況,可以了解店鋪整體的銷售情況以及發(fā)展趨勢。發(fā)掘是否店鋪在某段時間內(nèi)銷量高/低,有什么特征,并分析原因。
2. 商品銷售表現(xiàn):- 店鋪有哪幾種商品?
- 熱銷商品是哪些,銷量是多少?
- 不同種類商品銷量的特征/趨勢是什么?影響銷量的原因有哪些?
了解店鋪商品構成及每個商品的表現(xiàn),找到影響銷量的原因,幫助店鋪優(yōu)化運營和產(chǎn)品策略。
3. 用戶方面:- 用戶年齡和商品銷量/類別關系
- 用戶性別和商品銷量/類別關系
對用戶進行
年齡、性別兩個維度進行分類,研究這兩個維度和商品的關系。作用幫助店鋪發(fā)現(xiàn)關鍵用戶,構建用戶畫像,輔助精細化運營。
性別維度:用戶分為男、女,結合購買性別、購買商品和數(shù)量,得出商品男女購買比例,分析出商品的主要用戶性別群體。
年齡維度:分析主要用戶年齡層,不同嬰兒年齡用戶購買比例,以及熱銷產(chǎn)品的用戶嬰兒年齡分布。
4.商品復購方面:忠誠用戶是店鋪持續(xù)創(chuàng)造商業(yè)價值的基礎,以復購數(shù)據(jù)來了解店鋪的忠誠顧客情況。
根據(jù)以上這些問題,可以得出需要的子集有:用戶ID, 商品類別,購買次數(shù),購買日期,購買數(shù)量,性別,出生日期。三、數(shù)據(jù)清洗和整理
數(shù)據(jù)的清洗整理通常包括以下這些步驟:選擇子集,重命名列名,刪除重復值,處理缺失值,一致化處理,數(shù)據(jù)排序,異常值處理等。1)選擇子集:上文已選出需要子集。隱藏不需要子集:購物行為id和商品屬性字段。用
vlookup函數(shù)多表關聯(lián),根據(jù)用戶ID,精確查找出每個用戶id對應的出生日期與性別。
2)重命名列名:將原英文名的字段名稱全部修改為中文。拼接修改后的表如圖所示:
淘寶天貓嬰兒電商數(shù)據(jù)表拼接后表部分內(nèi)容截圖3)缺失值:所有列計數(shù)為29972條信息,無缺失值、空白值。
4)重復值:用戶ID出現(xiàn)重復,原因是同一用戶進行了多次購買行為,所以不刪除。
5)異常值處理:出生日期和性別存在大量異常值。僅有957個嬰兒出生日期和性別可與用戶id匹配,而其他列計數(shù)為29972條信息。這說明很多用戶的出生日期,年齡無法通過用戶id查找匹配到數(shù)值,也就是說
很多顧客在購買時沒有留下嬰兒出生日期、性別信息,我將這兩列的N/A定位條件-查找替換-空白。
性別數(shù)字出現(xiàn)異常,
為2的有27個,清除。
6)計算嬰兒年齡。通過
分列將
購買日期/出生日期列數(shù)據(jù)轉(zhuǎn)化為
日期型數(shù)據(jù)。用
datedif函數(shù),計算當
用戶購買商品時嬰兒的年齡。操作完成后如下:
可以看到在計算年齡時有
NUM!出現(xiàn),這樣的錯誤值共有
143個。這是因為購買商品日期比出生日期要早,結果無法計算得出。這樣購買可能有以下兩種情況:
1.用戶填寫的嬰兒年齡信息不真實,可能胡亂填寫;2.嬰兒出生前,用戶已經(jīng)開始購買商品。鑒于用戶購買行為已經(jīng)發(fā)生,
我將NUM!值單元格公式修改為:=datedif(購買日期,出生日期,"m"),得出128個用戶購買日期比填寫的出生日期早0-10個月(懷孕周期以內(nèi)),以此推斷這143個用戶填寫較符合上述提到的第二種情況:嬰兒出生前,用戶已經(jīng)開始購買商品。下圖為處理判斷過程截圖:修改datedif公式,通過相差月份推斷用戶是亂填出生日期,還是嬰兒未出生,用戶已開始購買商品判斷用戶是亂填寫嬰兒年齡or 在嬰兒出生前已開始購買所以我將把這些在
嬰兒出生前已經(jīng)購買商品的用戶嬰兒年齡由NUM!更改為0歲。7)對數(shù)據(jù)中購買數(shù)量進行描述統(tǒng)計分析,結果如下:
發(fā)現(xiàn)購買數(shù)量中存在
異常值(最大值)10000,將其修改為中位數(shù)1。
四.數(shù)據(jù)分析和建模
1.店鋪整體銷售表現(xiàn):1)店鋪2013-2014年度總銷量:- 數(shù)據(jù)只包含2012年下半年-2015年2月,所以只對比13-14年銷量。
- 2013-2014年,店鋪總銷量同比上升,增長率約為41.3%。
2)店鋪季度銷量:- 一年四季的季度銷量環(huán)比基本全部是增長的,下半年總銷量約為上半年的2倍。
- 需注意:僅2014年第四季度銷量環(huán)比減少,第三季度銷量歷史最高值,為10785。思考:此時段是否因為有促銷活動導致銷量大增?帶著這個問題往下看。
- 季度銷量同比增長。
- 需要注意:圖中2015年第一季度銷量同比減少,原因是數(shù)據(jù)集只記錄了2015年第一季度1,2月的銷量,3月未計入。但1,2月銷量已達到4273,所以預計2015第一季度最終總銷量會超越2014年第一季度銷量。
3) 店鋪月總銷量:- 店鋪每月總銷量呈增長趨勢
- 每年11月是商品購買高峰期,連續(xù)三年創(chuàng)新高,環(huán)比漲幅大,這也是后半年銷量高的主要原因。推測是因為淘寶雙十一大促影響,但還需更多分析驗證。
- 每年1-2月是商品購買低峰期,推測原因是受春節(jié)期間物流配送影響。
2. 商品銷售表現(xiàn):1)店鋪商品種類,熱銷商品及銷量- 店鋪共有6種商品,總銷量從高到低排名為:28,50008168,500014815,38,50022520,122650008
- 不同商品銷量差距較大。熱銷商品top1&top2&3:28,50008168,50014815銷量約占據(jù)店鋪銷量的86%;38,50022520,122650008銷量占比約為14%。
2)每季度不同種類商品銷量每季度總銷量每商品種類銷量構成- 店鋪所有種類的商品整體呈同比/環(huán)比增長趨勢。
- 商品5008168和28銷量波動較大,每年5月/11月都有一波購買小高峰,推測原因是這兩種商品積極參與節(jié)日促銷活動有關(母親節(jié)/雙十一),且促銷對商品銷量影響較大。其他商品銷量基本保持穩(wěn)定,促銷期內(nèi)銷量僅有微小上升。
3.用戶方面1)用戶嬰兒性別--嬰兒男女性別購買數(shù)量占比:--不同類別商品嬰兒男女性別購買數(shù)量:如圖所示,母嬰商品
男性總購買數(shù)量占比為女性的2倍。在深入去看不同類別商品男女的購買數(shù)量時,發(fā)現(xiàn)差異不大,也就是說
男女性購買此店鋪商品的偏好是相似的。
2)用戶嬰兒年齡--嬰兒年齡與購買數(shù)量關系可以看出,
越小嬰兒的用戶購買數(shù)量越多,養(yǎng)育
0-3歲嬰兒的用戶為
店鋪購買主力。
--嬰兒年齡與購買商品關系4. 店鋪復購情況如圖所示,店鋪復購用戶少,僅有
28個用戶有復購行為,最高購買次數(shù)為4次,最低為2次,平均復購次數(shù)為2,說明
此店鋪忠誠用戶非常少,用戶黏性低。綜上,總結和建議如下:1.店鋪與自身對比,在2012年下半年-2015年2月期間整體銷售表現(xiàn)較好,呈同比/環(huán)比增長趨勢,漲幅較大。預計店鋪2015總銷量將同比增長,2015季度銷量將同比/環(huán)比增長,下半年銷量預計約為上半年的2倍。建議店鋪備貨可根據(jù)預測銷量趨勢,每年第三/第四季度店鋪需提前多備貨,做好準備。起量產(chǎn)品28,5008168多備貨。2
. 28,5008168為店鋪起量商品,占總銷量71%,頭部效應明顯。這兩商品積極參與促銷活動,銷量反應較好。其他商品銷量較低且穩(wěn)定。建議店鋪加大電商平臺運營投入(比如促銷活動), 多抓住節(jié)日營銷的機會(母親節(jié),雙十一等),對其他4個低銷量產(chǎn)品發(fā)起促銷活動,測試促銷效果。搭建或優(yōu)化產(chǎn)品組合策略,比如起量產(chǎn)品薄利多銷,其他商品為高利潤商品,用起量商品帶動其他商品的銷售。3. 建議店鋪根據(jù)用戶畫像(性別、年齡)對不同商品進行精細化運營,比如商品28和5008168對嬰兒性別為0-2歲的用戶發(fā)放優(yōu)惠券或進行推廣。4. 本店用戶忠誠度較低,需要建立完善的店鋪會員體制,打造店鋪會員購買體系,累積忠誠客戶。同時,推出一些針對老客戶的廣告投放、促銷優(yōu)惠活動,比如給老客發(fā)放專屬優(yōu)惠券等吸引用戶回購??蛇M行A/B test,測試效果。