電商數(shù)據(jù)分析——淘寶母嬰商品數(shù)據(jù)分析
時間:2023-03-16 00:26:01 | 來源:電子商務(wù)
時間:2023-03-16 00:26:01 來源:電子商務(wù)
一、數(shù)據(jù)背景
本次分析主要使用的是淘寶天貓中購買嬰兒用品的用戶數(shù)據(jù),即Baby Goods Info Data數(shù)據(jù)集,該數(shù)據(jù)集來源于阿里云天池網(wǎng),由淘寶網(wǎng)和天貓網(wǎng)提供。主要反映2012年7月到2015年2月的商品銷售情況。
該數(shù)據(jù)集包含兩個表:
- 購買母嬰商品表:Tianchi_mum_baby_trade_history
- 嬰兒信息表:Tianchi_mum_baby
表格字段詳細(xì)分析(1)購買母嬰商品表
購買母嬰商品表主要反映的是淘寶會員的歷史交易信息,包含29971條記錄,7個字段。這些字段的詳細(xì)理解見下表。
/begin{array}[b] {|c|c|} /hline 字段名稱 & 字段含義& 字段詳細(xì)解釋&數(shù)據(jù)類型// /hline user/_id & 用戶id & {淘寶用戶的編號,是不重復(fù)的值,//具有唯一性} & 數(shù)值型 // /hline auction/_id & 購買物品的編號& 對所賣商品的編號,具有唯一性 &數(shù)值型 // /hline cat/_id & 商品二級分類 & 表示商品屬于哪個子類別 & 數(shù)值型 // /hline cat1 & 商品一級分類 & 表示商品屬于哪個父類別 & 數(shù)值型 // /hline property & 商品屬性 & {主要包含商品的各項規(guī)格,比如商//品品牌、名稱、大小尺碼、材質(zhì)等//等,一切可以描述商品特征的都可//以稱為屬性值} & 字符型 // /hline buy/_mount & 購買數(shù)量 & 用戶交易商品的數(shù)量 & 數(shù)值型 // /hline day & 購買時間 & {表示用戶下單的日期,可以用于分//析在什么時段哪些商品或商品類別//比較受歡迎} & 數(shù)值型 // /hline /end{array}// 注:cat1和cat_id分別是商品的一級分類和二級分類,比如上衣是二級分類,衣服是一級分類,上衣是在衣服的大類下面。所以可以通過商品之間的類別包含關(guān)系探索更多,比如在某商品大類下什么子類別商品更暢銷。
(2)表2:嬰兒信息表
嬰兒信息表包含的是淘寶或天貓消費者提供的孩子生日和性別,總共有954條記錄,3個字段。每個字段的描述如下表所示。
/begin{array}[b] {|c|c|} /hline 字段名稱 & 字段含義& 字段詳細(xì)解釋&數(shù)據(jù)類型// /hline user/_id & 用戶id & {淘寶用戶的編號,是不重復(fù)的值,//具有唯一性,與表1中的用戶編號//相對應(yīng)} & 數(shù)值型 // /hline birthday & 嬰兒的出生日期& {通過出生日期可以計算寶寶年齡,//進而探索不同年齡段寶寶的購買偏//好} &數(shù)值型 // /hline gender & 嬰兒的性別 & {值為0是女性//值為1是男性//值為2是未知的性別//可以分析不同性別寶寶的購買偏好} & 數(shù)值型 // /hline /end{array}// 二、分析思路
在分析過程中,采用多維度拆解分析方法將整體細(xì)分成多個子問題進行分析,并對每種問題采用假設(shè)檢驗分析方法和對比分析方法進行分析。
三、數(shù)據(jù)清洗
對數(shù)據(jù)進行預(yù)處理,便于后續(xù)的分析。數(shù)據(jù)清洗的步驟有:
- 選擇特征子集:篩選在分析中需要用到的字段并對他們進行處理
- 列名重命名:變?yōu)榉奖憷斫獾牧忻形?英文
- 刪除重復(fù)值
- 處理缺失值
- 一致化處理
- 數(shù)據(jù)排序
- 異常值處理
(一)用于產(chǎn)品維度分析的數(shù)據(jù)清洗工作
在對產(chǎn)品維度進行分析時,將使用母嬰商品表進行分析,因此要對該表格進行數(shù)據(jù)清洗工作。
1、選擇特征子集
在產(chǎn)品維度分析中不會使用到auction_id和property,所以將這兩列數(shù)據(jù)隱藏。
2、列名重命名
將英文列名轉(zhuǎn)換成中文列名便于后續(xù)分析。
3、刪除重復(fù)值
對于數(shù)據(jù)集中是否存在重復(fù)樣本的識別,首先要確定數(shù)據(jù)集的主鍵,即可以唯一標(biāo)識數(shù)據(jù)集中每條記錄的特征,其次檢查主鍵是否存在重復(fù)值,若存在,說明數(shù)據(jù)集中有重復(fù)的記錄。
從字段含義上分析,對于用戶交易商品數(shù)據(jù),同一用戶可能會重復(fù)購買多次商品,一天中會發(fā)生多項交易,一種商品可能被多次重復(fù)購買,而商品類別和商品屬性與商品編號有關(guān),因此單一特征無法實現(xiàn)唯一標(biāo)識每條記錄。對于這個數(shù)據(jù)集可以采用多種特征共同標(biāo)識每條記錄,即采用用戶ID、商品一級類別和購買日期共同決定。因此,經(jīng)檢查購買母嬰商品表中不存在重復(fù)值。
4、缺失值處理
檢查數(shù)據(jù)集是否有缺失值比較簡便的一種方式就是首先數(shù)據(jù)集中的樣本數(shù)量,查看該列數(shù)據(jù)的數(shù)量,其次依次查看每個特征的數(shù)量是否與總樣本數(shù)量一致,若數(shù)量小于總樣本量,則說明該列有缺失數(shù)據(jù)。經(jīng)檢查,數(shù)據(jù)集不存在缺失數(shù)據(jù)。
5、一致化處理
日期格式處理:表格中購買時間字段的數(shù)據(jù)類型時數(shù)值型,為了便于分析不同時間下的銷量,應(yīng)將其轉(zhuǎn)化為日期功能。這部分可以通過Excel中的“分列”功能實現(xiàn)。
6、數(shù)據(jù)排序
將數(shù)據(jù)按照購買數(shù)量降序排列。
7、異常值處理
對購買數(shù)量進行描述性統(tǒng)計,發(fā)現(xiàn)購買數(shù)量中位數(shù)是1,眾數(shù)都是1,最大值為10000。由于在實際中可能會有大客戶的存在,但這種情況占少數(shù)。這里主要分析一般情況下的銷售情況,所以剔除與平均值的偏差超過三倍標(biāo)準(zhǔn)差的高度異常值,即剔除194.5以上的購買數(shù)量的數(shù)據(jù),取整則剔除購買數(shù)量為194以上的數(shù)據(jù)。
至此,母嬰商品表數(shù)據(jù)清洗工作結(jié)束,數(shù)據(jù)集一共包含29941條記錄,5個字段。
(二)用于用戶維度分析的數(shù)據(jù)清洗工作
在用戶維度分析中,共同涉及到嬰兒信息表和購買商品表兩個表中的數(shù)據(jù),所以將兩個表格進行整合。
1、選擇特征子集
嬰兒信息表中的字段對后續(xù)的分析都有一定的意義,所以不對數(shù)據(jù)集中的某些字段進行隱藏。購買商品表中將隱藏auction_id和property兩列數(shù)據(jù)。
2、列名重命名
對于兩個表中的英文字段名轉(zhuǎn)換成中文的
3、刪除重復(fù)值
嬰兒信息表該表中不存在重復(fù)值,所以不需要對其刪除重復(fù)值操作。購買商品表的操作與之前相同。
4、處理缺失值
經(jīng)檢查,嬰兒信息表中不存在缺失值。
5、一致化處理
(1)多表關(guān)聯(lián)查詢
在后續(xù)分析中,會分析有不同性別、年齡寶寶的用戶的購買偏好,所以需要將購買母嬰商品表和嬰兒信息表進行關(guān)聯(lián)。進行此項操作可以使用Excel中的vloookup函數(shù),將嬰兒信息表中的出生日期和性別特征包含進購買母嬰商品表中。由于兩數(shù)據(jù)集中的記錄數(shù)量不匹配,并不是所有用戶的嬰兒信息都在數(shù)據(jù)集中,有些用戶沒有相關(guān)的寶寶記錄。因此為了方便后續(xù)分析工作,只留下有寶寶信息的交易記錄。結(jié)果如下:
(2)日期格式處理
表格中購買時間和出生日期字段的數(shù)據(jù)類型時數(shù)值型,為了便于分析不同時間下的銷量,計算寶寶年齡等分析操作,應(yīng)將其轉(zhuǎn)化為日期功能。這部分可以通過Excel中的“分列”功能實現(xiàn)。結(jié)果如下:
對結(jié)果進行檢查。通過篩選功能檢查這兩列所有數(shù)值,發(fā)現(xiàn)出生日期中有一條記錄為“1984/6/16”。實際上,從購買時間上來看,該數(shù)據(jù)記錄的是2012年-2015年的交易信息,孩子的出生日期不可能是1984年,所以這條記錄屬于異常值,將其刪除。
(3)性別取值處理
嬰兒性別使用數(shù)值代表男或女,在分析時會有很多不方便的地方,所以將性別值進行變換。這部分內(nèi)容可以通過vlookup函數(shù)實現(xiàn)。
首先要定義分組,確定每個分組的取值范圍。如下所示:
然后用vlookup函數(shù)進行值的匹配。操作過程:
整體結(jié)果如下所示:
然后通過篩選功能檢查是否有異常值,最后將不用于分析的列隱藏起來。
6、添加年齡列
在后續(xù)分析中需要分析不同寶寶年齡的購買偏好,所以需要在數(shù)據(jù)集中添加年齡,可以通過出生日期進行計算。在這里使用Excel的隱藏函數(shù)datedif。將未出生寶寶的年齡設(shè)置為-1。
另外,為了便于后續(xù)分析,可以將年齡進行分組。使用vlookup進行操作。定義分組:
分組結(jié)果:
7、數(shù)據(jù)整理
在進行完以上步驟后,再次檢查數(shù)據(jù)集中的數(shù)據(jù)缺失情況,僅商品屬性列有兩個缺失值,其余數(shù)據(jù)均是完整的。
至此,母嬰交易數(shù)據(jù)的數(shù)據(jù)清洗工作結(jié)束。清洗后的數(shù)據(jù)集包含954條數(shù)據(jù),10個特征。將清洗好的數(shù)據(jù)復(fù)制存入一個新Excel文件中。
四、數(shù)據(jù)分析及可視化
(一)產(chǎn)品維度1、商品銷量隨時間如何變化?根據(jù)商品在各年份的銷售總量,可以得到商品銷量的總變化
從上面圖表可以看出,2012年到2014年母嬰用品的銷量逐年攀升,但到2015年數(shù)據(jù)突然下降。
提出問題:為什么2012年和2015年的銷售量遠(yuǎn)低于2013年和2014年的銷售量?
假設(shè):2012年和2015年的銷售數(shù)據(jù)不全
收集證據(jù):2012年到2015年每個月份的銷售數(shù)據(jù),展示如下:
通過查驗,數(shù)據(jù)集中2012年只有7月到12月的銷售數(shù)據(jù),2015年只有1月份和2月份的銷售數(shù)據(jù)。由于數(shù)據(jù)不完整,所以導(dǎo)致2012年和2015年的銷售數(shù)據(jù)偏低。
得出結(jié)論:假設(shè)成立,2012年和2015年銷售量低是由于全年數(shù)據(jù)不完整。
從2013年和2014年的全年銷售數(shù)據(jù)變化來看,可以發(fā)現(xiàn)母嬰商品的銷售數(shù)據(jù)成上升趨勢,從不同年份商品銷量數(shù)據(jù)可以看出2014年的銷售量比2013年的高出8000多。因此,母嬰商品的電商銷售情況呈現(xiàn)向好態(tài)勢。
進一步,從各月份銷售量變化趨勢可以發(fā)現(xiàn)每年的11月份和5月份都會出現(xiàn)銷售小高峰,銷量較其他月份要高。而每年的1月或2月會出現(xiàn)銷售低谷。這是為什么呢?下面用假設(shè)檢驗分析方法和對比分析方法展開分析。
提出問題:為什么每年11月份會出現(xiàn)銷售小高峰?
提出假設(shè):11月份出現(xiàn)銷售小高峰可能是受雙11活動的影響。
收集證據(jù):將2012年、2013年、2014年的11月份銷售數(shù)據(jù)分別按日期展開展示。由于2015年只有前兩月份的數(shù)據(jù),所以在這里不做考慮。
從圖表中可以看出,2012年11月在5號、10號到12號的銷量較高,其中10號這天銷量最高達(dá)到266;2013年11月在1號、6號、11號、30號的銷量較高,其中11號的銷量最高達(dá)到307;2014年11月在11號、15號、22號、26號這幾天銷量較高,其中11號銷量最高達(dá)到774。
因此,可以發(fā)現(xiàn)2012年、2013年和2014年的11月份都在雙11左右出現(xiàn)銷售高峰,高于其他日期的銷量,說明雙11促銷活動導(dǎo)致銷量增高。
得出結(jié)論:假設(shè)成立,雙11活動促進消費。
提出問題:為什么每年5月份出現(xiàn)銷售小高峰?
提出假設(shè):可能是由于店鋪在5月份的某些節(jié)日做了促銷活動。
收集證據(jù):由于2012年和2015年的數(shù)據(jù)不全,所以在這里只展開2013年和2014年5月份每日的銷售數(shù)據(jù)。
從圖表中可以發(fā)現(xiàn),2013年5月份在20號和30號的銷量比較高,2014年5月份在12號、27號的銷量比較高。兩年中銷量高峰相同的地方是在5月20日左右,所以猜測可能是由于520節(jié)日做了促銷活動所以銷量上升。另外2013年的5月13號、2014年的5月12號也同時出現(xiàn)了小的銷售高峰,經(jīng)查看日歷,發(fā)現(xiàn)與當(dāng)年的母親節(jié)時間吻合,所以猜測可能是在母親節(jié)中做了某些活動。
得出結(jié)論:假設(shè)成立。在5月份的節(jié)日中舉辦促銷活動促進了銷量提升。
提出問題:為什么每年的1月份或2月份出現(xiàn)銷售低谷?
提出假設(shè):可能由于春節(jié)假期快遞停運等影響了銷量。
收集證據(jù):對2013年、2014年1月份和2月份的日銷售量數(shù)據(jù)進行展開展示。由于2012年和2015年的1月份、2月份數(shù)據(jù)不全,所以在這里不進行展示。
經(jīng)調(diào)查2013年春節(jié)假期為2月9日至2月15日,2014年春節(jié)假期為1月31日至2月6日。從圖標(biāo)中可以發(fā)現(xiàn),2013年2月2日至2月15日期間銷量處于低谷,恰逢當(dāng)年春節(jié)期間;2014年1月26日至2月3日的銷量處于與低谷,同樣這個時期與當(dāng)年春節(jié)假期吻合。其他時間銷量正常。因此,可以說明春節(jié)假期中快遞歇業(yè)對銷量產(chǎn)生一定負(fù)面影響。
得出結(jié)論:假設(shè)成立,每年1、2月份由于春節(jié)假期影響導(dǎo)致銷量降低。
2、不同類別商品銷量是否有差異?熱銷產(chǎn)品有哪些?從以上圖表可以看出,在所有一級類別商品中,銷量最高的是28類商品,其次是50008168和50014815類別商品。因此,28類商品比較受消費者歡迎。進一步分析各類商品的銷量,根據(jù)公式“銷量=購買人數(shù)*人均購買數(shù)量”將銷量拆解為購買人數(shù)和人均購買數(shù)量來分析。
但從上圖中可以看出,購買商品人數(shù)和人均購買數(shù)量的排名均與銷量排名不同。用戶購買人數(shù)最多的產(chǎn)品類別是50008168,其次是28和50014815兩類別商品,與總銷量排名相比,銷量最高的28類別商品的購買人數(shù)并不多,但人均購買商品數(shù)較多。人均購買量最高的是38類別商品,然而其購買用戶數(shù)和銷量都不高,銷量排名第二的50008168類別商品的人均購買數(shù)量較低。
提出問題:為什么購買人數(shù)最多的50008168類商品的人均購買量較低?
提出假設(shè)1:可能是由于50008168類商品不是經(jīng)常再購買的商品。
提出假設(shè)2:可能是由于50008168類商品本身的原因造成人均購買數(shù)量低。
收集證據(jù):需要具體關(guān)注50008168類商品的類型,是否為非消耗品。如果不是,就可以關(guān)注50008168類商品的產(chǎn)品是否不能滿足用戶的需求、推廣力度不夠等方面進一步分析,由于此處數(shù)據(jù)信息不充足,所以無法再進一步找出問題根源。
提出問題:為什么人均購買量很高的38類商品的銷量和購買用戶數(shù)較低?
提出假設(shè):將這個問題從三方面進行拆解:
- 產(chǎn)品方面:該類產(chǎn)品可能沒有滿足大多數(shù)用戶的需求?
- 競品方面:該類商品中包含的品牌商品價格可能相較于其他品牌價格較高,其他品牌的促銷活動可能比該類商品舉辦的頻繁
- 運營方面:該類商品的推廣力度可能不夠
收集證據(jù):將該類商品的特征與其他競品特征做對比,收集同類的其他品牌商品的價格數(shù)據(jù),以及其他品牌舉辦促銷活動信息等等。由于當(dāng)前資源有限,所以無法對相關(guān)問題進行更深一步分析。
可以看出銷量最好的二級類別商品是50018831,說明50018831類商品最受消費者歡迎。其次是50013636類商品和211122類商品。銷量最好的這三類商品并不完全屬于銷量比較好的一級類別。其中,最暢銷的50018831類別商品屬于銷量排名第三的50014815一級商品;銷量排名第三的211122類別商品屬于38大類。至于其他二級類別,50013187、50003700、50011993二級類別屬于銷量雖多的28大類商品,50012451、50013207、50010558、50006602、50013636二級類別商品屬于銷量排名第二的50008168。
主要分析2013年和2014年各類商品的銷售情況。從圖表中可以看出,2014年各類別商品的銷售量均高于2013年各類商品的銷量,其中28和50008168類別商品增加最為明顯,說明這兩類商品受到了用戶的歡迎。
3、商品復(fù)購率如何?根據(jù)公式“復(fù)購率=在一定時間段內(nèi)的重復(fù)購買人數(shù)/總體購買人數(shù)”,首先計算2012年7月-2015年2月期間的整體復(fù)購率。這段時間中,發(fā)生重復(fù)購買行為的用戶數(shù)為25人,有購買行為的用戶總數(shù)為29914,所以總體復(fù)購率為(25/29914)*100%=0.0836。可以發(fā)現(xiàn)商品的復(fù)購率是很低的。
我們再來看各一級類別商品的復(fù)購率。
從圖表中可以發(fā)現(xiàn)各一級類別商品的復(fù)購率仍然很低,甚至在50022520和122650008類別商品的復(fù)購率為0%。說明各類商品的用戶粘性較低。
提出問題:為什么母嬰商品的復(fù)購率很低?
提出假設(shè):從三個維度拆解進行分析
- 競品維度:整體行業(yè)的復(fù)購率比較低
- 產(chǎn)品維度:可能產(chǎn)品存在一定問題,比如沒有滿足用戶的需求,用戶使用體驗不佳;也可能是商品的性質(zhì)不是用戶重復(fù)需要的
- 用戶維度:由于商品描述或者客戶服務(wù)不到位,使得用戶不再購買商品
收集證據(jù):與市場部交流,需要收集同類型其他品牌商品的復(fù)購數(shù)據(jù),與本產(chǎn)品類別進行對比分析;與產(chǎn)品部交流,收集用戶需求信息和產(chǎn)品相關(guān)數(shù)據(jù),進行分析;與運營部交流,需要了解客戶服務(wù)等情況。由于資源限制,無法再更深一步進行分析。
(二)用戶維度1、年齡層面
根據(jù)用戶的寶寶年齡和各種類商品的銷量情況,分析不同年齡寶寶的購買偏好。
從上面圖標(biāo)可以看出,有0-2歲寶寶的用戶的購買商品數(shù)據(jù)量最多,說明0-2歲寶寶的購買需求很大。其次是有2-4歲寶寶、未出生寶寶和4-6歲寶寶的用戶的購買商品數(shù)量較多。但是有6歲以上寶寶的用戶對母嬰商品的購買商品數(shù)量較少,說明6歲以上寶寶的對母嬰商品購買需求較低。所以可以側(cè)重6歲以下寶寶用品的產(chǎn)品推廣。
由于6歲以下寶寶用品的銷量比較多,所以在這里重點分析6歲以下寶寶的購買偏好。從上面圖表可以看出,未出生和0-2歲寶寶中50014815類商品的銷量最多,說明50014815類商品受到2歲以下寶寶的歡迎。2-4歲寶寶和4-6歲寶寶中50008168類商品的銷量最多,說明2到6歲的寶寶更偏愛于50008168類商品。
2、性別層面
根據(jù)用戶的寶寶性別和各種類商品的銷量情況,分析不同性別寶寶的購買偏好。
為了準(zhǔn)確分析不同性別寶寶總體的銷量對比,在這里不考慮未知性別的寶寶。從上述圖表中可以看出,女性寶寶的購買商品數(shù)量占總體63%,遠(yuǎn)高于男性寶寶的購買商品數(shù)量。說明有女性寶寶的用戶的購買需求要高于男性寶寶的用戶,購買欲較強。
從上面圖表中可以看出,在所有類別商品中,女性寶寶用戶購買50014815類商品的數(shù)量最多,其次是50008168類商品、28類商品和38類商品,這四類商品女性寶寶的購買數(shù)量均高于男性寶寶,說明女性寶寶對這四類商品的需求量比男性寶寶的大。其他兩類50022520類商品和122650008類商品在男性寶寶和女性寶寶中的銷量都比較低,并且銷量相差不大,說明男性寶寶和女性寶寶對這兩類商品的需求差異不大。
五、分析建議
1、對于上半年銷量,可以著重在5月份時加大宣傳和促銷活動,進而拉動上半年的母嬰商品銷售情況,對于下半年們?nèi)匀豢梢岳^續(xù)進行雙11的促銷活動。但需要注意在促銷活動前應(yīng)保持合理且充足的庫存,否則會影響用戶購買體驗。
2、在春節(jié)期間由于快遞停運給用戶帶來的不便使得商品銷售量比較低,所以在春節(jié)期間一方面應(yīng)注意庫存的管理,另一方面注意對客戶的服務(wù)。另外,可以在春節(jié)前或春節(jié)過后采取促銷活動,加強推廣以提升銷量。
3、一級類別28、50008168和50014815三種類別銷量最高,且在各年份中這三類商品的銷量一直較高,所以可以大力推廣宣傳和供應(yīng)這三類商品。
4、根據(jù)二級類別商品銷量情況,關(guān)于有效提升銷量最差的38類一級商品銷量,可以著重推廣宣傳211122類商品,比如在用戶搜索38類商品相關(guān)的信息時,可以重點推薦211122類商品。另外可以重點推廣50018831類商品以進一步提升50014815類商品的銷售情況。
5、針對復(fù)購率低的問題,可以提升客戶售后服務(wù),充實商品介紹,改善客戶的購物體驗,或者加大對各品類的宣傳力度,在合理范圍內(nèi)發(fā)放優(yōu)惠券等活動,以提升復(fù)購率。
6、0-2歲寶寶的購買力度比較強,購買人數(shù)較多,所以可以重點針對0-2歲寶寶需要的商品進行大力推廣。由于未出生寶寶和0-2歲寶寶對于50014815類商品購買較多,可以重點將這兩類商品推薦給用戶,而對于2-6歲寶寶可以重點推薦50008168類商品,以迎合購買用戶的需要。
7、從用戶性別來看,女性寶寶比較偏愛于50014815類商品,可以重點將這類商品推薦給用戶。而對于男性寶寶可以重點向其推薦50008168類商品。
關(guān)鍵詞:分析,數(shù)據(jù),商品