電商母嬰產品數(shù)據(jù)分析
時間:2023-03-26 04:58:01 | 來源:電子商務
時間:2023-03-26 04:58:01 來源:電子商務
一、分析背景及目的
時代變遷,中國父母,從過去生5-6個,到后來的計劃生育,再到現(xiàn)在的二胎。孩子生得少了,但是育兒的成本卻越來越高。尤其是近幾年來,移動時代的到來,新生代父母們對于科學育兒越來越重視。16年,二孩政策的到來,母嬰市場在未來,必將會發(fā)生天翻地覆的變化。
本文選取的是,淘寶天貓的母嬰產品在2012年到2015年的部分數(shù)據(jù)集,以及部分用戶信息的數(shù)據(jù)集,來源于阿里云天池。
通過對這2組數(shù)據(jù)集的分析,充分了解當時母嬰產品的銷售情況,找出銷售規(guī)律,幫助公司提高收益。
二、分析思路
三、數(shù)據(jù)預處理
(1)選擇子集
刪除auction_id字段,新增
屬性復雜度、
屬性復雜度級別、
數(shù)量級別,年齡區(qū)間4個字段
(2)列名重命名
表1,user_id(用戶ID)、cat_id(商品ID)、cat1(商品類型)、proprety(商品屬性)、buy_mount(購買數(shù)量)、day(購買日期)
表2,user_id(用戶ID)、birthday(出生日期)、gender(性別)
(3)刪除重復值
無重復值
(4)缺失值處理
只有商品屬性有144個缺失值,商品屬性的值,有點像字典,冒號前的是key,冒號后是value,每個元素用分號隔開。
思考:假設字典中數(shù)據(jù)越多,是不是這個商品就越復雜,也就跟價值會有點關系呢,所以我們新增一個字段,叫
屬性復雜度,通過函數(shù)
LEN($E2)-LEN(SUBSTITUTE($E2,IF(ISBLANK(E2),0,":"),""))處理成屬性復雜度。
商品屬性應該跟
商品ID和
商品類型,有著比較強的相關性,新增
商品字段,把
商品ID和
商品類別組合起來。隨后把
屬性復雜度非0的進行透視,計算每種商品的
屬性復雜度平均值,再用vlookup函數(shù)替換缺失值。
商品與屬性復雜度透視表 商品類型與屬性復雜度透視表剩余一部分缺失值,我們把
商品類別跟
屬性復雜度進行透視,得到各個類別的均值,再進行替換,到此我們用
屬性復雜度替代
商品屬性字段,我們刪除
購買行為編號 ,商品屬性,商品三個字段。至此,我們把屬性進行了缺失值處理
(5)異常值處理
刪除表2的1984年出生的用戶。購買數(shù)量1000以上的不能判定是否異常。
(6)一致化處理
把日期通過分列的方法進行統(tǒng)一成標準的日期格式,。
表1中,購買數(shù)量進行統(tǒng)計描述
方差極大,樣本值很分散,均值跟第十最大值,相差較大。通過透視圖觀察,其占比主要集中在數(shù)量1跟2上。我們可以把購買數(shù)量進行按區(qū)段劃分,1為1區(qū)間,2為2區(qū)間,3-10為3區(qū)間,11-20為4區(qū)間,21-100為5區(qū)間,101到10000為6區(qū)間,通過vlookup實現(xiàn),新增字段
數(shù)量級別。屬性復雜度,做柱狀圖可得分布較為均勻,可以求四分位數(shù),Q1=8,Q2=16,Q3=23,創(chuàng)建
屬性復雜度級別1-8為1級,9-16為2級,17-23為3級,24以上為4級,通過vlookup實現(xiàn),每級樣本數(shù)基本相同。
表2數(shù)據(jù)導入表1,用函數(shù)round((購買日期-出生日期)/365,1),得到年齡分布
年齡分布觀察上述年齡分布,可以年齡劃分幾個區(qū)段,新增
年齡區(qū)間字段未出生,0-5個月,0.5-1.5歲,1.5-3歲,3歲-5歲,5歲-7歲,7歲-12歲,通過vlookup來實現(xiàn)。
(7)數(shù)據(jù)排序
按照購買日期排序
四、分析內容
(1)商品銷量在各時間維度上有怎樣的規(guī)律?
圖1根據(jù)圖1,商品的銷量是逐年遞增的,每年各個季度也是遞增的,第四季度達到最大值,到了來年的一季度又會回落。從每個月份,按照數(shù)量級別,銷量最好的是5月,11月跟12月。
圖2圖3根據(jù)圖2,其中5月銷量分布比較均勻,14年5月12日出現(xiàn)了大幅度的增加,11月跟12月主要是雙十一跟雙十二增長較大。
根據(jù)圖3,除去雙十一,雙十二兩天活動,5月是要比11、12月銷量更高的,事實證明,舉辦大型促銷活動是能夠激發(fā)用戶的消費能力,也能大幅提高銷量。
(2)哪些類型的商品比較受歡迎?
圖4根據(jù)圖4從購買數(shù)量可知,28,50014815,大批量購買較多。
圖5根據(jù)圖5,可知50008168類型最熱銷,其次是28類型的商品。
圖6根據(jù)圖6,熱銷商品50008168,用戶對于商品的復雜度要求比較高,選擇較認真
(3)屬性復雜度是否影響了商品的銷量?
圖7根據(jù)圖7,從數(shù)量級別看,銷量隨著復雜度略微下降,從購買數(shù)量看,大批量購買主要集中在低復雜度的商品。
(4)不同性別與銷量,類型,復雜度的關系
圖8根據(jù)圖8,性別0比1多6%左右,不同性別對銷量級別影響較小,但是性別為0的用戶,批量購買較多。不同性別對不同類型的需求量基本遵循(2)的分布。
圖9根據(jù)圖9,性別0對復雜度級別在2的商品選擇較多。
(5)不同年齡段與銷量,類型,復雜度的關系
圖10根據(jù)圖10,0.5-1.5歲用戶購買最多,其次是1.5-3歲,且0.5-1.5歲用戶批量購買也是最多的。類型50008168是所有年齡段必買類型,且在1.5-3歲需求量最大,其他類型在隨著年齡增加,逐漸就不再購買。
圖11根據(jù)圖11,各年齡段對于復雜度的選擇并沒有特別的傾向,分布比較均勻。
五、結論
(1)每年按季度銷量是逐漸遞增,到來年又會回落,年初屬于淡季。11月,12月受雙十一,雙十二影響,銷量有很大增長。5月沒有大型活動,但是銷量也比較大。
(2)28,50014815類型商品,大批量購買較多。50008168類型最熱銷,且用戶在選擇是會仔細選擇屬性,屬性復雜度較高。
(3)更多人會選擇屬性更少的商品,尤其是批量采購的用戶,更喜歡屬性少的商品。
(4)不同性別嬰兒的用戶,對于商品屬性的選擇遵循(3)結論。性別為0的用戶存在更多批量購買型用戶。
(5)嬰兒未出生時,用戶更多選擇50022520類型的商品,出生后就沒有太大需求了。其他類型商品在嬰兒出生后,需求量立馬提升,在1.5歲后需求量降低。熱銷商品50008168在1.5-3歲的用戶,銷量達到最高峰,之后需求量緩慢下降,但需求量依然很高。