某電商母嬰產品分析
時間:2023-03-26 04:18:01 | 來源:電子商務
時間:2023-03-26 04:18:01 來源:電子商務
【數據集分析】
數據來源于某電商平臺嬰兒商品的相關數據集,分別是表1購買商品和表2嬰兒信息
[表1]該數據集共有29971條購買商品信息記錄,共有7個字段,分別為:
user_id:用戶id,用戶在平臺注冊的ID,一個ID對應一個用戶,不可重復
auction_id:購買行為編號,此處是商品編號,可以作為用戶購買行為的唯一識別碼
cat_id:商品種類ID,例如從嬰兒的吃、穿、玩、洗護、學習以及媽媽專區(qū)等進行分類。
cat1:具體商品屬于cat_id中的哪個類別,是商品種類的細分類別,可以分析在cat_id各類中,哪個子類別最受歡迎。
property:商品屬性,商品的基本參數規(guī)格,從各個方面鎖定商品,可用于店鋪對受歡迎的商品進行鎖定,從而加大庫存。
buy_mount:購買數量,商品的一次性購買數量。
day:購買時間,可以分析某個時間段哪些商品受歡迎,哪些的季節(jié)性較強,同時可以通過促銷活動期間高銷量商品和平時銷量的對比,驗證活動的有效性等。
【表2】該數據集共有953條購買商品信息記錄,共有3個字段,分別為:
user_id:用戶ID,用戶在平臺注冊的ID,一個ID對應一個用戶,不可重復,同時匹配表一的用戶ID。
birthday:出生日期,由此可得寶寶的年齡,可分析用戶在寶寶不同年齡段的商品傾向,哪些商品具有強年齡性,哪些商品是弱年齡性,店鋪也可按照年齡階段將商品進行分類。
gender:性別(0 男性;1 女性),通過對性別的統計,可以分析商品與性別的關聯性,強關聯和弱關聯,或者無關聯,強關聯的商品可針對寶寶性別,進行商品的優(yōu)化升級。但商品的銷量是否是受性別影響一定要控制好其他影響變量。
一、明確問題
通過對數據的理解,觀察現象,把問題定義清楚,明確我們要解決的問題是什么,這是數據分析的第一步。只有明確了問題,才能圍繞這個問題展開后面的分析。如果一開始問題就定義錯了,那再怎么分析,也是白費時間。
此次我們把問題集中在以下幾點:
1、母嬰產品在一年中哪個時間段銷量最好;
2、各類母嬰產品的銷售情況;
3、不同年齡在產品上有哪些選擇差異;
4、不同性別在產品上有哪些選擇差異。
二、理解數據
上篇文章我們已經對兩份數據集進行了理解,包括表1-購買商品和表2-嬰兒信息內的每個字段含義的認識。
三、數據清洗
數據清洗一共分為以下7步:
在數據分析之前,我們需要對數據進行清洗,是因為我們拿到的初始數據往往具有不完整性、格式不一致、重復性或者異常等情況,這就需要我們一一解決數據中存在的這些問題。
1、選擇子集在分析中,商品屬性這一列沒有什么作用,將其隱藏,其余列保留。
2、列名重命名兩張表的列名都可以不需要重命名。
3、刪除重復值通過“數據-刪除重復值-擴展選定區(qū)域-刪除重復項-確定”未發(fā)現重復值。
4、缺失值處理通過“選中列-開始-查找-定位條件-空值-確定”未發(fā)現空值。
5、一致化處理將兩張表里的時間列統一為日期格式:選擇時間這一列-數據-分列-默認下一步-默認下一步-選擇【日期】點擊【完成】
6、數據排序兩張表可以按照單次購買數量進行排序也可以按照時間進行排序,具體排序方式可結合要分析的問題進行。排序操作:選中某列-開始-排序和篩選-升序or降序
7、異常值處理通過對每列數據進行篩選,發(fā)現性別這列有出現數值【2】,一共26條數據,如果【0】表示“女”,【1】表示“男”【2】無法確定性別,由于這類數據在總數據中占比極小,無論更改為0或者1對分析的影響不大,故將其更改為1。
四、數據分析
通過數據清洗,我們就得到了“干凈”的數據,可用于數據分析了,接下來就針對每個問題分別進行分析,其中會用到數據透視表、vlookup多表查詢等功能進行問題分析。
1、母嬰產品在一年中哪個時間段銷量最好;
從上表中我們看出,每個季度都是逐漸遞增的,在第四季度達到當年的銷售量峰值。同比和環(huán)比來說,銷售量也是出現遞增的趨勢。由此可知母嬰產品在一年中第四季度銷量最好,為何在第四季度銷量最好,還需要收集其他數據進一步分析。
2、各類母嬰產品的銷售情況;
通過在數據透視表里對一級商品和二級商品按銷量進行排序發(fā)現,一級類別為【28】的二級類別【50011993】的商品銷量是最高的,銷量為3609。
3、不同年齡在產品上有哪些選擇差異;
通過vlookup將兩表關聯,具體使用如下:
這樣就能將表2-嬰兒信息中的出生日期和性別關聯到表一中,為了更直觀顯示性別,我們需要將0和1轉換為女和男,設定【0】表示女,【1】表示男,用IFS函數可實現轉換。
【注】上圖中會發(fā)現無論是出生日期還是性別中都出現了【N/A】的情況,經分析發(fā)現,表1的用戶數據遠遠大于表2,從而出現表一用戶ID在表二中不存在,導致出現【N/A】。
通過分析得出:還未出生的寶寶主要會購買【50008168】【50014815】【28】【50008168】這四類商品;1-7歲的寶寶購買最多的商品是【50008168】
4、不同性別在產品上有哪些選擇差異。
在性別差異上,男性寶寶購買最多的一級商品是【50008168】其次是【50014815】,而女性寶寶購買最多的是【50014815】其次是【50008168】,排名第三的二者都是【28】這類商品。
在【50008168】中男性寶寶購買最多的二級分類商品分別是【50013636】【50010558】【50006602】
在【50014815】中女性寶寶購買最多的二級分類商品分別是【50018831】【50012456】【50012564】
五、數據可視化
1、
母嬰產品在各時間段的銷量情況;圖3 2012=2015年各季度銷量情況從上圖可以看出,總體上銷量是上升趨勢的(2012年和2015年的數據非全年的,主要對比2013年和2014年全年總銷量和各季度銷量)
圖4 2012-2015年每月銷量情況從圖4中可以看出:
1)每年的銷售峰值出現在11月期間;
為何會在11月期間出現銷售峰值,可采用假設檢驗分析方法進行分析。
假設1:促銷活動
每年電商平臺會在11月、12月舉辦雙十一、雙十二的促銷活動,導致每年的銷量峰值出現在11-12月,假設1成立。
假設2:渠道進行了優(yōu)化
從收集到的數據中暫時無法獲取渠道信息進行驗證,并且如果是渠道進行優(yōu)化那么1月份的銷量的下滑就無法解釋,假設2不成立。
假設3:產品進行了優(yōu)化
從收集到的數據中暫時無法獲取產品優(yōu)化相關信息,需要獲取產品有關的數據采用對比分析后才能進行驗證,假設3不成立。
2)每年年初銷量下滑,基本是當年的銷量最小值的時期。
是什么原因導致每年1-2月的銷量降低呢?同樣采用假設檢驗分析方法進行分析。
假設1:電商行業(yè)客觀規(guī)律
通過對2013、2014年1-2月的銷量情況分析發(fā)現,銷量最低值出現在1月底2月初期間,這個時間段剛好是中國的春節(jié)假期(2013年春節(jié)是2月10日,2014年春節(jié)是1月31日),快遞公司基本是在春節(jié)前一周停運,從而導致銷量下滑,而節(jié)后恢復正常,銷量開始回升。假設1成立。
假設2:產品問題
從已收集的數據中無法得知產品好壞的信息,需要獲取產品好評率、回購率、產品優(yōu)化情況等信息后才能分析,假設2不成立。
假設3:價格問題
從收集的數據中無法得知產品價格,需要獲取詳細價格信息,有無價格調整,調整前后銷量情況這些信息后才能更好分析,假設3不成立。