深入分析電商母嬰產(chǎn)品
時(shí)間:2023-03-26 02:28:01 | 來(lái)源:電子商務(wù)
時(shí)間:2023-03-26 02:28:01 來(lái)源:電子商務(wù)
Excel有強(qiáng)大的處理數(shù)據(jù)功能,每一位數(shù)據(jù)分析師都離不開(kāi)Excel,今天我們就來(lái)學(xué)習(xí)一下怎么使用Excel來(lái)分析數(shù)據(jù)吧。
上一篇文章交代了我選取的數(shù)據(jù)是來(lái)自于阿里巴巴天池的電商零售數(shù)據(jù)母嬰產(chǎn)品,下載地址:Tianchi:Data sets:
數(shù)據(jù)分析的步驟如下圖:
數(shù)據(jù)分析的步驟一、提出問(wèn)題
1、銷(xiāo)量最好和最差的產(chǎn)品是?他們的月銷(xiāo)量和年銷(xiāo)量分別是?
2、 用戶的年齡主要分布在哪個(gè)階段?男用戶多還是女用戶多?
3、哪個(gè)月份的嬰兒出生人數(shù)最多?
腦圖二、理解數(shù)據(jù)
三、數(shù)據(jù)清洗
數(shù)據(jù)清洗是數(shù)據(jù)分析里面較為重要的一步,主要是對(duì)選取的數(shù)據(jù)進(jìn)行補(bǔ)齊、重復(fù)值、異常值等相關(guān)處理,讓數(shù)據(jù)看起來(lái)規(guī)范化一些,這對(duì)于下一步的構(gòu)建模型起到至關(guān)重要的作用。
數(shù)據(jù)清洗步驟1、選擇子集
原始數(shù)據(jù)本來(lái)是csv格式,我們另存為成xlsx格式或者xls格式。
2、列名重命名
原本的字段名為英文,我們可以將其修改成中文,更加方便理解
3、刪除重復(fù)值
數(shù)據(jù)較為規(guī)范,暫無(wú)發(fā)現(xiàn)重復(fù)值
4、缺失值處理
以上是空值定位的方法,存在空值的都是商品屬性的字段,目前沒(méi)有太多資料可以補(bǔ)齊,所以暫時(shí)不作處理,而且分析時(shí)基本用不到這一欄。
5、一致化處理
對(duì)于購(gòu)買(mǎi)日期和出生日期改成常見(jiàn)的日期格式。
6、數(shù)據(jù)排序
此處進(jìn)行數(shù)據(jù)排序無(wú)太大意義,所以暫不處理。
7、異常值處理
嬰兒信息表中存在2的性別,這是不正確的數(shù)據(jù),需要進(jìn)行更正。
四、構(gòu)建模型
1、銷(xiāo)量最好和最差的產(chǎn)品,他們的月銷(xiāo)量和年銷(xiāo)量分別是
產(chǎn)品銷(xiāo)量從上圖可以看出編號(hào)為28的產(chǎn)品銷(xiāo)量是最好的,編號(hào)為122650008的產(chǎn)品銷(xiāo)量是最差的。
年銷(xiāo)量因?yàn)?012年只有半年的銷(xiāo)售數(shù)據(jù),2015年只有2個(gè)月的銷(xiāo)售數(shù)據(jù)。所以我們可以對(duì)比的只有2013和2014年。從上圖可以看到銷(xiāo)量最好的產(chǎn)品和銷(xiāo)量最差的產(chǎn)品從2013-2014年期間,銷(xiāo)量都是呈上升趨勢(shì)。
從上圖可以看出11月和12月的銷(xiāo)量都是較之前的月份要高,這個(gè)應(yīng)該是和雙十一促銷(xiāo)有關(guān)。
2、用戶年齡和性別分析
從上圖可以看出男用戶比女用戶多,但是比例較為接近。可看出較多母嬰產(chǎn)品都是男女適用的。
嬰兒年齡統(tǒng)計(jì)從上圖可以看出使用該產(chǎn)品最多的年齡段是5-8歲,存在一個(gè)35歲的,這個(gè)信息應(yīng)該是錯(cuò)誤的,此處更正。
3、出生人數(shù)較多的月份
從上圖可以看出8月出生的人數(shù)是最多的,這個(gè)可能與我國(guó)讀書(shū)政策有關(guān),因?yàn)?月前出生的孩子可以讀書(shū),不需要讀多一年學(xué)前班,因此很多孕婦會(huì)在8月份提前進(jìn)行剖腹產(chǎn)。
建議:
1、編號(hào)為28的產(chǎn)品銷(xiāo)售量最好,公司應(yīng)該多多進(jìn)貨
2、11月和12月的銷(xiāo)量較高,公司應(yīng)該做好雙十一促銷(xiāo)活動(dòng)。