電商嬰兒商品銷量分析
時(shí)間:2023-03-26 07:54:01 | 來(lái)源:電子商務(wù)
時(shí)間:2023-03-26 07:54:01 來(lái)源:電子商務(wù)
一、提出分析問(wèn)題
- 常見(jiàn)電商數(shù)據(jù)分析指標(biāo)
參考書目《數(shù)據(jù)化管理:洞悉零售及電子商務(wù)運(yùn)營(yíng)》2.母嬰銷售人貨場(chǎng)分析思路
參考書目《數(shù)據(jù)化管理:洞悉零售及電子商務(wù)運(yùn)營(yíng)》3.根據(jù)分析思路提出問(wèn)題
現(xiàn)就阿里云天池上下載的淘寶和天貓上母嬰用品的銷售數(shù)據(jù)進(jìn)行分析
數(shù)據(jù)來(lái)源:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45由于本次數(shù)據(jù)集收集到的數(shù)據(jù)有限(數(shù)據(jù)集介紹見(jiàn)下文“理解數(shù)據(jù)”部分),電商指標(biāo)暫無(wú)法分析,人貨場(chǎng)模型中也僅有部分可分析。
根據(jù)已有的電商嬰兒銷售數(shù)據(jù)及分析思路,提出如下問(wèn)題
二、理解數(shù)據(jù)
數(shù)據(jù)集有兩個(gè)文件:
- 電商用品交易數(shù)據(jù):提供“購(gòu)買用戶ID”、“訂單號(hào)”、“子品類”、“大品類”、“商品屬性”、“購(gòu)買數(shù)量”、“購(gòu)買時(shí)間”信息。
2.兒童信息表:提供“用戶ID”、“兒童出生日期”、“兒童性別”信息。
兩張表通過(guò)“用戶ID”關(guān)聯(lián)。
三、數(shù)據(jù)清洗
- 選擇需要的子集
想要解決之前提出的問(wèn)題,需要知道如下數(shù)據(jù):銷量、兒童年齡、大品類、兒童性別。會(huì)用到子集“購(gòu)買用戶ID”、“大品類”、“購(gòu)買數(shù)量”、“購(gòu)買時(shí)間”“兒童出生日期”、“兒童性別”(兒童年齡=購(gòu)買時(shí)間-購(gòu)買數(shù)量)
2.列明重命名
為方便查看,將列名重命名為中文
3.刪除重復(fù)值
“用戶ID”是唯一標(biāo)識(shí),據(jù)此查找重復(fù)項(xiàng)并刪除
4.缺失值處理
通過(guò)查看每列的計(jì)數(shù)值,發(fā)現(xiàn)一致,無(wú)缺失值
5.一致化處理
a.為了計(jì)算年齡,將日期信息數(shù)據(jù)處理成日期格式
數(shù)據(jù)—分列(日期格式)
另一張表同樣處理
b.將兒童的性別由數(shù)字變?yōu)槲淖?br>
0:女
1:男
2:未知
c.通過(guò)vlookup函數(shù)將兒童性別和出生日期匹配至交易數(shù)據(jù)表
發(fā)現(xiàn)只有953數(shù)據(jù)可以匹配到,選取這953條數(shù)據(jù)
d.計(jì)算兒童年齡
兒童年齡=(購(gòu)買日期-出生日期)/365
e.通過(guò)vlookup函數(shù)對(duì)年齡進(jìn)行分組
6.異常值處理
通過(guò)篩選發(fā)現(xiàn):
a.兒童年齡有1個(gè)為28歲,明顯為錯(cuò)誤值,刪去。
b.兒童年齡有負(fù)數(shù),-1歲以內(nèi)有130個(gè)數(shù)據(jù),應(yīng)該為備孕期的媽媽替孩子購(gòu)買的商品,故推斷出此時(shí)購(gòu)買的商品屬于0-1歲。小于-1歲的有14個(gè)值,為異常值,刪去。
四、構(gòu)建模型,得出分析結(jié)果
五、總結(jié)及建議