電商產(chǎn)品數(shù)據(jù)分析基礎(chǔ)
時間:2023-03-15 20:46:01 | 來源:電子商務(wù)
時間:2023-03-15 20:46:01 來源:電子商務(wù)
數(shù)據(jù)分析對于電商行業(yè)的重要性不言而喻,通過數(shù)據(jù)分析,可以幫助商家選出爆品,找出運(yùn)營中的薄弱環(huán)節(jié)以及與同行的差異。
簡單來講,數(shù)據(jù)分析可以分為以下五個步驟:
- 明確問題:通過數(shù)據(jù)分析我們想弄清楚什么問題,找出什么樣的規(guī)律,得到什么有價值的結(jié)論;
- 理解數(shù)據(jù):我們需要什么樣的數(shù)據(jù)作為支撐,數(shù)據(jù)中的每個字段代表了什么;
- 數(shù)據(jù)清洗:無論是通過爬蟲獲取的數(shù)據(jù),運(yùn)營產(chǎn)生的數(shù)據(jù),還是購買的第三方數(shù)據(jù),都需要對數(shù)據(jù)進(jìn)行清洗,根據(jù)所需解決的問題,對數(shù)據(jù)進(jìn)行整理;
- 數(shù)據(jù)分析或構(gòu)建模型:將清洗后的數(shù)據(jù),進(jìn)行各個因素之間的相關(guān)性分析并進(jìn)行統(tǒng)計;
- 數(shù)據(jù)可視化:將數(shù)據(jù)分析的結(jié)果以圖表等形式進(jìn)行展現(xiàn),便于觀察和理解。
下面以淘寶某一段時間嬰兒用品的銷售數(shù)據(jù)為例進(jìn)行分析。
第一步:我們希望通過數(shù)據(jù)分析弄清楚:(1)哪些商品的銷量最好,最受大家的歡迎(2)不同性別的嬰兒對產(chǎn)品需求的差異(3)時間因素對產(chǎn)品銷售的影響。
第二步:我們通過阿里云天池數(shù)據(jù)集獲得了我們所需的數(shù)據(jù),購買商品數(shù)據(jù)集里共有29972條數(shù)據(jù),里面包含“用戶ID”,“商品編號”,“商品二級分類”,"商品一級分類","商品屬性”,“購買數(shù)量”和“購買時間”。嬰兒信息中共有954條數(shù)據(jù),里面包含“用戶ID”,“出生日期”和“性別”。
第三步:數(shù)據(jù)清洗包含以下幾個步驟:
- 選擇子集:在源文件中保留數(shù)據(jù)分析所需的字段,將其他字段隱藏;
- 列名重命名:將字段的名字進(jìn)行修改,方便理解和記憶
- 刪除重復(fù)值:在excel中,“數(shù)據(jù)”->“數(shù)據(jù)分析”->刪除重復(fù)值
- 缺失值處理:在excel中,“數(shù)據(jù)”->“數(shù)據(jù)分析”->快速填充
- 一致化處理:通過excel中的分列功能,將購買時間的數(shù)據(jù)類型,從數(shù)值型轉(zhuǎn)化為日期型;
- 數(shù)據(jù)排序:根據(jù)購買時間將所有的數(shù)據(jù)升序排列;數(shù)據(jù)的時間范圍為2012年7月2日至2015年5月2日;
- 異常值處理:通過篩選功能,檢查是否存在異常值,如果存在,將其更正;
第四步:通過數(shù)據(jù)透視表進(jìn)行數(shù)據(jù)分析,弄清楚每年,每季度,每月份的嬰兒用品的銷量如何。我們通過不同年份的同期對比可以發(fā)現(xiàn),嬰兒用品的數(shù)量呈現(xiàn)逐年遞增,表明母嬰用品的銷量長期看漲。單月銷售最高的為2014年11月份,總共銷售13044件。此外,還可以通過修改匯總項的值匯總依據(jù),可以顯示最大值、最小值和平均值等數(shù)據(jù)。
因為有同一個用戶ID重復(fù)購買不同的商品,所以用數(shù)據(jù)透視表將用戶ID和購買數(shù)量分類匯總,得到每個用戶的總購買數(shù)量;再用VLOOKUP函數(shù),在嬰兒信息中查找對應(yīng)用戶ID的購買數(shù)量。
從性別差異上看,除品類50022520外,女寶寶的購買數(shù)量比例都高于男寶寶。
第五步:數(shù)據(jù)可視化:根據(jù)所需要的結(jié)果,可以選擇合適的圖標(biāo)形式對數(shù)據(jù)作圖,使數(shù)據(jù)直觀的呈現(xiàn)出來。
關(guān)鍵詞:分析,基礎(chǔ),數(shù)據(jù),產(chǎn)品