數(shù)據(jù)分析之路——電商數(shù)據(jù)進(jìn)行分析
時間:2023-03-15 21:10:02 | 來源:電子商務(wù)
時間:2023-03-15 21:10:02 來源:電子商務(wù)
一、背景介紹
本次數(shù)據(jù)依然選擇使用kaggle上公開的商品零售數(shù)據(jù),數(shù)據(jù)獲取地址:
https://www.kaggle.com/puneetbhaya/online-retail該數(shù)據(jù)包括了541909個交易,商品總量達(dá)5176450,數(shù)據(jù)包括了8個字段。
二、提出問題
對數(shù)據(jù)集的關(guān)鍵指標(biāo)進(jìn)行觀察,進(jìn)而評估電商的運營情況以及需要改進(jìn)的方向。因數(shù)據(jù)集僅含有8個字段,分析思路擬按下圖展開:
1.平臺銷售情況
交易額度趨勢
訂單變化趨勢
不同產(chǎn)品的訂單情況
客單價變化情況
電商在各個國家的銷售情況
三.數(shù)據(jù)清洗
1.選擇子集
根據(jù)想要解決的幾個問題,所涉及的字段為發(fā)票代碼、產(chǎn)品、銷量、購買日期、單價、會員ID、國家7個字段,因此隱藏股票代碼字段。除上述7個字段之外,再額外新增總價字段(總價=銷量×單價)。
2.重命名列
該數(shù)據(jù)無需此操作。
3.刪除重復(fù)項
本數(shù)據(jù)集無法利用單個字段對數(shù)據(jù)進(jìn)行刪除重復(fù)項的操作。因此本次根據(jù)發(fā)票代碼和商品名稱(不考慮同一張發(fā)票出現(xiàn)兩次及以上相同商品名稱的情形)兩個字段對數(shù)據(jù)進(jìn)行刪除重復(fù)項的操作。
4.填充缺省值
刪除重復(fù)項后經(jīng)復(fù)核,除產(chǎn)品名稱及會員ID外,其余字段的數(shù)量都為531041項,產(chǎn)品字段為529587項,會員ID字段為396578項。且產(chǎn)品、會員ID的缺省值都為空白。因此,本人先將產(chǎn)品的缺省值都填充為123456,再添加一個輔助列,用于判斷產(chǎn)品名稱是否為123456(if(產(chǎn)品名稱所在的列=123456,0,1)),對數(shù)據(jù)進(jìn)行降序排列,刪除,消除產(chǎn)品名稱為空時對數(shù)據(jù)的影響。
再將會員ID為空的單元格都用99999填充(此部分購買者為非會員)。
在填充過程中,發(fā)現(xiàn)部分產(chǎn)品銷量為負(fù)值、單價為負(fù)值和產(chǎn)品名稱為“?”的情形,因此提前先對銷量、單價和產(chǎn)品三個字段進(jìn)行異常值處理。
(1)銷量為負(fù)值
新增輔助列判斷銷量單元格的值是否小于0(if(銷量所在的列<0,0,1)),對數(shù)據(jù)進(jìn)行降序排列,刪除,消除銷量為負(fù)值對數(shù)據(jù)的影響。
(2)單價為負(fù)值
新增輔助列判斷單價單元格的值是否小于0(if(單價所在的列<0,0,1)),對數(shù)據(jù)進(jìn)行降序排列,刪除,消除單價為負(fù)值對數(shù)據(jù)的影響。
(3)產(chǎn)品名稱為“?”
新增輔助列判斷產(chǎn)品單元格的值是否為?(if(銷量所在的列=?,0,1)),對數(shù)據(jù)進(jìn)行降序排列,刪除,消除產(chǎn)品為“?”對數(shù)據(jù)的影響。
經(jīng)過該步處理后,8個字段全為519967項。
5.一致化處理
對購買日期進(jìn)行一致化處理,因本次分析并不涉及具體的時刻,因此將購買日期單元格格式改為年月日的格式,如下圖所示:
6.排序
該數(shù)據(jù)無需此操作。
7.異常值處理
已在第4步填充缺省值中對銷量、單價和產(chǎn)品三個字段進(jìn)行異常值處理。其余字段(發(fā)票號碼、購買日期、總價、會員ID、國家)均正常。
四.分析使用excel透視表等功能可以得到要分析問題的結(jié)果。我們分別來看一開始要研究的問題。
1.平臺銷售情況
(1)交易額度趨勢,訂單變化情況
現(xiàn)有數(shù)據(jù)范圍為2010年12月1日~2011年12月9日,按月進(jìn)行同比增長分析不具備條件。按月份分析僅能分析2010年12月~2011年11月期間的數(shù)據(jù)。
由上表及上圖明顯可知,交易額度和訂單變化情況在2010年12月1日~2011年12月9日期間保持一致。
2月份和4月份銷量及銷售額出現(xiàn)了明顯的下降,下半年從9月份開始銷量及銷售額出現(xiàn)了明顯的增幅,11月份到達(dá)了頂峰。
分析如下:2月份銷量下降會不會因為出現(xiàn)了類似國內(nèi)春節(jié)的假期,導(dǎo)致大部分銷售人員和快遞人員放假,導(dǎo)致銷量下降。4月份無重大節(jié)日,具體原因需收集到時間序列更長久的銷售數(shù)據(jù)和更多的廠家信息才能分析。
9月份及以后,商家是不是開始了商品的優(yōu)惠促銷,并且在11月份的時候,促銷力度達(dá)到了最大(類似國內(nèi)的雙11)。為證實此想法,將對同一產(chǎn)品各個月度的單價進(jìn)行分析。
篩選了部分產(chǎn)品的各個月度單價表通過上圖發(fā)現(xiàn)大部分產(chǎn)品11月的價格并非最低(普遍比1月份~11月份的平均價格高)。
因此懷疑圖中所選的商品可能不具備代表性。只能先從銷量出發(fā),尋找9~11月份銷量最高的幾種商品,這幾種商品9~11月份的單價是否為全年最低。
9~11月份,銷量最高的5間商品分別為POPCORN HOLDER,RABBIT NIGHT LIGHT,WORLD WAR 2 GLIDERS ASSTD DESIGNS,JUMBO BAG RED RETROSPOT和PAPER CHAIN KIT 50'S CHRISTMAS。該5件商品的歷月單價如下表所示:
該5件商品的9~11月份的單價普遍是較優(yōu)惠的。因此驗證了上述的想法:9月份~11月份期間,商家開始了部分商品的優(yōu)惠促銷,以提高商品的銷量。
(2)不同產(chǎn)品類的訂單情況
商品銷量TOP10
上述10種產(chǎn)品為2010年12月1日~2011年12月9日期間銷量最高的商品,但第1名PAPER CRAFT , LITTLE BIRDIE的銷量是第10名MINI PAINT SET VINTAGE銷量的3倍,差距54362件,差距較大。商家應(yīng)根據(jù)PAPER CRAFT , LITTLE BIRDIE的成功經(jīng)驗,盡量改善其他商品的性能及品質(zhì),以提高商品銷量。
(3)客單價
客單價的統(tǒng)計除去非會員所購買的產(chǎn)品(因為數(shù)據(jù)集中非會員無會員ID,無法統(tǒng)計人數(shù)多少)。
(4) 電商在各個國家的銷售情況
每個國家的商品銷量
由透視表可知,商品銷售量、銷售額排名前三的國家分別為英國、荷蘭和愛爾蘭。
每個國家的商品種類總量
由透視表可知,商品種類總量排名前三的國家分別為英國、德國和法國。
由上述兩個表格可知,商品種類排名靠前的德國和法國,商品銷售量、銷售額不及荷蘭和愛爾蘭,表明電商在荷蘭和愛爾蘭更受歡迎,因此可據(jù)此,商品資源(種類和數(shù)量)可適當(dāng)?shù)耐商m和愛爾蘭進(jìn)行傾斜。
五.分析總結(jié)和建議為更好的幫助電商提高銷量,增加收入,提出以下幾點建議:
1.電商2、4月份的銷量下降,應(yīng)總結(jié)銷量降低的原因,可以參考9~11月份的商品銷量及銷售額,通過適當(dāng)降低單價或分發(fā)優(yōu)惠券等眾多促銷方式來提高銷量。
2.商家應(yīng)參考銷量好的產(chǎn)品,如PAPER CRAFT , LITTLE BIRDIE等受大眾歡迎的產(chǎn)品,研發(fā)或改善其他商品的品質(zhì)和性能。
3. 商家在11月份的時候,可參考國內(nèi)雙11,將均價降到全年最低,以提高商品銷量,再創(chuàng)輝煌。
4.電商在荷蘭、愛爾蘭比在德國、法國更受歡迎,因此,商品資源(種類和數(shù)量)可適當(dāng)?shù)南蚝商m和愛爾蘭進(jìn)行傾斜。