數據分析(一)---跨境電商數據分析
時間:2022-05-07 15:51:01 | 來源:網絡營銷
時間:2022-05-07 15:51:01 來源:網絡營銷
電商銷售數據分析
本文對一家全球超市4年(2011年-2014年)的零售數據進行數據分析,數據分析的目標如下:
- 分析每年銷售額增長率
- 各個地區(qū)分店的銷售額
- 銷售淡旺季
- 新老客戶數
- 利用RFM模型標記用戶價值
數據來源于數據科學競賽平臺Kaggle-
https://www.kaggle.com/jr2ngb/superstore-data,總共51290條數據,24個字段。各個字段屬性名稱如表1:
表1 各字段屬性含義
1.了解數據基本情況
使用Pandas導入數據,查看數據集的信息,快速理解數據。
查看數據量: (51290, 24)
表1 各字段數據類型
查看缺失值,如下圖1:
圖1 數據非空值統(tǒng)計 24個字段中7個字段是數字類型,在計算的時候是不需要轉換類型,其他字段的數據都是object類型,在獲取數據的時候注意數據的類型,日期字段的數據,轉換成時間格式,可以方便獲取數據。
數據缺失統(tǒng)計中只有Postal Code(郵編)字段有缺失值,該字段對我們分析并不會產生影響,不需要處理。
2.數據清洗
數據清洗,實際上就是對缺失值、異常值的處理刪除或填充處理,以及為了方便數據的獲取和分析,對列名的重命名、列數據的類型轉換或者是排序等操作。
2.1查看是否含有缺失值
只有Postal Code字段含有缺失值。結果返回的是所有字段不為空的數據個數,如果我們只是單純的想了解每個字段中數據是否含有缺失值,可以使用下面的方法:
使用isna().any() 方法會返回一個僅含True和False這兩種值的Series,這個方法主要是用來判斷所有列中是否含有空值。
2.2查看是否含有異常值
查數據中是否含有異常值,pandas的describe可以用來統(tǒng)計數據集的集中趨勢,分散和行列的分布情況,因此在查看異常值的時候會經常用到。
結果為:
describe()函數會對數值型數據,輸出結果指標包括count,mean,std,min,max以及上、下四分位和中位數。通過觀察該結果,發(fā)現(xiàn)數據集并無異常值存在。
2.3數據整理
由于很多分析的維度都是建立在時間上的,數據中的時間是字符串類型的,所以需要處理時間的類型,將其修改成datetime類型。
上面我們將Order Date(訂單日期)列的數據類型成功修改成了datetime類型,通過datetime可以快速的增加數據的維度,例如:年、月、季度等。
結果為:
根據不同的時間維度去獲取數據時,會非常更加的便捷。
3.目標分析
3.1分析每年銷售額的增長率
上面我們計算出來的是小數,如果想用百分數的形式結果,我們可以用下面的方式將小數改成百分數:
結果為:
18.50% 27.20% 26.25%
接下來,我們就可以用圖表呈現(xiàn)我們每一年的銷售額和對應的增長率。
用表格展示銷售額和對應增長率:
銷售額及對應增長率表:
為了能更加直觀的展示數據,將數據進行圖像展示:
上面的代碼中我們將銷售額和增長率繪制在一個圖中,使用twinx()方法共享了X軸,并且建立了兩個Y軸,左側的Y軸代表的是銷售額,右側的Y軸代表是對應的銷售額增長率。具體繪制結果如下圖:
結合上面的圖表可以發(fā)現(xiàn),2011年-2014年該超市的銷售額在穩(wěn)步上升,說明企業(yè)市場占有能力在不斷提高,增長率2012年-2014年在增長后趨于平穩(wěn),說明企業(yè)經營在逐步穩(wěn)定。
3.2 各個地區(qū)分店的銷售額
了解了該超市了的整體銷售額情況之后,我們再對不同地區(qū)的分店的銷售額占比情況進行分析,以便對不同地區(qū)分配下一年度的銷售額指標,和對不同地區(qū)分店采取不同的營銷策略。
首先,我們先按照Market字段進行分組數據,整體看一下不同地區(qū)分店2011年-2014年的總銷售額占比。
上面的代碼中繪制了不同的地區(qū)分店2011年-2014年的總銷售額的占比圖,如下:
從占比圖中可以看出APAC地區(qū)銷售額占比最大為28.4%,而Canada地區(qū)的銷售額占比最少,并且只有0.5%,說明市場幾乎沒有打開,可以根據公司的總體戰(zhàn)略部署進行取舍,從而根據銷售額占比分配下一年的銷售額指標。
接下來,為了能更清晰的了解各地區(qū)店鋪的經營狀況,我們可以再對各地區(qū)每一年的銷售額進行分析。
結果為:
從上面的圖形中可以看出,各個地區(qū)的2011年-2014年銷售總額均是增長的趨勢,在APAC地區(qū)和EU地區(qū)的增長速度比較快速,可以看出市場占有能力也在不短增加,企業(yè)市場前景比較好,下一年可以適當加大運營成本,其他地區(qū)可以根據自身地區(qū)消費特點,吸取上面兩個地區(qū)的運營模式。
最后,我們再來看一下不同類型產品在不同地區(qū)的銷售額占比,從而根據該占比適當的改善經營策略。
結果為:
所有產品我們按照三個大的類型進行了區(qū)分,分別是Furniture(家具)、Technology(電子產品)、Office Supplies(辦公用品)。通過上圖我們大致可以看出,在各大地區(qū)銷售額都比較高是電子產品,可以根據企業(yè)的整體戰(zhàn)略部署適當的加大對各地區(qū)該品類的投入,以便擴大優(yōu)勢。
3.3 銷售淡旺季分析
了解了整體銷售額情況和不同類型產品在不同地區(qū)的銷售情況之后,我們再對每年每月的銷售額進行分析,根據不同月份的銷售情況,找出重點銷售月份,從而制定制定經營策略與業(yè)績月度及季度指標拆分。將數據根據年和月進行分組,并計算出每年每月的銷售總額,再將其制作成年、月、銷售額的數據透視表,通過折線圖進行展示。
結果為:
通過圖表我們基本可以看出,該超市2011年-2014年每一年的銷售額同比上一年都是上升趨勢,所以很容易發(fā)現(xiàn)該超市的旺季是下半年,另外,我們在上半年銷售額中發(fā)現(xiàn)6月份的銷售額也是比較高的,所以可以在6月份開始加大一些運營成本,進而更大一步提高銷售額,但是需要注意是下半年的7月份和10月份銷售額會有明顯的下降,可以針對這些下降的月份多舉行一些營銷活動。
3.4 新老客戶數
通過分析老用戶,來確定企業(yè)的基礎是否穩(wěn)固,是否存在被淘汰的危機;通過分析新用戶,來衡量企業(yè)的發(fā)展是否順利,是否有更大的擴展空間。
通過對新老客戶分布,對超市客戶維系健康狀態(tài)進行了解。本文老客戶定義如下,只要在該超市消費過客戶就定義為老客戶,反之為新客戶。由于2011年的數據為起始數據,根據定義大部分客戶皆為新用戶,其數據沒有分析價值,在分析的時候可以考慮。
下面,我們先來了解一下代碼:
- 第一步,我們根據Customer ID列數據進行重復值的刪除,保證數據集中所有的客戶ID都是唯一的。
- 第二步,我們根據Order-year和Order-month兩個字段進行分組,并使用size()函數對每個分組進行計數。
- 第三步,為了方便使用透視表對數據進行整理,需要先將索引轉化成數據列。
- 第四步,使用數據透視表功能,將年份作為數據的列索引,月份作為數據的行索引。
最終的結果為:
根據圖表可以看出,從2011年開始到2014年總體看,每一年的新增客戶數是逐年減少的趨勢,可以看出該網站對保持老用戶是有效的,網站的運營狀況較為穩(wěn)定。但是,新客戶獲取率比較低,可以不定期的進行主動推廣營銷,從而增加新客戶數。
3.5 用戶價值度RFM模型分析
用戶精細化運營分類,通過各類運營手段提高不同類型的用戶在產品中的活躍度、留存率和付費率。如何將用戶從一個整體拆分成特征明顯的群體決定了運營的成敗。在用戶價值領域,最具有影響力并得到實證驗證的理論與模型有:用戶終生價值理論、用戶價值金字塔模型,策論評估矩陣分析法和RFM客戶價值分析模型等。本文使用RFM用戶分群模型模型對用戶進行分類。RFM定義如下:
- R(Recency):客戶最近一次交易時間的間隔。R值越大,表示客戶交易發(fā)生的日期越久,反之則表示客戶交易發(fā)生的日期越近。
- F(Frequency):客戶在最近一段時間內交易的次數。F值越大,表示客戶交易越頻繁,反之則表示客戶交易不夠活躍。
- M(Monetary):客戶在最近一段時間內交易的金額。M值越大,表示客戶價值越高,反之則表示客戶價值越低。
RFM模型是衡量用戶價值和用戶創(chuàng)利能力的經典工具,依托于用戶最近一次購買時間、消費頻次以及消費金額。在應用RFM模型時,要有用戶最基礎的交易數據,至少包含用戶ID,交易金額,交易時間三個字段。根據R,F(xiàn),M這三個維度,我們可以將客戶分為以下8種類型:
在這個表中,我們將每個維度都分為高低兩種情況,進而將客戶群體劃分為8種類型,而這8種類型又可以劃分成A、B、C三個等級。接下來對R、F和M進行計算,步驟如下:
第一步,我們分析的數據是該超市2014年全年的數據,并假設統(tǒng)計的時間為2014年12月31日。現(xiàn)在我們利用下面代碼獲取數據2014年全年的數據:
由于RFM模型分別對應著Customer ID、Order Date、Sales這三個字段,所以我們只獲取這三個字段的數據。
第二步,我們對2014年數據按照Customer ID進行分組,然后再對每個分組的數據按照Order Date進行排序并獲取出日期最大的那個數據。
結果為:
第三步,經過分組之后同樣可以快速算出RFM模型中的F(購買次數)和M(銷售額總數)。
結果為:
第四步,目前已經獲取到了2014年每個客戶最后一次的時間了,現(xiàn)在我們需要根據假定同時間計算出最近一次交易時間的間隔。
結果為:
第五步,經過上面四步我們分別計算出來RFM各個維度的數值,現(xiàn)在可以根據經驗以及業(yè)務場景設定分值的給予區(qū)間,本項目中我們給定F的區(qū)間為[0,5,10,15,20,50],
然后我們采用5分制的評分規(guī)則與上面分值區(qū)間一一對應,例如:1-5對應的為1、5-10對應的為2,依次類推。
結果為:
第六步,根據第五步的思路,我們首先確定M維度的區(qū)間為[0,500,1000,5000,10000,30000],然后我們采用5分制的評分規(guī)則與上面分值區(qū)間一一對應。同理,確定R維度的區(qū)間為[-1,32,93,186,277,365],但是R維度所對應的評分順序應該與F和M的相反。
結果為:
第七步,上面我們給每條數據的RFM都設置了對應的評分,現(xiàn)在需要根據每一個維度
計算出對應的平均分,然后用對應的分數與平均值進行對比,大于平均分的值的標記成1,同理小于平均分的值的標記成0。
結果為:
第八步,現(xiàn)在我們基本完成對每個數據的RFM高低值的設置,記下來就可以根據RFM的高低值對每個用進行類型標記了。
該段代碼中為了方便觀察數據,我們首先獲取部分列數據;然后,我們根據高低值1,0的8種組合,逐一的與文字對應成字典中鍵值對,最后在數據的會面添加的一列data_rfm數據。最終的結果如下:
到此為止,我們已經給所有的用戶都設置好RFM的標簽,現(xiàn)在讓我們來看一下2014年不同類型人群占比。
結果為:
4. 案例結論
4.1 結論依據
根據RMF模型分類出8種客戶,根據他們對平臺的貢獻度排序如下:一般挽留客戶→一般發(fā)展客戶→一般保持客戶→一般價值客戶→重要挽留客戶→重要發(fā)展客戶→重要保持客戶→重要價值客戶
我們對不同客戶做出什么樣的營銷策略,目的都是加大客戶不斷地從一般挽留客戶向重要價值客戶轉化,減小重要價值客戶向一般挽留客戶轉化。從而實現(xiàn)平臺用戶的積累。
那么處于不同階段的客戶,我們應該采取什么樣的策略呢?我們應該根據他們的階段特性來制定不同的策略。下面我們分析一下每組客戶的特性:
一般挽留客戶:這類客戶,RFM三個值都低,說明已經是我們流失的客戶。針對這批客戶召回的成本一般會比較高,因為他們長時間沒在平臺有任何行為,有可能app都已經寫在。所以一般針對這種客戶只會在特定的大型活動才采取全面的短信、廣告、推送召回。比如在雙十一、黑色星期五等大型購物狂歡節(jié)?;蛘哒f公司到了一個新階段大量資金投入用戶新增,比如我們看到過的“瓜分5個億”、“無上限砍價”等活動。
一般發(fā)展客戶:這類客戶只是有近期購買行為但是購買商品利潤低而且也不活躍。一般分兩種類型,一種是剛注冊的客戶,另一種就是由于體驗感一般接近流失邊緣的客戶。針對剛注冊的用戶一般會采取“新人大禮包”等優(yōu)惠,一般“新人大禮包”會盡量多的覆蓋平臺上的不同商品品類,提高新客戶了解平臺產品的動力。而針對接近流失的客戶應該從客服、物流等多角度追溯客戶過去的不滿原因,對平臺進一步完善。
一般保持客戶:這類客戶只是頻繁瀏覽,但是很久沒有成交了。針對這類用戶,一般會結合他最近瀏覽的商品進行相關優(yōu)惠推送。促進他的成交行為。
一般價值客戶:這類客戶屬于已經在平臺上養(yǎng)成了自己的購買習慣,已經處于多次頻繁購買的階段,但是購買的商品價格都比較低,產生的利潤也就低。對這類客戶我們應該進一步分析他們屬于購買力低還是大額商品有其他習慣成交的平臺。針對前者一般不需要采取特別的措施,而針對后者我們應該時刻注意他的瀏覽商品動向,如果瀏覽遠超過平時客單價的商品應該及時給予優(yōu)惠政策。
重要挽留客戶:這類消費金額較高,消費頻次偏低,而且已經很久沒有消費行為了。這種客戶曾經算是平臺的忠實用戶而且能為平臺提供比較大的利潤但是很有可能馬上就要流失了,所以應該進行重點挽留,如給他們更多關懷,應當主動客服溝通,建立平臺形象,針對用戶有什么不滿意的地方應當及時解決,并給予優(yōu)惠補償。
重要發(fā)展客戶:這類用戶最近有消費,且整體消費金額高,但是購買不頻繁。這種客戶是有購買力的客戶,應當重點維護,提升用戶在消費中的體驗感,比如加送“運費險”等等附加增值服務。
重要保持客戶:最近一次消費時間較遠,消費金額和消費頻次比較高。這種客戶一般是有網購習慣,但是最近卻很久沒有來消費。說明很可能已經流向別的平臺。所以非常有潛力可挖,必須重點發(fā)展。要關注競品的活動,做對比出合理方案。
重要價值客戶:這類客戶不用說了,RFM三個值都很高。是平臺重點維護的客戶,保證服務質量,保持客戶在平臺每次購物體驗。
4.2 本次案例結論
通過對不同客戶的行為分析,結合我們案例的結果。從統(tǒng)計結果中看,該平臺重要價值客戶占總體17.54%,說明該公司已經沉淀了一批優(yōu)良客戶,而且這個比例還算是比較樂觀。但有28.86%的重要保持客戶,這批客戶是曾高頻購買且消費金額大的客戶,但是這批客戶近期沒有成交行為說明已經有流失傾向,這批客戶需要著重關注。另外一般發(fā)展用戶也占了27.33%的比例,說明在用戶新增的階段做的還不錯,但是其他類型的比例都偏少。這組數據說明了這個平臺整體已經處于客戶流失的階段,用戶整體活躍行為已經降低,需要維護現(xiàn)有忠誠的客戶的同時,也要花精力在新用戶往重要價值客戶的轉化上。