數(shù)據(jù)分析 - 用 Excel 分析電商數(shù)據(jù)
時間:2023-03-15 20:20:01 | 來源:電子商務
時間:2023-03-15 20:20:01 來源:電子商務
Excel是日常工作中最常用的工具, 同樣可以用來進行數(shù)據(jù)分析,找出數(shù)據(jù)背后隱藏的規(guī)律。
一、數(shù)據(jù)分析的步驟
數(shù)據(jù)分析一般分為5個步驟:提出問題 -> 理解數(shù)據(jù) -> 數(shù)據(jù)清洗 -> 構建模型 -> 數(shù)據(jù)可視化。
二、用Excel分析數(shù)據(jù)電商數(shù)據(jù)
使用數(shù)據(jù)的是社群資料里的電商行業(yè)數(shù)據(jù)集,即淘寶和天貓嬰兒用品的數(shù)據(jù)集。這個數(shù)據(jù)集包括2個CSV格式的數(shù)據(jù);因為用Excel做數(shù)據(jù)分析,所以把CSV格式更改為XLSL格式來打開。
1. 數(shù)據(jù)分析第1步:提出問題 - 我們要分析哪些業(yè)務指標?
通過對“淘寶和天貓嬰兒用品的數(shù)據(jù)集”的分析,主要解決以下業(yè)務問題:
1)以年為單位,分析銷售數(shù)量的每年的變化趨勢。
2)以年為單位,分析嬰兒用品的商品種類的銷售數(shù)量的變化趨勢
2. 數(shù)據(jù)分析第2步:理解數(shù)據(jù)
理解數(shù)據(jù)主要是了解表格里l各個字段表示什么含義?每個字段都是哪種數(shù)據(jù)類型?
表1是“購買商品”數(shù)據(jù),共有7個變量,29971條數(shù)據(jù)信息。存儲的數(shù)據(jù)類型,除了“property:商品屬性”是字符類型外,其他6個都是數(shù)字類型。
其中這7個變量為:
user_id:用戶id
auction_id:購買行為編號
cat_id:商品種類ID
cat1:商品屬于哪個類別
property:商品屬性
buy_mount:購買數(shù)量
day:購買時間(是個時間戳格式,可以通過excel將時間戳顯示未日期格式)
表2是“嬰兒信息表”,共有3個變量,953條數(shù)據(jù)信息。存儲的數(shù)據(jù)類型都是數(shù)字類型。
其中這3個變量為:
user_id:用戶id
birthday:出生日期
gender:性別(0 男性;1 女性)
3. 數(shù)據(jù)分析第3步:數(shù)據(jù)清洗
作為數(shù)據(jù)分析最重要的一個步驟,數(shù)據(jù)清洗往往需要花費60%甚至更多的時間。需要將多余重復的數(shù)據(jù)篩選清除,將缺失數(shù)據(jù)補充完整,將錯誤數(shù)據(jù)糾正或刪除。
數(shù)據(jù)清洗的步驟如下:
1) 選擇子集:選擇需要做數(shù)據(jù)分析的列。當數(shù)據(jù)的列比較多時,可以使用隱藏功能 - 把不需要分析的列單擊右鍵隱藏起來。
2) 列名重命名:如果原字段名不合適,可以更改字段名稱。
本次分析直接使用原始數(shù)據(jù)的列名,因為原始數(shù)據(jù)的命名已經(jīng)很清晰了。
3)刪除重復值:選中要分析的數(shù)據(jù)范圍, Data - Remove Duplicates來刪除重復值。
按照以上操作,分別查看表1“購買商品”數(shù)據(jù)和表2“嬰兒信息表”的是否有重復值;這2個數(shù)據(jù)集都顯示無重復值。
4)缺失值處理:Excel中通過選中某一列,查看右下角顯示的統(tǒng)計數(shù)目來,通過和其他列對比來得知該列是否有缺失。
有4種方法對找到的缺失值進行處理:
1 - 通過人工手動進行補全,這種方法適合缺失數(shù)值標數(shù)比較少的情況;
2-刪除缺失值;
3-用平均值來代替缺失值;
4-用統(tǒng)計模型計算出來的數(shù)據(jù)來代替缺失值。
如何定位缺失值:通過Home -Filter對數(shù)據(jù)設置篩選,在下拉菜單里的篩選條件里選擇“blank”,從而篩選出空白內(nèi)容的缺失值。
表1“購買商品”數(shù)據(jù) - 除了property這1列的統(tǒng)計數(shù)目為29828,其他6列的統(tǒng)計數(shù)目均為29972;所以property這1列存在缺失值。因為本次分析要解決的業(yè)務問題不涉及到property這1列,所以沒有對property這1列的缺失值進行處理。
表2“嬰兒信息表” - 3列的統(tǒng)計數(shù)目均為954,所以這個數(shù)據(jù)集不存在缺失值問題。
5)一致化處理:一致化是指數(shù)據(jù)有統(tǒng)一的命名。
可以對數(shù)據(jù)進行拆分從而實現(xiàn)命名的統(tǒng)一。
首先對需要拆分的那列數(shù)據(jù)進行復制;其次選中要拆分的數(shù)據(jù),在Excel中Data - Text to Columns - 在跳出的對話框里選擇Delimited - 選擇要拆分的delimiter - finish完成拆分。
本次分析的這2個數(shù)據(jù)集都有著統(tǒng)一的命名,可以直接使用數(shù)據(jù)的原命名。
表1“購買商品”數(shù)據(jù)中的day和表2“嬰兒信息表”中的birthday都是假日期,需要變成真日期格式,以便可以進行計算。
操作如下:data - text to columns - fixed width - date - finish;通過該操作可以把日期變換為Y/M/D的格式。
6)數(shù)據(jù)排序:利用Excel中的函數(shù)功能來做得出數(shù)據(jù)的平均值或者是求和,從而對數(shù)據(jù)進行排序。
7)異常值處理:通過Excel的篩選功能來查看數(shù)據(jù)是否有錯誤。在下拉菜單中所列出的數(shù)據(jù)類型中,可以查看到是否有不正常的數(shù)值。
4. 數(shù)據(jù)分析第4步:構建模型
通過構建模型,從而獲取業(yè)務指標。
1)運用描述性統(tǒng)計命令來觀察數(shù)據(jù)的描述統(tǒng)計分析。
通過Excel里的數(shù)據(jù)分析功能,直接可以得到一系列的述統(tǒng)計分析數(shù)據(jù);操作為:data - data analysis - 選擇descriptive statistics。
例如,對表1“購買商品”數(shù)據(jù)中的”buy-amount“購買量這列的數(shù)據(jù)進行描述統(tǒng)計分析,可以得到不同商品在不同時間溝通數(shù)量的平均值、標準誤差、中位數(shù)、眾數(shù)、標準差、方差、峰度、偏度、值域、最小值、最大值、總和及統(tǒng)計數(shù)目等描述性統(tǒng)計數(shù)據(jù)。
2)建數(shù)據(jù)透視表
運用數(shù)據(jù)透視表分組求平均數(shù)、標準差、計數(shù)等多個指標。
利用透視表,提取每年的購買總量的圖表。
利用透視表,提取每個商品類別的每年的購買總量。
3) 使用vlookup進行數(shù)據(jù)分析
使用vlookup函數(shù),通過userid為橋梁,來查找表1“購買商品”數(shù)據(jù)中的day來匹配表2“嬰兒信息表”中的birthday。
5. 數(shù)據(jù)分析第5步:數(shù)據(jù)可視化
1)從2012-2015年,每年的購買總量的圖表。
從圖表可以看出,從2012 到2014年淘寶嬰幼兒用品的購買數(shù)量呈直線上升趨勢,2014達到頂峰;但是從2015的銷量卻急劇下滑,銷售數(shù)量甚至低于2012年的銷量。
2)從2012-2015年,嬰兒用品商品分類的銷售數(shù)量趨勢。
嬰兒用品共分6大商品種類。從圖表可以看出其中3大商品種類的銷售數(shù)量較大,另外3大商品種類的銷量較小;6大商品種類的銷量趨勢和淘寶嬰幼兒用品的整體銷量趨勢一致,即從2012 到2014年淘寶嬰幼兒用品的購買數(shù)量呈直線上升趨勢,2014達到頂峰;但是從2015的銷量卻急劇下滑,銷售數(shù)量甚至低于2012年的銷量。