電商數(shù)據(jù)分析(數(shù)據(jù)處理篇)
時(shí)間:2023-03-15 20:36:01 | 來源:電子商務(wù)
時(shí)間:2023-03-15 20:36:01 來源:電子商務(wù)
在kaggle上找到一份美國2020年的電商數(shù)據(jù),數(shù)據(jù)信息比較豐富,拿來用excel做一下分析。
用excel進(jìn)行數(shù)據(jù)分析有很多手動操作的步驟,需要用一些配圖才能講清楚,于是我將數(shù)據(jù)處理和數(shù)據(jù)分析分成了兩篇來講述。后面我將發(fā)一篇用python來進(jìn)行數(shù)據(jù)分析的文章,對比會發(fā)現(xiàn),用python來分析數(shù)據(jù)更多地是用代碼來解決問題,操作更簡潔,功能也更為強(qiáng)大。
查看數(shù)據(jù)
這份數(shù)據(jù)一共有3313行,包含19列的信息,英文列名和相應(yīng)的含義如下所示。
選擇子集和列名重命名
部分列(Row ID、country、Postal code)在分析時(shí)用不上,先將它們隱藏。
為了方便后面用數(shù)據(jù)透視表進(jìn)行分析,插入一行添加英文列名的中文翻譯,并將第一行的英文列名隱藏。為了避免用數(shù)據(jù)透視表分析時(shí)報(bào)錯,前面隱藏的三列的列名也添加了中文翻譯。
處理完后結(jié)果如下圖所示。
刪除重復(fù)值
依次選擇:數(shù)據(jù)→刪除重復(fù)項(xiàng)→選擇所有列,沒有發(fā)現(xiàn)重復(fù)值。
缺失值處理
依次選擇:查找和選擇→定位條件→空值,沒有發(fā)現(xiàn)空值,說明數(shù)據(jù)集的整體情況比較理想。
處理日期數(shù)據(jù)
仔細(xì)觀察訂單日期這一列,發(fā)現(xiàn)有點(diǎn)問題。原本應(yīng)該是日/月/年(15/4/20、16/7/20等)的日期形式顯示成了年/月/日(2015/4/20、2016/7/20)的形式,需要處理一下。
在訂單日期后面插入一新的一列。注意新插入的列要在這里的隱藏列(Row ID)的前面,可先取消隱藏再插入空白列。
選中訂單日期這一列,再依次選擇數(shù)據(jù)→分列,在彈出的對話框中選擇固定寬度。
然后在兩格之后建立分列線,這樣數(shù)據(jù)就分成了兩列,給第一列選擇文本的數(shù)據(jù)格式,給第二列選擇日期(D/MY)的數(shù)據(jù)格式。
點(diǎn)選完成后,就得到了處理好的日期數(shù)據(jù)。
將部分英文字段轉(zhuǎn)換為中文字段
為了便于后續(xù)分析,我打算將表格中的部分英文字段轉(zhuǎn)換為中文字段。
先新建一張參照的表格,將要轉(zhuǎn)換的英文字段翻譯成中文。為了避免混淆和便于理解,產(chǎn)品子類別的翻譯加上了該子類別所屬的大類。
在要翻譯的列后新建一列,使用VLOOKUP函數(shù)將英文轉(zhuǎn)換為中文(具體參數(shù)如下圖所示)。
之后再將該公式應(yīng)用到整列。
運(yùn)用相同的方法,將運(yùn)輸模式、客戶類型、區(qū)域、產(chǎn)品類別和產(chǎn)品子類別都轉(zhuǎn)換成了中文,并將原英文列隱藏,完成后的結(jié)果如下圖所示。
在城市名后面加上相應(yīng)的州名
觀察城市數(shù)據(jù)發(fā)現(xiàn),存在不同城市使用同一個(gè)名字的現(xiàn)象。如下圖所示,Georgia、Ohio、Indiana三個(gè)州都有名叫Columbus的城市。后面我想統(tǒng)計(jì)銷售金額前十的城市,所以必須要把這些同名的城市區(qū)分開來。
excel有個(gè)好用的函數(shù)叫CONCATENATE,可以將不同的單元格和字符連接起來。這里我們在城市列后新建一列,使用CONCATENATE函數(shù)把城市對應(yīng)的州連接在一起,具體參數(shù)如下圖所示。
之后再把這個(gè)公式運(yùn)用到同列,隱藏原有的城市列,就完成了同名城市的區(qū)分。
根據(jù)購買金額將客戶分檔
后面我想根據(jù)累計(jì)購買金額將客戶分為不同的檔次,統(tǒng)計(jì)每個(gè)金額檔次客戶的數(shù)量。
現(xiàn)在數(shù)據(jù)集中,一個(gè)訂單的一種商品對應(yīng)一條數(shù)據(jù)記錄,這樣一個(gè)客戶會有多條數(shù)據(jù)記錄。我們需要先計(jì)算出每位客戶的累計(jì)購買金額。插入數(shù)據(jù)透視表,將客戶ID作為數(shù)據(jù)透視表的行,勾選銷售額(求和項(xiàng))作為統(tǒng)計(jì)值進(jìn)行分析,這樣我們就計(jì)算出了每位客戶的累計(jì)購買金額。
然后將生成的數(shù)據(jù)透視表復(fù)制到旁邊,使用VLOOKUP函數(shù)用近似匹配的方式,按照不同購買金額檔次給客戶分檔(具體購買金額檔次的劃分看下圖)。
之后再將該公式運(yùn)用到整列,這樣不同客戶的購買金額檔次成功劃分完成。
到目前為止,這份數(shù)據(jù)集的數(shù)據(jù)處理就告一段落了。雖然這些處理步驟很瑣碎,但是到分析階段大家就會發(fā)現(xiàn)前期充分的數(shù)據(jù)處理工作是多么值得。下一篇我們將在此基礎(chǔ)上,對數(shù)據(jù)進(jìn)行分析并進(jìn)行可視化呈現(xiàn)。
數(shù)據(jù)分析篇指路→:
關(guān)鍵詞:數(shù)據(jù),處理,分析