數(shù)據(jù)分析電商案例
時間:2023-03-15 22:16:01 | 來源:電子商務
時間:2023-03-15 22:16:01 來源:電子商務
數(shù)據(jù)分析5個步驟:
1. 提出問題根據(jù)業(yè)務需求提出想從數(shù)據(jù)中得出結(jié)論
2. 理解數(shù)據(jù)熟悉數(shù)據(jù)各個字段,理解業(yè)務
3. 清洗數(shù)據(jù)常用數(shù)據(jù)抽取函數(shù):分裂,替換,查找,left,right,mid,
常用數(shù)據(jù)計算函數(shù):average,sum,max,min,if,count(選定范圍內(nèi)包含數(shù)字單元格的個數(shù)),&,countif(選定范圍內(nèi)包含所給條件單元格的個數(shù)),date(可與MID搭配從身份證號碼中提取年月日),datedif(開始時間,結(jié)束時間,返回d,m,y),or(兩個邏輯判斷,符合其中一個返回true,否則false)
- 1. 選擇子集
- 2. 字段重命名
- 3. 刪除重復值(刪除重復項)
- 4. 缺失值處理
- 5. 一致化處理 (格式一致化,例如時間格式)
- 6. 數(shù)據(jù)排序
- 7. 異常值處理
4. 構(gòu)建模型:數(shù)據(jù)透視表,vlookup跨表查詢,vlookup分組,分析工具庫(描述統(tǒng)計分析)5. 數(shù)據(jù)可視化實操:1. 提出問題- l 全年銷售數(shù)量的波動情況,即離散程度,
- l 最多購買類目
- l 最多購買月份
- l 年齡與購買商品數(shù)量的相關(guān)性
2. 理解數(shù)據(jù)l User id:用戶的唯一身份id號
l Action id:用于標記戶行為的id號
l Cat id:一級類目
l Cat 1:二級類目,子類目
l Property :屬性,描述特性,可以是一些標簽
l Buy amount:購買的數(shù)量
l Day:購買日期
l Birthday:生日,可了解嬰兒的年齡
l Gender:0男,1女
3. 清洗數(shù)據(jù)A. 新建文件,命名:購買商品 數(shù)據(jù)清洗; 嬰兒信息 數(shù)據(jù)清洗
B. 修改字段名auciton id 為 action id;隱藏暫時無關(guān)字段 property
C. 刪除重復值: 無需;
D. 缺失值處理:根據(jù)計數(shù)對比各字段,無缺失
E. 一致化處理:時間年月日格式;利用分裂功能,輸出月日年;檢查分裂后數(shù)據(jù)無異常
F. 按時間降序排序
G. 異常值處理:性別中存在“2”,無意義,不列入計算
最后清洗出 表1 與 表2 結(jié)果:
4. 構(gòu)建模型
- l 全年銷售數(shù)量的波動情況,即離散程度,
- l 年齡與購買商品數(shù)量的相關(guān)性
5. 數(shù)據(jù)可視化
各年齡購買數(shù)量占總購買量的百分比
男性女性購買數(shù)量占總量百分比
2013-2015每月銷售量波動情況