從電商開始,入門數(shù)據(jù)分析
時間:2023-03-15 22:38:01 | 來源:電子商務(wù)
時間:2023-03-15 22:38:01 來源:電子商務(wù)
聽取老師的建議,從電商數(shù)據(jù)開始學(xué)習(xí)數(shù)據(jù)分析。
描述統(tǒng)計(jì)分析
一、四個常用指標(biāo)
1.平均數(shù)2.四分位數(shù)下界(0%)—
下四分位數(shù)Q1(25%)—
中位數(shù)Q2(50%)—
上四分位數(shù)Q3(75%)—
上界(100%)
箱線圖(from百度百科)四分位數(shù)的應(yīng)用:
- 用于不同類別數(shù)據(jù)的比較
- 識別可能異常值,對異常值進(jìn)行檢查和處理
檢查方法Tukey`s test最小估計(jì)值:Q1-k(Q3-Q1)最大估計(jì)值:Q3+k(Q3-Q1)k=1.5中度異常k=3極度異常處理方法:錯誤標(biāo)記的數(shù)據(jù),在數(shù)據(jù)分析前進(jìn)行修正;被錯誤包含在數(shù)據(jù)集中的值,將異常值刪除;反常值,正確被記錄應(yīng)該保留;
3.標(biāo)準(zhǔn)差=波動大小標(biāo)準(zhǔn)差的單位與原計(jì)算數(shù)值相同;標(biāo)準(zhǔn)差大小好壞與研究問題相關(guān)。
舉例:NBA球員穩(wěn)定性;股票波動大小。
4.標(biāo)準(zhǔn)分=距離平均值多少個標(biāo)準(zhǔn)差標(biāo)準(zhǔn)分=0,即數(shù)值等于平均值;標(biāo)準(zhǔn)分>0,即數(shù)值大于平均值;標(biāo)準(zhǔn)分<0,即數(shù)值小于平均值。
案例:質(zhì)量管理
二、數(shù)據(jù)集信息
表1
user_id用戶id
auction_id購買行為編號
cat_id商品種類id
cat1商品類別
property商品屬性
buy_mount購買數(shù)量
day購買時間
表2
user_id用戶id
birthday出生日期
gender性別 0男性1女性
三、需要統(tǒng)計(jì)信息
- 表1用戶的購買頻次,篩選是否有同一用戶的重復(fù)購買行為,對同一用戶的購買行為進(jìn)行合并。
- 表1商品類別分類統(tǒng)計(jì),統(tǒng)計(jì)所有類別的商品及購買量,得出商品類別購買量排序。
- 表1商品種類分類統(tǒng)計(jì),統(tǒng)計(jì)所有的商品種類及購買量,得出商品種類購買量排序。與商品類別匹配。
- 表1購買數(shù)量的頻次統(tǒng)計(jì)。
- 表1購買時間。轉(zhuǎn)換成時間格式,并可以統(tǒng)計(jì)季節(jié)、季度時間及星期時間。
- 表2用戶id和表1用戶id進(jìn)行匹配。
- 表1數(shù)據(jù)和表2數(shù)據(jù)進(jìn)行購買時間嬰兒年齡計(jì)算。
- 表2嬰兒性別統(tǒng)計(jì)。
四、業(yè)務(wù)問題
- 用戶喜歡在周幾下單?一周的購買趨勢是怎樣的?(buy_mount購買數(shù)量 & day購買時間)
- 哪一個類別的商品銷量最好?每個類別的商品中,不同種類的商品銷量是怎樣的?(cat_id商品種類id & cat1商品類別 & buy_mount購買數(shù)量)
- 不同季度每個類別商品的銷量是怎樣的?不同類別商品的季節(jié)波動大嗎(cat_id商品種類id & cat1商品類別 & buy_mount購買數(shù)量 & day購買時間)
- 嬰兒的年齡會影響到父母的購買行為嗎?(birthday生日 & buy_mountg購買數(shù)量 & day購買日期)
- 男女嬰兒各自偏好的商品類別是什么?ueser id用戶ID & gender性別 & cat id商品類別 & buy mount購買數(shù)量)
- 用戶單位時間內(nèi)(例如一年)購買行為統(tǒng)計(jì)。購買最多的前百分之二十用戶總共購買商品多少件,每個人的購買量是多少?剩下的百分之八十用戶總共購買多少件,每個人的購買數(shù)量是多少?用來統(tǒng)計(jì)高價值用戶(ueser id用戶ID & buy mount購買數(shù)量)
關(guān)鍵詞:入門,數(shù)據(jù),分析