數據分析 - 從描述統(tǒng)計來分析電商數據
時間:2023-03-15 21:22:01 | 來源:電子商務
時間:2023-03-15 21:22:01 來源:電子商務
- 什么是描述統(tǒng)計:
描述統(tǒng)計是來描繪或總結觀察量的基本情況的統(tǒng)計總稱。描述統(tǒng)計學研究如何取得反映客觀現象的數據,并通過圖表形式對所收集的數據進行加工處理和顯示,進而通過綜合概括與分析得出反映客觀現象的規(guī)律性數量特征。
描述數據的四個關鍵指標:平均值、四分位數、標準差、標準分。
1)平均值
平均值是用來表明資料中各觀測值相對集中較多的中心位置,表示一組數據集中趨勢的量數。 算數平均值的計算方法是數據中各觀測值的總和除以觀測值個數所得的商。
但是平均值經常容易出現陷阱,特別是其最高值與最低值差距巨大或者某個個案特別突出時,不能夠代表這組數據的集中趨勢。
2)四分位數
四分位數是指在統(tǒng)計學中把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值。
通過繪制箱線圖,可以更直觀得比較不同類別數據的整體情況。箱線圖就是 由一組數據5 個特征繪制的一個箱子和兩條線段的圖形,這種直觀的箱線圖不僅能反映出一組數據的分布特征,而且還可以進行多組數據的分析比較。這五個特征值,即數據的最大值、最小值、中位數和兩個四分位數。
通過Turkey'test這個方法, 可以幫助識別出可能的異常值。以下公式用于計算出數據集中最小估計值和最大估計值。
最小估計值:Q1 - k(Q3-Q1)
最大估計值:Q3 + k(Q3-Q1)
可以根據不同的數據分析目對k取值。一般k=1.5,計算出的是中度異常的范圍;K=3計算出的是極度異常的范圍。
3)標準差
標準差用來描述數據波動的大小,即離散程度。
計算公式如下圖:
4)標準分(z分數,標準化值)
標準分表示某個數值距離平均值多少個標準差。
如果某個數值的標準分等于零,那表示數值是等于平均值的,如果標準分大于零,那表示數值是大于平均值的,如果標準分小于零,那數值是小于平均值的。
標準分就是建立一個模型將兩組數據放在同一個模型中進行比較。
標準分多用于質量管理中,通常用每百萬次采樣數的缺陷率來衡量。
以上知識點的總結:
2. 熟悉數據集:使用的是社群資料里的電商行業(yè)數據集,即淘寶和天貓嬰兒用品的數據集。這個數據集包括2個CSV格式的數據。
表1是“購買商品”數據,共有7個變量,29971條數據信息。存儲的數據類型,除了“property:商品屬性”是字符類型外,其他6個都是數字類型。
其中這7個變量為:
user_id:用戶id
auction_id:購買行為編號
cat_id:商品種類ID
cat1:商品屬于哪個類別
property:商品屬性
buy_mount:購買數量
day:購買時間(是個時間戳格式,可以通過excel將時間戳顯示未日期格式)
表2是“嬰兒信息表”,共有3個變量,953條數據信息。存儲的數據類型都是數字類型。
其中這3個變量為:
user_id:用戶id
birthday:出生日期
gender:性別(0 男性;1 女性)
3. 你想從該數據集中得到哪些描述統(tǒng)計信息?分析商品種類中不同種類的商品所購買的數量,分別對商品種類的數量進行四分位分析并繪制出箱型圖。
分析商品種類在不同時間段的購買數量,可以以月為單位,分析每個種類的商品在統(tǒng)計數據中購買的均值,每個月的標準差和標準分。
分析不同購買行為所對應的購買數量,及在不同時間段下購買行為的分布;分析對應的購買數量的平均值、四分位數及標準差。
通過對客戶對象-嬰兒的出生時間進行分析,從而分析嬰兒年齡的平均值和四分位數;分析統(tǒng)計嬰兒性別,從別得到嬰兒性別的分布信息。
分析客戶對象的購買數量和不同時間的購買的分布情況;分析購買數量的平均值及四分位數。
4. 你想從該數據集中分析哪幾個業(yè)務問題?1)哪個種類的商品的銷量最好和種類的商品的銷量不好,從而對銷量不同的產品制定不同的營銷方式。
相關字段的使用:cat_id:商品種類ID和buy_mount:購買數量 。
2) 每一個種類的商品在不同時間段的銷售分布,是否存在淡旺季情況,以及銷售的趨勢(上升或下降),從而找到造成銷量高或低的原因,以便有目標性得促銷。
相關字段的使用:cat_id:商品種類ID、buy_mount:購買數量和day:購買時間。
3)分析不同的購買行為對消費者進行購買的影響,從而找到消費者最經常使用的購買行為,從而更有針對性的進行營銷。
相關字段的使用:auction_id:購買行為編號和buy_mount:購買數量 。
4)分析出不同年齡階段和不同性別的嬰兒的購買需求量的分布,從而分析出需求量最大的目標客戶群;對于購買量相對小的客戶群,可以作為潛在客戶,考慮促銷方式從而刺激其購買量。
相關字段的使用:user_id:用戶id、birthday:出生日期、gender:性別和buy_mount:購買數量。