本次需分析問(wèn)題請(qǐng)參考https://zhuanlan.zhihu.com/p/163032503

二、理解數(shù)據(jù)(采集相關(guān)數(shù)據(jù)、查看數(shù)據(jù)集的信息從整體上了解數(shù)據(jù)集)
(一)Excel主要數(shù)據(jù)類型:字符串類型(漢字、字符)即為文本類型,無(wú)法用于計(jì)算、" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 電子商務(wù) > 規(guī)范的數(shù)據(jù)分析步驟及電商數(shù)據(jù)分析案例

規(guī)范的數(shù)據(jù)分析步驟及電商數(shù)據(jù)分析案例

時(shí)間:2023-03-15 23:12:01 | 來(lái)源:電子商務(wù)

時(shí)間:2023-03-15 23:12:01 來(lái)源:電子商務(wù)

一、明確問(wèn)題
本次需分析問(wèn)題請(qǐng)參考https://zhuanlan.zhihu.com/p/163032503

二、理解數(shù)據(jù)(采集相關(guān)數(shù)據(jù)、查看數(shù)據(jù)集的信息從整體上了解數(shù)據(jù)集)
(一)Excel主要數(shù)據(jù)類型:字符串類型(漢字、字符)即為文本類型,無(wú)法用于計(jì)算、數(shù)值類型(整數(shù)、小數(shù)等),邏輯類型(true、false)
(二)簡(jiǎn)易判斷方法:?jiǎn)卧駜?nèi)靠左對(duì)齊的一般是文本型(不能用于計(jì)算),單元格內(nèi)靠右對(duì)齊是數(shù)值類型
(三)本次對(duì)數(shù)據(jù)集的理解請(qǐng)參考https://zhuanlan.zhihu.com/p/163032503

三、清洗數(shù)據(jù)
(一)選擇子集(盡量不要?jiǎng)h除原始數(shù)據(jù)、使用隱藏/取消隱藏?cái)?shù)據(jù))
隱藏表1購(gòu)買商品信息表的“property”列

(二)列名重命名
1. 重命名表1購(gòu)買商品信息表“user_id”、“auction_id”、”cat_id”、”cat1”、“buy_mount”、“day”列名

2. 重命名表2嬰兒信息表“user_id”、“birthday”、“gender”列名

(三)刪除重復(fù)值
1. 對(duì)于表1購(gòu)買商品信息表是用戶的購(gòu)買商品的記錄和訂單數(shù)據(jù),是客觀事實(shí)存在可能會(huì)存在某個(gè)用戶id的用戶復(fù)購(gòu)甚至是復(fù)購(gòu)?fù)奉愅瑢傩陨唐返那闆r的,但是當(dāng)所有字段完全相同時(shí)即為重復(fù)數(shù)據(jù)需要?jiǎng)h除,經(jīng)過(guò)刪除重復(fù)值檢驗(yàn)發(fā)現(xiàn)表1中無(wú)重復(fù)信息

2. 對(duì)于表2嬰兒信息表主要用user_id為主鍵記錄嬰兒的生日和性別信息,所以需要對(duì)user_id列進(jìn)行刪除重復(fù)值(重復(fù)值意味著同一個(gè)用戶),經(jīng)過(guò)刪除重復(fù)值發(fā)現(xiàn)表2嬰兒信息表中無(wú)重復(fù)信息


(四)缺失值處理(人工補(bǔ)全、刪除缺失、用平均值代替缺失值、用統(tǒng)計(jì)模型計(jì)算出來(lái)的值代替缺失值)
1. 經(jīng)過(guò)對(duì)表1購(gòu)買商品信息進(jìn)行定位空格,發(fā)現(xiàn)存在145個(gè)空值,取消隱藏后查看,發(fā)現(xiàn)是商品屬性列存在145個(gè)空值,但是商品屬性不作為本次分析的對(duì)象且隱藏了該列數(shù)據(jù),所以不做補(bǔ)全

2. 經(jīng)過(guò)對(duì)表2嬰兒信息表進(jìn)行定位空格,發(fā)現(xiàn)不存在空值


(五)一致化處理(數(shù)據(jù)統(tǒng)一化)
1. 將表1中的購(gòu)買時(shí)間列的時(shí)間戳進(jìn)行分列處理為YMD格式

2. 將表2中的性別列的利用查找替換為文字含義:0女性;1男性;2未知的性別;

3. 將表2的出生日期列的時(shí)間戳進(jìn)行分列處理為YMD格式

(六)數(shù)據(jù)排序
將表1按照用戶購(gòu)買數(shù)量進(jìn)行降序排序


(七)異常值處理
1. 針對(duì)表1,數(shù)據(jù)源是來(lái)源于淘寶天貓的母嬰類訂單數(shù)據(jù),所以是零售行業(yè),購(gòu)買數(shù)量為10000的為異常值,從而刪除該購(gòu)買記錄

2. 表2中的在此階段暫無(wú)異常值不做處理

四、數(shù)據(jù)分析or構(gòu)建模型(得出業(yè)務(wù)指標(biāo)or機(jī)器學(xué)習(xí)模型訓(xùn)練)
(一)分析模型構(gòu)建
使用vlookup函數(shù)講表1和表2進(jìn)行連表查詢,以用戶id作為主鍵,將出生日期,性別根據(jù)用戶id填充到表1,從而表1包含且精準(zhǔn)匹配了表2的信息,所以后續(xù)分析都在已完善的表1上進(jìn)行展開(kāi)

將出生日期、性別列復(fù)制后粘貼為值

1. 計(jì)算商品購(gòu)買數(shù)量的平均值、四分位數(shù)、標(biāo)準(zhǔn)差
① 選中購(gòu)買數(shù)量列,選中數(shù)據(jù)分析——描述統(tǒng)計(jì),依次選中輸入?yún)^(qū)域,匯總統(tǒng)計(jì)、平均數(shù)置信度、第K大/小值,得出平均值、標(biāo)準(zhǔn)差

② 選利用函數(shù)QUARTILE來(lái)求四分位數(shù)


2. 計(jì)算嬰兒年齡的平均值、四分位數(shù)、標(biāo)準(zhǔn)差
① 用datedif函數(shù)求用戶出生年齡,求得嬰兒年齡

② 部分用戶id對(duì)應(yīng)的年齡值缺失,運(yùn)用篩選將有年齡值的數(shù)據(jù)篩選出來(lái),復(fù)制粘貼到一個(gè)新的sheet,進(jìn)行描述統(tǒng)計(jì)數(shù)據(jù)分析計(jì)算

③ 選利用函數(shù)QUARTILE來(lái)求四分位數(shù)

3. 不同性別嬰兒的購(gòu)物品類偏好
① 部分用戶性別對(duì)應(yīng)值缺失,運(yùn)用篩選將性別列有值的數(shù)據(jù)篩選出來(lái),復(fù)制粘貼到一個(gè)新的sheet,進(jìn)行數(shù)據(jù)透視,從而得出不同年齡對(duì)商品一級(jí)類目的購(gòu)買偏好,結(jié)論為男性對(duì)一級(jí)商品類目為50008168的分類更喜歡購(gòu)買,女性對(duì)一級(jí)商品類目為50022520的分類更喜歡購(gòu)買

② 不同年齡對(duì)商品二級(jí)類目的購(gòu)買偏好,結(jié)論為男性對(duì)二級(jí)商品類目為50013636的分類更喜歡購(gòu)買,女性對(duì)而級(jí)商品類目為50018831的分類更喜歡購(gòu)買

4. 不同年齡嬰兒的購(gòu)物品類偏好
進(jìn)行數(shù)據(jù)透視,從而得出不同年齡對(duì)商品一級(jí)類目的購(gòu)買偏好,結(jié)論為0歲最喜歡購(gòu)買一級(jí)商品品類id為50014815、1歲最喜歡購(gòu)買一級(jí)商品品類id為50008168、2歲最喜歡購(gòu)買一級(jí)商品品類id為50008168、3歲最喜歡購(gòu)買一級(jí)商品品類id為50008168、4歲最喜歡購(gòu)買一級(jí)商品品類id為50008168、5歲最喜歡購(gòu)買的一級(jí)商品id為50008168、6歲最喜歡購(gòu)買的一級(jí)商品id為50008168、7歲最喜歡購(gòu)買的一級(jí)商品id為50008168、8歲最喜歡購(gòu)買的一級(jí)商品id為50008168、9歲最喜歡購(gòu)買的一級(jí)商品id為28、10歲無(wú)明顯喜歡購(gòu)買的一級(jí)商品id、11歲、28歲均無(wú)明顯最喜歡購(gòu)買的一級(jí)商品id;

5. 不同年齡段用戶的購(gòu)物一級(jí)品類偏好
① 定義年齡段

② 使用vlookup函數(shù)對(duì)年齡進(jìn)行年齡段分組

③ 使用數(shù)據(jù)透視表,得出結(jié)論為學(xué)齡前年齡段最喜歡購(gòu)買的一級(jí)商品類目id為50014815、小學(xué)年齡段最喜歡購(gòu)買的一級(jí)商品類目id為50008168、初中年齡段無(wú)明顯最喜歡購(gòu)買的一級(jí)商品類目;

6. 受歡迎類目的top排行榜(一級(jí)類目、二級(jí)類目)
① 對(duì)清洗合并后的表1進(jìn)行數(shù)據(jù)透視,再根據(jù)求和項(xiàng)購(gòu)買數(shù)量進(jìn)行降序排列,可得出結(jié)論一級(jí)商品類目為28的品類購(gòu)買次數(shù)最多,最受歡迎

② 對(duì)清洗合并后的表1進(jìn)行數(shù)據(jù)透視,再根據(jù)求和項(xiàng)購(gòu)買數(shù)量進(jìn)行降序排列,可得出結(jié)論二級(jí)商品類目為50011993的品類購(gòu)買次數(shù)最多,最受歡迎

③ 對(duì)清洗合并后的表1進(jìn)行數(shù)據(jù)透視,將商品一級(jí)類目id和二級(jí)類目id都作為透視表的行,再根據(jù)求和項(xiàng)購(gòu)買數(shù)量進(jìn)行降序排列,可得出每個(gè)一級(jí)類目下哪些二級(jí)類目受歡迎,例如一級(jí)類目id為28的品類下二級(jí)類目id為50011993的更受歡迎

7. 用戶的下單時(shí)間偏好
進(jìn)行數(shù)據(jù)透視,選擇購(gòu)買時(shí)間為行、購(gòu)買數(shù)量為值,得出各年份各季度各月份的下單占比情況,從而得出用戶的下單時(shí)間性偏好,得出結(jié)論用戶在2014年整年下單最多、其中第三季度下單比其余幾三個(gè)季度多,且第三季度的9月下單數(shù)量比其余月份下單數(shù)量多;


8. 哪些類目的商品分別在什么時(shí)間下單最多(一級(jí)類目)
進(jìn)行數(shù)據(jù)透視,選擇購(gòu)買時(shí)間為行、商品一級(jí)分類id為列、購(gòu)買數(shù)量為值,得出各年份各季度各月份的下單占比情況,從而得出用戶的類目時(shí)間性,探查是否存在部分季節(jié)性商品隨著時(shí)間變化銷量變化較明顯,結(jié)論:在2014年一級(jí)商品類目id為28、50008168的商品銷量占比較大,且從第一到第四季度銷售占比差異不大

9. 購(gòu)買商品最多的用戶排行榜(Top10)
進(jìn)行數(shù)據(jù)透視,選擇用戶id為行、購(gòu)買數(shù)量為值,得出下圖,可得出購(gòu)買數(shù)量較多的top10的用戶

10. 根據(jù)購(gòu)買數(shù)量給用戶分組
① 確定分組規(guī)則

② 使用vlookup根據(jù)上述條件進(jìn)行用戶分組

③ 使用數(shù)據(jù)透視表,選擇會(huì)員等級(jí)為行、購(gòu)買數(shù)量為列,根據(jù)求和項(xiàng)降序,得出結(jié)論:新用戶(購(gòu)買數(shù)量50以下的)用戶群平均單用戶購(gòu)買數(shù)量較少,但新用戶群體數(shù)量較大



五、數(shù)據(jù)可視化
詳情見(jiàn)下一篇文章

六、措施及建議
1. 針對(duì)強(qiáng)時(shí)間性購(gòu)買的商品可以進(jìn)行季節(jié)性的促銷和活動(dòng)
2. 可以有針對(duì)性的根據(jù)年齡段和具體年齡的購(gòu)物偏好給用戶進(jìn)行push、站內(nèi)信、發(fā)券等形式促進(jìn)用戶下單轉(zhuǎn)化
3. 根據(jù)用戶的性別購(gòu)物偏好進(jìn)行push站內(nèi)信、發(fā)券等
4. 對(duì)于性別未知的用戶可以新增購(gòu)物性別字段來(lái)記錄其購(gòu)物的性別,便于后續(xù)的精準(zhǔn)運(yùn)營(yíng)
5. 對(duì)于未知性別的用戶,可根據(jù)其消費(fèi)的記錄和已知性別的用戶進(jìn)行擬合,根據(jù)算法得出部分未知性別用戶的性別,便于后續(xù)的精準(zhǔn)營(yíng)銷

關(guān)鍵詞:分析,數(shù)據(jù),步驟,規(guī)范

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉