電商母嬰類描述統(tǒng)計(jì)分析
時(shí)間:2023-03-26 02:26:02 | 來源:電子商務(wù)
時(shí)間:2023-03-26 02:26:02 來源:電子商務(wù)
首先,我對(duì)描述統(tǒng)計(jì)分析的理解是
描述統(tǒng)計(jì)分析:對(duì)大量數(shù)據(jù)進(jìn)行歸納,將一系列復(fù)雜的數(shù)字,簡(jiǎn)化為幾個(gè)關(guān)鍵的具有描述性的數(shù)字,用這些代表性的數(shù)字來代表整個(gè)數(shù)據(jù)集并通過各種數(shù)學(xué)手段,使人們?cè)诓磺宄唧w數(shù)據(jù)的情況下能夠了解數(shù)據(jù)集的整體情況。
而我們今天首要目標(biāo)是對(duì)電商母嬰類數(shù)據(jù)進(jìn)行分析
明確問題1.各類產(chǎn)品銷售量隨時(shí)間的變化趨勢(shì)。
2.同一大類下,那種產(chǎn)品更暢銷。
3.同一大類下,那種產(chǎn)品更大眾化
4.不同性別對(duì)同種產(chǎn)品銷量的影響
5.嬰兒年齡對(duì)同種產(chǎn)品銷量的影響
理解數(shù)據(jù)第一個(gè)購(gòu)買商品表中,有用戶id、商品編號(hào)、商品二級(jí)分類、商品一級(jí)分類、商品屬性、購(gòu)買數(shù)量,購(gòu)買時(shí)間。
用戶id:購(gòu)買對(duì)應(yīng)商品用戶的獨(dú)有標(biāo)識(shí),不可為空。但同一用戶可以重復(fù)且多次購(gòu)買,故可以重復(fù)。
商品編號(hào):商品的編號(hào),不知其是否具有唯一性,不可為空。
商品二級(jí)分類:描述商品屬于哪個(gè)類別。商品一級(jí)分類的子分類,同一商品二級(jí)分類不應(yīng)對(duì)應(yīng)多個(gè)商品一級(jí)分類。
商品一級(jí)分類:描述商品屬于哪個(gè)類別。
商品屬性:多個(gè)維度描述一件商品的各項(xiàng)特征。例如:大小,品牌等。
購(gòu)買數(shù)量:同一時(shí)間購(gòu)買對(duì)應(yīng)商品的數(shù)量。應(yīng)為大于0的整數(shù)。
購(gòu)買時(shí)間:購(gòu)買對(duì)應(yīng)商品的時(shí)間。
第二個(gè)表中,有用戶id、出生日期、性別。
用戶id:用戶的獨(dú)有標(biāo)識(shí),不可為空。
出生日期:對(duì)應(yīng)用戶子女的出生日期。
性別:對(duì)應(yīng)用戶子女的性別,0位女性,1為男性,2為未知性別。
數(shù)據(jù)清洗數(shù)據(jù)清洗的步驟:1.選擇子集。2.列名重命名3.刪除重復(fù)值4.缺失值處理5.一致化處理6.數(shù)據(jù)排序7.異常值處理
使用的數(shù)據(jù)集為:商品的一級(jí)分類,購(gòu)買數(shù)量,購(gòu)買時(shí)間
對(duì)相應(yīng)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清理:并無缺失值。
對(duì)購(gòu)買時(shí)間進(jìn)行一致化處理,通過excel的數(shù)據(jù)分列功能對(duì)購(gòu)買時(shí)間進(jìn)行處理。得到以下格式
對(duì)購(gòu)買時(shí)間進(jìn)行一致化處理的部分結(jié)果對(duì)商品一級(jí)分類下的購(gòu)買數(shù)量做異常值分析:
首先,求出購(gòu)買數(shù)量的幾個(gè)常見統(tǒng)計(jì)學(xué)指標(biāo),得到結(jié)果如下
我們可以得知,無論那種產(chǎn)品的購(gòu)買數(shù)量大多都集聚在1件上,這時(shí)我們使用四分位數(shù)對(duì)異常值進(jìn)行判斷可能會(huì)對(duì)一些高價(jià)值用戶“誤判”。而我們看到商品一級(jí)分類中的50014815的標(biāo)準(zhǔn)差為143.95,表名這一分類有遠(yuǎn)超其它分類的波動(dòng)性。我們對(duì)該分類細(xì)致分析,得到下表
我們對(duì)該分類下購(gòu)買數(shù)量最大值做標(biāo)準(zhǔn)分計(jì)算得出Z=69.4。個(gè)人認(rèn)定其為異常值,會(huì)對(duì)整體分析產(chǎn)生影響,用平均值代替。
數(shù)據(jù)分析:各類產(chǎn)品銷售量隨時(shí)間的變化趨勢(shì)使用excel的數(shù)據(jù)透視表來對(duì)所得數(shù)據(jù)進(jìn)行分析,根據(jù)問題需求對(duì)數(shù)據(jù)進(jìn)行處理,得到下表
各類商品隨時(shí)間(日)變化的部分結(jié)果為了讓整體更利于觀察,我們對(duì)購(gòu)買時(shí)間以年、季度為單位進(jìn)行分組,得到下表。
拋去2012年第三季度和2015年第一季度,各類產(chǎn)品的銷售量隨時(shí)間變化而逐步增長(zhǎng),人們對(duì)網(wǎng)購(gòu)這類消費(fèi)模式越來越接受。從產(chǎn)品大類來看,28類產(chǎn)品的銷量最好,占整體的43%。從季度上來看,第一季度的銷售量最低,第四季度的銷售量最高。
為了探究28類產(chǎn)品的銷量為什么最好,我對(duì)手中僅有的數(shù)據(jù)進(jìn)行了進(jìn)一步處理,得到如下結(jié)果
28類產(chǎn)品的產(chǎn)品數(shù)量是最多的,而用戶在電商平臺(tái)搜索母嬰類產(chǎn)品時(shí),平臺(tái)會(huì)推送母嬰類相關(guān)產(chǎn)品,而28類產(chǎn)品的產(chǎn)品數(shù)量是最多的,相應(yīng)的會(huì)占用平臺(tái)更多的推送資源(這里把二級(jí)分類商品種數(shù)一定程度的比作占用資源多少)。另一方面,50008168類產(chǎn)品有74種二級(jí)分類,但是卻占據(jù)整體銷售量的28.4%,說明用戶對(duì)50008168類產(chǎn)品也有很強(qiáng)的需求度。所以我擬定(銷售量/二級(jí)產(chǎn)品種數(shù))這一指標(biāo)來間接表示用戶對(duì)該類產(chǎn)品的必須程度,50008168類產(chǎn)品的必須程度很高。
數(shù)據(jù)分析:同一大類下,那種產(chǎn)品更暢銷那種產(chǎn)品更暢銷,意味著在同一商品大類下,相同的時(shí)間段內(nèi)銷量最高的產(chǎn)品。
由此我們用數(shù)據(jù)透視表對(duì)商品一級(jí)分類、商品二級(jí)分類、購(gòu)買時(shí)間、購(gòu)買數(shù)量進(jìn)行分析,得到下表。
在2012/7/2-2015/2/6這段時(shí)間內(nèi),以上幾種產(chǎn)品,在各自大類中屬于最為暢銷的產(chǎn)品。我又對(duì)最暢銷產(chǎn)品對(duì)整個(gè)大類的支柱程度做個(gè)表,如下
可見,38類產(chǎn)品中用戶集中購(gòu)買211122產(chǎn)品。
數(shù)據(jù)分析:同一大類下,那種產(chǎn)品更大眾化哪種產(chǎn)品更大眾化,意味著同一大類下,在相同的時(shí)間段內(nèi),該產(chǎn)品被更多不同的用戶所購(gòu)買。
由此我們用數(shù)據(jù)透視表對(duì)商品一級(jí)分類,商品二級(jí)分類,購(gòu)買時(shí)間,用戶ID進(jìn)行分析,得到下表
在2012/7/2-2015/2/6這段時(shí)間內(nèi),以上幾種產(chǎn)品,在各自大類中屬于最為大眾的產(chǎn)品。
數(shù)據(jù)分析:不同性別對(duì)同種產(chǎn)品銷量的影響首先,我們使用Vlookup對(duì)嬰兒信息進(jìn)行引入,再對(duì)新的表格進(jìn)行數(shù)據(jù)清洗,得到下表。
帶有嬰兒信息的購(gòu)買信息(部分)其中,我們發(fā)現(xiàn)一些用戶購(gòu)買時(shí)間與嬰兒生日之間跨度較大,例如
但考慮到可能是多胎原因,故不作處理(包括我不知道是否可以提前知道寶寶性別?)
考慮到男女?dāng)?shù)量不平等對(duì)結(jié)果的影響,我們對(duì)嬰兒整體做統(tǒng)計(jì)
可以看出女嬰(0)的數(shù)量為492,男嬰(1)的數(shù)量為438,兩者相差54人。
不同性別對(duì)同種產(chǎn)品的銷量影響應(yīng)對(duì)不同性別對(duì)同一產(chǎn)品在同一時(shí)間段內(nèi)的購(gòu)買量做分析。
由此,我們用數(shù)據(jù)透視對(duì)商品一級(jí)分類,商品二級(jí)分類,嬰兒性別,購(gòu)買數(shù)量做分析,得到下表
由于數(shù)據(jù)基數(shù)不同,我們簡(jiǎn)單的用購(gòu)買數(shù)量的平均值來代表其性別的購(gòu)買力,得到以下兩組數(shù)據(jù)
可以看到,男嬰的平均購(gòu)買數(shù)量是低于女嬰的,用戶更愿意對(duì)女嬰投入更多。男嬰標(biāo)準(zhǔn)差很低,個(gè)人理解為用戶對(duì)男嬰的態(tài)度很統(tǒng)一。
之后對(duì)各類商品進(jìn)行分析,得到下表
我們可以看到,5008168類產(chǎn)品與50022520類產(chǎn)品,男嬰的需求量高于女嬰。而38類產(chǎn)品與50014815類產(chǎn)品女嬰的需求量遠(yuǎn)遠(yuǎn)高男嬰。
數(shù)據(jù)分析:嬰兒年齡對(duì)同種產(chǎn)品銷量的影響首先我們要對(duì)嬰兒年齡所處在的不同階段進(jìn)行分組,在此我借鑒了網(wǎng)上的一些嬰兒關(guān)鍵時(shí)期的文章,例如(節(jié)選)
得到以下分組規(guī)則
用VLOOKUP的模糊處理得到以下數(shù)據(jù)
嬰兒年齡對(duì)同種產(chǎn)品的銷量影響應(yīng)對(duì)處在不同時(shí)期的嬰兒對(duì)同一產(chǎn)品在同一時(shí)間段內(nèi)的購(gòu)買量做分析。
因?yàn)橛脩羰且驗(yàn)閶雰旱侥繕?biāo)年齡段才會(huì)去買,而不是每個(gè)年齡段都會(huì)去買每一樣?xùn)|西,所以我們這里不對(duì)各年齡段嬰兒數(shù)量做對(duì)比分析處理。
我們年齡分組、商品一級(jí)分類、購(gòu)買數(shù)量做數(shù)據(jù)透視表,得到以下結(jié)果
我們可以看出,38類產(chǎn)品和122650008類產(chǎn)品在嬰兒前3個(gè)關(guān)鍵期的購(gòu)買數(shù)量及其的少,可以理解為這兩類產(chǎn)品對(duì)5個(gè)月一下的嬰兒作用不大,用戶購(gòu)買需求低。而50008168類產(chǎn)品、28類產(chǎn)品、50014815類產(chǎn)品的購(gòu)買量在各個(gè)階段都較高,通用性較強(qiáng)。而50022520類產(chǎn)品在嬰兒出生前銷量不低??傮w來看,嬰兒在8個(gè)月到5歲之間與未出生時(shí),總體產(chǎn)品銷量較高。而在嬰兒年齡過大或過小的時(shí)期,母嬰類產(chǎn)品的銷量不佳。
關(guān)鍵詞:統(tǒng)計(jì),分析