海量商品數(shù)據(jù)的存儲(chǔ)和計(jì)算
時(shí)間:2022-03-26 04:39:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-26 04:39:01 來源:行業(yè)動(dòng)態(tài)
事實(shí)上,京東不是零售公司也不是物流公司,它應(yīng)該是一家大數(shù)據(jù)企業(yè)。在高速發(fā)展的幾年里,京東積累了海量的數(shù)據(jù),因?yàn)樯唐窋?shù)據(jù)是它的基石,是所有產(chǎn)品技術(shù)的核心。而商品數(shù)據(jù)由于它自身的獨(dú)特性,在對其進(jìn)行管理的過程中也面臨著一些挑戰(zhàn)。首先,商品數(shù)據(jù)是多模態(tài)的,包含非結(jié)構(gòu)化的圖片以及結(jié)構(gòu)化的文本等等。其次,商品數(shù)據(jù)還是一個(gè)平臺(tái)數(shù)據(jù)加上用戶生成數(shù)據(jù)合成的模型,這就構(gòu)成了對商品數(shù)據(jù)分析獨(dú)特技術(shù)的挑戰(zhàn)。
隨著公司業(yè)務(wù)的發(fā)展,在過去五年間,京東的商品規(guī)模增加了幾十倍,今天已經(jīng)有百億級的商品規(guī)模。從中,我們看到,成單量和GMV有著基本的線型關(guān)系。同時(shí),我們在未來還會(huì)繼續(xù)擴(kuò)充品類,持續(xù)增加平臺(tái)上的數(shù)據(jù)量。
那么,海量的商品數(shù)據(jù)如何存儲(chǔ)?對于一家管理粗礦的企業(yè)來說,可能一臺(tái)數(shù)據(jù)處理器就可以解決。但對于百億的商品數(shù)據(jù),我們需要一個(gè)統(tǒng)一的平臺(tái)來管理。具體來說,京東采用的是分而治之的方式,通過四個(gè)系統(tǒng)來滿足商品數(shù)據(jù)的存儲(chǔ),從而構(gòu)成海量商品的管理架構(gòu)。與此同時(shí),我們用的是分布式的數(shù)據(jù)庫對商品化的數(shù)據(jù)進(jìn)行存儲(chǔ)。商品數(shù)據(jù)本身存在著冷熱不均的情況,并且它還不是靜止的,是流動(dòng)的,對此,通過平臺(tái)我們還實(shí)現(xiàn)了對數(shù)據(jù)走線的觀測。
其中,對于京東來說,最核心的一個(gè)載體就是圖片。對此,我們使用的是JFS系統(tǒng)進(jìn)行處理。它是京東在2013年自主研發(fā)的系統(tǒng),主要是為了滿足自身圖片存儲(chǔ)的需求。經(jīng)過五年的迭代,我們計(jì)劃在今年下半年基于它做一個(gè)開源社區(qū),所有商品圖片的存儲(chǔ)都經(jīng)過上傳服務(wù),從各個(gè)地方傳輸?shù)蕉鄠€(gè)數(shù)據(jù)中心,至少存在兩個(gè)中心、三臺(tái)不同的磁盤上。同時(shí)外圍還有不同的圖象處理服務(wù),在內(nèi)容分發(fā)網(wǎng)絡(luò)上做邊緣的加速,最后解決體驗(yàn)的問題。
商品的結(jié)構(gòu)化經(jīng)過多級類目進(jìn)行分類,再在類目中創(chuàng)建一個(gè)表,完成梳理。對此,我們還建立了彈性數(shù)據(jù)庫,不僅可以兼容數(shù)個(gè)表,還可以對大表進(jìn)行透明的擴(kuò)展分片,然后同時(shí)做無縫遷移,使得應(yīng)用開發(fā)者不再需要關(guān)心商品數(shù)據(jù)的擴(kuò)展。在這個(gè)過程中,我們把熱數(shù)據(jù)緩存在大的服務(wù)當(dāng)中,比如大家看到在京東所有的內(nèi)容都是用內(nèi)存的方式去存儲(chǔ)的,包括廣告的文本內(nèi)容、推送服務(wù)等等。
如上面所說,數(shù)據(jù)在整個(gè)數(shù)據(jù)中心是動(dòng)態(tài)流動(dòng)的,因此,我們需要把握數(shù)據(jù)的走向來完成可靠的數(shù)據(jù)傳輸。舉個(gè)例子,通過對數(shù)據(jù)做實(shí)時(shí)的索引,我們發(fā)現(xiàn),商品價(jià)格的變化可能會(huì)引發(fā)廣告策略的調(diào)整。在這方面,京東采用的是自主研發(fā)的GMP技術(shù)。因?yàn)榘焉唐窋?shù)據(jù)存儲(chǔ)的問題解決了之后,就要對商品數(shù)據(jù)進(jìn)行處理,這就需要多種框架和大量處理方法,需要有一個(gè)方法來計(jì)算多種管理。
除此之外,針對資源智能化調(diào)度,我們還構(gòu)建了一個(gè)大規(guī)模生態(tài)集群,并在今年年初加入了CRF平臺(tái)。在架構(gòu)層面,京東采用的是異地多活。我們在北京有三個(gè)IDC,此外在廣東和江蘇還各有一個(gè),形成了三地五中心的布局。目前,我們已經(jīng)能夠進(jìn)行透明的數(shù)據(jù)同步,讓上層的應(yīng)用產(chǎn)品開發(fā)部了解更多底層存儲(chǔ)的細(xì)節(jié)。
關(guān)鍵詞:商品,數(shù)據(jù),海量