美國(guó)國(guó)家稅務(wù)局的故事
時(shí)間:2022-04-19 12:18:01 | 來(lái)源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-04-19 12:18:01 來(lái)源:行業(yè)動(dòng)態(tài)
我們知道Spark大數(shù)據(jù)分析軟件更多是運(yùn)行在CPU上面,但是隨著數(shù)據(jù)類型的多樣化以及數(shù)據(jù)量的激增,通過(guò)引入GPU能夠加速數(shù)據(jù)分析進(jìn)程。
作為一名數(shù)據(jù)科學(xué)家,Deborah Tylor的任務(wù)是整理美國(guó)國(guó)家稅務(wù)局超過(guò)300TB的數(shù)據(jù)庫(kù),尋找可能有助于識(shí)別身份盜竊和其他欺詐行為的規(guī)律。但即使她讓一大批CPU服務(wù)器工作了一整夜,也無(wú)法完成這項(xiàng)數(shù)據(jù)整理工作。
后來(lái)通過(guò)Cloudera工程師的介紹,美國(guó)國(guó)稅局團(tuán)隊(duì)對(duì)CDP軟件進(jìn)行快速測(cè)試后,在沒(méi)有修改任何代碼的情況下,Tylor在這項(xiàng)工作中的許多步驟就立即加快了5倍,但有幾個(gè)部分仍然滯后。
后來(lái)Cloudera工程師請(qǐng)來(lái)了NVIDIA數(shù)據(jù)科學(xué)家團(tuán)隊(duì)檢查代碼的核心內(nèi)容。他們很快發(fā)現(xiàn)一些非常糟糕的數(shù)據(jù)結(jié)構(gòu)任務(wù)仍在CPU上運(yùn)行。于是他們編寫了代碼處理這些任務(wù)并將其插入Spark的RAPIDS軟件接口中。
RAPIDS是一個(gè)在GPU上運(yùn)行數(shù)據(jù)分析的開(kāi)放資源庫(kù)。NVIDIA和Cloudera通過(guò)深入合作,使數(shù)據(jù)團(tuán)隊(duì)能夠使用RAPIDS AI無(wú)需更改任何代碼即可大大加快數(shù)據(jù)工程和數(shù)據(jù)科學(xué)工作負(fù)載的計(jì)算流程。Cloudera Data Platform上的RAPIDS預(yù)先配置了所有必需的庫(kù)和依賴項(xiàng),以將RAPIDS的功能帶到相關(guān)項(xiàng)目中。
結(jié)果,Tylor又進(jìn)行了一次測(cè)試,發(fā)現(xiàn)一切都能在分布式Spark集群的GPU上順利運(yùn)行,而且速度提升非常明顯。她在一個(gè)四節(jié)點(diǎn)的集群上運(yùn)行了整個(gè)程序。
最終,Cloudera和NVIDIA的技術(shù)整合使得美國(guó)國(guó)稅局的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)工作流程以一半的成本獲得了超過(guò)10倍的速度提升。
接下來(lái),該團(tuán)隊(duì)計(jì)劃把其成功經(jīng)驗(yàn)運(yùn)用在數(shù)據(jù)準(zhǔn)備,也就是數(shù)據(jù)分析中的ETL方面的工作上面,下一步重大計(jì)劃是加速各類AI推理工作。
關(guān)鍵詞:故事,稅務(wù),國(guó)家