RAPIDS加速數(shù)據(jù)價(jià)值實(shí)現(xiàn)
時(shí)間:2022-04-01 15:18:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-04-01 15:18:01 來源:行業(yè)動(dòng)態(tài)
趙立威表示,大數(shù)據(jù)分析一般經(jīng)過三個(gè)步驟,一個(gè)是數(shù)據(jù)準(zhǔn)備,這個(gè)過程數(shù)據(jù)特征的提取、數(shù)據(jù)合并、數(shù)據(jù)降維等等;第二步,訓(xùn)練。這是一個(gè)不斷的循環(huán)過程,我們要不斷優(yōu)化,進(jìn)行參數(shù)的調(diào)整,訓(xùn)練過程精度會(huì)更高,可預(yù)測的結(jié)果會(huì)更準(zhǔn)確;第三步,推理,上線運(yùn)營。
在這三個(gè)步驟中,業(yè)界產(chǎn)生了很多相應(yīng)的工具,可以加速相應(yīng)的過程實(shí)現(xiàn)。但是這些工具大多是依托處理器的計(jì)算,并沒有有效利用加速器。于是,NVIDIA通過與開源社區(qū)合作,實(shí)現(xiàn)了GPU加速數(shù)據(jù)分析。GPU可以給數(shù)據(jù)科學(xué)家的機(jī)器學(xué)習(xí)項(xiàng)目提供更多的加速支持。趙立威說。
最初的RAPIDS基準(zhǔn)分析利用了XGBoost機(jī)器學(xué)習(xí)算法在NVIDIA DGX-2系統(tǒng)上進(jìn)行訓(xùn)練,結(jié)果表明,與僅有CPU的系統(tǒng)相比,其速度能加快50倍。這可幫助數(shù)據(jù)科學(xué)家將典型訓(xùn)練時(shí)間從數(shù)天減少到數(shù)小時(shí),或者從數(shù)小時(shí)減少到數(shù)分鐘,具體取決于其數(shù)據(jù)集的規(guī)模。
趙立威總結(jié)說,在方興未艾的數(shù)據(jù)科學(xué)領(lǐng)域,RAPIDS具有顯著的特點(diǎn):無縫整合,數(shù)據(jù)科學(xué)家只需要進(jìn)行非常少的代碼修改就可以帶來顯著的性能加速;可以直接運(yùn)行在NVIDIA近幾年的GPU產(chǎn)品上面;減少數(shù)據(jù)處理等待時(shí)間,數(shù)據(jù)科學(xué)家可以將精力用在模型訓(xùn)練和優(yōu)化;開源,更好地融入社區(qū),獲得更多人的智慧,豐富基礎(chǔ)特性,服務(wù)更多場景。
據(jù)悉,為了推動(dòng)RAPIDS的廣泛應(yīng)用,NVIDIA正努力將RAPIDS與Apache Spark進(jìn)行整合,數(shù)據(jù)可視化將是下一個(gè)目標(biāo)。
關(guān)鍵詞:價(jià)值,實(shí)現(xiàn),數(shù)據(jù)