為什么機(jī)器學(xué)習(xí)模型會消耗那么多能源?
時(shí)間:2022-03-05 08:50:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-05 08:50:01 來源:行業(yè)動(dòng)態(tài)
最重要的原因,就是訓(xùn)練這些模型的數(shù)據(jù)集本身也在快速增肥。在使用包含30億個(gè)單詞的數(shù)據(jù)集進(jìn)行訓(xùn)練之后,BERT模型在2018年實(shí)現(xiàn)了同類最佳的自然語言處理(NLP)性能。而在利用包含320億個(gè)單詞的訓(xùn)練集完成訓(xùn)練之后,XLNet又超越了BERT。不久之后,GPT-2開始在包含400億個(gè)單詞的數(shù)據(jù)集上接受訓(xùn)練。最終是我們前面提到的GPT-3,它使用的是一套包含約5000億個(gè)單詞的加權(quán)數(shù)據(jù)集。
在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)需要為每一條數(shù)據(jù)執(zhí)行一整套冗長的數(shù)學(xué)運(yùn)算(正向傳播與反向傳播),并以復(fù)雜的方式更新模型參數(shù)。因此,數(shù)據(jù)集規(guī)模越大,與之對應(yīng)的算力與能源需求也在飛速增長。
導(dǎo)致AI模型大量消耗能源的另一個(gè)理由,在于模型開發(fā)過程中所需要的大量實(shí)驗(yàn)與調(diào)整。目前,機(jī)器學(xué)習(xí)在很大程度上仍是一個(gè)反復(fù)實(shí)驗(yàn)試錯(cuò)的流程。從業(yè)人員通常會在訓(xùn)練過程中為當(dāng)前模型構(gòu)建數(shù)百個(gè)版本,并通過不斷嘗試各類神經(jīng)架構(gòu)與超參數(shù)確定最佳設(shè)計(jì)方案。
之前提到的2019年論文中還包含一項(xiàng)案例研究,研究人員們選擇了一個(gè)體量適中的模型(顯然要比GPT-3這樣的龐然大物小得多),并對訓(xùn)練其最終版本所需要的電力、以及生產(chǎn)最終版本所需要的試運(yùn)行總量進(jìn)行了統(tǒng)計(jì)。
在為期六個(gè)月的過程中,研究人員共訓(xùn)練了該模型的4789個(gè)不同版本,折合單GPU運(yùn)行時(shí)長為9998天(超過27年)??紤]到所有因素,研究人員們估計(jì),該模型的構(gòu)建過程將產(chǎn)生約7萬8000磅二氧化碳,超過美國成年人兩年的平均二氧化碳排放量。
而到這里,我們討論的還僅僅是機(jī)器學(xué)習(xí)模型的訓(xùn)練部分。而訓(xùn)練只能算是模型生命周期的開始;在訓(xùn)練完成之后,我們還需要在現(xiàn)實(shí)環(huán)境中使用這些模型。
在現(xiàn)實(shí)環(huán)境中部署并運(yùn)行AI模型(即推理過程),所帶來的能源消耗量甚至高于訓(xùn)練過程。實(shí)際上,英偉達(dá)公司估計(jì),神經(jīng)網(wǎng)絡(luò)全部算力成本中的80%到90%來自推理階段,而非訓(xùn)練階段。
例如,我們可以考慮自動(dòng)駕駛汽車中的AI模型。我們需要首先對該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,教會它駕駛技巧。在訓(xùn)練完成并部署至車輛上之后,該模型將持續(xù)不斷地進(jìn)行推理以實(shí)現(xiàn)環(huán)境導(dǎo)航只要汽車仍在行駛,模型的推理過程就將不間斷地進(jìn)行。
毋庸置疑,模型中包含的參數(shù)量越大,推理階段所帶來的電力需求就越夸張。