用于人工智能(AI)和機(jī)器學(xué)習(xí)(ML)的定制化芯片
時(shí)間:2022-03-16 10:15:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-16 10:15:01 來源:行業(yè)動(dòng)態(tài)
如今,幾乎每一位AWS客戶都或多或少需要處理AI和ML負(fù)載,包括金融服務(wù)、醫(yī)療保健、制造和零售等多個(gè)領(lǐng)域。客戶已經(jīng)意識(shí)到AI和ML對于保持競爭力、為客戶提供更佳體驗(yàn)的重要意義。但當(dāng)前AI與ML面臨的最大挑戰(zhàn),就是高昂的實(shí)施成本。
AI與ML分為兩個(gè)階段。我們首先需要訓(xùn)練模型,之后才能利用這些模型執(zhí)行推理機(jī)器學(xué)習(xí)與深度學(xué)習(xí)都需要遵循這樣的流程。云則是AI與ML的理想承載平臺(tái),不僅提供豐富的高性能計(jì)算、高速網(wǎng)絡(luò)與海量存儲(chǔ)資源,同時(shí)也允許用戶以按需方式靈活控制資源成本。
大多數(shù)客戶希望利用AI/ML的力量為業(yè)務(wù)和客戶體驗(yàn)提供積極影響,但卻一直受困于模型訓(xùn)練和推理帶來的高昂成本。AWS致力于提高模型性能、降低AI/ML實(shí)施成本,而定制化AI與ML芯片也正是為此而生。
AWS發(fā)布的首款面向推理應(yīng)用的機(jī)器學(xué)習(xí)芯片名為Inferentia。推理過程的實(shí)質(zhì)是對傳入數(shù)據(jù)進(jìn)行實(shí)時(shí)分析;AWS決定以此為起點(diǎn),是因?yàn)镸L中約九成成本源自推理負(fù)載。Inferentia能夠以遠(yuǎn)低于GPU實(shí)例的價(jià)格提供機(jī)器學(xué)習(xí)推理所必需的高性能與吞吐量。
AWS還提供AWS Neuron SDK,幫助開發(fā)人員通過TensorFlow及PyTorch等框架輕松從基于GPU的推理模型遷移至Inferentia。
與推理類似,ML訓(xùn)練同樣極耗資源,需要大量并行處理的高性能算力。在這一領(lǐng)域,訓(xùn)練時(shí)間與訓(xùn)練成本是同等重要的兩大核心指標(biāo)??蛻粜枰粩嗍占聰?shù)據(jù)以重新訓(xùn)練模型,這就讓訓(xùn)練成本成了一個(gè)無底洞。
AWS利用高并行數(shù)學(xué)運(yùn)算與更高的ML模型訓(xùn)練算力加快整個(gè)過程,將網(wǎng)絡(luò)吞吐量由基于GPU實(shí)例上的每秒500 Gib提升至每秒800 Gib;同時(shí)在網(wǎng)絡(luò)與訓(xùn)練芯片之間提供高吞吐量互連、降低延遲,由此實(shí)現(xiàn)更快的云端ML訓(xùn)練速度。
通過高速網(wǎng)絡(luò),客戶可以創(chuàng)建EC2 UltraClusters并使用800 GB網(wǎng)絡(luò)將數(shù)千個(gè)訓(xùn)練加速器匯聚起來,建立起PB級的無阻塞集群。其在本質(zhì)上已經(jīng)屬于小型超級計(jì)算機(jī),能夠顯著縮短復(fù)雜模型的訓(xùn)練時(shí)長。
由AWS Trainium芯片支持的全新Trn1實(shí)例致力于在云端提供最快的機(jī)器學(xué)習(xí)訓(xùn)練速度與最低實(shí)施成本;與配備英偉達(dá)A100的最新P4d實(shí)例相比,Trn1實(shí)例在訓(xùn)練深度學(xué)習(xí)模型的成本方面可降低達(dá)40%。AWS表示,Trainium芯片的峰值機(jī)器學(xué)習(xí)模型訓(xùn)練性能可達(dá)最新P4d實(shí)例的1.5倍。
關(guān)鍵詞:學(xué)習(xí),機(jī)器