英特爾強(qiáng)勢(shì)回歸
時(shí)間:2022-04-06 18:00:01 | 來源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-04-06 18:00:01 來源:行業(yè)動(dòng)態(tài)
在SC19大會(huì)的籌備與召開期間,英特爾公司在丹佛會(huì)議中心附近舉辦了自己的高性能計(jì)算開發(fā)者會(huì)議。英特爾此次活動(dòng)的重頭戲,當(dāng)數(shù)該公司高級(jí)副總裁,架構(gòu)師,架構(gòu)、圖形與軟件業(yè)務(wù)總經(jīng)理Raja Koduri的演講。在此次演講中,他披露了專為Aurora設(shè)計(jì)的GPU系統(tǒng)的一系列細(xì)節(jié)信息。
英特爾CPU與GPU都將采用英特爾公司尚未正式投產(chǎn)的下一代7納米制程工藝。但愿芯片巨頭不要再遇上當(dāng)初10納米工藝的生產(chǎn)轉(zhuǎn)化問題,否則相關(guān)進(jìn)度恐怕又要落后。下一代至強(qiáng)CPU代號(hào)為Sapphire Rapids。此外,英特爾在本次會(huì)議中還公布了其Xe HPC GPU,代號(hào)為Ponte Vecchio(以意大利佛羅倫薩的一座橋梁命名)。
英特爾專為高性能計(jì)算設(shè)計(jì)的Ponte Vecchio系列GPU
Ponte Vecchio GPU專為高性能計(jì)算類工作負(fù)載設(shè)計(jì),其中結(jié)合有多種不同矢量計(jì)算單元。高性能計(jì)算GPU的主要工作,在于處理單精度與雙精度浮點(diǎn)數(shù)學(xué)運(yùn)算。此外,英特爾還將在新方案中支持各類流行的AI數(shù)據(jù)格式,包括INT8、BFloat16以及FP16等等。
每一塊Xe芯片都結(jié)合有CPU與GPU計(jì)算模式
這套系統(tǒng)設(shè)計(jì)方案利用英特爾EMIB封裝技術(shù)將GPU接入高帶寬內(nèi)存(HBM)。Ponte Vecchio GPU還將采用由英特爾的Foveros 3D芯片堆疊技術(shù)構(gòu)建而成的特制內(nèi)存接口芯片,名為Xe Memory Fabric(XEMF)。XEMF將配合名為Rambo的大緩存設(shè)計(jì),借此進(jìn)一步提高可擴(kuò)展性,用以處理規(guī)模愈發(fā)龐大的AI模型。
Ponte Vecchio將成為英特爾GPU系列產(chǎn)品中的又一座高峰,其多芯片模塊設(shè)計(jì)在每個(gè)模塊內(nèi)部署8塊芯片,每塊GPU則包含2個(gè)模塊。英特爾還將利用其EMIB技術(shù)將Xe計(jì)算單元同內(nèi)存對(duì)接起來。配備有Rambo緩存的XEMF也將運(yùn)用Foveros 3D堆疊技術(shù)。最后,英特爾方面還將推出新型Xe總線,用于實(shí)現(xiàn)Xe GPU的全面互連。
英特爾Ponte Vecchio采用專用緩存以提升高性能計(jì)算工作負(fù)載的可擴(kuò)展性
英特爾目前還在構(gòu)建一種新型軟件堆棧,希望借此將所有計(jì)算芯片捆綁在同一平臺(tái)之上。用于計(jì)算加速的oneAPI平臺(tái)將全面覆蓋CPU、GPU以及FPGA。SC19大會(huì)上公布的oneAPI初始版本為0.5 beta版,目前已經(jīng)在Intel DevCloud上開放訪問。英特爾還開發(fā)出一款名為Data Parallel C (DPC )的新型編程語(yǔ)言,以Khronos的SYCL語(yǔ)言為基礎(chǔ)同時(shí)添加了英特爾自己的專用擴(kuò)展。英特爾決定將oneAPI與DPC 作為開源項(xiàng)目開放,希望更多芯片公司能夠參與其中并使用這套平臺(tái)。
英特爾Ponte Vecchio的高性能計(jì)算模塊
Aurora超級(jí)計(jì)算機(jī)將采用雙Sapphire Rapids至強(qiáng)加六塊英特爾Ponte Vecchio HPC GPU的組合。其中GPU的互連總線以最近剛剛公布的CXL總線(采用PCIe 5.0物理層)為基礎(chǔ),即前文提到的全新Xe總線,同時(shí)配備一塊新型交換芯片。
Aurora項(xiàng)目對(duì)英特爾來說無(wú)疑是一項(xiàng)重大挑戰(zhàn)。芯片巨頭目前正在構(gòu)建一套新型軟件堆棧,計(jì)劃利用新的半導(dǎo)體制程工藝與封裝技術(shù)為Aurora打造全新GPU。這一切都必須在兩年之內(nèi)完成設(shè)計(jì)、制造與集成。換句話說,英特爾方面必須充分證明自己在軟件、制造與設(shè)計(jì)方面的整體實(shí)力。
英特爾公司的Raja Koduri,與阿貢國(guó)家實(shí)驗(yàn)室副主任Rick Sevens
就在英特爾公布其Aurora百億億次超級(jí)計(jì)算機(jī)平臺(tái)細(xì)節(jié)信息的同時(shí),AMD方面也披露了自己為Frontier百億億次超算打造的軟件開發(fā)平臺(tái)。Frontier將是一套全AMD系統(tǒng),采用EYPC CPU與Radeon Instinct GPU。AMD公司的優(yōu)勢(shì)在于其一直在發(fā)售獨(dú)立的GPU產(chǎn)品,但英特爾方面的現(xiàn)成方案只有英特爾第九代集成圖形芯片。對(duì)于英偉達(dá)CUDA,AMD也給出了自己的開源回應(yīng)方案ROCM(以及一套對(duì)應(yīng)oneAPI的替代方案)。目前ROCM已經(jīng)發(fā)布了第三個(gè)主要版本,能夠支持TensorFlow以及PyTorch處理機(jī)器學(xué)習(xí)類工作負(fù)載。另外,ROCM也成為Frontier開發(fā)人員的核心軟件平臺(tái),目前Frontier項(xiàng)目中的相當(dāng)一部分資金都被用于推進(jìn)ROCM的發(fā)展。最后,AMD還在本屆SC19大會(huì)上公布了圍繞EPYC服務(wù)器處理器打造的擴(kuò)展生態(tài)系統(tǒng)。
ARM:環(huán)保很重要
由ARM自主研發(fā)的A64FX處理器搭建的富士通原型系統(tǒng),表現(xiàn)出極 出色的性能水平與能源效率,并一舉拿下本屆綠色超算五百?gòu)?qiáng)的頭名桂冠。此外,這也是一套少見的沒有使用加速器(例如GPU或者FPGA)的高性能超級(jí)計(jì)算機(jī)。通過向ARM內(nèi)核當(dāng)中添加可伸縮矢量擴(kuò)展(SVE)這一業(yè)界首創(chuàng)的設(shè)計(jì)思路,這套原型系統(tǒng)獲得了強(qiáng)大的浮點(diǎn)運(yùn)算性能。
富士通A64FX高性能計(jì)算處理器。
對(duì)ARM來說,另一條大新聞來自英偉達(dá)計(jì)劃利用基于ARM架構(gòu)的Marvell Thunder X2服務(wù)器主板發(fā)布的全新機(jī)器學(xué)習(xí)參考系統(tǒng)。英偉達(dá)方面將為整個(gè)ARM生態(tài)系統(tǒng)提供全棧CUDA庫(kù)支持。說起CUDA,不同于尚處于0.5 beta版本的英特爾oneAPI以及版本3的AMD ROCM,英偉達(dá)的CUDA目前已經(jīng)處于10.2版本。很明顯,挑戰(zhàn)者們還得慢慢奮斗才能跟上GPU巨頭在CUDA生態(tài)系統(tǒng)健壯度與成熟度方面的腳步。
微軟也為Azure發(fā)布了一系列合作關(guān)系公告。配合英偉達(dá),微軟Azure首次推出按需超級(jí)計(jì)算機(jī)實(shí)例,在云數(shù)據(jù)中心內(nèi)利用Mellanox交換機(jī)對(duì)接800塊英偉達(dá)V100 GPU。這項(xiàng)服務(wù)的上線,有望以容器方式為高性能計(jì)算應(yīng)用提供資源助力。另外,微軟還將其Azure云定位為新型技術(shù)平臺(tái)。
在SC19大會(huì)之前,Grahcore與微軟就聯(lián)合宣布,Graphcore系統(tǒng)現(xiàn)在已經(jīng)正式登陸Azure云。考慮到近期一直沒什么振奮人心的消息,此次公告無(wú)疑給Graphcore注入了一針強(qiáng)心劑。