多方共舉 RDMA技術(shù)不斷演進受關(guān)注
時間:2022-04-29 16:24:01 | 來源:行業(yè)動態(tài)
時間:2022-04-29 16:24:01 來源:行業(yè)動態(tài)
在首屆中國超級算力大會上,致力于高性能計算(HPC)和人工智能(AI)技術(shù)研究、教育和推廣的國際HPC-AI咨詢委員會(HPC-AI Advisory Council),攜手中國大數(shù)據(jù)與智能計算產(chǎn)業(yè)聯(lián)盟在大會上舉辦了關(guān)于容器環(huán)境下的RDMA應(yīng)用及優(yōu)化研討會。
HPC-AI咨詢委員會是一家非盈利性國際組織,成立于 2008 年,擁有400多名成員,致力于HPC-AI技術(shù)的教育與推廣。成員間共享專業(yè)知識,建立特殊興趣小組,并通過技術(shù)中心宣傳HPC和AI技術(shù)的優(yōu)勢與應(yīng)用,探索未來發(fā)展方向。該咨詢委員會主辦了多次全球性年度會議和STEM挑戰(zhàn)賽(包括中國的大學生RDMA編程競賽和德國的大學生集群競賽)。
作為國際高性能計算及人工智能咨詢委員會(HPC-AI Advisory Council)主席,Gilad表示,目前全球數(shù)據(jù)量正在飛速增長,我們面臨巨大的計算挑戰(zhàn),現(xiàn)有的CPU無法滿足人們的計算需求。當前,我們正在從以計算為中心切換到以數(shù)據(jù)為中心。數(shù)據(jù)中心架構(gòu)從以CPU為核心到以數(shù)據(jù)為中心,網(wǎng)絡(luò)計算成為突破口。而RDMA技術(shù)受到了互聯(lián)網(wǎng)以及云計算提供商的青睞,成為云服務(wù)確保高性能的保障。目前RDMA不僅僅限于數(shù)據(jù)中心內(nèi)部,已被擴展到從云端到邊緣。
同時,2019亞太區(qū)大學生RDMA編程挑戰(zhàn)賽頒獎典禮也盛大舉行。做為高性能計算領(lǐng)域領(lǐng)先的研究和教育組織,國際HPC-AI咨詢委員會面向亞太區(qū)大學生發(fā)起了第七屆RDMA編程挑戰(zhàn)賽(The 7th Student RDMA Programming Competition),旨在為在校大學生及已經(jīng)畢業(yè)的學生提供學習RDMA,并成為RDMA編程高手的絕佳機會。
當前,RDMA技術(shù)正在成為以數(shù)據(jù)為中心的計算模型的關(guān)鍵。無論是傳統(tǒng)的高性能計算應(yīng)用還是新興的深度學習框架,RDMA通信方式都是其中的關(guān)鍵環(huán)節(jié)。隨著RDMA技術(shù)的應(yīng)用范圍不斷擴大,國內(nèi)外頂尖企業(yè)越發(fā)重視這一技術(shù)所能創(chuàng)造的價值,對該領(lǐng)域人才的需求也愈發(fā)增加,這也正是大賽的意義,為企業(yè)挖掘最優(yōu)秀的RDMA技術(shù)人才,同時激發(fā)應(yīng)用的最佳性能。
自2013年首次舉辦,每屆大賽都吸引了來自全國各地的20家以上的高校報名參加。在2018年舉辦第六屆大賽時,更是吸引了50余所高校報名參加。經(jīng)過六年的發(fā)展,大學生RDMA編程挑戰(zhàn)賽現(xiàn)已成為培養(yǎng)和選拔高校頂尖技術(shù)人才,推動RDMA技術(shù)在HPC和AI領(lǐng)域應(yīng)用的重要平臺。
通過參加競賽,學生們能夠深入接觸HPC和AI領(lǐng)域最前沿的技術(shù)和工具,鍛煉以技術(shù)實踐解決熱點應(yīng)用問題的綜合能力。因為注重技術(shù)創(chuàng)新及與行業(yè)結(jié)合,通過比賽培養(yǎng)了許多RDMA技術(shù)領(lǐng)域的專業(yè)人才,并通過學校輸送給國內(nèi)外各大企業(yè)及研究機構(gòu)。
Gilad表示,在過去的RDMA競賽中,參賽隊伍對Spark在RDMA上進行了優(yōu)化,以及在Tensorflow、 MXNet等AI框架用RDMA進行了優(yōu)化。本次比賽的題目是如何使用RDMA技術(shù)優(yōu)化在容器環(huán)境下的HPC應(yīng)用。
具體的參賽要求:參賽隊伍需要解釋選擇Dockers或Singularity的理由;參賽隊伍可從HPC-AI咨詢委員會的網(wǎng)站上任選兩個基于RDMA技術(shù)的HPC應(yīng)用或是自有的應(yīng)用進行開發(fā);在基于容器的環(huán)境下演示你所選擇的RDMA應(yīng)用程序可以成功運行;比較在基于容器和非容器的環(huán)境中,基礎(chǔ)性能(如使用基于MPI的性能測試工具或使用其他底層性能工具)差異和所選應(yīng)用的性能差異;在基于容器的環(huán)境中,運用RDMA技術(shù)將應(yīng)用性能進行調(diào)優(yōu),最終得到最佳性能。
從以上要求可以看到,本界競賽旨在通過優(yōu)化各種RDMA應(yīng)用在容器環(huán)境中的性能,切實解決業(yè)界面臨的問題。通過這次競賽,證明了在容器化的環(huán)境中同樣可以得到物理機下的性能。最終中國科學技術(shù)大學成為2019亞太區(qū)大學生RDMA編程挑戰(zhàn)賽冠軍團隊。
Gilad說,大賽的每次選題都是精心設(shè)計的,具備前瞻性。比如前幾屆大會的很多比賽成果已經(jīng)進入到商業(yè)應(yīng)用中。這次比賽的容器技術(shù)與RDMA的結(jié)合也是如此,畢竟容器技術(shù)創(chuàng)新了應(yīng)用交付,而RDMA提升了應(yīng)用性能。兩者結(jié)合其實打通了技術(shù)人員與業(yè)務(wù)人員的藩籬,讓技術(shù)與應(yīng)用緊密融合。
容器技術(shù)是現(xiàn)在的熱門技術(shù),而對于HPC和AI應(yīng)用而言,容器簡化并加速了構(gòu)建和隔離應(yīng)用程序的過程;容器是輕量級的,而且日常管理開支較低;容器能夠更加容易地實現(xiàn)應(yīng)用程序共享和再現(xiàn)性,因為容器映像包括應(yīng)用程序及其開發(fā)環(huán)境。特別是對于AI應(yīng)用,每個AI框架都有許多依賴項。每個依賴庫都有特殊的版本需求,所有AI框架都經(jīng)常發(fā)生變化。容器化有助于開發(fā)人員克服這些挑戰(zhàn)。所有東西都打包成一個單獨的包,包括所有必需的部件。
中國科學技術(shù)大學獲獎學生張子豫接受筆者采訪時表示,容器技術(shù)對于HPC應(yīng)用而言是一種創(chuàng)新性的交付形式,非常易于擴展,而且對于性能影響有限。他們所在小組測試了基于Singularity的主流深度學習框架比如Tensorflow,發(fā)現(xiàn)性能影響不大,最終他們選擇了Apache Storm流式大數(shù)據(jù)處理框架,結(jié)合RDMA技術(shù)在容器環(huán)境進行應(yīng)用。
張子豫還說,中國科學技術(shù)大學每年都會參加大賽,在RDMA方面積累了比較多的經(jīng)驗。而且他們并不只是做簡單的調(diào)優(yōu)工作,而是以應(yīng)用為出發(fā)。比如他們計劃將Apache Storm、Apache Kafka、NoSQL數(shù)據(jù)庫等打包開發(fā)相應(yīng)的應(yīng)用。
對于獲獎,張子豫表示,大會對于參賽評分比較全面,比如成功運行應(yīng)用、應(yīng)用的調(diào)優(yōu),還有答辯,以及其他創(chuàng)新工作,從多個維度考核參賽隊伍的能力。非常感謝國際HPC-AI咨詢委員會提供了這樣一個可以與其他院校交流的平臺,通過交流,我們的能力也得到了提升,收獲巨大!
關(guān)鍵詞:演進,關(guān)注,技術(shù)