前沿創(chuàng)新規(guī)??涨?/h1>
時間:2022-03-08 14:45:01 | 來源:行業(yè)動態(tài)
時間:2022-03-08 14:45:01 來源:行業(yè)動態(tài)
OpenAI首席執(zhí)行官Sam Altman表示:若要將AI發(fā)展成為通用智能,那么在某種程度上就需要強大的系統來訓練日益強大的模型。如今我們終于擁有了所需的算力。Azure AI及其超算能力為我們提供了領先的系統,讓我們能夠加速創(chuàng)新進程。
通過不斷創(chuàng)新,Azure宣布推出全新ND A100 v4虛擬機系列,這是我們迄今為止功能最強大、可擴展性最強的AI虛擬機。該虛擬機可根據需求,通過數百臺虛擬機調用八至數千個互連NVIDIA GPU。
最基本的ND A100 v4虛擬機系列由一臺虛擬機和八個NVIDIA Ampere A100 Tensor Core GPU組成。但如同人腦由相互連接的神經元組成一樣,ND A100 v4集群可以擴展到數千個GPU,且每臺虛擬機都具有1.6TB互連帶寬,這是前所未有的。每個GPU均具有專屬200GB/s NVIDIA Mellanox HDR InfiniBand連接,兼容所有拓撲結構。數十、數百甚至數千個GPU均可連接到同一個Mellanox InfiniBand HDR集群進行工作,從而實現任何級別的AI目標。由于專用的GPU互連帶寬比任何其他公有云產品高16倍,因此可以更快地實現任何AI目標,如從零開始訓練模型、繼續(xù)使用自己的數據進行訓練或針對特定任務進行微調等。
ND A100 v4虛擬機系列由內置全新Azure AMD Rome的平臺提供支持,該平臺所有主要系統組件均符合最新的硬件標準,如PCIe Gen4。PCIe Gen 4和NVIDIA第三代NVLINK架構可為每臺虛擬機實現最快的GPU互連,使數據在系統中的傳輸速度提升2倍以上。
大多數客戶無需開展任何技術工作,即可將其計算性能提升至基于上一代NVIDIA V100 GPU的系統的2至3倍。如果客戶使用具備結構化稀疏加速、高精度Tensor Core核心和多實例GPU(MIG)功能的全新A100,可將性能提高多達20倍。
NVIDIA加速計算總經理兼副總裁Ian Buck表示:Azure利用NVIDIA最先進的計算和網絡功能構建了一個令人難以置信的大型云端AI平臺。其具備的彈性架構,可將NVIDIA A100 GPU上的單一分區(qū)擴展至數千個通過NVIDIA Mellanox InfiniBand互連的A100 GPU。得益于該彈性架構,Azure客戶可運行全球最高要求的AI工作負載。
ND A100 v4虛擬機系列運用VM Scale Set等Azure核心可擴展模塊,可對任何規(guī)模的集群進行自動、動態(tài)且透明的配置,讓所有人在任何地方都可以實現各種規(guī)模的AI,甚至可以在數分鐘內按需對AI超級計算機進行實例化。隨后,便可使用Azure機器學習服務,獨立訪問虛擬機或啟動、管理整個集群的訓練任務。
ND A100 v4虛擬機系列和集群目前可供預覽,之后將成為Azure產品組合中的標準產品,讓所有人都能夠在云端挖掘AI at Scale的潛力。
關鍵詞:規(guī)模,創(chuàng)新,空前