英偉達(dá)企業(yè)戰(zhàn)略
時(shí)間:2023-02-12 08:42:01 | 來源:營銷百科
時(shí)間:2023-02-12 08:42:01 來源:營銷百科
英偉達(dá)企業(yè)戰(zhàn)略:
規(guī)格構(gòu)架NVIDIA Geforce GTX650Ti矛頭指向的是AMD Radeon HD7770,他們擁有相同的市場定位,在性能對比測試之前我們先簡單的了解一下這款開普勒新品的具體規(guī)格。通過這張NVIDIA官方GTX650Ti規(guī)格列表我們可以看出,這款代號GK-106顯示核心擁有768個(gè)CUDA,核心頻率達(dá)到925MHz。顯存方面,搭載了容量為1GB,規(guī)格為GDDR5的顯存顆粒。供電方面配備有單6PIN輔助供電接口,可以看成雖然全新GTX600大部分顯卡顛覆了傳統(tǒng)長PCB多項(xiàng)供電的設(shè)計(jì)理念,但是對在對核心供電這一塊還是非常慎重的。再看官方給出的TDP為110W,接口方面則配備了2個(gè)DVI接口以及一個(gè)HDMI接口,并且支持PCI-E 3。0接口格式。
NVIDIA GeForce GTX650Ti這顆代號GK-106顯示核心是由GTX660精簡而來,核心內(nèi)5組SMX精簡到了4組,原有的960個(gè)CUDA也隨之精簡到了768個(gè),同時(shí)原有的80個(gè)紋理單元在精簡掉一組SMX后也變成了64個(gè),而光柵ROP單元縮減到16個(gè)。顯存控制器也被精簡掉一組由GTX660的192bit變成了GTX650Ti的128bit。
Kepler架構(gòu)與GTX400向GTX500過度相比,此次采用全新工藝、全新構(gòu)架的GTX600顯得更具有意義,不僅在性能方面得到了倍數(shù)的提升,功耗、發(fā)熱量方面也都得到了很好的控制。
我們先從開普勒構(gòu)架中的SMX單元說起,與費(fèi)米構(gòu)架中SM單元不同,SMX單元當(dāng)中包含了巨大數(shù)量的CUDA Core核心,達(dá)到了夸張的192個(gè),是原有費(fèi)米的SM單元CUDA Core數(shù)量的6倍!完整的GK104核心共擁有1536個(gè)CUDA Core,是GF110的3倍!而這之前,NVIDIA對于SM當(dāng)中的CUDA Core數(shù)量提升只能用保守來形容了,在G80時(shí)代為16個(gè),GT200之后增加到了24個(gè),到了GF100時(shí)代才增加到32個(gè),即便是算上中端產(chǎn)品GF114的SM單元架構(gòu),也最多不過達(dá)到了48個(gè)而已。NVIDIA的此次舉動(dòng)絕對是非常大膽的一個(gè)突破。
除了CUDA Core數(shù)量的激增外,對于SMX內(nèi)部結(jié)構(gòu)NVIDIA必然也要進(jìn)行適當(dāng)?shù)恼{(diào)整,否則以原有的線程調(diào)度機(jī)制必然無法滿足如此多CUDA Core的調(diào)度需求。因此,NVIDIA為每個(gè)SMX當(dāng)中配備了四組Warp Scheduler(Warp調(diào)度器)以及八個(gè)Dispatch Unit(分派單元),大大加強(qiáng)了CUDA Core的任務(wù)派發(fā)能力。
除此以外,Instrucition Cache(指令高速緩存)、Register File(寄存器文件)、64KB Shared Memory/L1 Cache(64KB高速緩存)、Uniform Cache(統(tǒng)一高速緩存)等并沒有太大變化。
自適應(yīng)垂直同步為了解決畫面流暢度問題,NVIDIA推出全新Adaptive Vsync(自適應(yīng)垂直同步)技術(shù),我們在一些大型3D動(dòng)作游戲中經(jīng)常會看到Vsync(垂直同步)這個(gè)選項(xiàng),它會起到什么作用呢?
V-sync(垂直同步)其作用主要是讓顯卡的運(yùn)算和顯示器刷新率一致以穩(wěn)定輸出的畫面質(zhì)量。但啟用V-Sync會大幅影響顯卡性能(顯示器刷新頻率是多少顯卡最多也只能有同等的幀數(shù)輸出,而即使是Quad SLI顯卡啟用V-Sync后,如其顯示器刷新頻率只有65Hz,那么它在任何游戲中的速度最多也只有65 FPS),所以啟用V-Sync由于很難體現(xiàn)出不同顯卡的性能差異所以已基本沒有多少顯卡測試會開啟這個(gè)功能。但在實(shí)際游戲中開啟V-Sync實(shí)際也有助提升游戲運(yùn)行的穩(wěn)定性。
而我們實(shí)際看到的畫面并不可能與顯卡渲染的游戲幀速率相同,而是僅能夠達(dá)到顯示器的刷新速率。但是顯卡多渲染的那些游戲幀畫面就有可能會出現(xiàn)撕裂、跳幀等問題。而垂直同步則正是為了解決這一問題而出現(xiàn)。Adaptive Vsync(自適應(yīng)垂直同步)技術(shù)能夠讓顯卡自動(dòng)根據(jù)游戲的幀速率來啟用或禁用垂直同步功能。當(dāng)游戲幀速率達(dá)到60FPS以上時(shí),顯卡將會自動(dòng)開啟垂直同步,保證游戲畫面不會出現(xiàn)撕裂等問題,而當(dāng)游戲幀數(shù)低于60FPS后,垂直同步功能自動(dòng)關(guān)閉,讓游戲避免出現(xiàn)切換垂直同步速度時(shí)的卡頓問題。
全新抗鋸齒技術(shù)NVIDIA為了更好的抵制'狗牙',又推出了全新的抗鋸齒技術(shù)即TXAA,TXAA分為TXAA1、TXAA2兩個(gè)級別。全新的TXAA抗鋸齒技術(shù)是通過硬件來實(shí)現(xiàn)的,在NVIDIA全新的304。79驅(qū)動(dòng)中首次得到真正應(yīng)用,當(dāng)然由于這項(xiàng)抗鋸齒技術(shù)還未度過嬰兒期,所以支持TXAA的游戲只有《The Secret World》。NVIDIA 全新的TXAA抗鋸齒技是一款類等同于在動(dòng)畫、電影、游戲CG中所采用復(fù)雜的高畫質(zhì)過濾器,從而減少因?yàn)殇忼X導(dǎo)致畫面出現(xiàn)的撕裂和閃動(dòng)等非常態(tài)顯示。 通過對比完美的詮釋了全新TXAA的強(qiáng)悍,相比8XMSAA其展現(xiàn)了更為圓滑、飽滿的畫質(zhì)體驗(yàn),TXAA1級別畫質(zhì)效果等同與MS8XAA抗鋸齒效果,而TXAA2級別可帶來桌面級娛樂顯卡頂級的畫質(zhì)效果,圖上第三張展示的就是TXAA2級別。
價(jià)格市場定位,GTX650Ti官方建議價(jià)格1099元,而AMD HD7770則為999元-1099之間。但我們都知道官方建議價(jià)格基本可以忽視,非公版肯定要比這個(gè)價(jià)格高出100-200元,強(qiáng)化供電以及散熱。就價(jià)格而言短期內(nèi)GTX650Ti銷量不會太高,主要是在價(jià)格上被HD7770所壓制,同時(shí)還有受到自家GTX560-560Ti顯卡在價(jià)格上的制約,如果價(jià)格在999一線性價(jià)比就更為耀眼了。但話雖如此但憑借性能,仍推薦玩家朋友更新升級購買。
命名規(guī)則NVIDIA各代顯卡都遵循了由高至低命名規(guī)則
GTX GTS GT GS從GTX500系開始,為避免命名復(fù)雜帶來的產(chǎn)品線識別困擾,NVIDIA顯卡將取消GTS級別的顯卡,中高端全部使用GTX命名,而低端使用GT命名,同時(shí)在甜品級顯卡市場增設(shè)產(chǎn)品細(xì)分,帶Ti后綴為更高一級顯卡,如GTX560TiGTX560。
主要企業(yè)級解決方案NVIDIA數(shù)據(jù)中心GPU:可更快速地處理要求最嚴(yán)格的高性能計(jì)算(HPC)和超大規(guī)模數(shù)據(jù)中心工作負(fù)載。產(chǎn)品包括:
Tesla V100 GPU:基于Volta架構(gòu),突破了深度學(xué)習(xí)每秒 100 萬億次浮點(diǎn)運(yùn)算的大關(guān)。V100 配備 640 個(gè) Tensor 內(nèi)核,可提供 120 萬億次浮點(diǎn)運(yùn)算的深度學(xué)習(xí)性能,帶有 16 GB 和 32GB 兩種配置,在單個(gè) GPU 中即可提供高達(dá) 100 個(gè) CPU 的性能。
T4 GPU:基于Turing架構(gòu),具備人工智能推理的多精度計(jì)算性能。從 FP32 到 FP16 再到 INT8和 INT4 精度,T4 的性能比 CPU 高出 40 倍,實(shí)現(xiàn)性能的重大突破。T4 封裝在節(jié)能的小型 70 瓦PCIe中,可針對橫向擴(kuò)展服務(wù)器進(jìn)行優(yōu)化。
A100 GPU:采用NVIDIA Ampere架構(gòu)的設(shè)計(jì),該設(shè)計(jì)為NVIDIA第八代GPU提供了迄今為止最大的性能飛躍,集AI訓(xùn)練和推理于一身,并且其性能相比于前代產(chǎn)品提升了高達(dá)20倍。已登陸Google Compute Engine(云計(jì)算引擎),推出alpha測試版本。PCIe版本A100使服務(wù)器制造商能夠?yàn)榭蛻籼峁┑漠a(chǎn)品組合——從內(nèi)置單個(gè)A100 GPU的系統(tǒng)到內(nèi)置10個(gè)或10個(gè)以上GPU的服務(wù)器等。
NVIDIA HGX:NVIDIA HGX-1 和 HGX-2 是參考架構(gòu),用于標(biāo)準(zhǔn)化加速 AI 和高性能計(jì)算的數(shù)據(jù)中心的設(shè)計(jì),采用NVIDIA SXM2 V100 板、NVIDIA NVLink 和 NVSwitch 互聯(lián)技術(shù)構(gòu)建,并采用在超大規(guī)?;旌蠑?shù)據(jù)中心無縫運(yùn)行的模塊化設(shè)計(jì),可提供高達(dá) 2 petaFLOPS 的計(jì)算能力。HGX-3 采用單一基板,配備 4 枚或 8 枚 A100 GPU。4-GPU 配置通過 NVLink 完全互聯(lián),8-GPU 配置通過 NVSwitch 互聯(lián)。兩個(gè) 8-GPU HGX-3 基板還可通過 NVSwitch 互聯(lián)技術(shù)進(jìn)行組合,以創(chuàng)建功能強(qiáng)大的 16-GPU 單節(jié)點(diǎn)。
NVIDIA DGX:針對企業(yè) AI 開發(fā)和規(guī)模提供出色的解決方案。包括:
NVIDIA DGX Station:面向數(shù)據(jù)科學(xué)團(tuán)隊(duì)的 AI 工作站,專為辦公室及安靜場所設(shè)計(jì)。它在適用于所有 NVIDIA DGX系統(tǒng)的 NVIDIA GPU Cloud 深度學(xué)習(xí)堆?;A(chǔ)上構(gòu)建,配備四塊 NVIDIA Tesla V100 Tensor Core GPU,集成全連接的四路 NVLink? 架構(gòu),可提供 500 teraFLOPS 的 AI 性能(與數(shù)百臺服務(wù)器的性能相當(dāng)),能夠提高團(tuán)隊(duì)的實(shí)驗(yàn)速度、迭代次數(shù),輕松獲得工作成果。
NVIDIA DGX-1:DGX-1 通過采用配備當(dāng)今超熱門優(yōu)化版框架的 NVIDIA GPU Cloud 深度學(xué)習(xí)堆棧,提供比其他基于 GPU 的系統(tǒng)快 4 倍的訓(xùn)練速度。它充分發(fā)揮了NVIDIA Tesla V100 的潛力,包括下一代 NVIDIA NVLink和新型 Tensor Core 架構(gòu)。借助 NVIDIA DGX-1,可以快速在大數(shù)據(jù)集中找出規(guī)律,從而在幾小時(shí)或幾分鐘內(nèi)獲得新的知識和見解。
NVIDIA DGX-2:NVIDIA DGX-2是集成了 16 個(gè) NVIDIA V100 Tensor Core GPU 的 2 petaFLOPS 系統(tǒng),適用于大規(guī)模 AI 項(xiàng)目,其性能是 8-GPU 系統(tǒng)的 10 倍。DGX-2 由 NVIDIA DGX 軟件和 NVIDIA NVSwitch 的可擴(kuò)展架構(gòu)提供支持,是應(yīng)對復(fù)雜 AI 挑戰(zhàn)的上佳平臺。
NVIDIA DGX A100:以及基于 NVIDIA A100 構(gòu)建的 AI 系統(tǒng)。DGX A100系統(tǒng)集成了8個(gè)NVIDIA A100 Tensor Core GPU,具有320GB內(nèi)存用以訓(xùn)練的AI數(shù)據(jù)集,以及高速NVIDIA Mellanox? HDR 200Gbps互連,具有高達(dá)5Petaflops 的AI性能。一個(gè)由5臺DGX A100系統(tǒng)組成的機(jī)架可代替一個(gè)包括了AI訓(xùn)練和推理基礎(chǔ)設(shè)施的數(shù)據(jù)中心,而且功耗僅是其1/20,所占用的空間是其1/25,成本是其1/10。
NVIDIA EGX:NVIDIA EGX 是一款云原生、邊緣優(yōu)先且可擴(kuò)展的平臺,可讓 IT 快速輕松地調(diào)配 GPU 服務(wù)器。EGX 的一個(gè)主要組件是 NVIDIA GPU Operator,它能夠?qū)λ斜匾M件的部署進(jìn)行標(biāo)準(zhǔn)化和自動(dòng)化,以調(diào)配支持 GPU 的 Kubernetes 集群。NVIDIA EGX 平臺可將加速人工智能 (AI) 的強(qiáng)大功能引入邊緣服務(wù)器,用于智能零售、智能醫(yī)療保健、智能制造、智能運(yùn)輸和智慧城市等領(lǐng)域。
NGC:NGC 是 GPU 優(yōu)化的深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和高性能計(jì)算 (HPC) 軟件中心,可以處理所有例行任務(wù),以便數(shù)據(jù)科學(xué)家、開發(fā)者和研究人員可以專注于構(gòu)建解決方案,收集各種見解,并提供業(yè)務(wù)價(jià)值。NGC提供了優(yōu)化的、易于部署的AI框架和HPC應(yīng)用容器,加速生產(chǎn)效率,因此用戶可以專注于構(gòu)建他們的解決方案。NGC 通過預(yù)先訓(xùn)練好的模型和具有同級最佳準(zhǔn)確度和性能的工作流程來處理繁重的任務(wù)(專業(yè)知識、時(shí)間、計(jì)算資源),降低了人工智能采用的障礙。在本地、云端或混合部署中運(yùn)行 NGC 軟件,可最大限度地提高 GPU 的利用率、可移植性和可擴(kuò)展性。借助 NGC-Ready 系統(tǒng)的企業(yè)級支持,可直接聯(lián)系 NVIDIA 專家,最大限度地減少系統(tǒng)停機(jī)時(shí)間,并且最大限度地提高系統(tǒng)利用率和生產(chǎn)力。
NVIDIA Jetson:適用于新一代自主機(jī)器的嵌入式系統(tǒng),產(chǎn)品組合包括:Jetson Nano、Jetson TX2、Jetson Xavier NX、Jetson AGX Xavier、以及適用于所有 Jetson 產(chǎn)品的統(tǒng)一軟件版本NVIDIA JetPack SDK。
NVIDIA DRIVE:自動(dòng)駕駛行業(yè)的端到端平臺,包括車載計(jì)算機(jī)(DRIVE AGX)和完整參考架構(gòu)(DRIVE Hyperion),以及數(shù)據(jù)中心托管模擬(DRIVE Constellation?)和深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練平臺(DGX?) 。這些平臺還包括豐富的軟件開發(fā)工具包(SDK),以加速自動(dòng)駕駛汽車(AV)的開發(fā)。
NVIDIA Quadro:面向臺式機(jī)、移動(dòng)工作站、服務(wù)器、特定解決方案及虛擬工作空間的視覺計(jì)算平臺。
NVIDIA Titan:NVIDIA TITAN RTX? 是運(yùn)行速度超快的 PC 顯卡,借助Turing架構(gòu),可為 PC 配備 130 Tensor TFLOPs 的性能、576 個(gè) Tensor Core,以及 24 GB 的高速 GDDR6,可渲染超大型模型,支持實(shí)時(shí)8K視頻編輯,并運(yùn)行復(fù)雜的多應(yīng)用工作流程。 TITAN RTX 配備多精度 Turing Tensor 核心,可在 FP32、FP16、INT8 和 INT4 精度模式下實(shí)現(xiàn)突破性的性能,進(jìn)而加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理速度。借助比上一代 TITAN GPU 多兩倍的顯存容量和 NVIDIA NVLink?,TITAN RTX 使研究人員和數(shù)據(jù)科學(xué)家能夠使用更大的神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),所有操作均可在 GPU 顯存中完成。
Mellanox Networking:2020年4月,NVIDIA已完成對Mellanox Technologies, Ltd.(邁絡(luò)思科技有限公司)的收購。為服務(wù)器和存儲提供端到端InfiniBand和以太網(wǎng)智能互聯(lián)解決方案及服務(wù)。其端到端高速互連產(chǎn)品包括: 網(wǎng)卡、交換機(jī)、線纜、光模塊、軟件和芯片等,可用于云服務(wù)、超大規(guī)模數(shù)據(jù)中心、高性能計(jì)算、人工智能、企業(yè)級數(shù)據(jù)中心、網(wǎng)絡(luò)安全、存儲以及金融服務(wù)等各個(gè)行業(yè)。
CUDA渲染時(shí)代10系桌面產(chǎn)品名稱
| 架構(gòu)
| CUDA核心
| 顯存
| 頻率
|
---|
GT 1030
| Pascal
| 384
| 2G GDDR5
| 1228MHz
|
GTX 1050
| Pascal
| 640
| 2G GDDR5
| 1455MHz
|
GTX 1050Ti
| 768
| 4G GDDR5
| 1392MHz
|
GTX 1060
| 1152
| 3GGDDR5
| 1708MHz
|
1280
| 5GGDDR5
|
1280
| 6GGDDR5X
|
GTX 1070
| 1920
| 8G GDDR5
| 1683MHz
|
GTX 1070Ti
| 2432
| 8G GDDR5
|
GTX 1080
| 2560
| 8G GDDR5X
| 1733MHz
|
GTX 1080Ti
| 3584
| 11G GDDR5X
| 1582MHz
|
TITAN Xp
| 3840
| 12G GDDR5X
|
移動(dòng)產(chǎn)品GTX 1050
| Pascal
| 640
| 最高 4 GB GDDR5
| 1354MHz
|
GTX 1050Ti
| 768
| 1493MHz
|
GTX 1060
| 1280
| 最高 6 GB GDDR5
| 1404MHz
|
GTX 1070
| 2048
| 8 GB GDDR5
| 1442MHz
|
GTX 1080
| 2560
| 8 GB GDDR5X
| 1556MHz
|
16系桌面產(chǎn)品名稱
| 架構(gòu)
| CUDA核心
| 顯存
| 頻率
|
---|
GTX 1650
| Turing
| 896
| 4GB GDDR5
| 1665 MHz
|
GTX 1660
| 1408
| 6 GB GDDR5
| 1775MHz
|
GTX 1660Ti
| 1536
| 6 GB GDDR6
| 1770 MHz
|
移動(dòng)產(chǎn)品GTX 1650
| turing
| 1024
| 4GB GDDR5
| 1020 - 1395MHz
|
GTX 1660Ti
| 1536
| 6GB GDDR6
| 1140-1455MHz
|
30系列移動(dòng)電腦端顯卡產(chǎn)品 | | GEFORCE RTX
3080 筆記本電腦 GPU
| GEFORCE RTX
3070 筆記本電腦 GPU
| GEFORCE RTX
3060 筆記本電腦 GPU
|
GPU 引擎規(guī)格:
| NVIDIA CUDA?核心數(shù)量
| 6144
| 5120
| 3840
|
| 加速頻率 (MHz)
| 1245-1710 MHz
| 1290-1620 MHz
| 1283-1703 MHz
|
| GPU 子系統(tǒng)功耗 (W)
| 80-150 W
| 80-125 W
| 60-115 W
|
顯存規(guī)格:
| 標(biāo)準(zhǔn)顯存配置
| 16 GB GDDR6
8 GB GDDR6
| 8 GB GDDR6
| 6 GB GDDR6
|
| 顯存位寬
| 256 位
| 256 位
| 192 位
|
| | | | |
技術(shù)支持:
| RT Core
| 第 2 代
| 第 2 代
| 第 2 代
|
| Tensor Core
| 第 3 代
| 第 3 代
| 第 3 代
|
| NVIDIA 架構(gòu)
| Ampere
| Ampere
| Ampere
|
| Microsoft DirectX?12 Ultimate
| 是
| 是
| 是
|
| NVIDIA DLSS
| 是
| 是
| 是
|
| PCI Express 第 4 代
| 支持
| 是
| 是
|
| NVIDIA GeForce Experience?
| 是
| 是
| 是
|
| NVIDIA Ansel
| 是
| 是
| 支持
|
| NVIDIA Freestyle
| 是
| 是
| 是
|
| NVIDIA ShadowPlay?
| 是
| 是
| 是
|
| NVIDIA Highlights
| 是
| 是
| 是
|
| NVIDIA G-SYNC?
| 是
| 是
| 是
|
| 支持 Game Ready 驅(qū)動(dòng)程序
| 是
| 是
| 是
|
| NVIDIA Studio 驅(qū)動(dòng)
| 是
| 是
| 是
|
| NVIDIA GPU Boost?
| 是
| 是
| 支持
|
| Vulkan RT API、OpenGL 4.6
| 是
| 是
| 是
|
| HDMI 2.1
| 是
| 是
| 是
|
| DisplayPort 1.4a
| 是
| 是
| 是
|
| NVIDIA 編碼器
| 第 7 代
| 第 7 代
| 第 7 代
|
| NVIDIA 解碼器
| 第 5 代
| 第 5 代
| 第 5 代
|
| VR Ready
| 是
| 是
| 是
|
關(guān)鍵詞:戰(zhàn)略,企業(yè)