通用計算、異構計算、協(xié)同計算、邊緣計算等多元產(chǎn)品布局
NVIDIA A10 Tensor Core GPU 與 NVIDIA RTX 虛擬工作站 (vWS) 軟件相結合,將主流圖形和視頻與 AI 服務引入主流企業(yè)服務器,為設計師、工程師、藝術家和科學家?guī)響獙Ξ斀裉魬?zhàn)所需的解決方案。A10 基于最新的 NVIDIA Ampere 架構而構建,將第二代 RT Core、第三代 Tensor Core 和新型流式傳輸微處理器與 24 GB 的 GDDR6 顯存相結合 (皆在 150W 功率范圍內(nèi)),實現(xiàn)通用的圖形、渲染、AI 和計算性能。從可在世界各地訪問的虛擬工作站、渲染節(jié)點, 到運行各種工作負載的數(shù)據(jù)中心,A10 皆能以單寬、全高、全長 PCIe 外形提供出色性能。 NVIDIA A10 支持作為 NVIDIA-Certified Systems? 的一部分,在本地數(shù)據(jù)中心、云和邊緣中使用。
NVIDIA A10 基于由 NVIDIA NGC? 目錄、CUDA-X? 庫、超過 230 萬名開發(fā)者和 1800 多個 GPU 優(yōu)化應用程序組成的豐富的 AI 框架生態(tài)系統(tǒng)而構建,幫助企業(yè)應對其業(yè)務中的關鍵挑戰(zhàn)。
速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和計算工作流程的性能,例如復雜的 3D 計算機輔助設計 (CAD) 和計算機輔助工程 (CAE)。
憑借高達 2 倍于上一代產(chǎn)品的吞吐量,以及并行運行光線追蹤與著色或降噪功能的能力,第二代 RT Core 可大幅加快電影內(nèi)容的逼真渲染、建筑設計評估以及產(chǎn)品設計的虛擬原型制作等工作負載的運行速度。這項技術還可提升光線追蹤動態(tài)模糊的渲染速度,從而更快獲得結果,并增加視覺準確度。
Tensor Float 32 (TF32) 精度提供的訓練吞吐量高達上一代的 5 倍,而且無需更改代碼即可加速 AI 和數(shù)據(jù)科學模型的訓練。從硬件上支持結構化稀疏使推理吞吐量提升一倍。Tensor Core 還為圖形處理引入了諸多 AI 功能,例如為選定應用程序帶來了深度學習超級采樣 (DLSS)、AI 降噪和增強編輯等功能。
超高速 GDDR6 顯存,為渲染、數(shù)據(jù)科學、工程模擬和其他 GPU 顯存密集型工作負載提供 600 GB/s 帶寬。
PCI Express 4.0 提供的帶寬比 PCIe Gen 3 多一倍,提高了 CPU內(nèi)存的數(shù)據(jù)傳輸速度,從而可以更快地處理 AI、數(shù)據(jù)科學和 3D 設計等數(shù)據(jù)密集型任務。更快的 PCIe 性能還能加速 GPU 直接顯存訪問 (DMA) 傳輸,這在 GPU 與支持 NVIDIA GPUDirect® for Video 的設備之間提供了更快的視頻數(shù)據(jù)輸入/輸出通信速度,從而帶來強大的直播解決方案。 A10 還向后兼容 PCI Express 3.0,這提供了部署靈活性。
NVIDIA A10 采用單插槽、全高、全長節(jié)能設計,可兼容全球 OEM 供應商生產(chǎn)的各式服務器。 NVIDIA A10 包含通過硬件信任根技術進行安全可靠的引導,確保固件不會被篡改或損壞。
A10 技術規(guī)格和功能 | |
---|---|
FP32 | 31.2 兆次浮點運算 |
TF32 Tensor 核心 | 62.5 兆次浮點運算 | 125 兆次浮點運算* |
BFLOAT16 Tensor 核心 | 125 兆次浮點運算 | 250 兆次浮點運算* |
FP16 Tensor 核心 | 125 兆次浮點運算 | 250 兆次浮點運算* |
INT8 Tensor 核心 | 250 兆次浮點運算 | 500 兆次浮點運算* |
INT4 Tensor 核心 | 500 兆次浮點運算 | 1,000 兆次浮點運算* |
RT 核心 | 72 個 RT 核心 |
編碼/譯碼 | 1 個編碼器 2 個譯碼器 (+AV1 解碼) |
GPU 內(nèi)存 | 24GB GDDR6 |
GPU 內(nèi)存帶寬 | 每秒 600 GB |
互連技術 | 第四代 PCIe 64GB/秒 |
尺寸規(guī)格 | 單插槽、全高全長尺寸 (FHFL) |
最大散熱設計功耗 (TDP) | 150W |
虛擬化 GPU 軟件支持 | NVIDIA 虛擬 PC、NVIDIA 虛擬應用程序、NVIDIA RTX 虛擬化工作站、NVIDIA 虛擬化運算服務器 |