NVIDIA DGX 與 NVIDIA HGX 解析兩者的差異

我們經常被問到 NVIDIA DGX 和 NVIDIA HGX 平台的區別,以及它們之間的差異。儘管名稱聽起來相似,但它們實際上是 NVIDIA 銷售 8 顆 GPU 系統,具備 NVLink 連接的不同方式。NVIDIA 的商業模式在 P100 "Pascal" 和 V100 "Volta" 世代之間發生了變化,這是我們看到 HGX 模型真正崛起到 A100 "Ampere" 和 H100 "Hopper" 世代水平的時候。

 

首先,目前的 NVIDIA DGX 和 HGX 產品線都適用於具備 NVLink 連接的 8 顆 GPU 平台。NVIDIA 也有其他主板,如 4 顆 GPU 的 Redstone 和 Restone Next 組件,但主要的 DGX/HGX(Next)平台是使用 SXM 的 8 顆 GPU 平台。

 

NVIDIA A100/A800/H100/H800最新報價,訂購請點我!

 

這是廠商之前裝配的 NVIDIA Tesla P100 8 顆 SXM2 GPU 系統的過程。

熊老爹 - DeepLearning12 初始齒輪加載。資料來源:servethehome.com - 非營利目的
DeepLearning12 初始齒輪加載。資料來源:servethehome.com - 非營利目的

這個過程中,每個製造商都會為 GPU 創建自己的底板。然後 NVIDIA 將以 SXM 外觀規格的 GPU 銷售,而服務器製造商將 GPU 安裝到服務器中。由於扭矩要求高,安裝 GPU 變得非常困難。

熊老爹 - DeepLearning12 半散热器已安装。資料來源:servethehome.com - 非營利目的
DeepLearning12 半散热器已安装。資料來源:servethehome.com - 非營利目的

隨著 NVIDIA Tesla V100 轉向 Volta 世代,NVIDIA 添加了更多 NVLink。

熊老爹 - NVIDIA Tesla P100 V V100 。資料來源:servethehome.com - 非營利目的
NVIDIA Tesla P100 V V100 架構 資料來源:servethehome.com - 非營利目的

作為這過程的一部分,NVIDIA 對整個 8 顆 SXM GPU 平台進行了標準化,包括用於主機連接(以及後來的 Infiniband 連接)的 Broadcom PCIe 交換機。

熊老爹 - 微軟 HGX 1架構 。資料來源:servethehome.com - 非營利目的
微軟 HGX 1架構 資料來源:servethehome.com - 非營利目的

他們還添加了 NVSwitch。 NVSwitch 是 NVLink 結構的交換機,允許 GPU 之間實現更高性能的通信。最初,NVIDIA 的想法是可以在這些標準化底板上安裝兩個 NVSwitch 並將它們與更大的交換結構結合在一起。不過,現在 NVIDIA GPU 到 GPU 的通信是在 NVIDIA NVSwitch 芯片上實現的,而 PCIe 具有標準化的結構。這就是 HGX 誕生的原因。

熊老爹 - NVIDIA HGX 2 雙 GPU 底板佈局 。資料來源:servethehome.com - 非營利目的
NVIDIA HGX 2 雙 GPU 底板佈局 資料來源:servethehome.com - 非營利目的

以下是 2020 年的服務器評測中顯示的 8 顆 NVIDIA V100。這也是 NVIDIA SXM 散熱器的最佳配置。除了安裝 SXM3 插槽的 NVSwitch 主板外,它還包括 GPU 和冷卻器。

熊老爹 - Inspur NF5488M5 HGX 2 8x NVIDIA Tesla V100 SXM3 Volta 左下帶 NVIDIA Light。資料來源:servethehome.com - 非營利目的
Inspur NF5488M5 HGX 2 8x NVIDIA Tesla V100 SXM3 Volta 左下帶 NVIDIA Light。資料來源:servethehome.com - 非營利目的

現在,服務器供應商可以直接從 NVIDIA 購買 8 顆 GPU 組件,而無需擔心 GPU 被大量應用導熱膏。這也意味著 NVIDIA HGX 誕生了。服務器供應商可以根據需要在其周圍進行任何金屬配置。他們可以自訂 RAM、CPU、存儲等,只要 GPU 部分遵循 NVIDIA HGX 主板的固定結構。

NVIDIA A100/A800/H100/H800最新報價,訂購請點我!

熊老爹 - Inspur NF5488M5 Nvidia Smi架構t。資料來源:servethehome.com - 非營利目的
Inspur NF5488M5 Nvidia Smi架構t。資料來源:servethehome.com - 非營利目的

在下一代中,NVSwitch 散熱器變得更大,GPU 失去了其優雅的塗裝,但我們獲得了 NVIDIA A100。

熊老爹 - Inspur NF5488A5 NVIDIA HGX A100 8 GPU 組件 8x A100 和 NVSwitch 散熱器第 2 面。資料來源:servethehome.com - 非營利目的
Inspur NF5488A5 NVIDIA HGX A100 8 GPU 組件 8x A100 和 NVSwitch 散熱器第 2 面資料來源:servethehome.com - 非營利目的

該主板的代號是“Delta”。

熊老爹 - Inspur NF5488A5 NVIDIA HGX A100 8 GPU 組件 Delta 標記。資料來源:servethehome.com - 非營利目的
Inspur NF5488A5 NVIDIA HGX A100 8 GPU 組件 Delta 標記資料來源:servethehome.com - 非營利目的

正式發布後,這塊主板被稱為 NVIDIA HGX。

熊老爹 - HGX A100 主板中的 NVIDIA Tesla A100。資料來源:servethehome.com - 非營利目的
HGX A100 主板中的 NVIDIA Tesla A100資料來源:servethehome.com - 非營利目的

此時,NVIDIA、其 OEM 合作夥伴和客戶認識到,如果提供更多電源,同樣數量的 GPU 將能夠處理更多工作。但也存在一個問題,更多的電源意味著更多的熱量。這就是我們開始看到液冷 NVIDIA HGX A100“Delta”平台的原因。
這是一個挑戰,因為最初推出 HGX A100 組件時附帶了“NVIDIA”空氣冷卻器。

熊老爹 - Supermicro 液體冷卻 Supermicro AS 4124GO NART 空氣和液體冷卻前部。資料來源:servethehome.com - 非營利目的
Supermicro 液體冷卻 Supermicro AS 4124GO NART 空氣和液體冷卻前部資料來源:servethehome.com - 非營利目的

對於最新一代的“Hopper”,散熱器必須變得更高,以適應更高功率的 GPU 以及更高性能的 NVSwitch 架構。這就是 NVIDIA HGX H100 平台“Delta Next”的原因。

NVIDIA A100/A800/H100/H800最新報價,訂購請點我!

熊老爹 - NVIDIA DGX H100。資料來源:servethehome.com - 非營利目的
NVIDIA DGX H100資料來源:servethehome.com - 非營利目的

NVIDIA 還為 HGX H100 提供了液冷選項。

熊老爹 - HGX H100 中的 NVIDIA GTC 2022 H100。資料來源:servethehome.com - 非營利目的
HGX H100 中的 NVIDIA GTC 2022 H100資料來源:servethehome.com - 非營利目的

總之,我們已經了解了多個 NVIDIA HGX 平台。同時,值得注意的是 NVIDIA DGX 是什麼。NVIDIA 自 P100 時代以來一直有 DGX 版本,但 NVIDIA DGX V100 和 DGX A100 使用了 HGX 主板,然後建立在 DGX 之上。NVIDIA 一直在不同世代的 DGX 上合作的 OEM 之間輪換,但它們主要是固定配置的。

熊老爹 - NVIDIA DGX A100 概述。資料來源:servethehome.com - 非營利目的
NVIDIA DGX A100 概述資料來源:servethehome.com - 非營利目的

有了 NVIDIA DGX H100,NVIDIA 更進一步。它引入了新的 NVIDIA Cedar 1.6Tbps Infiniband 模組,每個模組帶有四個 NVIDIA ConnectX-7 控制器。通過收購 Mellanox,NVIDIA 開始轉向 Infiniband,這是一個很好的例子。

熊老爹 - 帶有天橋電纜的 NVIDIA DGX H100 Cedar。資料來源:servethehome.com - 非營利目的
帶有天橋電纜的 NVIDIA DGX H100 Cedar資料來源:servethehome.com - 非營利目的

儘管 NVIDIA DGX H100 被視為 GPU 設計的黃金標準,但一些客戶想要更多。這就是為什麼 NVIDIA 提供了可以與專業服務捆綁在一起的平台。然後,它擁有 HGX H100 平台,以便 OEM 可以進行自定義配置。我們已經看到了許多不同的設計,包括更高密度的解決方案、基於 AMD 或 ARM 的 CPU 解決方案,用於更多核心、不同的 Xeon SKU 級別、不同的 RAM 配置、不同的存儲配置,甚至不同的網卡。或許最簡單的方式是將 NVIDIA DGX 系列視為 NVIDIA 的標準。它仍然圍繞著 NVIDIA HGX 8 顆 GPU 和 NVSwitch 主板構建,但它是 NVIDIA 特定的設計。DGX 的趨勢是提供更高級別的網絡集成,以適用於 DGX SuperPOD 等集群式 DGX 系統。

NVIDIA A100/A800/H100/H800最新報價,訂購請點我!

 

總結

通過 NVIDIA HGX 主板,該公司消除了連接 8 顆 GPU 到高速 NVLink 和 PCIe 交換結構所需的大量工作。然後,它允許其 OEM 合作夥伴建立自定義配置,同時 NVIDIA 可以以更高的利潤定價 HGX 主板。NVIDIA DGX 的目標不同於其許多 OEM,因為 DGX 用於支持追求高價值的 AI 集群以及圍繞這些集群的生態系統。

最簡單的方式解釋如下:

  • NVIDIA HGX 是包含 8x GPU 和 NVSwitch 基板的產品 
  • NVIDIA DGX 是 NVIDIA 的系統品牌 

NVIDIA HGX A100 和 HGX H100 自從被披露供 OpenAI 和 ChatGPT 使用以來一直非常熱門。如果您希望瞭解更多關於不同 HGX A100 的資訊,請加入官方Line@帳號主動詢問。

 

長期供應NVIDIA顯卡,現金開票皆可

支持贊助 / DONATE

如果您喜歡老爹的文章,或是覺得它們對您有幫助,歡迎給予一些支持鼓勵讓老爹持續產出,感謝。

主鏈BTCETHTRON
QR code

 

延伸閱讀