新聞中心

EEPW首頁 > 元件/連接器 > 設(shè)計應用 > 什么類型連接器用于連接AI數(shù)據(jù)中心的加速卡？

什么類型連接器用于連接AI數(shù)據(jù)中心的加速卡？

作者：時間：2025-05-27 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

許多數(shù)據(jù)中心都配備了高性能圖形處理單元（GPU）和張量處理單元（TPU）機架。這些加速器處理海量人工智能（AI）和機器學習（ML）數(shù)據(jù)集，并行執(zhí)行復雜作并高速交換數(shù)據(jù)。本文探討了將 AI 加速器集群鏈接在一起的互連和連接器。

本文引用地址：http://www.bjwjmy.cn/article/202505/470863.htm

使用加速器和集群架構(gòu)擴展 AI 計算

GPU、TPU 等 AI 加速器，以及在某些情況下的現(xiàn)場可編程門陣列（FPGA），使用并行處理來運行大型語言模型（LLM），以大規(guī)模處理復雜的計算。這些設(shè)備將復雜的工作負載劃分為更小的任務，并同時執(zhí)行數(shù)十億次作。大多數(shù) AI 模型都建立在神經(jīng)網(wǎng)絡之上，神經(jīng)網(wǎng)絡受益于這種大規(guī)模并行架構(gòu)，可以加速訓練和推理。

如圖 1 所示，AI 加速器通常部署在緊密耦合的集群中，以有效地共享數(shù)據(jù)、同步計算并在數(shù)千個處理單元之間擴展訓練。

圖 1.Google 數(shù)據(jù)中心包含用于大規(guī)模機器學習工作負載的緊密耦合 AI 加速器機架。此處顯示的是 TPU v4 基礎(chǔ)架構(gòu)的圖示。（圖片：谷歌）)

此配置有助于滿足 AI 工作負載的低延遲、高性能需求。它還可以提高吞吐量，最大限度地減少瓶頸，并支持對復雜的計算密集型任務進行實時推理。

高級互連架構(gòu)和協(xié)議

數(shù)據(jù)中心使用專門的互連技術(shù)來鏈接 AI 加速器集群，以實現(xiàn)大規(guī)模高效運行，從而在節(jié)點內(nèi)部和節(jié)點之間實現(xiàn)高速通信。這些互連支持海量數(shù)據(jù)交換、同步處理和復雜工作負載的并行執(zhí)行。常見的 AI 加速器互連包括：

NVLink — NVIDIA 專有的高帶寬互連有助于實現(xiàn) GPU 到 GPU 的直接通信，具有低延遲和高能效。它支持使用專用連接器和 NVSwitch 技術(shù)在加速器之間快速同步和數(shù)據(jù)共享。NVLink 通過啟用內(nèi)存池在多 GPU 環(huán)境中高效擴展，允許 GPU 共享統(tǒng)一的地址空間并作為單個高性能計算單元運行。如圖 2 所示， NVLink 4.0 在 H100 GPU 上提供高達 900 GB / s 的雙向帶寬。

圖 2.Nvidia 的 H100 GPU 使用 NVLink 4.0 實現(xiàn)高達 900 GB/s 的雙向帶寬，可在多加速器集群中實現(xiàn)高速 GPU 到 GPU 通信。（圖片：英偉達)

UALink — Ultra Accelerator Link 是一種開放式互連標準，旨在在單個計算 Pod 中擴展多達 1024 個 AI 加速器的集群。1.0 規(guī)范支持每通道 200G，并實現(xiàn)具有以太網(wǎng)級帶寬和 PCIe 級延遲的密集內(nèi)存語義連接。UALink 支持跨節(jié)點的讀、寫和原子事務，并為可擴展的多節(jié)點系統(tǒng)定義了一個通用協(xié)議棧。UALink 被定位為在加速器 Pod 內(nèi)擴展的高性能替代方案，其目標是比典型的以太網(wǎng)更低的延遲來實現(xiàn)節(jié)點間通信。

Compute Express Link （CXL）可在 CPU、GPU 和其他加速器之間實現(xiàn)連貫的低延遲通信。它通過支持緩存一致性、內(nèi)存池化、資源共享和內(nèi)存分解來提高異構(gòu)系統(tǒng)中的資源利用率。CXL 1.1 和 2.0 在 PCIe 5.0 上運行，而 CXL 3.0 及更高版本利用 PCIe 6.0 或更高版本，實現(xiàn)高達 64 GT/s 的傳輸速度和 128 GB/s 的雙向帶寬。

高速以太網(wǎng)有助于在分布在服務器和節(jié)點上的加速器集群之間移動數(shù)據(jù)。400 GbE 和 800 GbE 等技術(shù)支持使用 NIC 和光纜或銅纜進行高吞吐量通信。雖然以太網(wǎng)比 NVLink 或 UALink 引入更高的延遲，但它在機架和數(shù)據(jù)中心級別提供了廣泛的互作性和靈活的部署。

光互連和外形尺寸;光纖鏈路可遠距離高速傳輸數(shù)據(jù)，跨機架和節(jié)點鏈接加速器集群。與銅纜連接相比，它們消耗的功率更少，并克服了信號完整性挑戰(zhàn)，如衰減和 EMI。這些互連通常依賴于標準化的外形尺寸，例如四通道小型可插拔（QSFP）、四通道小型可插拔雙密度（QSFP-DD）和八通道小型可插拔（OSFP），它們用作電氣和光纖以太網(wǎng)連接的物理接口。這些相同的外形尺寸也廣泛用于數(shù)據(jù)中心中的其他高速光互連，例如 InfiniBand 和專有光鏈路，進一步擴展了它們在可擴展計算基礎(chǔ)設(shè)施中的作用。

AI 加速器的物理連接器和接口

高性能互連依賴于各種物理層組件，包括連接器、插槽和布線接口。這些組件有助于保持信號完整性、機械兼容性和可擴展的系統(tǒng)設(shè)計。它們跨電路板、設(shè)備和系統(tǒng)傳輸電信號和光信號，促進集群 AI 基礎(chǔ)設(shè)施的可靠運行。

盡管互連定義了通信協(xié)議和信號標準，但它們依賴于這些物理接口才能大規(guī)模有效地運行。常見的連接器和接口技術(shù)如下所述。

PCIe 接口將加速器卡連接到主機系統(tǒng)和其他組件。盡管新一代（如 PCIe 5.0 和 6.0）提供可擴展的帶寬，但它們可能會在緊密耦合的多加速器環(huán)境中成為瓶頸。重定時器通常用于在較長的電路板走線上保持信號完整性。

夾層連接器用于 Open Compute Project 的 Open Accelerator Infrastructure （OAI）。它們支持高密度模塊到模塊連接，減少信號損耗，管理阻抗，并簡化模塊化加速器設(shè)計中的機械集成。

有源電纜（AEC）將數(shù)字信號處理器集成到銅纜中，以提高更遠距離的信號強度。這使得電氣鏈路能夠在無源電纜無法觸及的地方保持數(shù)據(jù)完整性。

高速板對板連接器使用 PAM4 調(diào)制，以高達 224 Gbps 的數(shù)據(jù)速率實現(xiàn)直接模塊通信。它們支持 AI 平臺和緊密集成的加速器集群內(nèi)的密集、低延遲通信。

光纖連接器 — QSFP、QSFP-DD 和 OSFP 外形規(guī)格是光纖和短距離電氣以太網(wǎng)連接的物理接口。這些收發(fā)器格式廣泛部署在 NIC、交換機端口和光模塊上，并支持 PAM4 調(diào)制，以保持各種部署場景中的信號性能。

液冷連接器

如圖 3 所示，越來越多的高性能 AI 加速器機架依賴于液體冷卻。這些系統(tǒng)中使用的許多連接器必須滿足嚴格的機械和熱要求，以確保安全、可靠的運行。

圖 3.液冷 GPU 服務器，具有集成的快速斷開接頭和歧管連接，適用于高密度 AI 訓練工作負載。這些連接器經(jīng)過精心設(shè)計，可在 NVIDIA HGX H100 平臺等系統(tǒng)中支持安全、高吞吐量的冷卻。（圖片：Supermicro)

這些連接器通?？沙惺芨哌_ 50°C （122°F）的溫度，支持高達 13 升/分鐘（LPM）的冷卻劑流速，并保持約 0.25 磅/平方英寸（psi）的低壓降。它們使用水基和介電流體提供無泄漏作，防止腐蝕，并可輕松與機架內(nèi)歧管集成。

大多數(shù)液冷連接器都包含快速斷開功能，可實現(xiàn)無滴漏維護。大內(nèi)徑（通常約為 5/8 英寸）支持跨 AI 機架的高流速。有些提供將高速數(shù)據(jù)傳輸與液體冷卻通道相結(jié)合的混合設(shè)計。其他產(chǎn)品支持與 3 英寸見方的不銹鋼管兼容，或采用堅固的結(jié)構(gòu)，以承受溫度波動、壓力變化和振動。

總結(jié)

AI 數(shù)據(jù)中心依靠各種互連和物理連接器來鏈接加速卡，實現(xiàn)高速數(shù)據(jù)交換，并促進大規(guī)模并行處理。這些組件對于在緊密耦合的集群中保持性能、信號完整性和機械可靠性至關(guān)重要。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>