新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 英偉達(dá)計(jì)劃到 2026 年使用光在 AI GPU 之間進(jìn)行通信

英偉達(dá)計(jì)劃到 2026 年使用光在 AI GPU 之間進(jìn)行通信

作者：時(shí)間：2025-08-25 來源：Tom‘s Hardware

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

在 AI GPU 集群之間傳輸通信的極端需求正在推動(dòng)使用光進(jìn)行跨網(wǎng)絡(luò)層的通信。今年早些時(shí)候，英偉達(dá)概述了其下一代機(jī)架級(jí) AI 平臺(tái)將使用硅光子學(xué)互連和共封裝光學(xué)（CPO）來實(shí)現(xiàn)更高的傳輸速率和更低的功耗。在今年的 Hot Chips 會(huì)議上，英偉達(dá)發(fā)布了一些關(guān)于其下一代 Quantum-X 和 Spectrum-X 光子互連解決方案的額外信息，以及它們將在 2026 年到來。

Nvidia 的路線圖可能會(huì)緊密跟隨臺(tái)積電的 COUPE 路線圖，該路線圖分為三個(gè)階段。第一代是為 OSFP 連接器提供的光引擎，提供 1.6 Tb/s 的數(shù)據(jù)傳輸速度，同時(shí)降低功耗。第二代進(jìn)入 CoWoS 封裝，帶有集成光學(xué)，在主板級(jí)別實(shí)現(xiàn) 6.4 Tb/s。第三代旨在處理器封裝內(nèi)實(shí)現(xiàn) 12.8 Tb/s，并旨在進(jìn)一步降低功耗和延遲。

為什么是 CPO？

在大規(guī)模 AI 集群中，數(shù)千個(gè) GPU 必須作為一個(gè)系統(tǒng)運(yùn)行，這給這些處理器之間的互連方式帶來了挑戰(zhàn)：不再是每個(gè)機(jī)架都有自己的 Tier-1（機(jī)架頂部）交換機(jī)，通過短銅纜連接，而是將交換機(jī)移到機(jī)架的末端，以在多個(gè)機(jī)架之間創(chuàng)建一致的、低延遲的織物。這種搬遷大大增加了服務(wù)器與其第一個(gè)交換機(jī)之間的距離，這使得在 800 Gb/s 這樣的速度下銅纜不切實(shí)際，因此幾乎每個(gè)服務(wù)器到交換機(jī)和交換機(jī)到交換機(jī)的鏈路都需要光連接。

Nvidia

（圖片來源：Nvidia）

在這種環(huán)境下使用可插拔光模塊會(huì)引入明顯的限制：在這種設(shè)計(jì)中的數(shù)據(jù)信號(hào)會(huì)離開 ASIC，跨越電路板和連接器，然后才轉(zhuǎn)換為光信號(hào)。這種方法會(huì)產(chǎn)生嚴(yán)重的電信號(hào)損失，在 200 Gb/s 通道上高達(dá)約 22 分貝，這需要復(fù)雜的補(bǔ)償處理，并將每個(gè)端口的功耗增加到 30W（這反過來又需要額外的散熱，并創(chuàng)造了潛在的故障點(diǎn)），隨著 AI 部署規(guī)模的擴(kuò)大，這種情況幾乎讓人難以忍受，根據(jù)英偉達(dá)的說法。

Nvidia

（圖片來源：Nvidia）

CPO 通過將光轉(zhuǎn)換引擎與交換 ASIC 集成在一起，規(guī)避了傳統(tǒng)可插拔光模塊的罰金，因此信號(hào)幾乎立即耦合到光纖上，而不是在長距離電氣走線上傳輸。結(jié)果，電氣損耗減少到 4 分貝，每個(gè)端口的功耗降低到 9W。這種布局消除了許多可能失效的組件，并大大簡化了光互連的實(shí)現(xiàn)。

英偉達(dá)聲稱，通過擺脫傳統(tǒng)可插拔收發(fā)器并將光學(xué)引擎直接集成到交換硅中（感謝臺(tái)積電的 COUPE 平臺(tái)），它在效率、可靠性和可擴(kuò)展性方面實(shí)現(xiàn)了非常顯著的提升。據(jù)英偉達(dá)稱，與可插拔模塊相比，CPOs 的改進(jìn)是巨大的：功率效率提高了 3.5 倍，信號(hào)完整性提高了 64 倍，由于活動(dòng)設(shè)備更少，彈性提升了 10 倍，并且由于服務(wù)和組裝更簡單，部署速度大約提高了 30%。

英偉達(dá)將推出基于 CPO 的光互連平臺(tái)，支持以太網(wǎng)和 InfiniBand 技術(shù)。首先，該公司計(jì)劃在 2026 年初推出 Quantum-X InfiniBand 交換機(jī)。每個(gè)交換機(jī)將提供 115 Tb/s 的吞吐量，支持 144 個(gè)端口，每個(gè)端口運(yùn)行在 800 Gb/s。該系統(tǒng)還集成了一個(gè) ASIC，具有 14.4 TFLOPS 的片上網(wǎng)絡(luò)處理能力，并支持英偉達(dá)的第四代可擴(kuò)展分層聚合縮減協(xié)議（SHARP），以降低集體操作的延遲。這些交換機(jī)將采用液冷散熱。

Nvidia

（圖片來源：Nvidia）

同時(shí)，Nvidia 計(jì)劃在 2026 年下半年將其 Spectrum-X Photonics 平臺(tái)引入以太網(wǎng)，該平臺(tái)將依賴于 Spectrum-6 ASIC，該 ASIC 將支持兩個(gè)設(shè)備：SN6810，提供 102.4 Tb/s 的帶寬，具有 128 個(gè) 800 Gb/s 的端口，以及更大型的 SN6800，可擴(kuò)展到 409.6 Tb/s 和 512 個(gè)相同速率的端口。兩者都使用液冷。

Nvidia

（圖片來源：Nvidia）

Nvidia 設(shè)想其基于 CPO 的交換機(jī)將為規(guī)模更大、更復(fù)雜的生成式 AI 應(yīng)用提供新的人工智能集群。由于使用 CPO，這些集群將消除數(shù)千個(gè)離散組件，提供更快的安裝、更簡單的維護(hù)和每連接更低的功耗。因此，使用 Quantum-X InfiniBand 和 Spectrum-X Photonics 的集群在開機(jī)時(shí)間、首次令牌時(shí)間和長期可靠性等指標(biāo)上有所改進(jìn)。

英偉達(dá)強(qiáng)調(diào)，共封裝光學(xué)器件并非可選的增強(qiáng)功能，而是未來人工智能數(shù)據(jù)中心的結(jié)構(gòu)性要求，這意味著公司將將其光學(xué)互連定位為超越競(jìng)爭(zhēng)對(duì)手（如 AMD）機(jī)架級(jí)人工智能解決方案的關(guān)鍵優(yōu)勢(shì)之一。當(dāng)然，這也是為什么 AMD 收購了 Enosemi。

前方的道路

關(guān)于英偉達(dá)硅光子計(jì)劃的一個(gè)重要注意事項(xiàng)是，其發(fā)展緊密與臺(tái)積電的 COUPE（緊湊型通用光子引擎）平臺(tái)的發(fā)展相一致，該平臺(tái)將在未來幾年內(nèi)不斷發(fā)展，從而也將改進(jìn)英偉達(dá)的 CPO 平臺(tái)。臺(tái)積電的第一代 COUPE 是通過使用公司的 SoIC-X 封裝技術(shù)將一個(gè) 65 納米的電子集成電路（EIC）與一個(gè)光子集成電路（PIC）堆疊在一起而構(gòu)建的。

TSMC 的 COUPE 路線圖分為三個(gè)階段。第一代是一款用于 OSFP 連接器的光引擎，提供 1.6 Tb/s 的數(shù)據(jù)傳輸速度，同時(shí)降低功耗。第二代進(jìn)入 CoWoS 封裝，并采用共封裝光學(xué)技術(shù)，在主板層面實(shí)現(xiàn) 6.4 Tb/s。第三代旨在處理器封裝內(nèi)實(shí)現(xiàn) 12.8 Tb/s，并致力于進(jìn)一步降低功耗和延遲。