熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

EEPW首頁(yè) > 設(shè)計(jì)應(yīng)用 > AI網(wǎng)絡(luò)架構(gòu)或?qū)⑦M(jìn)入“無(wú)交換機(jī)”時(shí)代

AI網(wǎng)絡(luò)架構(gòu)或?qū)⑦M(jìn)入“無(wú)交換機(jī)”時(shí)代

作者: 時(shí)間:2025-06-12 來(lái)源:電子產(chǎn)品世界 收藏

在當(dāng)今數(shù)字化時(shí)代,人工智能()技術(shù)的飛速發(fā)展正在重塑各個(gè)領(lǐng)域的基礎(chǔ)設(shè)施,其中包括支撐運(yùn)行的。傳統(tǒng)的數(shù)據(jù)中心為核心,構(gòu)建了層級(jí)化的數(shù)據(jù)傳輸路徑。然而,隨著大模型訓(xùn)練規(guī)模的爆炸性增長(zhǎng),這種傳統(tǒng)正面臨前所未有的挑戰(zhàn)。

本文引用地址:http://www.bjwjmy.cn/article/202506/471301.htm

大模型訓(xùn)練帶來(lái)了超密集的GPU/GPU通信需求。以目前主流的大語(yǔ)言模型為例,訓(xùn)練過(guò)程中需要在數(shù)千甚至上萬(wàn)張GPU之間頻繁交換海量數(shù)據(jù)。這些GPU之間的通信不再是傳統(tǒng)意義上的“服務(wù)器間通信”,而更像是“芯片間通信”。在這種情況下,數(shù)據(jù)中心已不再是簡(jiǎn)單的“服務(wù)器的集群”,而是演變?yōu)椤靶酒募骸薄?/p>

想象一下,如果我們把傳統(tǒng)數(shù)據(jù)中心比作一個(gè)城市交通系統(tǒng),那么服務(wù)器就像是分布在城市各處的辦公樓,而則是連接這些辦公樓的道路。但在AI時(shí)代,這個(gè)比喻已經(jīng)不再貼切?,F(xiàn)在的AI數(shù)據(jù)中心更像是一個(gè)超大型工廠,每個(gè)GPU就像工廠中的一個(gè)工作站,它們需要高頻率、低延遲地交換半成品,任何傳輸延遲都會(huì)顯著影響整體生產(chǎn)效率。

在這種背景下,一個(gè)核心問(wèn)題浮出水面:如果芯片間可以直接連接,還需要存在嗎?這就像是在問(wèn):如果工廠中的每個(gè)工作站都可以通過(guò)傳送帶直接相連,我們還需要中間的物流中轉(zhuǎn)站嗎?這個(gè)問(wèn)題引發(fā)了對(duì)“無(wú)交換機(jī)網(wǎng)絡(luò)”可能性的深入思考。

640.jpeg

什么是“無(wú)交換機(jī)網(wǎng)絡(luò)”設(shè)想?

所謂“無(wú)交換機(jī)網(wǎng)絡(luò)”并非完全沒(méi)有交換功能,而是指不再依賴傳統(tǒng)的ToR(Top of Rack)/Leaf/Spine層級(jí)交換機(jī)拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)架構(gòu)。在這種設(shè)想中,芯片/節(jié)點(diǎn)之間通過(guò)直接互聯(lián)、片上網(wǎng)絡(luò)或光互聯(lián)等技術(shù)實(shí)現(xiàn)數(shù)據(jù)交換,而不必經(jīng)過(guò)多層交換機(jī)的轉(zhuǎn)發(fā)。

如果繼續(xù)使用工廠的比喻,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)就像是工廠中的物料需要先送到車間集散點(diǎn),再送到樓層集散中心,最后通過(guò)中央物流中心才能到達(dá)另一個(gè)車間。而“無(wú)交換機(jī)網(wǎng)絡(luò)”則是在工作站之間建立直接的傳送帶,物料可以直接從一個(gè)工作站傳送到另一個(gè)工作站,大大減少了中轉(zhuǎn)環(huán)節(jié)和時(shí)間。

“無(wú)交換機(jī)網(wǎng)絡(luò)”的發(fā)展主要沿著兩條路徑演進(jìn):

路徑一:從“交換機(jī)集中化”向“連接分布式”演進(jìn)

這條路徑的代表是NVIDIA的NVLink/NVSwitch技術(shù)。在傳統(tǒng)架構(gòu)中,數(shù)據(jù)交換集中在網(wǎng)絡(luò)交換機(jī)上進(jìn)行。而在NVLink/NVSwitch架構(gòu)中,交換功能被分散到各個(gè)計(jì)算節(jié)點(diǎn)或?qū)S玫慕粨Q芯片上,形成一種分布式的交換網(wǎng)絡(luò)。這就像是取消了工廠中的中央物流中心,而是在每個(gè)車間或工作站附近設(shè)置小型的物料中轉(zhuǎn)站,使物料傳輸路徑更短、更直接。

路徑二:從“網(wǎng)絡(luò)設(shè)備”向”連接芯片”過(guò)渡

這條路徑的代表是晶圓級(jí)網(wǎng)絡(luò)和Chiplet互聯(lián)技術(shù)。它將網(wǎng)絡(luò)功能進(jìn)一步下沉到芯片級(jí)別,甚至集成到計(jì)算芯片內(nèi)部。這就像是將物流系統(tǒng)直接集成到工作站內(nèi)部,工作站不僅具備加工功能,還具備物料傳輸和調(diào)度功能。在這種架構(gòu)下,傳統(tǒng)意義上的“網(wǎng)絡(luò)”概念被徹底重構(gòu),變成了芯片內(nèi)部或芯片間的直接互聯(lián)。

這兩條路徑雖然出發(fā)點(diǎn)不同,但都指向同一個(gè)目標(biāo):減少數(shù)據(jù)傳輸?shù)闹虚g環(huán)節(jié),降低延遲,提高帶寬,更好地滿足AI計(jì)算對(duì)網(wǎng)絡(luò)的極高要求。

驅(qū)動(dòng)“無(wú)交換機(jī)”趨勢(shì)的核心力量

1. GPU計(jì)算集群的密度爆炸

隨著AI模型規(guī)模的不斷擴(kuò)大,GPU計(jì)算集群的規(guī)模和密度也呈爆炸式增長(zhǎng)。當(dāng)前主流的大語(yǔ)言模型訓(xùn)練已經(jīng)從早期的數(shù)百卡規(guī)模擴(kuò)展到萬(wàn)卡級(jí)AI訓(xùn)練集群。在這種超大規(guī)模集群中,網(wǎng)絡(luò)瓶頸已經(jīng)成為制約性能提升的主要矛盾。

傳統(tǒng)的多層交換網(wǎng)絡(luò)架構(gòu)在面對(duì)如此密集的計(jì)算節(jié)點(diǎn)時(shí),不可避免地引入了額外的延遲、功耗和路徑不可預(yù)測(cè)性。以一個(gè)典型的三層Clos網(wǎng)絡(luò)為例,數(shù)據(jù)包從一個(gè)GPU傳輸?shù)搅硪粋€(gè)GPU可能需要經(jīng)過(guò)6-7跳的交換機(jī)轉(zhuǎn)發(fā)。每一跳都會(huì)增加約1-5微秒的延遲,累積起來(lái)就會(huì)顯著影響訓(xùn)練性能。

在我們的工廠比喻中,這就像是隨著工廠規(guī)模的擴(kuò)大,物流中轉(zhuǎn)站越來(lái)越多,物料在各個(gè)中轉(zhuǎn)站之間的傳輸時(shí)間甚至超過(guò)了加工時(shí)間本身。工人們大部分時(shí)間都在等待物料到達(dá),而不是進(jìn)行實(shí)際生產(chǎn)。這顯然是極其低效的。

此外,多層交換架構(gòu)的功耗問(wèn)題也不容忽視。據(jù)估計(jì),在大型AI訓(xùn)練集群中,網(wǎng)絡(luò)設(shè)備的功耗可能占到總功耗的15-20%。隨著集群規(guī)模的擴(kuò)大,這一比例還會(huì)進(jìn)一步提高。在能源成本和碳排放日益受到關(guān)注的今天,降低網(wǎng)絡(luò)功耗已成為設(shè)計(jì)高效AI基礎(chǔ)設(shè)施的重要考量因素。

2. 封裝技術(shù)演進(jìn):Chiplet + Co-Packaged Optics

芯片封裝技術(shù)的革新是推動(dòng)“無(wú)交換機(jī)”趨勢(shì)的另一個(gè)重要力量。傳統(tǒng)的單芯片設(shè)計(jì)面臨著摩爾定律放緩的挑戰(zhàn),而Chiplet技術(shù)通過(guò)將多個(gè)小芯片集成在同一封裝內(nèi),為高性能計(jì)算提供了新的可能性。

在Chiplet架構(gòu)中,同封異構(gòu)互聯(lián)正在逐步替代傳統(tǒng)的板間通信。數(shù)據(jù)不再需要“上機(jī)架”,而是直接“走芯片”,大大減少了通信延遲和功耗。例如,AMD的EPYC處理器采用Chiplet設(shè)計(jì),將多個(gè)計(jì)算芯片通過(guò)高速互聯(lián)總線連接在一起,形成一個(gè)統(tǒng)一的處理單元。這種設(shè)計(jì)理念也正在被應(yīng)用到AI芯片領(lǐng)域。

與Chiplet技術(shù)相輔相成的是Co-Packaged Optics(CPO)技術(shù)。CPO將光學(xué)收發(fā)器與交換芯片或處理器集成在同一封裝內(nèi),實(shí)現(xiàn)電信號(hào)與光信號(hào)的高效轉(zhuǎn)換。這種技術(shù)可以顯著提高數(shù)據(jù)傳輸距離和帶寬,同時(shí)降低功耗。目前,英特爾、博通等公司都在積極推進(jìn)CPO技術(shù)的商用化。

回到我們的工廠比喻,這就像是將原本分散在不同車間的工作站整合到同一個(gè)超大型工作平臺(tái)上,工作站之間通過(guò)內(nèi)部傳送帶直接連接,無(wú)需經(jīng)過(guò)外部物流系統(tǒng)。同時(shí),為了連接較遠(yuǎn)距離的工作平臺(tái),我們使用高速傳送帶代替?zhèn)鹘y(tǒng)的物流車輛,實(shí)現(xiàn)更快速、更高效的物料傳輸。

3. 網(wǎng)絡(luò)智能化趨勢(shì)

網(wǎng)絡(luò)智能化是推動(dòng)“無(wú)交換機(jī)”趨勢(shì)的第三個(gè)核心力量。傳統(tǒng)網(wǎng)絡(luò)架構(gòu)中,路由和轉(zhuǎn)發(fā)決策主要由交換機(jī)完成。而隨著DPU(數(shù)據(jù)處理單元)和SmartNIC(智能網(wǎng)卡)的興起,這些功能正在向網(wǎng)絡(luò)邊緣遷移。

DPU和SmartNIC提供了“端到端路徑調(diào)度能力”,使得交換轉(zhuǎn)發(fā)功能可以下沉到計(jì)算節(jié)點(diǎn)本身。例如,NVIDIA的BlueField DPU和英特爾的IPU都具備強(qiáng)大的網(wǎng)絡(luò)處理能力,可以卸載主機(jī)CPU的網(wǎng)絡(luò)處理負(fù)擔(dān),同時(shí)提供更靈活的網(wǎng)絡(luò)功能。

在這種趨勢(shì)下,AI網(wǎng)絡(luò)不再依賴集中控制,而是向“邊緣即網(wǎng)絡(luò)”的方向演進(jìn)。每個(gè)計(jì)算節(jié)點(diǎn)都成為網(wǎng)絡(luò)的一部分,具備自主的路由和轉(zhuǎn)發(fā)能力。這種分布式的網(wǎng)絡(luò)架構(gòu)更適合AI工作負(fù)載的特點(diǎn),可以根據(jù)實(shí)際通信需求動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)路徑,提高網(wǎng)絡(luò)利用率。

這就相當(dāng)于每個(gè)工作站都配備了智能調(diào)度系統(tǒng),可以根據(jù)生產(chǎn)需求自主決定物料的傳輸路徑,而不必依賴中央調(diào)度中心。工作站之間可以直接協(xié)商,選擇最優(yōu)的物料傳輸方案,大大提高了生產(chǎn)效率和靈活性。

這三股力量——GPU計(jì)算集群的密度爆炸、封裝技術(shù)的演進(jìn)和網(wǎng)絡(luò)智能化趨勢(shì)——共同推動(dòng)著AI網(wǎng)絡(luò)架構(gòu)向“無(wú)交換機(jī)”方向演進(jìn)。它們從不同角度解決了傳統(tǒng)網(wǎng)絡(luò)架構(gòu)面臨的挑戰(zhàn),為AI計(jì)算提供了更高效、更靈活的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

已有探索:無(wú)交換/弱交換架構(gòu)實(shí)例

1. NVIDIA NVLink / NVSwitch 架構(gòu)

NVIDIA的NVLink和NVSwitch技術(shù)是當(dāng)前最成熟的無(wú)交換/弱交換架構(gòu)實(shí)例之一。NVLink是NVIDIA開發(fā)的高速互連技術(shù),最初用于GPU與GPU之間的直接通信,后來(lái)擴(kuò)展到GPU與CPU、GPU與存儲(chǔ)設(shè)備之間的通信。

在最新的H100/H200 GPU架構(gòu)中,第四代NVLink提供了高達(dá)900GB/s的雙向帶寬,遠(yuǎn)超傳統(tǒng)PCIe接口的帶寬。這使得GPU之間可以高效地共享數(shù)據(jù),而無(wú)需通過(guò)主機(jī)內(nèi)存或外部網(wǎng)絡(luò)進(jìn)行中轉(zhuǎn)。

NVSwitch則是基于NVLink技術(shù)的專用交換芯片,可以將多個(gè)GPU連接成一個(gè)全連接網(wǎng)絡(luò)。在NVIDIA DGX系統(tǒng)中,多個(gè)NVSwitch芯片協(xié)同工作,構(gòu)建了一個(gè)“芯片網(wǎng)絡(luò)”,使得系統(tǒng)內(nèi)的所有GPU都可以以接近本地內(nèi)存訪問(wèn)的速度相互通信。

以DGX H100為例,一個(gè)系統(tǒng)內(nèi)的8個(gè)H100 GPU通過(guò)NVSwitch全連接,形成一個(gè)統(tǒng)一的計(jì)算資源池。多個(gè)DGX系統(tǒng)之間則通過(guò)NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)連接,構(gòu)成更大規(guī)模的集群。在這種架構(gòu)中,系統(tǒng)內(nèi)部的GPU通信幾乎完全繞過(guò)了傳統(tǒng)網(wǎng)絡(luò)路徑,大大降低了通信延遲和帶寬限制。

在我們的工廠比喻中,NVLink/NVSwitch架構(gòu)就像是在工廠內(nèi)部建立了一套高速傳送帶系統(tǒng),將相關(guān)工作站直接連接起來(lái),形成一個(gè)緊密協(xié)作的工作單元。這些工作單元內(nèi)部的物料傳輸速度極快,幾乎沒(méi)有延遲,大大提高了生產(chǎn)效率。

2. Cerebras Wafer-Scale Engine

Cerebras的Wafer-Scale Engine(WSE)代表了另一種極端的無(wú)交換架構(gòu)思路——將整個(gè)神經(jīng)網(wǎng)絡(luò)處理器集成在一個(gè)晶圓上,從根本上消除了跨芯片通信的需求。

傳統(tǒng)的AI芯片,如GPU或TPU,都是將一個(gè)大型晶圓切割成多個(gè)獨(dú)立芯片,然后通過(guò)封裝和外部互連技術(shù)連接起來(lái)。而Cerebras的WSE則保留了整個(gè)晶圓的完整性,將其作為一個(gè)超大型處理器使用。最新的WSE-2包含2.6萬(wàn)億個(gè)晶體管和85萬(wàn)個(gè)AI優(yōu)化核心,所有核心都在同一片硅上,通過(guò)片內(nèi)互連網(wǎng)絡(luò)相連。

這種設(shè)計(jì)完全消除了傳統(tǒng)AI系統(tǒng)中的跨芯片通信瓶頸,構(gòu)建了一個(gè)“片內(nèi)AI網(wǎng)絡(luò)”,具有幾乎無(wú)延遲、無(wú)Hop數(shù)的特點(diǎn)。在WSE上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),所有計(jì)算和數(shù)據(jù)傳輸都在同一片硅上完成,無(wú)需經(jīng)過(guò)任何外部網(wǎng)絡(luò)設(shè)備。

Cerebras WSE就像是將整個(gè)生產(chǎn)線集成在一個(gè)超大型工作平臺(tái)上,所有工序都在這個(gè)平臺(tái)上完成,無(wú)需任何外部物流。這種設(shè)計(jì)極大地簡(jiǎn)化了生產(chǎn)流程,提高了效率,但也面臨著規(guī)模擴(kuò)展的挑戰(zhàn)——當(dāng)需要更大的生產(chǎn)能力時(shí),不能簡(jiǎn)單地增加更多工作平臺(tái),而需要設(shè)計(jì)更大的單一平臺(tái)。

但晶圓級(jí)設(shè)計(jì)的良率和成本挑戰(zhàn)較高,可能影響實(shí)際大規(guī)模部署。

3. Microsoft Optical Mesh

Optical Mesh是微軟探索的一種基于光互聯(lián)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)。在這種架構(gòu)中,計(jì)算節(jié)點(diǎn)通過(guò)光纖直接連接,形成一個(gè)網(wǎng)狀網(wǎng)絡(luò),減少了傳統(tǒng)交換機(jī)的層級(jí)。結(jié)合端點(diǎn)智能調(diào)度技術(shù),這種架構(gòu)可以根據(jù)實(shí)際通信需求動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)拓?fù)洌岣呔W(wǎng)絡(luò)利用率和靈活性。

微軟的這些探索表明,光互聯(lián)技術(shù)結(jié)合端點(diǎn)調(diào)度可能是重構(gòu)AI數(shù)據(jù)中心通信架構(gòu)的重要方向。光通信的高帶寬、低延遲和低功耗特性,使其成為支撐下一代AI基礎(chǔ)設(shè)施的理想選擇。

這好比是用光束代替?zhèn)鹘y(tǒng)的傳送帶連接各個(gè)工作站,光束可以根據(jù)需要?jiǎng)討B(tài)調(diào)整方向和強(qiáng)度,實(shí)現(xiàn)更靈活、更高效的物料傳輸。

4. AWS Nitro架構(gòu)中的極簡(jiǎn)網(wǎng)絡(luò)分層

亞馬遜AWS的Nitro架構(gòu)代表了另一種弱交換網(wǎng)絡(luò)思路——通過(guò)功能卸載和軟件定義,實(shí)現(xiàn)“極少交換機(jī)+ 軟件網(wǎng)絡(luò)路徑控制”的網(wǎng)絡(luò)架構(gòu)。

在Nitro架構(gòu)中,傳統(tǒng)服務(wù)器的網(wǎng)絡(luò)、存儲(chǔ)和安全功能被卸載到專用的Nitro卡上,這些卡類似于DPU,具備強(qiáng)大的網(wǎng)絡(luò)處理能力。Nitro卡接管了虛擬機(jī)與外部網(wǎng)絡(luò)的通信,實(shí)現(xiàn)了網(wǎng)絡(luò)功能的虛擬化和軟件定義。

這種架構(gòu)大大簡(jiǎn)化了物理網(wǎng)絡(luò)的復(fù)雜性,減少了交換機(jī)層級(jí),同時(shí)通過(guò)軟件定義實(shí)現(xiàn)了更靈活的網(wǎng)絡(luò)控制。在Nitro架構(gòu)支持的EC2實(shí)例中,虛擬機(jī)之間的通信可以通過(guò)Nitro卡直接完成,無(wú)需經(jīng)過(guò)傳統(tǒng)的網(wǎng)絡(luò)路徑。

AWS Nitro架構(gòu)雖然沒(méi)有完全消除交換機(jī),但通過(guò)功能卸載和軟件定義,大大減少了對(duì)物理交換設(shè)備的依賴,代表了網(wǎng)絡(luò)架構(gòu)簡(jiǎn)化和智能化的重要趨勢(shì)。

在工廠比喻中,這就像是在每個(gè)工作站配備了智能物流控制器,這些控制器可以直接協(xié)商物料傳輸路徑,減少了對(duì)中央物流系統(tǒng)的依賴,同時(shí)保持了整體生產(chǎn)的協(xié)調(diào)性。

5. 星融元星智AI網(wǎng)絡(luò)架構(gòu)

星融元(Asterfusion)的星智AI網(wǎng)絡(luò)架構(gòu)提出了一種針對(duì)大模型訓(xùn)練優(yōu)化的扁平化網(wǎng)絡(luò)架構(gòu),通過(guò)重新設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浜屯ㄐ怕窂?,大幅降低了網(wǎng)絡(luò)復(fù)雜度和通信延遲。通過(guò)消除跨GPU服務(wù)器不同GPU卡號(hào)之間的連接,只保留與GPU直接相連的Leaf層交換機(jī),并將原本用于上連Spine的端口全部用于下連GPU。這種設(shè)計(jì)基于一個(gè)核心問(wèn)題:在AI訓(xùn)練中,相同編號(hào)的GPU卡之間的通信需求最為頻繁和關(guān)鍵。

具體實(shí)現(xiàn)上,星智AI網(wǎng)絡(luò)要求不同智算節(jié)點(diǎn)服務(wù)器間相同編號(hào)的網(wǎng)口連接到同一臺(tái)交換機(jī)。例如,所有服務(wù)器的1號(hào)RDMA網(wǎng)口都連接到1號(hào)交換機(jī),所有服務(wù)器的2號(hào)RDMA網(wǎng)口都連接到2號(hào)交換機(jī),以此類推。同時(shí),在智算服務(wù)器內(nèi)部,上層通信庫(kù)基于機(jī)內(nèi)網(wǎng)絡(luò)拓?fù)溥M(jìn)行網(wǎng)絡(luò)匹配,讓相同編號(hào)的GPU卡和相同編號(hào)的網(wǎng)口關(guān)聯(lián)。

這種設(shè)計(jì)使得相同GPU編號(hào)的兩臺(tái)智算節(jié)點(diǎn)間僅需一跳就可互通,大大降低了通信延遲。對(duì)于不同GPU編號(hào)的智算節(jié)點(diǎn)間通信,星融元利用NCCL通信庫(kù)中的Rail Local技術(shù),充分利用主機(jī)內(nèi)GPU間的NVSwitch帶寬,將多機(jī)間的跨卡號(hào)互通轉(zhuǎn)換為跨機(jī)間的同GPU卡號(hào)互通。

總的來(lái)說(shuō),上述這些無(wú)交換/弱交換架構(gòu)實(shí)例從不同角度探索了傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的替代方案,為AI網(wǎng)絡(luò)的未來(lái)發(fā)展提供了重要參考。雖然它們各有優(yōu)缺點(diǎn),但都指向同一個(gè)方向——通過(guò)減少中間環(huán)節(jié)、增強(qiáng)端點(diǎn)智能、利用新型互連技術(shù),構(gòu)建更高效、更靈活的AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

如果進(jìn)入無(wú)交換機(jī)時(shí)代,會(huì)帶來(lái)什么變化?

1. 拓?fù)洳辉訇P(guān)鍵,布局將變成“平面陣列”

在傳統(tǒng)網(wǎng)絡(luò)架構(gòu)中,網(wǎng)絡(luò)拓?fù)涫呛诵脑O(shè)計(jì)要素。Fat Tree、Clos、Spine-Leaf等拓?fù)浣Y(jié)構(gòu)各有優(yōu)缺點(diǎn),網(wǎng)絡(luò)設(shè)計(jì)師需要根據(jù)應(yīng)用場(chǎng)景選擇合適的拓?fù)浣Y(jié)構(gòu)。然而,在無(wú)交換機(jī)時(shí)代,拓?fù)涞闹匾詫⒋蟠蠼档汀?/p>

拓?fù)涞谋举|(zhì)是解決“繞線”問(wèn)題——如何在有限的物理空間內(nèi),通過(guò)合理的線纜布局,實(shí)現(xiàn)節(jié)點(diǎn)之間的高效連接。但如果節(jié)點(diǎn)可以直接連接,或者通過(guò)更高級(jí)的互連技術(shù)(如光互聯(lián))實(shí)現(xiàn)任意節(jié)點(diǎn)間的直接通信,那么傳統(tǒng)拓?fù)涞囊饬x就會(huì)減弱。

在無(wú)交換機(jī)架構(gòu)中,網(wǎng)絡(luò)布局將更傾向于“平面陣列”——計(jì)算節(jié)點(diǎn)按照物理距離和通信需求排列,形成一個(gè)二維或三維的陣列結(jié)構(gòu)。這種結(jié)構(gòu)更像是一個(gè)均質(zhì)的計(jì)算網(wǎng)格,而非傳統(tǒng)的層級(jí)化網(wǎng)絡(luò)。

回到我們的工廠比喻,這就像是從“中央物流+分支配送”模式轉(zhuǎn)變?yōu)椤肮ぷ髡揪W(wǎng)格”模式。在前一種模式中,工廠布局需要考慮物流中心的位置和配送路線;而在后一種模式中,工作站可以直接相連,布局更加靈活,更多地考慮實(shí)際生產(chǎn)需求而非物流限制。

這種變化將深刻影響數(shù)據(jù)中心的物理設(shè)計(jì)。傳統(tǒng)數(shù)據(jù)中心的機(jī)架排列主要考慮網(wǎng)絡(luò)拓?fù)浜筒季€需求,而未來(lái)的AI數(shù)據(jù)中心可能更多地考慮計(jì)算密度、散熱效率和直接互連的便利性。

2. 網(wǎng)絡(luò)協(xié)議將更“端智能化”

在無(wú)交換機(jī)架構(gòu)中,傳統(tǒng)的L2/L3網(wǎng)絡(luò)協(xié)議的作用將被大大削弱,取而代之的是更加智能化的端點(diǎn)協(xié)議和調(diào)度機(jī)制。

傳統(tǒng)網(wǎng)絡(luò)中,路由和轉(zhuǎn)發(fā)決策主要由交換機(jī)和路由器完成,端點(diǎn)(服務(wù)器、工作站等)只負(fù)責(zé)發(fā)送和接收數(shù)據(jù)。而在無(wú)交換機(jī)架構(gòu)中,這些功能將下沉到DPU、SmartNIC或計(jì)算芯片本身,每個(gè)端點(diǎn)都成為一個(gè)“微型調(diào)度單元”。

這種變化將催生新型的網(wǎng)絡(luò)協(xié)議和調(diào)度算法。這些協(xié)議不再關(guān)注如何在復(fù)雜的網(wǎng)絡(luò)拓?fù)渲姓业阶顑?yōu)路徑,而是更關(guān)注如何在直連或少跳的網(wǎng)絡(luò)中實(shí)現(xiàn)高效的帶寬分配和流量控制。例如,RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))技術(shù)已經(jīng)在高性能計(jì)算領(lǐng)域廣泛應(yīng)用,它允許網(wǎng)卡直接訪問(wèn)遠(yuǎn)程主機(jī)的內(nèi)存,繞過(guò)操作系統(tǒng)和傳統(tǒng)網(wǎng)絡(luò)協(xié)議棧,大大降低了通信延遲。

在AI訓(xùn)練場(chǎng)景中,更智能的調(diào)度算法可以根據(jù)訓(xùn)練過(guò)程中的通信模式動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)資源分配。例如,在模型并行訓(xùn)練中,不同GPU負(fù)責(zé)模型的不同部分,它們之間的通信模式是相對(duì)固定的。智能調(diào)度算法可以識(shí)別這些模式,預(yù)先建立優(yōu)化的通信路徑,進(jìn)一步提高訓(xùn)練效率。

這就像是每個(gè)工作站都配備了智能調(diào)度系統(tǒng),可以根據(jù)生產(chǎn)需求自主決定物料的傳輸路徑和優(yōu)先級(jí)。工作站之間可以直接協(xié)商,無(wú)需中央調(diào)度中心的干預(yù),實(shí)現(xiàn)更高效、更靈活的生產(chǎn)協(xié)作。

3. 運(yùn)維和可觀測(cè)性范式轉(zhuǎn)變

無(wú)交換機(jī)架構(gòu)的興起也將帶來(lái)運(yùn)維和可觀測(cè)性范式的轉(zhuǎn)變。在傳統(tǒng)網(wǎng)絡(luò)中,運(yùn)維人員主要關(guān)注交換機(jī)的狀態(tài)、流量統(tǒng)計(jì)和日志分析。而在無(wú)交換機(jī)架構(gòu)中,這些關(guān)注點(diǎn)將轉(zhuǎn)移到芯片行為、鏈路健康和端點(diǎn)狀態(tài)上。

網(wǎng)絡(luò)監(jiān)控工具將需要適應(yīng)這種變化,提供更細(xì)粒度、更實(shí)時(shí)的觀測(cè)能力。例如,監(jiān)控每個(gè)DPU或SmartNIC的狀態(tài)、跟蹤直連鏈路的健康狀況、分析端點(diǎn)間的通信模式等。這些工具需要能夠處理更大規(guī)模、更高頻率的監(jiān)控?cái)?shù)據(jù),并提供更智能的分析和異常檢測(cè)能力。

數(shù)字孿生技術(shù)在這一領(lǐng)域?qū)⒆兊酶又匾?。通過(guò)建立網(wǎng)絡(luò)的數(shù)字孿生模型,運(yùn)維人員可以實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)狀態(tài),模擬不同場(chǎng)景下的網(wǎng)絡(luò)行為,預(yù)測(cè)潛在問(wèn)題,并優(yōu)化網(wǎng)絡(luò)配置。這種技術(shù)已經(jīng)在傳統(tǒng)網(wǎng)絡(luò)中有所應(yīng)用,但在更復(fù)雜、更動(dòng)態(tài)的無(wú)交換機(jī)架構(gòu)中,其價(jià)值將更加凸顯。

在工廠比喻中,這就像是從關(guān)注物流系統(tǒng)的運(yùn)行狀態(tài)轉(zhuǎn)變?yōu)殛P(guān)注每個(gè)工作站和傳送帶的工作狀態(tài)。運(yùn)維人員不再需要監(jiān)控中央物流系統(tǒng)的運(yùn)行情況,而是需要確保每個(gè)工作站的調(diào)度系統(tǒng)正常運(yùn)行,每條傳送帶都處于健康狀態(tài),整個(gè)生產(chǎn)網(wǎng)絡(luò)高效協(xié)同。

這種范式轉(zhuǎn)變將要求網(wǎng)絡(luò)運(yùn)維人員掌握新的技能和工具,更深入地理解計(jì)算和網(wǎng)絡(luò)的融合,以及如何在這種新型架構(gòu)中保障系統(tǒng)的可靠性、安全性和性能。

為什么“無(wú)交換機(jī)”短期仍難實(shí)現(xiàn)?

1. 大規(guī)模跨芯片通信仍需交換系統(tǒng)

盡管無(wú)交換機(jī)網(wǎng)絡(luò)在理論上具有諸多優(yōu)勢(shì),但在實(shí)際應(yīng)用中,大規(guī)??缧酒ㄐ湃匀浑x不開交換系統(tǒng)的支持。當(dāng)前的晶圓級(jí)網(wǎng)絡(luò)和封裝級(jí)網(wǎng)絡(luò)雖然在局部范圍內(nèi)實(shí)現(xiàn)了高效互聯(lián),但它們難以大范圍伸展,主要受限于封裝密度和物理距離。

以Cerebras的WSE為例,雖然在單個(gè)晶圓內(nèi)實(shí)現(xiàn)了無(wú)交換互聯(lián),但當(dāng)需要多個(gè)WSE協(xié)同工作時(shí),仍然需要外部網(wǎng)絡(luò)連接。同樣,NVIDIA的NVLink/NVSwitch雖然在單個(gè)DGX系統(tǒng)內(nèi)實(shí)現(xiàn)了高效互聯(lián),但跨DGX系統(tǒng)的通信仍依賴InfiniBand或以太網(wǎng)等傳統(tǒng)網(wǎng)絡(luò)技術(shù)。

這種局限性源于物理學(xué)基本原理的約束。隨著距離的增加,直接互聯(lián)的成本和復(fù)雜性呈指數(shù)級(jí)增長(zhǎng)。在當(dāng)前技術(shù)條件下,跨機(jī)架、跨數(shù)據(jù)中心的通信仍然需要傳統(tǒng)交換結(jié)構(gòu)的支持。

640.png

在我們的工廠比喻中,這就像是工作站之間的直接傳送帶只適用于近距離傳輸。當(dāng)需要跨越較大距離或連接大量工作站時(shí),仍然需要中央物流系統(tǒng)的支持。完全取消中央物流系統(tǒng),用直接傳送帶連接所有工作站,在物理上是不可行的,成本也會(huì)過(guò)高。

此外,隨著AI模型規(guī)模的不斷增長(zhǎng),訓(xùn)練所需的GPU數(shù)量也在增加。當(dāng)GPU數(shù)量達(dá)到數(shù)萬(wàn)甚至數(shù)十萬(wàn)時(shí),完全依靠直接互聯(lián)已經(jīng)不再現(xiàn)實(shí)。在這種超大規(guī)模場(chǎng)景下,分層次的網(wǎng)絡(luò)架構(gòu)仍然是必要的,只是每一層的設(shè)計(jì)理念和技術(shù)實(shí)現(xiàn)可能會(huì)發(fā)生變化。

2. 交換芯片仍是“調(diào)度”、“隔離”、“可視性”的基礎(chǔ)設(shè)施

交換芯片在網(wǎng)絡(luò)中扮演的角色遠(yuǎn)不止簡(jiǎn)單的數(shù)據(jù)轉(zhuǎn)發(fā)。它們還承擔(dān)著流量調(diào)度、網(wǎng)絡(luò)隔離和可視性保障等重要功能,這些功能在短期內(nèi)難以完全由端點(diǎn)設(shè)備替代。

在流量調(diào)度方面,交換芯片通過(guò)復(fù)雜的隊(duì)列管理和擁塞控制算法,確保網(wǎng)絡(luò)資源的公平分配和高效利用。雖然DPU等設(shè)備具備一定的網(wǎng)絡(luò)處理能力,但它們尚不足以獨(dú)立承擔(dān)整個(gè)網(wǎng)絡(luò)的調(diào)度職能,特別是在大規(guī)模、多租戶的環(huán)境中。

網(wǎng)絡(luò)隔離是多租戶云環(huán)境中的關(guān)鍵需求。交換芯片通過(guò)VLAN、ACL等技術(shù),實(shí)現(xiàn)了不同租戶之間的網(wǎng)絡(luò)隔離,保障了數(shù)據(jù)安全和性能隔離。這些功能如果完全下放到端點(diǎn)設(shè)備,將大大增加端點(diǎn)的復(fù)雜性和安全風(fēng)險(xiǎn)。

可視性是網(wǎng)絡(luò)運(yùn)維的基礎(chǔ)。傳統(tǒng)交換機(jī)提供了豐富的監(jiān)控和統(tǒng)計(jì)功能,幫助運(yùn)維人員了解網(wǎng)絡(luò)狀態(tài)、排查問(wèn)題。如果沒(méi)有這些中心化的觀測(cè)點(diǎn),網(wǎng)絡(luò)問(wèn)題的定位和解決將變得更加困難。

交換芯片就像是物流中心的調(diào)度系統(tǒng),不僅負(fù)責(zé)物料的傳輸,還負(fù)責(zé)協(xié)調(diào)不同生產(chǎn)線之間的物料分配,確保生產(chǎn)安全,監(jiān)控整個(gè)物流系統(tǒng)的運(yùn)行狀態(tài)。如果取消這個(gè)中心調(diào)度系統(tǒng),僅依靠工作站之間的直接協(xié)商,將難以保證整個(gè)工廠的高效、安全運(yùn)行,特別是在大規(guī)模、多產(chǎn)品線的復(fù)雜環(huán)境中。

3. 現(xiàn)有生態(tài)深度綁定以太網(wǎng)/IP協(xié)議

技術(shù)演進(jìn)不僅受物理限制,還受生態(tài)系統(tǒng)的約束。當(dāng)前的軟件系統(tǒng)、云平臺(tái)和應(yīng)用程序都深度綁定了以太網(wǎng)/IP協(xié)議棧,這種綁定構(gòu)成了無(wú)交換機(jī)網(wǎng)絡(luò)普及的另一個(gè)重要障礙。

以太網(wǎng)和IP協(xié)議經(jīng)過(guò)數(shù)十年的發(fā)展,已經(jīng)形成了完善的標(biāo)準(zhǔn)體系和龐大的生態(tài)系統(tǒng)。從網(wǎng)絡(luò)設(shè)備到操作系統(tǒng),從應(yīng)用程序到管理工具,都是基于這些協(xié)議設(shè)計(jì)的。任何試圖替代這些協(xié)議的新技術(shù),都將面臨巨大的生態(tài)遷移成本。

云平臺(tái)和虛擬化技術(shù)更是將交換架構(gòu)作為基礎(chǔ)的“組織框架”。虛擬網(wǎng)絡(luò)、軟件定義網(wǎng)絡(luò)(SDN)、網(wǎng)絡(luò)功能虛擬化(NFV)等技術(shù),都是在傳統(tǒng)交換架構(gòu)的基礎(chǔ)上構(gòu)建的。這些技術(shù)已經(jīng)深度整合到現(xiàn)代IT基礎(chǔ)設(shè)施中,短期內(nèi)難以完全替代。

這就像是整個(gè)工業(yè)體系都已經(jīng)適應(yīng)了中央物流+分支配送的模式。從工廠布局到生產(chǎn)流程,從管理系統(tǒng)到員工培訓(xùn),都是圍繞這種模式設(shè)計(jì)的。即使有更先進(jìn)的物流方式,也需要漫長(zhǎng)的過(guò)渡期才能完全替代現(xiàn)有模式。

此外,網(wǎng)絡(luò)安全、合規(guī)性和互操作性等考量也使得企業(yè)和云服務(wù)提供商難以快速采用革命性的網(wǎng)絡(luò)架構(gòu)。在關(guān)鍵業(yè)務(wù)系統(tǒng)中,穩(wěn)定性和可靠性往往比性能更重要,這也是傳統(tǒng)網(wǎng)絡(luò)架構(gòu)在企業(yè)環(huán)境中持續(xù)存在的重要原因。

綜上所述,雖然無(wú)交換機(jī)網(wǎng)絡(luò)在特定場(chǎng)景下展現(xiàn)出了巨大潛力,但受限于物理約束、功能需求和生態(tài)系統(tǒng)慣性,它在短期內(nèi)難以完全替代傳統(tǒng)交換架構(gòu)。更可能的情況是,兩種架構(gòu)將在相當(dāng)長(zhǎng)的時(shí)間內(nèi)共存,各自在適合的場(chǎng)景中發(fā)揮作用,并在技術(shù)演進(jìn)中相互借鑒、融合。

交換機(jī)不會(huì)“消失”,但角色正被重塑

通過(guò)對(duì)AI網(wǎng)絡(luò)架構(gòu)演進(jìn)趨勢(shì)的全面分析,我們可以得出一個(gè)相對(duì)平衡的結(jié)論:交換機(jī)不會(huì)完全“消失”,但其角色正在被重塑。

傳統(tǒng)意義上的交換機(jī)作為網(wǎng)絡(luò)的中心節(jié)點(diǎn),承擔(dān)著數(shù)據(jù)轉(zhuǎn)發(fā)、路由決策、流量控制等核心功能。而在AI驅(qū)動(dòng)的新型網(wǎng)絡(luò)架構(gòu)中,這些功能正在被重新分配和重新定義。一部分功能下沉到了計(jì)算芯片或DPU,一部分功能被集成到了新型互連技術(shù)中,還有一部分功能被提升到了軟件定義的控制平面。

這種變化可以概括為從“中心控制”向“邊緣協(xié)同”的轉(zhuǎn)變。在傳統(tǒng)網(wǎng)絡(luò)中,交換機(jī)是控制中心,決定數(shù)據(jù)的流向和處理方式。而在新型網(wǎng)絡(luò)中,控制邏輯更多地分布在網(wǎng)絡(luò)邊緣,各個(gè)節(jié)點(diǎn)通過(guò)協(xié)同合作完成網(wǎng)絡(luò)功能。

同時(shí),交換機(jī)的角色也在從“數(shù)據(jù)路徑”向“控制中樞”轉(zhuǎn)變。在傳統(tǒng)網(wǎng)絡(luò)中,交換機(jī)主要負(fù)責(zé)數(shù)據(jù)包的轉(zhuǎn)發(fā)和處理。而在新型網(wǎng)絡(luò)中,交換機(jī)更多地承擔(dān)網(wǎng)絡(luò)策略執(zhí)行、資源調(diào)度、安全保障等控制功能,而數(shù)據(jù)傳輸則更多地通過(guò)直接互聯(lián)或?qū)S猛ǖ劳瓿伞?/p>

因此,真正的“無(wú)交換機(jī)”時(shí)代,也許不是“沒(méi)有交換”,而是“交換無(wú)處不在”。交換功能不再集中在特定的物理設(shè)備上,而是分布在網(wǎng)絡(luò)的各個(gè)部分,融入到計(jì)算和存儲(chǔ)系統(tǒng)中,形成一個(gè)更加融合、更加智能的基礎(chǔ)設(shè)施。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉