新聞中心

EEPW首頁 > 網(wǎng)絡(luò)與存儲 > 編輯觀點 > 光互連光交換CPO是本土超節(jié)點集群“以量補質(zhì)”的機遇

光互連光交換CPO是本土超節(jié)點集群“以量補質(zhì)”的機遇

—— 曦智“光躍LightSphere X”與合作伙伴捧得WAIC2025創(chuàng)新獎

作者：迎九（EEPW）時間：2025-08-06 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

不久前，“2025世界人工智能大會暨人工智能全球治理高級別會議（WAIC2025）”在上海舉行。期間評出了最高獎——SAIL獎（卓越人工智能引領(lǐng)者獎），有5個項目從240個項目中脫穎而出。其中唯一一個包含芯片創(chuàng)新的項目是由曦智科技聯(lián)合壁仞科技、中興通訊、上海儀電的“分布式OCS全光互連芯片及超節(jié)點應(yīng)用創(chuàng)新方案”，作為本年度最具代表性的原始創(chuàng)新項目，成為SAIL四大維度（Superior，Application, Innovation, Leading）中“I”的代表。

這個獎項的關(guān)鍵一環(huán)是曦智的LightSphere X分布式OCS（光交換）全光互連芯片及超節(jié)點解決方案。那么，它是如何助力本土GPU實現(xiàn)超節(jié)點算力躍升的？為此，曦智創(chuàng)始人兼首席執(zhí)行官沈亦晨博士等領(lǐng)導(dǎo)接受了電子產(chǎn)品世界EEPW的訪問。

1 實現(xiàn)從“電互連”向“光互連”的躍遷

隨著生成式人工智能的發(fā)展，算力需求不斷升級。不僅是我國，在世界范圍內(nèi)都看到需要越來越大的算力集群，使人們有能力訓(xùn)練和推理更大的模型。

就像過去一百多年來在交通網(wǎng)絡(luò)上的技術(shù)革新和突破，使人們的出行效率有了巨大的飛躍。在計算互連網(wǎng)絡(luò)上是否也可以有類似的互連技術(shù)突破，以應(yīng)對近幾年出現(xiàn)的算力需求激增？答案是從電互連上升到光互連。

曦智就是致力于光互連解決方案的公司，例如把GPU/xPU/機柜的銅互聯(lián)、LPO/NPO升級為CPO（如圖1）；另外，從“0到1”地提出光交換方案，以獲得更大的交換通道數(shù)、更低功耗、更大集成度，以及增加靈活調(diào)度能力，助力本土GPU在目前工藝節(jié)點受限的情況下，實現(xiàn)“以量代質(zhì)”的超節(jié)點集群。

圖1

曦智等合作伙伴此次獲獎的另一個重要原因是推出時間快。因為盡管此次WAIC上有很多超節(jié)點機柜在展出，但還沒有一個機柜已是批量部署的。而曦智與合作伙伴的解決方案早在2024年就有批量部署（注：2024年6月已經(jīng)在上海儀電落地數(shù)千卡的全光直聯(lián)超節(jié)點，如圖2）。在本屆大會上，曦智又聯(lián)合壁仞科技、中興通訊又首次示范應(yīng)用LightSphere X，也即將于上海儀電國產(chǎn)超節(jié)點算力集群落地。

圖2

2 超節(jié)點成為超級熱點

超節(jié)點（SuperPod）可謂本屆WAIC的熱點之一，而去年很多客戶還對此很陌生，但今年對于這個趨勢判斷已經(jīng)沒有任何疑問。近期在積極布局超節(jié)點的國內(nèi)廠商主要包括AI芯片廠商和服務(wù)器廠商。

所謂“超節(jié)點”是英偉達最早提出的概念，用于描述一種縱向擴展（Scale-Up）的GPU集群形態(tài)。英偉達也是較早布局超節(jié)點的代表廠商，去年發(fā)布了NVL72超節(jié)點系統(tǒng)。英偉達有一種特有的互連方式NVlink及NVSwitch，與傳統(tǒng)通訊和網(wǎng)絡(luò)不同，其帶寬/密度極高，傳輸延遲極低。例如，NVL72把72張英偉達GB200 GPU通過NVlink的方式連接在一起，形成72卡超節(jié)點。相比于傳統(tǒng)，例如把一模一樣的芯片和卡組成傳統(tǒng)單機8卡服務(wù)器，再把單機8卡服務(wù)器通過傳統(tǒng)網(wǎng)絡(luò)互連的方式9臺連在一起。性能對比如圖3所示，盡管二者的算力是一樣的——都是72顆GB200芯片，唯一的不同點在于它們的連接方式不同，但是當(dāng)模型做得越來越大及客戶對響應(yīng)度的要求越來越高時，NVL72超節(jié)點會顯著好于傳統(tǒng)網(wǎng)絡(luò)互連方案。當(dāng)TPS/用戶超過200時，會看到一模一樣的算力，但是超節(jié)點的吞吐量可以比非超節(jié)點提升3倍以上。

圖3

3 實現(xiàn)超節(jié)點的兩條路徑

由于地緣影響，現(xiàn)在英偉達超節(jié)點體系在國內(nèi)是沒有商用化的。國內(nèi)客戶包括云大廠，現(xiàn)在能獲得的最好官方產(chǎn)品是英偉達H200，是單機8卡系統(tǒng)。

國內(nèi)客戶如果想實現(xiàn)超節(jié)點，目前主要有兩條路徑可選。

3.1 跟隨英偉達，采用單機柜，目前是銅互連

這里帶來另外一個問題：NVL72里的芯片是GB200。GB200用的是最先進的工藝（臺積電4nm工藝）。圖4是GB200相比于英偉達的A100（臺積電7nm工藝）。A100與現(xiàn)在典型的國產(chǎn)GPU 7nm算力比較接近。

圖4

B200比A100的單芯片計算能力高5~10倍，因此72張NVL72的GB200約等于500張國產(chǎn)GPU的計算能力，相當(dāng)于1個NVL72超節(jié)點需要500個國產(chǎn)GPU來匹配計算能力。

這就帶來一個問題：現(xiàn)在國內(nèi)絕大部分?jǐn)?shù)據(jù)中心用的還是非超節(jié)點方案，例如傳統(tǒng)的單機8卡+RoCE網(wǎng)絡(luò)。

我們當(dāng)然可以選擇一條完全跟隨或復(fù)制英偉達的道路，繼續(xù)把更多GPU塞到機柜里，GPU間通過短距離銅導(dǎo)線連接起來去做超節(jié)點。這件事情我們也一定要去做。但是有幾個痛點：①把500個GPU塞到一個機柜里，無論是從功耗、散熱還是體積等都是很難實現(xiàn)的，因為高帶寬數(shù)據(jù)在傳統(tǒng)的銅導(dǎo)線里傳輸，通常只能傳一兩米的距離，在這個距離內(nèi)放下如此多的GPU很困難。②英偉達的GPU制程還在進步，例如下一代的Rubin（注：計劃于2026年初開始量產(chǎn)）用的是3nm（臺積電第三代3nm制程工藝（N3P）），再往后將是2nm工藝，……因此在目前國產(chǎn)制程的水平下，需要塞到一個機柜內(nèi)的GPU量將越來越大，將越來越難做。所以就必須開拓第二路徑，必須具備跨機柜的帶寬互連能力，才有可能追趕上甚至超越英偉達GPU的密度。

3.2 實現(xiàn)跨機柜，用硅光互連

跨機柜往往會超過1米的距離，因此只有一種方案——用光進行互連，而不能繼續(xù)沿用原來的銅導(dǎo)線方案。

所以未來國內(nèi)超節(jié)點方案，首先每個機柜內(nèi)會盡量放更多算力，然后會有多個機柜通過光互連的方式連接成一個超節(jié)點。這需要GPU直接出光，然后做跨機柜的長距離互連。

4 光互連——大量帶寬連大量芯片，創(chuàng)造同等算力

如果把光互連與傳統(tǒng)的電互連比較，光互連像軌道交通，電互連更像是公路交通。軌道交通的優(yōu)勢是可以傳得更遠(yuǎn)，速度更快，并且有自己獨特的網(wǎng)絡(luò)體系。

實際上光互連并不陌生，已出現(xiàn)幾十年，光纖通訊也已廣泛應(yīng)用在長距離通訊里。光互連技術(shù)本身也有非常大的迭代空間。網(wǎng)絡(luò)互連的光模塊就像軌道交通里的綠皮車。光模塊有兩個特點，①光電轉(zhuǎn)換芯片往往離GPU較遠(yuǎn)，現(xiàn)在光模塊都存在于數(shù)據(jù)中心交換機里，與GPU之間至少有1米以上的銅導(dǎo)線距離，②傳輸延遲較大。

因此需要進一步提升單通道互連帶寬，還要提升通道的密度和數(shù)量，這就催生出新一代的光電融合技術(shù)，目前已有三個發(fā)展階段，如圖1。

①近封裝/板載光學(xué)（NPO/OBO）技術(shù)，把光電轉(zhuǎn)換芯片從交換機直接放到GPU板卡上，這樣距離就從1米縮短到10厘米?；ミB密度也能提高2~3倍。另外可以把DSP芯片去掉，這樣能大大減少GPU與GPU之間的通訊延遲。近封裝光學(xué)是目前已經(jīng)批量落地的一套互連方案，也是目前唯一通過NPO方式連接的GPU超節(jié)點。

②下一階段是共封裝光學(xué)（CPO），最近炒得比較火。CPO可進一步把光電芯片到GPU的距離從10厘米級別縮短到1毫米，原理是直接把光芯片和電芯片放在一個封裝里，以進一步增加互連帶寬。因為只需要把電信號傳1毫米就行了，這進一步提升了3倍左右的帶寬，同時減少了延遲。

值得一提的是，共封裝（CPO）光學(xué)在全球范圍內(nèi)第一個落地場景是交換機的共封裝，博通產(chǎn)品以及英偉達在今年GTC（GPU技術(shù)大會，2025年3月）上都發(fā)布了共封裝交換機，在國內(nèi)，曦智也與國內(nèi)頭部交換芯片廠商在合作項目。

CPO的第二步是用于GPU互連。在本屆WAIC上已經(jīng)展出GPU共封裝的Demo。在全球范圍內(nèi)，英偉達也在非常積極地研究該技術(shù)，落地只是時間問題，而且會非?？?。國內(nèi)企業(yè)也在研發(fā)，而且光電共封裝可能在國內(nèi)意義會更大，因為國內(nèi)制程是受限的。在此次WAIC大會上，曦智展示了一款與國內(nèi)GPU公司，應(yīng)該也是全球第一次實現(xiàn)這種方案的Demo（演示），即把一個GPU芯片通過短距離（只能傳1毫米）Serdes，直接以共封裝的方式把信號在GPU上轉(zhuǎn)換為光信號，并直接連出來（圖5））。

圖5 曦智的國內(nèi)首款xPU-CPO光電共封裝原型系統(tǒng)

③未來，光互連方式應(yīng)該是光芯片和電芯片在同一顆芯片上——3D共封裝方案?，F(xiàn)在美國已有公司在做此類事，預(yù)計5年之內(nèi)就會出現(xiàn)。3D CPO把光芯片和電芯片堆疊在一起，直接進行數(shù)據(jù)傳輸。上層會有很多電芯片，下面是較大的硅光芯片。電芯片所有信號直接垂直傳導(dǎo)到硅光芯片上。隨著硅光芯片上的Routing，通過周圍連接的接口往外進行連接，這會最大化地提升互連帶寬。最終通過這種方式，可以比現(xiàn)有的互連方式再提高1-2個數(shù)量級的互連帶寬（如圖6）。

圖6

曦智在此的計劃是：①希望通過近封裝、共封裝，以及最終3D共封裝光電融合的方式，大大增加單芯片帶寬，目標(biāo)把單芯片帶寬從現(xiàn)在的2TB量級，最終做到100T量級。②通過光來代替電去做互連，把超節(jié)點內(nèi)的芯片數(shù)量從8顆提高到500顆。預(yù)計二者疊加起來，在1個超節(jié)點內(nèi)的總帶寬可以比今天單機8卡的超節(jié)點提高到3個數(shù)量級。未來如果能用3D共封裝方案，可以在3個數(shù)量級上再上一個數(shù)量級，達到4個數(shù)量級超節(jié)點總帶寬的提升，這樣才能應(yīng)對未來幾年需要用大數(shù)量GPU彌補工藝上的不足問題。

5 光交換——dOCS提升靈活性和降低冗余率

當(dāng)連接的GPU節(jié)點數(shù)量越來越多以后，要面對一個新的問題：在不同光互連光纖中的調(diào)度能力。因為不可能上千張GPU都是一種方式連接，需要有調(diào)度復(fù)雜網(wǎng)絡(luò)的能力。

5.1 電交換的三個痛點如下。

①電交換像一輛輛小汽車，每個信號都可以在電交換機上選擇方向，就像每輛小汽車的司機都可以去選擇，因此整個交換容量或交換速率主要取決于電交換芯片本身的運算能力，相當(dāng)于紅綠燈的能力，這在大型的超節(jié)點網(wǎng)絡(luò)上容易造成堵塞。

②不同品牌的小汽車就像國內(nèi)不同的GPU、采用不同的互連協(xié)議，無法把多個廠商的GPU通過同一種交換芯片互連，所以每種 GPU都要定制交換芯片，以覆蓋互連協(xié)議。

③先進的電交換芯片要用先進的工藝節(jié)點。例如博通最先進的電交換芯片與英偉達GPU一樣的工藝節(jié)點推進。因此，國產(chǎn)電交換芯片的交換能力也受到了本土工藝節(jié)點的限制。

5.2 曦智dOCS的優(yōu)勢

為此，曦智開發(fā)了dOCS（分布式光交換）系統(tǒng)，原理類似于取消了工廠中的中央物流中心，而是在每個車間或工作站附近設(shè)置小型的物流中轉(zhuǎn)站，使物料傳輸路徑更短、更直接（如圖7）。

圖7

光交換芯片可以通過中央信號控制調(diào)配所有光纖，讓光信號在波導(dǎo)之間進行信號的切換。基于dOCS（分布式光交換）超節(jié)點的性能優(yōu)勢如下。

● 在單位互連成本上，因為不需要電交換機，直接通過光模塊的方式，可以做到NVL72成本的31%。

● GPU冗余率比NVL72和谷歌TPU v4低一個數(shù)量級。當(dāng)把幾百個GPU卡連成一個超節(jié)點以后會碰到一個問題：如果一個GPU壞了，在邏輯上與它一起形成的整個超節(jié)點都會需要下線。隨著超節(jié)點越來越大，超節(jié)點里有GPU會壞的概率成倍增長。所以冗余是必須要解決的問題。因此，能否在任何一個GPU壞的時候，能迅速把一個好的冗余GPU協(xié)調(diào)到超節(jié)點內(nèi)，讓它能夠繼續(xù)運行？傳統(tǒng)的電插拔方案，每次壞了得重新插光纖?，F(xiàn)在有了光交換的能力后，所有壞了的GPU可以在毫秒時間內(nèi)直接把一個好的GPU給切換上去，可以大大減少由于冗余帶來的成本增加。

● 每個GPU使用效率提高3.37倍。這與NVL72相比NVL8帶來的提升效率是類似的。

除此之外，它不受協(xié)議限制，同時所有硅光芯片都可以在國內(nèi)自主生產(chǎn)，不受任何先進制程的限制。

6 目標(biāo)及規(guī)劃

曦智的目標(biāo)是在年內(nèi)落地萬卡集群，去年6月已經(jīng)在上海儀電落地數(shù)千卡的全光直聯(lián)超節(jié)點。今年6月，曦智與沐曦在上海儀電落地“光互連電交換”超節(jié)點體系?，F(xiàn)在曦智正與上海儀電落地數(shù)千卡光互連/光交換連接體系。圖2是曦智的技術(shù)路徑。

7 為何中國GPU直接出光的時間會更早

在全球范圍之內(nèi)，我國的硅光產(chǎn)業(yè)與國外基本處于同一起跑線，甚至有一定的領(lǐng)先。例如現(xiàn)在GPU直接出光在美國還沒有批量落地的，只有在中國有。

原因之一是我國沒有其他選擇（沒有更好的制程選擇），所以國內(nèi)生態(tài)更愿意嘗試新技術(shù)。另外，美國GPU公司一家獨大，并且這家在已經(jīng)占據(jù)全球市場份額超過90%的情況下，對于突破性互連技術(shù)，可能并沒有特別強的動力去改變。但是中國不同，中國GPU廠商有小幾十家，相互都在尋找差異化，怎樣在同樣的制程下尋找突破？新一代的光互連光交換技術(shù)使門檻降低了很多。如果有幾家選擇光互連光交換方案，就會形成幾萬卡節(jié)點的落地。

8 dOCS光交換的拓?fù)浣Y(jié)構(gòu)是什么樣的？

8.1 OCS與電交換機的區(qū)別

通常的OCS叫光路交換、光路切換，外形像盒子，與電交換機從外形上看起來很像，即有很多口進，也有很多口出。電交換是一個電信號過去，有點像發(fā)信件，有個郵編，盒子會讀郵編去哪兒。光交換像軌道切換，上面并沒有郵編，因為光的交換機是無法感知里面?zhèn)鞯臇|西是什么的，所以一定是源控制——發(fā)的人決定它去哪兒。有點像物流中轉(zhuǎn)站，貨物過去，例如這個要去鄭州，它就裝上鄭州的車。

8.2 傳統(tǒng)光交換（OCS）的不足如下。

①（分布式光交換）與傳統(tǒng)的光交換相比，光交換（OCS）盒子為什么現(xiàn)在沒有在數(shù)據(jù)中心大規(guī)模使用？弱點在于若把很多光纖連到上面，一旦出現(xiàn)問題，故障影響會很大，對于很多大型元數(shù)據(jù)中心是很大的問題。但是業(yè)界技術(shù)在持續(xù)研發(fā)解決這種技術(shù)。

②傳統(tǒng)的盒子成本較貴。

8.3 dOCS的優(yōu)勢

分布式OCS（dOCS）在架構(gòu)上做了創(chuàng)新，無需把交換功能做到一個大盒子里，而是做到模塊里。盡管曦智的dOCS產(chǎn)品最終形態(tài)看起來像光模塊，但只是把交換的功能放到模塊里面。由于它是硅光固態(tài)產(chǎn)品，所以可靠性比盒子/模塊好很多。

另外，成本大幅降低。因為dOCS本身也是光電轉(zhuǎn)換，即在整個系統(tǒng)里節(jié)省了光模塊。例如假如不是dOCS，而是GPU出來接一個交換機，這中間需要光纜，因為交換機信號出來后還要再接回去，所以如果是GPU出光的情況，中間要用4個光模塊（每端2個，例如國內(nèi)某友商的解決方案）。而dOCS只需2個模塊，節(jié)約了成本。另外，系統(tǒng)應(yīng)用方面可以省掉電交換。

所以這個產(chǎn)品是集技術(shù)、產(chǎn)品定義、應(yīng)用場景聯(lián)合的創(chuàng)新?？梢婈刂钦业搅艘粋€非常好的切入點，體現(xiàn)了其在技術(shù)、產(chǎn)品及市場上的綜合把控能力。

9 光電合封

在本土產(chǎn)業(yè)鏈方面，現(xiàn)在中國至少有3條硅光產(chǎn)線已經(jīng)具備量產(chǎn)能力，并且在工藝節(jié)點上不落后于臺積電。因為硅光產(chǎn)線并不特別依賴工藝，況且臺積電的硅光產(chǎn)線是65nm，而國內(nèi)頭部幾條硅光產(chǎn)線也能做到比65nm好的工藝。

封裝能力方面，確實臺積電比較有優(yōu)勢，基于其CoWoS（Chip on Wafer on Substrate，臺積電開發(fā)的一種2.5D/3D封裝技術(shù)）等在光電融合封裝上比較領(lǐng)先。對于國內(nèi)廠商，一方面在硅光產(chǎn)線上正具備更好的封裝能力；同時封裝與生產(chǎn)本身并不一定要在一條產(chǎn)線上。

曦智也在推動國內(nèi)頭部封裝廠商具備光電合封的能力。目前分成三步，F(xiàn)ab端做光芯片生產(chǎn)，在OSAT（外包半導(dǎo)體組裝和測試服務(wù)）端做光電的合封，曦智有一條產(chǎn)線在南京，做純光的光纖耦合。

目前OSAT封裝的良率是很高的，95%以上沒有問題，其中會有一些新的技術(shù)，例如做到可插拔。目前較大的挑戰(zhàn)是：產(chǎn)業(yè)鏈比較長。例如一家GPU公司找一家OSAT或光模塊公司幫助把CPO做出來，這是很難的。所以一定要有對整個產(chǎn)業(yè)鏈非常精通的公司幫助把控整個鏈條，然后協(xié)同設(shè)計，最后交付一個光電共封裝產(chǎn)品。

10 CPO（共封裝光學(xué)）會帶來哪些行業(yè)的繁榮？

所有與光芯片相關(guān)的產(chǎn)業(yè)會更繁榮，因為共封裝代表今后主流的電芯片，諸如交換芯片、GPU等都會配以數(shù)個硅光芯片，有點像現(xiàn)在的GPU邊上都配了一圈HBM，以后GPU除了左右是HBM，上下可能就是硅光芯片（共封裝）。因此整個硅光生態(tài)產(chǎn)業(yè)鏈都會受益，包括晶圓廠、光的封裝廠、激光光源、激光芯片公司、光纖，都會大大起量，因為現(xiàn)在計算互連之間的帶寬需求遠(yuǎn)遠(yuǎn)超過現(xiàn)在網(wǎng)絡(luò)互連帶寬。

關(guān)鍵詞： 光互連 光交換 CPO 超節(jié)點 曦智 OCS

焦點

更多>>

技術(shù)專區(qū)

關(guān)閉

熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

光互連光交換CPO是本土超節(jié)點集群“以量補質(zhì)”的機遇

評論

相關(guān)推薦

技術(shù)專區(qū)