新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > WAIC 2025最大看點(diǎn)，中國(guó)智算超節(jié)點(diǎn)，新亮相

WAIC 2025最大看點(diǎn)，中國(guó)智算超節(jié)點(diǎn)，新亮相

作者：時(shí)間：2025-07-28 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

2025 世界人工智能大會(huì)（WAIC）的現(xiàn)場(chǎng)人頭攢動(dòng)。

一踏入 WAIC 的現(xiàn)場(chǎng)，就能感受到撲面而來(lái)的人氣。無(wú)論是主會(huì)場(chǎng)還是各個(gè)分展區(qū)，到處都是攢動(dòng)的身影。人們穿梭在不同的展品之間，而智算超節(jié)點(diǎn)的展臺(tái)前，更是聚集了不少行業(yè)內(nèi)的人士，他們或站著傾聽(tīng)講解，或圍著設(shè)備仔細(xì)觀察。

今年的 WAIC 現(xiàn)場(chǎng)中，智算超節(jié)點(diǎn)在眾多展品中顯得尤為突出，華為的昇騰 384 超節(jié)點(diǎn)更是其中翹楚。但除了華為，中興、新華三、超聚變等中國(guó)企業(yè)的超節(jié)點(diǎn)方案也紛紛亮相，共同上演了一場(chǎng)中國(guó)智算超節(jié)點(diǎn)的「集體秀」。

超節(jié)點(diǎn)是什么？

想要了解華為昇騰 384 超節(jié)點(diǎn)，就得先知道什么是超節(jié)點(diǎn)。

超節(jié)點(diǎn)這個(gè)概念最開(kāi)始是英偉達(dá)提出的，英文名叫 SuperPod。

GPU 作為重要的算力硬件，為 AI 的訓(xùn)練和推理提供有力的支撐。但是隨著大模型參數(shù)的不斷增長(zhǎng)，對(duì)于 GPU 集群的規(guī)模需求也就越來(lái)越大。

從之前的千卡集群，到現(xiàn)在的萬(wàn)卡集群，再到未來(lái)的十萬(wàn)卡集群。那么越來(lái)越大的 GPU 集群如何構(gòu)建呢？

答案就是，Scale Up 和 Scale Out。

Scale Up，向上擴(kuò)展，也叫做縱向擴(kuò)展，增加的是單節(jié)點(diǎn)的資源數(shù)量。Scale Out，向外擴(kuò)展，也就是橫向擴(kuò)展，增加節(jié)點(diǎn)的數(shù)量。簡(jiǎn)單理解，每臺(tái)服務(wù)器里面多塞幾塊 GPU，這時(shí)一臺(tái)服務(wù)器就是一個(gè)節(jié)點(diǎn)。在通過(guò)網(wǎng)絡(luò)，將多臺(tái)節(jié)點(diǎn)連接起來(lái)，就是 Scale Out。

超節(jié)點(diǎn)技術(shù)的核心就與此：

第一，突破單服務(wù)器限制。超節(jié)點(diǎn)允許把數(shù)十塊甚至數(shù)百塊 GPU 集成在一個(gè)機(jī)架內(nèi)，形成「一個(gè)機(jī)架就是一個(gè)節(jié)點(diǎn)」。

第二，超帶寬域（HBD）技術(shù)。通過(guò) NVLink/UB 等高速互聯(lián)技術(shù)，將 GPU 間通信時(shí)延壓縮至百納秒級(jí)（傳統(tǒng)網(wǎng)絡(luò)時(shí)延為 10 微秒），實(shí)現(xiàn) GPU 間數(shù)據(jù)交換的無(wú)縫銜接。

第三，Scale Up 與 Scale Out 融合。既支持單節(jié)點(diǎn)內(nèi)增加 GPU（縱向擴(kuò)展），又能通過(guò)網(wǎng)絡(luò)連接多節(jié)點(diǎn)（橫向擴(kuò)展），實(shí)現(xiàn)「樂(lè)高式」靈活搭建。

英偉達(dá)把這種以超大帶寬互聯(lián) 16 卡以上 GPU-GPU 的 Scale Up 系統(tǒng)，稱(chēng)為超節(jié)點(diǎn)。發(fā)展到現(xiàn)在，英偉達(dá)的 NVL72 超節(jié)點(diǎn)，可以把 36 個(gè) Grace CPU 和 72 個(gè) Blackwell GPU 集成到一個(gè)液冷機(jī)柜中，實(shí)現(xiàn)總計(jì) 720 PFLOPs 的 AI 訓(xùn)練性能，或 1440 PFLOPs 的推理性能。

在 WAIC 現(xiàn)場(chǎng)，中國(guó)企業(yè)也帶來(lái)了自己的超節(jié)點(diǎn)方案。

華為昇騰 384 超節(jié)點(diǎn)

作為本次 WAIC 的「明星展品」，華為首次線(xiàn)下展出的昇騰 384 超節(jié)點(diǎn)（Atlas 900 A3 SuperPoD）堪稱(chēng)「巨無(wú)霸」。由 12 個(gè)計(jì)算柜和 4 個(gè)總線(xiàn)柜組成，集成了 384 個(gè)昇騰 910C NPU 和 192 個(gè)鯤鵬 920 CPU，是目前業(yè)界規(guī)模最大的超節(jié)點(diǎn)。

昇騰 384 超節(jié)點(diǎn)集成了384 個(gè)昇騰 910C神經(jīng)網(wǎng)絡(luò)處理單元 (NPU) 和192 個(gè)鯤鵬920中央處理器 (CPU)。采用華為自研的 MatrixLink 高速互聯(lián)技術(shù)，實(shí)現(xiàn)全對(duì)等互聯(lián)。

從性能測(cè)試上看，在昇騰超節(jié)點(diǎn)集群上，LLaMA 3 等千億稠密模型性能相比傳統(tǒng)集群提升 2.5 倍以上；在通信需求更高的 Qwen、DeepSeek 等多模態(tài)、MoE 模型上，性能提升可達(dá) 3 倍以上，較業(yè)界其他集群高出 1.2 倍。

根據(jù)官方表示，這個(gè)算力平臺(tái)基于 384 顆昇騰芯片構(gòu)建，通過(guò)全互聯(lián)對(duì)等架構(gòu)實(shí)現(xiàn)芯片間高效協(xié)同，可提供高達(dá) 300 PFLOPs 的稠密 BF16 算力。這個(gè)方案性能接近英偉達(dá) B200 NVL 72 平臺(tái)的兩倍。內(nèi)存帶寬達(dá)到 1229TB/s，總的內(nèi)存容量超出英偉達(dá)方案的 3.6 倍。

關(guān)于大家關(guān)心的幾個(gè)問(wèn)題，我們也替大家問(wèn)到了。

第一，在如此多芯片、機(jī)柜下，如何在不降低數(shù)據(jù)傳輸速遞下，保證芯片的互連？

之前業(yè)內(nèi)普遍采用以 CPU 為中心的馮·諾依曼結(jié)構(gòu)，但華為昇騰超節(jié)點(diǎn)提出的是：對(duì)等計(jì)算架構(gòu)。把總線(xiàn)從服務(wù)器內(nèi)部，擴(kuò)展到整機(jī)柜、甚至跨機(jī)柜。特點(diǎn)就是點(diǎn)對(duì)點(diǎn)、完全互聯(lián)的超高帶寬網(wǎng)絡(luò)，通過(guò) UB 協(xié)議連接所有 NPU 和 CPU。

并且，華為的 Scale Up 互聯(lián)采用了去銅全光的方案。每個(gè) GPU 用 7 個(gè) 400G LPO Sipho 光模塊提供的 2800Gbit/s 帶寬來(lái)實(shí)現(xiàn) Scale Up 互聯(lián)，合計(jì) 384 張 GPU 一共通過(guò) 4 個(gè) CloudEngine Switch 的單層扁平拓?fù)鋵?shí)現(xiàn)互聯(lián)。

工作人員向記者介紹，在超節(jié)點(diǎn)范圍內(nèi)，用高速總線(xiàn)互聯(lián)替代傳統(tǒng)以太，通信帶寬提升了 15 倍；單跳通信時(shí)延也從 2 微秒做到 200 納秒，降低了 10 倍。

第二，昇騰 384 超節(jié)點(diǎn)冷卻方式是？

液冷加風(fēng)冷的模式。對(duì)于 384 顆昇騰 910C 芯片采用冷板式液冷；對(duì)于電源、網(wǎng)卡等低功耗模塊保留風(fēng)冷設(shè)計(jì)。

第三，昇騰 384 超節(jié)點(diǎn)的客戶(hù)是？

目前硅基流動(dòng)基于昇騰 384 部署 DeepSeek-R1 模型，能夠?qū)崿F(xiàn)在單用戶(hù) 20TPS 負(fù)載下實(shí)現(xiàn) 1920 tokens/秒的吞吐量，超越國(guó)際主流芯片的 1850 tokens/秒，且生成精度在知識(shí)問(wèn)答、代碼生成等任務(wù)中表現(xiàn)更優(yōu)。

訓(xùn)練方面，華為內(nèi)部的大模型，以及工行、郵儲(chǔ)銀行的內(nèi)部大模型在使用昇騰 384 進(jìn)行訓(xùn)練。此外，美團(tuán)、字節(jié)、螞蟻、京東、百度等是相關(guān)客戶(hù)。

據(jù)記者了解，這個(gè)超節(jié)點(diǎn)可以進(jìn)一步擴(kuò)展為包含數(shù)萬(wàn)卡的 Atlas 900 SuperCluster 超節(jié)點(diǎn)集群。華為相關(guān)人士向記者介紹：「相當(dāng)于我們用工程化的方案，彌補(bǔ)了技術(shù)和算力上的差距?！?/span>

中興智算超節(jié)點(diǎn)方案

中興通訊也有自家的超節(jié)點(diǎn)方案。在本次展臺(tái)中展示的智算超節(jié)點(diǎn)，內(nèi)部搭載的是百度昆侖心 P800，主打「高密度集成」。

中興的智算超節(jié)點(diǎn)服務(wù)器，單機(jī)柜可搭載 64 個(gè) GPU，內(nèi)置 16 個(gè)計(jì)算節(jié)點(diǎn)，8 個(gè)交換節(jié)點(diǎn)，采用正交互聯(lián)架構(gòu)，降低互聯(lián)成本，GPU 間通信帶寬達(dá)到 400GB/S-1.6TB/S，時(shí)延達(dá)到百納秒級(jí)，液冷占比達(dá)到 80%，機(jī)內(nèi) Scale up 可擴(kuò)展至 2048 張算力卡，機(jī)間支持 Scale out 拓展至萬(wàn)卡規(guī)模。

中興智算超節(jié)點(diǎn)方案能夠適配英偉達(dá)的 AI 加速卡，也能夠適配國(guó)內(nèi)大多數(shù) GPU 企業(yè)，如海光、寒武紀(jì)、沐曦、摩爾線(xiàn)程等。

據(jù)中興工作人員介紹，中興能夠做到單機(jī)架節(jié)點(diǎn)集成 64 卡，而目前華為的單機(jī)架節(jié)點(diǎn)是 32 張卡。

新華三：UniPoD 超節(jié)點(diǎn)

新華三帶來(lái)的是超節(jié)點(diǎn)產(chǎn)品 H3C UniPod S80000 全球首秀。

據(jù)了解，新華三 UniPoD 超節(jié)點(diǎn)支持單機(jī)柜、多機(jī)柜等多種形態(tài)，Scale-up 互聯(lián)規(guī)模提升 300%。依托以太互聯(lián)協(xié)議，實(shí)現(xiàn) Scale-up 南向互聯(lián)。能夠?qū)崿F(xiàn)單機(jī)柜 64 卡（和中興一樣）高密部署及互聯(lián)互通，并同時(shí)具備向 1024 卡互聯(lián)演進(jìn)的能力。

超聚變：?jiǎn)喂?128 個(gè) AI 加速卡

超聚變帶來(lái)全球首個(gè)多元智算即插即用超級(jí)集群系統(tǒng)。

實(shí)現(xiàn)全面軟硬件基礎(chǔ)設(shè)施技術(shù)和全面算力生態(tài)，能夠兼容10+加速卡，提供雙生態(tài)南北向安全異構(gòu)算力。做到單柜 240kW 的超級(jí)供電，一柜頂 32 柜；單柜128 個(gè) AI 加速卡，112G/224G 的高速互連；使用第 5 代 100% 原生液冷，能夠?qū)崿F(xiàn)節(jié)能 20% 以上。

據(jù)超聚變介紹，該方案能夠規(guī)模化部署 10 萬(wàn)+節(jié)點(diǎn)。

結(jié)語(yǔ)

超節(jié)點(diǎn)并非簡(jiǎn)單的硬件堆砌，而是面向大模型時(shí)代，在芯片性能、地緣政治與工程實(shí)踐三重約束下，必然催生的一種高效、可擴(kuò)展、標(biāo)準(zhǔn)化的算力集群架構(gòu)。

超節(jié)點(diǎn)將復(fù)雜的系統(tǒng)工程問(wèn)題在工廠(chǎng)端解決，為客戶(hù)提供了一個(gè)標(biāo)準(zhǔn)化的、樂(lè)高積木式的算力單元。對(duì)于中國(guó)而言，選擇超節(jié)點(diǎn)的道路更增添了一層戰(zhàn)略必然性。

我們已經(jīng)看到，國(guó)內(nèi) AI 企業(yè)都在前后推出自家的超節(jié)點(diǎn)產(chǎn)品和解決方案。

華為昇騰 384 超節(jié)點(diǎn)在世界級(jí)展會(huì)上亮相，并不是偶然。昇騰 384 超節(jié)點(diǎn)的出現(xiàn)，為中國(guó)企業(yè)終結(jié)了底層算力的憂(yōu)慮，也給予國(guó)產(chǎn)算力很大的信心。