華為將推出 CloudMatrix 384,據(jù)稱可提供 2× NVIDIA GB200 NVL72 吞吐量
據(jù)經(jīng)濟(jì)日?qǐng)?bào)報(bào)道,華為計(jì)劃于 2025 年世界人工智能大會(huì)(WAIC)首次推出其 CloudMatrix 384 系統(tǒng),該大會(huì)將于 26 日在上海開幕。正如 Tom’s Hardware 所強(qiáng)調(diào)的那樣,CloudMatrix 384 是一個(gè)機(jī)架級(jí) AI 系統(tǒng),由 384 個(gè) Ascend 910C 處理器組成,通過全光、全互連的網(wǎng)狀網(wǎng)絡(luò)互連。
盡管單個(gè) Ascend 910C 芯片的性能僅約為 NVIDIA Blackwell 的三分之一,但報(bào)告指出華為通過在每個(gè)系統(tǒng)中部署大量芯片來彌補(bǔ)這一限制。這種方法使 CloudMatrix 384 實(shí)現(xiàn)了約 300 PFLOPs 的密集 BF16 計(jì)算能力——幾乎是 NVIDIA GB200 NVL72 的兩倍,該報(bào)告強(qiáng)調(diào)后者提供約 180 PFLOPs。
Tom’s Hardware 還指出,該系統(tǒng)提供了 2.1 倍的內(nèi)存總帶寬和超過 3.6 倍的高帶寬內(nèi)存(HBM)容量,同時(shí)依賴于 HBM2E 內(nèi)存。
同時(shí),與依賴銅線互連的傳統(tǒng)系統(tǒng)不同,CloudMatrix 使用全光基礎(chǔ)設(shè)施進(jìn)行機(jī)架內(nèi)和機(jī)架間的通信,從而實(shí)現(xiàn)極高的總帶寬。CloudMatrix 384 是一款可擴(kuò)展的企業(yè)級(jí)系統(tǒng),配備容錯(cuò)功能,適合高要求的 AI 工作負(fù)載,正如 Tom’s Hardware 所指出的。
CloudMatrix 384 的效率挑戰(zhàn)
然而,它的效率較低:每 FLOP 功耗是 NVIDIA 解決方案的 2.3 倍,每 TB 內(nèi)存帶寬效率是 1.8 倍,每 TB HBM 內(nèi)存效率是 1.1 倍,正如 Tom’s Hardware 所述。盡管如此,Tom’s Hardware 指出,在中國(guó),能源豐富但先進(jìn)硅片獲取有限,華為的人工智能戰(zhàn)略似乎與當(dāng)?shù)貤l件非常契合。
正如 Igor’s Lab 引用 Financial Times 所指出的,CloudMatrix 384 的單價(jià)為 800 萬美元。其高昂的價(jià)格和巨大的功耗需求使得中小企業(yè)難以負(fù)擔(dān)。因此,該系統(tǒng)預(yù)計(jì)將主要作為大型企業(yè)的優(yōu)質(zhì)解決方案。報(bào)告還稱,據(jù)報(bào)道已有十家中國(guó)主要企業(yè)采用了該系統(tǒng),并將其集成到現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設(shè)施中。
評(píng)論