華為首次線下展出昇騰384超節(jié)點(diǎn)
7月26日,2025世界人工智能大會(huì)(WAIC)在上海世博中心啟幕,華為首次線下展出昇騰384超節(jié)點(diǎn),即Atlas 900 A3 SuperPoD。具體性能上,昇騰384超節(jié)點(diǎn)單集群BF16稠密算力300PFLOPs,約為英偉達(dá)GB200 NVL72的1.7倍。
據(jù)介紹,該產(chǎn)品基于超節(jié)點(diǎn)架構(gòu),采用全對(duì)等(Peer-to-Peer)UB總線,將384顆NPU+192顆鯤鵬CPU通過無阻塞Clos架構(gòu)互聯(lián),單跳時(shí)延<200ns,帶寬392GB/s,比傳統(tǒng)RoCE提升15倍。3168根光纖+6912個(gè)400G光模塊實(shí)現(xiàn)百納秒級(jí)互聯(lián),支持2m以上長(zhǎng)距部署,突破了銅纜距離限制。
這些大帶寬低時(shí)延互聯(lián)技術(shù),解決了昇騰384超節(jié)點(diǎn)集群內(nèi)計(jì)算、存儲(chǔ)等各資源之間的通信瓶頸,通過系統(tǒng)工程的優(yōu)化,實(shí)現(xiàn)資源的高效調(diào)度 —— 能效比(MFU)從行業(yè)平均30%提升到45%以上,已用于訓(xùn)練7180億參數(shù)的盤古Ultra MoE大模型。
值得一提的是,在今年5月的鯤鵬昇騰開發(fā)者大會(huì)上,華為推出了昇騰超節(jié)點(diǎn)(CloudMatrix 384),成功實(shí)現(xiàn)業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。華為表示CloudMatrix 384超節(jié)點(diǎn)算力集群可實(shí)現(xiàn)業(yè)界最大單卡推理吞吐量2300Tokens/s,業(yè)界最大集群算力6萬卡。
據(jù)國(guó)際知名半導(dǎo)體研究和咨詢機(jī)構(gòu)SemiAnalysis披露,華為云CM384基于384顆昇騰芯片構(gòu)建,通過全互連拓?fù)浼軜?gòu)實(shí)現(xiàn)芯片間高效協(xié)同,可提供高達(dá)300PFLOPs的密集BF16算力,接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。此外,CM384在內(nèi)存容量和帶寬方面同樣占據(jù)優(yōu)勢(shì),總內(nèi)存容量超出英偉達(dá)方案3.6倍,內(nèi)存帶寬也達(dá)到2.1倍,為大規(guī)模AI訓(xùn)練和推理提供了更高效的硬件支持。華為云表示,新一代昇騰AI云服務(wù),是最適合大模型應(yīng)用的算力服務(wù)。
華為云最新推出的AI算力集群解決方案CloudMatrix 384憑借其顛覆性的系統(tǒng)架構(gòu)設(shè)計(jì)與全棧技術(shù)創(chuàng)新,在多項(xiàng)關(guān)鍵指標(biāo)上實(shí)現(xiàn)對(duì)英偉達(dá)旗艦產(chǎn)品GB200 NVL72的超越,標(biāo)志著中國(guó)在人工智能基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)里程碑式突破。SemiAnalysis還特別指出,華為的規(guī)模化解決方案“領(lǐng)先于英偉達(dá)和AMD目前市場(chǎng)上的產(chǎn)品一代”,并認(rèn)為中國(guó)在AI基礎(chǔ)設(shè)施上的突破將對(duì)全球AI產(chǎn)業(yè)格局產(chǎn)生深遠(yuǎn)影響。
評(píng)論