國產「十萬卡」集群開始落地
在人工智能飛速發(fā)展的當下,算力已然成為核心競爭力的關鍵要素。由顯卡規(guī)模撐起的算力水平,是決定大模型性能的最重要指標之一。一般認為,1 萬枚英偉達 A100 芯片,是做好 AI 大模型的算力門檻。
本文引用地址:http://www.bjwjmy.cn/article/202506/471846.htm2024 年,我國智算中心建設駛入快車道,最明顯的感受就是萬卡集群項目加速落地。萬卡集群,是指由一萬張及以上 GPU、TPU 等專用 AI 加速芯片組成的高性能計算系統(tǒng),它深度融合高性能 GPU 計算、高速網(wǎng)絡通信、大容量并行文件存儲以及智能計算平臺等前沿技術,將底層基礎設施整合成一臺超級強大的「算力巨獸」。借助這樣的集群,千億乃至萬億參數(shù)規(guī)模的大模型訓練得以高效完成,大幅縮短模型迭代周期,助力 AI 技術快速進化。
然而,隨著 AGI 的概念持續(xù)火熱,行業(yè)對算力的渴求愈發(fā)強烈,「萬卡集群」逐漸難以滿足爆發(fā)式增長的需求,算力領域的「軍備競賽」愈演愈烈。如今,十萬卡集群已成為全球頂尖大模型企業(yè)的「兵家必爭之地」,xAI、Meta、OpenAI 等國際巨頭紛紛布局,國內企業(yè)也不甘示弱,積極投身這場算力角逐。
十萬卡集群挑戰(zhàn)巨大
在全球范圍內,OpenAI、微軟、xAI 和 Meta 等頭部科技公司競相構建超 10 萬卡規(guī)模的 GPU 集群。這一宏大計劃背后,是驚人的資金投入,僅服務器成本就超過 40 億美元。此外,數(shù)據(jù)中心的空間限制、電力供應不足等問題,也如同攔路虎,阻礙著項目推進。
而在國內,建一個萬卡集群,單是 GPU 的采購成本就高達幾十億,因此國內能夠部署萬卡規(guī)模集群的,原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬卡集群,其「燒錢」程度可想而知。
除了資金成本,十萬卡集群建設還面臨著諸多技術難題。
首先是電力與散熱的極限考驗。十萬卡 H100 集群僅關鍵 IT 設備就需約 150MW 電力,遠超單個數(shù)據(jù)中心建筑的承載能力,需通過園區(qū)多建筑分布式部署實現(xiàn)電力分配,同時還要應對電壓波動與穩(wěn)定性難題。而散熱系統(tǒng)更需匹配巨量熱負荷—高密度 GPU 運行時產生的熱量若無法及時疏導,將直接導致設備宕機,高效散熱方案的能耗與維護成本也需同步優(yōu)化。GPU 是一種很敏感的硬件,連一天之內氣溫的波動,都會影響到 GPU 的故障率,而且規(guī)模越大,出故障的概率就越高。Meta 訓練 llama3 的時候,用了 1.6 萬張 GPU 卡的集群,平均每 3 小時就會出一次故障。
此外,區(qū)別于傳統(tǒng) CPU 集群的串行特點,大模型訓練過程需要全部顯卡同時參與并行計算,對網(wǎng)絡傳輸能力也提出了更大的挑戰(zhàn)。若采用胖樹拓撲實現(xiàn)全 GPU 高帶寬互聯(lián),四層交換的硬件成本將呈指數(shù)級增長,因此通常采用「計算島」模式:島內以高帶寬保障通信效率,島間則降低帶寬以控制成本。但這要求在張量并行、數(shù)據(jù)并行等不同訓練模式下,精準平衡通信任務分配,避免因拓撲設計缺陷導致帶寬瓶頸。尤其當模型規(guī)模突破萬億參數(shù)時,前端網(wǎng)絡的通信量會隨稀疏技術應用急劇增加,延遲與帶寬的優(yōu)化需精細化權衡。
最后,相比于美國同行,中國大模型企業(yè)還面臨一重特殊的困難。由于總所周知的原因,國內企業(yè)無法像馬斯克那樣全部采用英偉達方案,而是需要使用包括國產 GPU 在內的異構芯片。這也意味著,即使同樣十萬張顯卡,國內企業(yè)在算力規(guī)模上也很難同美國企業(yè)匹敵。
算力是大模型發(fā)展的核心,但算力的增長已從線性變?yōu)槠矫?。構建十萬卡集群不僅是算力的增長,還涉及技術和運營挑戰(zhàn),管理 10 萬卡集群與萬卡集群有本質區(qū)別。
國產「十萬卡」集群加速落地
「芯片問題其實沒必要擔心,用疊加和集群等方法,計算結果上與最先進水平是相當?shù)??!谷A為總裁任正非的這番表態(tài),不僅增強了社會各界對中國 AI 發(fā)展的信心,也凸顯了集群計算在 AI 研發(fā)應用中的關鍵地位。從曾經(jīng)的「萬卡集群」入場券,到如今「十萬卡集群」新目標,國內智算中心建設不斷邁向新高度。
去年 9 月,一項瞄準十萬卡超大規(guī)模算力的單體集群建設計劃——「算海計劃」二期宣布落地啟動?!杆愫S媱潯谷 负<{百川、聚沙成塔」之義,劍指籌建面向模型訓練的大規(guī)模單體集群。據(jù)介紹,「算海計劃」二期由北京并行科技股份有限公司(以下簡稱并行科技)發(fā)起,合作伙伴北京智譜華章科技有限公司、北京面壁智能科技有限責任公司、中國移動通信集團湖北有限公司武漢分公司、中國聯(lián)合網(wǎng)絡通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學信息中心、內蒙古新東吉泰科技公司參與啟動儀式。在內蒙古和林格爾,占地超 50 畝的「算海計劃」一期建設項目已于今年 5 月上線運營,該項目規(guī)劃有 4000 個 20kW 高功率智算機柜,最大可支持建設 6 萬卡規(guī)模的單體智算集群。在距離該項目不超過 100 米處,「算海計劃」二期項目已規(guī)劃上馬,二期將依托單一大集群進行統(tǒng)一管理和調度,可容納高達 10 萬卡的強大算力資源。
2024 年 7 月底,甘肅億算智能科技有限公司已在慶陽投資 3.07 億元建成了中國首個國產萬卡推理集群。而在今年 6 月,甘肅億算及其生態(tài)合作伙伴計劃出資 55 億元,建設「國產十萬卡算力集群」,提供不低于 2.5 萬 P 算力服務,預計于 2027 年 12 月 30 日前建成并投入使用。本次擬落地慶陽的十萬卡算力集群,計劃全部采用國產芯片與自主架構,深度融合慶陽能源優(yōu)勢與長三角技術勢能,構建「西部算力+東部智慧」全國聯(lián)動,打造開放算力平臺,為 AI 大模型訓練與科學計算筑牢「中國底座」。
字節(jié)跳動在智算領域的布局同樣雄心勃勃。2024 年,其資本開支達 800 億人民幣,接近 BAT 三家總和(約 1000 億人民幣)。預計 2025 年,這一數(shù)字將翻倍至 1600 億人民幣,其中 900 億用于 AI 算力采購,700 億投向數(shù)據(jù)中心基礎設施建設及配套硬件。據(jù)第三方機構測算,以 400T (FP16) AI 算力卡為標準,字節(jié)跳動當前訓練算力需求約為 26.73 萬張卡,文本推理算力需求約為 33.67 萬張卡,未來推理算力需求有望突破 230 萬張卡。
國產 AI 芯片公司,得到利好
在這股熱潮中,有能力建設十萬卡集群的國產 AI 芯片公司也將獲得利好。
在 6 月 20 日舉行的華為開發(fā)者大會 2025(HDC 2025)上,華為常務董事、華為云計算 CEO 張平安宣布,基于 CloudMatrix384 超節(jié)點的新一代昇騰 AI 云服務全面上線,為大模型應用提供澎湃算力。 通過 432 節(jié)點級聯(lián),可構建 16 萬卡超算集群,滿足十萬億參數(shù)級大模型訓練需求,突破傳統(tǒng)架構擴展極限。
華為云新一代昇騰 AI 云服務基于 CloudMatrix384 超節(jié)點,首創(chuàng)將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網(wǎng)絡 MatrixLink 全對等互聯(lián),形成一臺超級「AI 服務器」,單卡推理吞吐量躍升到 2300 Tokens/s。
超節(jié)點架構能更好地支持混合專家 MoE 大模型的推理,可以實現(xiàn)「一卡一專家」,一個超節(jié)點可以支持 384 個專家并行推理,極大提升效率。同時,超節(jié)點還可以支持「一卡一算力任務」,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升 50% 以上。同時,超節(jié)點還可以支持訓推算力一體部署,如「日推夜訓」,訓推算力可靈活分配,幫助客戶資源使用最優(yōu)。
此外,百度的百舸 4.0 通過 HPN 高性能網(wǎng)絡、自動化混訓切分策略、自研集合通信庫等一系列產品技術創(chuàng)新,已經(jīng)能夠實現(xiàn)十萬卡集群的高效管理。
騰訊去年也宣布了自研星脈高性能計算網(wǎng)絡全面升級,星脈網(wǎng)絡 2.0 搭載全自研的網(wǎng)絡設備與 AI 算力網(wǎng)卡,能夠支持超 10 萬卡大規(guī)模組網(wǎng),網(wǎng)絡通信效率比上一代提升 60%,讓大模型訓練效率提升 20%。
阿里方面同樣釋出消息,阿里云可實現(xiàn)芯片、服務器、數(shù)據(jù)中心之間的高效協(xié)同,支持 10 萬卡量級的集群可擴展規(guī)模,已服務全國一半的人工智能大模型企業(yè)。
算力互聯(lián)網(wǎng)和東數(shù)西算打通市場堵點
當前,我國智能算力供不應求的問題較為突出,大模型對算力的需求增速遠超單顆 AI 芯片性能的提升步伐。相關報告顯示,2023 年,中國智能算力需求達 123.6EFLOPS,而供給僅為 57.9EFLOPS,供需缺口一目了然。利用集群互聯(lián)彌補單卡性能短板,或是現(xiàn)階段緩解 AI 算力荒最值得探索與實踐的有效途徑。
「十萬卡集群」建成后如何充分挖掘其應用價值,使其在人工智能訓練、大數(shù)據(jù)分析等適配場景發(fā)揮最大作用,杜絕資源空置與浪費現(xiàn)象的問題亟待解決。智算中心的建設只是一個開端,更重要的是后續(xù)的有效運用。也就是說,如何打通市場堵點才是關鍵。在此背景下,為解決相關市場堵點,算力互聯(lián)網(wǎng)和東數(shù)西算被提出并受到廣泛關注。
算力互聯(lián)網(wǎng),并非一張全新的網(wǎng)絡,而是基于現(xiàn)有互聯(lián)網(wǎng),將各地分散的算力資源連接起來,借助標準化的算力標識與協(xié)議接口,跨域實現(xiàn)資源互聯(lián)網(wǎng)絡,達成全網(wǎng)異構算力的智能感知、實時發(fā)現(xiàn)與隨需獲取。簡單來說,它就是一張服務于算力流動的網(wǎng)絡,旨在進一步推動算力的互聯(lián)互通,盤活現(xiàn)有算力資源,提升使用效率,降低使用成本,為用戶帶來更優(yōu)質的體驗。5 月 17 日,中國信通院會同三大運營商聯(lián)合啟動「算力互聯(lián)網(wǎng)試驗網(wǎng)」建設,并發(fā)布《算力互聯(lián)網(wǎng)體系架構 1.0》。這一舉措旨在面向通算、智算、超算,以及云、邊、端等公共算力資源,實現(xiàn)三家運營商自有算力和全國分散社會算力的互聯(lián),讓用戶能便捷地「找、調、用」算力。未來,用戶有望像按「千瓦時」用電一樣,按「卡時」靈活購買使用算力資源,實現(xiàn)用多少買多少的便捷服務。
而東數(shù)西算工程,則是通過構建數(shù)據(jù)中心、云計算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡體系,把東部的算力需求有序引導至西部,優(yōu)化數(shù)據(jù)中心建設布局,促進東西部協(xié)同聯(lián)動。2022 年 2 月,國家在京津冀、長三角、粵港澳大灣區(qū)、成渝、內蒙古、貴州、甘肅、寧夏 8 地啟動建設國家算力樞紐節(jié)點,并規(guī)劃 10 個國家數(shù)據(jù)中心集群,標志著東數(shù)西算工程正式全面啟動。其核心目的是讓西部的算力資源更充分地支撐東部數(shù)據(jù)的運算,為數(shù)字化發(fā)展賦能。一方面,能緩解東部能源緊張問題;另一方面,為西部開辟新的發(fā)展道路。
通過算力互聯(lián)網(wǎng)和東數(shù)西算的協(xié)同推進,有望打通市場堵點,優(yōu)化算力資源配置,推動我國 AI 產業(yè)的持續(xù)健康發(fā)展。一方面,算力互聯(lián)網(wǎng)能實現(xiàn)算力資源的跨區(qū)域、跨行業(yè)流通,提升資源利用效率;另一方面,東數(shù)西算可利用西部的能源和土地資源優(yōu)勢,降低算力成本,同時緩解東部的數(shù)據(jù)中心建設壓力。二者相輔相成,共同為我國智能算力供需失衡問題提供解決方案。
如果說 2024 年是我國萬卡集群的元年,2025 年,十萬卡集群也要來了。
評論