未來的危機:人工智能數(shù)據(jù)中心的功耗
人工智能數(shù)據(jù)中心的能源消耗速度大約是電網(wǎng)新增電力速度的四倍,這為發(fā)電地點、人工智能數(shù)據(jù)中心的建設(shè)地點以及更高效的系統(tǒng)、芯片和軟件架構(gòu)的根本轉(zhuǎn)變奠定了基礎(chǔ)。
對于美國和中國來說,這些數(shù)字尤其引人注目,它們正在競相擴大人工智能數(shù)據(jù)中心。美國能源部委托編寫的一份 2024 年報告顯示,去年,美國數(shù)據(jù)中心消耗了約 4.4% 的總發(fā)電量,約合 176 太瓦時。預(yù)計到 2028 年,這一數(shù)字將增加到 325 至 580 太瓦時,分別占美國所有發(fā)電量的 6.7% 至 12%。
圖 1:2014 年至 2028 年總發(fā)電量與服務(wù)器存儲、網(wǎng)絡(luò)設(shè)備和基礎(chǔ)設(shè)施消耗量(估計)。資料來源:勞倫斯伯克利國家實驗室報告[1]
與此同時,中國預(yù)計到明年將達到 400 太瓦時,雖然這些數(shù)字看起來與美國的消費量相當(dāng),但國際能源署指出[2],中國公民的能源消耗量明顯低于美國公民。在全球范圍內(nèi),消費率每年增長 30%,這主要是由于人工智能,美國和中國約占其中 80%。
圖 2:用電的位置。資料來源:國際能源署
“電源不再是開玩笑了,”西門子 EDA 副總裁兼硬件輔助驗證總經(jīng)理 Jean-Marie Brunet 說?!跋胂笠幌拢绻?2028 年數(shù)據(jù)中心的功耗占美國整個功耗的 12%。這太瘋狂了。我們必須重做整個電網(wǎng)。
其他人也同意?!鞍l(fā)電將是一件大事,”NVIDIA 總裁兼首席執(zhí)行官黃仁勛在最近與 Cadence 首席執(zhí)行官 Anirudh Devgan 的 CDNLive 討論中指出。“原因是電網(wǎng)不足以維持這個行業(yè)的增長。我們想在岸上建立這個行業(yè),如果你想這樣做,那么我們將看到很多柴油發(fā)電機和各種東西。
那么我們能做些什么呢?有四個主要目標(biāo)領(lǐng)域,每個領(lǐng)域都直接涉及半導(dǎo)體行業(yè):
減少傳輸距離和降壓電壓數(shù)量;
盡可能限制數(shù)據(jù)移動;
更高效的處理,以及
在靠近加工元件或包裝內(nèi)部時冷卻效果更好。
距離和降壓損耗與數(shù)據(jù)
一樣,移動電力也存在成本。根據(jù)美國能源信息署的數(shù)據(jù),在輸配電過程中平均損失 5% 的電力。違反直覺的是,長達數(shù)百英里的高壓線路的損耗(約 2%)低于運行較短距離的低壓線路(約 4%)。這些數(shù)字也會因來源而復(fù)合,因為不同的來源具有不同的轉(zhuǎn)化率(見下圖 3)。
圖 3:以千萬億 BTU 為單位的美國電流。來源:美國能源信息署,2025 年 4 月
“理想情況下,您將電壓保持在盡可能高的位置,這意味著電流盡可能低,”Saras Micro Devices 首席商務(wù)官 Eelco Bergman 說?!皳p失是當(dāng)前乘以阻力的平方。所以你全程都在失去動力。無論高壓電線是什么,你都要不斷降低它。這可能是 400 伏電壓進入數(shù)據(jù)中心,然后轉(zhuǎn)換為機架的 48 伏電壓,然后最終降至 12 伏到負(fù)載點。但是,在每一步,您都希望在數(shù)據(jù)中心旁邊發(fā)電,以縮短距離并保持盡可能高的電壓,并使電壓更靠近您的端點。“
這里的權(quán)衡是電壓與電流。電流越高,熱量越大。沒有什么是 100% 高效的,因此當(dāng)電源靠近封裝時,會產(chǎn)生一些熱量。反過來,封裝內(nèi)部發(fā)生的一切(包括處理數(shù)據(jù)、在內(nèi)存中來回移動數(shù)據(jù)以及互連中的電阻/電容)使情況變得更加復(fù)雜。最重要的是,人工智能數(shù)據(jù)中心需要處理更多的數(shù)據(jù),因此這些工作負(fù)載需要更高的利用率,這使得跟上需要散發(fā)的熱量變得更加困難。
因此,從高壓線到低壓線,再到 PCB、封裝,最后是單個芯片,Bergman 說,在此過程中的每一步都會斷電?!澳闳绾慰s短距離?我可以盡可能接近多少電壓?效率如何?我能散熱嗎?這些都是行業(yè)正在關(guān)注的事情。
芯片產(chǎn)業(yè)在這里可以發(fā)揮很大的作用?!坝捎诂F(xiàn)有基礎(chǔ)設(shè)施的原因,我們有太多的中間電壓水平,”弗勞恩霍夫 IIS 自適應(yīng)系統(tǒng)工程部高效電子部門負(fù)責(zé)人 Andy Heinig 說?!爱?dāng)然,我們可以在這里節(jié)省大量能源。我們還看到處理器和電源穩(wěn)壓器需要協(xié)同工作。目前,電源調(diào)節(jié)器并不智能。它們只遵循來自處理器的電流。但處理器知道他們在下一個周期中必須做什么,他們可以通知電源轉(zhuǎn)換器巨大的跳躍即將到來或某些東西被關(guān)閉。因此,在某些方面,我們可以共同優(yōu)化處理器和穩(wěn)壓器,減少中間電壓電平的數(shù)量會有所幫助。
移動數(shù)據(jù)
另一個挑戰(zhàn)是構(gòu)建系統(tǒng),以便在更靠近源的位置處理數(shù)據(jù)。這減少了需要移動的數(shù)據(jù)量。但除此之外,數(shù)據(jù)必須傳輸?shù)木嚯x也需要縮短。這是 3D-IC 封裝背后的關(guān)鍵驅(qū)動力之一。組件可以戰(zhàn)略性地垂直放置以縮短這些距離,而不是在 SoC 上布線。這提高了性能,以及驅(qū)動信號所需的功率。
“目前我們客戶面臨的最大挑戰(zhàn)之一是設(shè)計中的線材長度,”Arteris 產(chǎn)品管理和營銷副總裁 Andy Nightingale 說?!岸嘈酒且豁梿为毜奶魬?zhàn),但在每個單片芯片上,在進入多芯片之前,縮短導(dǎo)線長度對于電源至關(guān)重要。我們關(guān)注的一個方面是擁堵。我們在設(shè)計分析中也有熱圖,用于查看擁塞,因為這是許多電線在交換機上相遇的關(guān)鍵點。我們也在平面圖內(nèi)工作,我們將物理設(shè)計可視化,這樣我們就可以將交換機移出擁塞點,同時仍然在平面圖內(nèi)工作,以減少一個區(qū)域的散熱和電力擁塞。
這也需要轉(zhuǎn)變思維方式,因為在人工智能數(shù)據(jù)中心中,功率仍然讓位于性能。但如果沒有更多的電力可用,或者電價飛漲,那么人工智能公司將別無選擇,只能認(rèn)真對待電力。
“如今,人工智能設(shè)計的重點仍然是性能,這意味著雖然功耗真的非常重要,但它仍然是從這些芯片中獲得最佳速度和性能的次要問題,”Ansys(現(xiàn)為新思科技的一部分)產(chǎn)品營銷總監(jiān)Marc Swinnen說?!翱偸谴嬖诠β?性能權(quán)衡,這是根本。所以如果你真的想降低功率,你就必須降低性能。遵循摩爾定律會有所幫助。這降低了功率。另一件事是,大部分功能都在 GPU 和不同元件之間的通信中,甚至是數(shù)據(jù)中心的背板。NVIDIA 推出了共同封裝的光學(xué)網(wǎng)絡(luò),只是為了降低機架內(nèi)和機架之間的通信功率。
解決這些問題需要整個芯片行業(yè)的變革?!八鼜男酒_始,如果芯片非常耗電,而你想構(gòu)建一個法學(xué)碩士,那么你必須訓(xùn)練這個東西,”西門子的布魯內(nèi)特說?!澳阃ㄟ^添加多個函數(shù)和擴展來訓(xùn)練它。但是,如果把事情加起來,從一個非常耗電的元件開始,那么整個系統(tǒng)就會非常耗電。您還有一個數(shù)字孿生,您還需要大量的能力來計算該數(shù)字孿生。但這不僅僅是 EDA 行業(yè)的問題。這是全世界的問題。
更高效的加工
好消息是,有一些明顯的唾手可得的成果?!皟H僅因為缺乏知名度,就要征收 20% 的電稅,”Movellus 總裁兼首席執(zhí)行官 Mo Faisal 說?!袄?,假設(shè)您設(shè)計了一個 2 GHz 時功率為 500 瓦的芯片。當(dāng)您完成系統(tǒng)級測試并準(zhǔn)備好進行部署時,您會發(fā)現(xiàn)所有這些電力系統(tǒng)都是根據(jù)不同的目標(biāo)構(gòu)建的。所以現(xiàn)在,如果你想保持在 500 瓦以內(nèi),你必須將頻率降低 10% 到 20%。它基本上是一個節(jié)流閥。而對于 chiplets,情況只會變得更糟,因為現(xiàn)在你有同樣的東西,但你把它乘以你正在處理的小芯片的數(shù)量。每個小芯片可能具有不同的工藝角,或者它可能位于不同的工藝中。
這是圖片的一部分。“通過安裝從芯片到系統(tǒng)一直到數(shù)據(jù)中心的更多可見性,可以額外獲得 20% 到 30% 的收益,”Faisal 說?!岸疫@兩者都是復(fù)合的,所以它不是非此即彼的。原因是芯片設(shè)計者擔(dān)心風(fēng)險?!昂伲铱刹幌胱屝酒霈F(xiàn)故障。因此,他們將通過冗余來超額計算。但在部署中,當(dāng)您設(shè)計數(shù)據(jù)中心時,您并沒有為最大工作負(fù)載而設(shè)計它。您正在針對峰值工作負(fù)載進行設(shè)計。原因是工作負(fù)載和軟件的變化速度比芯片快得多。不可能用你在現(xiàn)場看到的所有工作負(fù)載組合來測試芯片,因為工作負(fù)載、模型、轉(zhuǎn)換器和代理都在變化得太快了。所以你必須把它留出邊距。與您在最大負(fù)載中看到的容量相比,數(shù)據(jù)中心容量超額預(yù)置了 30%。
了解半導(dǎo)體的使用方式對于這個方程式也至關(guān)重要。在最壞的極端情況下,僅添加冗余和保護帶即可增加通過額外電路驅(qū)動信號所需的功率,以及由于導(dǎo)線中的電阻/電容而需要消散的熱量。
摩爾定律在這里也起著作用。雖然每個新工藝節(jié)點的處理器性能改進都在減少,但功耗的改進預(yù)計將大幅增加 — 高達 30%,具體取決于工藝和代工廠。與任何新流程一樣,這些數(shù)字可能會因架構(gòu)和工作負(fù)載的不同而有很大差異。
冷卻
經(jīng)驗法則是數(shù)據(jù)中心支付兩次電費。第一次是為服務(wù)器和存儲的機架供電。第二次是冷卻它們,這樣它們就不會過熱,這正在成為一個更大的問題,因為動態(tài)電流密度隨著人工智能服務(wù)器的利用率而增加。訓(xùn)練大型(甚至小型)語言模型以及支持生成式和代理式 AI 搜索需要更多的處理。這反過來又增加了各種計算元素的利用率,因此它們在更長的時間內(nèi)以全孔運行。
“冷卻的功率開銷約為 30% 到 40%,在沒有冷卻器的情況下進行液體冷卻,您可以將其減少一半,”Saras Bergman 說?!暗牵绻闾砑永鋮s器,它就會立即回升。這里有一個優(yōu)化游戲需要玩。
這個方程式中的樞軸點是水的可用性。封閉系統(tǒng)中的自來水需要冷卻。使用當(dāng)?shù)毓┧畡t不會。但根據(jù)環(huán)境與能源研究所的數(shù)據(jù),一個大型數(shù)據(jù)中心每天可以消耗多達 500 萬加侖的水,這大約是一個擁有 10,000 到 50,000 人的城鎮(zhèn)的消耗量。
兩種選擇是單個芯片的直接冷卻和浸入式冷卻。直接冷卻可能涉及微流體通道,這是 IBM 在 1980 年代首次提出的一個想法,后來因為太難而放棄了。但隨著熱密度的增加,芯片制造商可能別無選擇,只能使用某種類型的微流體。盡管如此,實施這種方法會增加結(jié)構(gòu)和制造方面的挑戰(zhàn)。這個想法很好理解,因為水冷已經(jīng)使用了半個多世紀(jì)。但是,在更靠近晶體管的封裝或芯片中實現(xiàn)它仍然是一個挑戰(zhàn)。
“如果你正在研究冷卻技術(shù),就會有傳熱效率,這往往是從熱阻的角度來看的,以及一般意義上的結(jié)到流體的溫度,”英特爾高級首席工程師兼公司熱核心能力小組負(fù)責(zé)人 Rajiv Mongia 解釋道。“但如果你想從熱力學(xué)的角度來看待它,它不是結(jié)到流體的入口溫度。這是結(jié)到流體的出口溫度?;旧希?dāng)您離開封裝或封裝區(qū)域時,流體溫度越高,從傳熱的角度來看,下游的所有東西就越容易進行管理。這會影響冷卻設(shè)備、冷水機組和所有這些東西的整體效率。
這是堆疊模具的一個關(guān)鍵考慮因素?!爱?dāng)我們使用 3D-IC 時,您可能需要在結(jié)構(gòu)本身內(nèi)獲得流體,例如芯片背面的硅微通道,”Mongia 說?!斑@是一個收益與復(fù)雜性的比率。你可以用這種放在背面的盤子來冷卻它。但是,一旦您在 3D 堆棧中進行了足夠的體積加熱(想象某種立方體),您就無法再通過硅的一側(cè)將熱量傳導(dǎo)出來。你必須以某種方式從硅內(nèi)部吸收熱量。歸根結(jié)底,將需要一些奇特的機制,因為你在該體積的硅內(nèi)產(chǎn)生如此多的功率,而不僅僅是在一個表面上。
相比之下,浸入式冷卻涉及將整個服務(wù)器放入惰性液體中。這里的挑戰(zhàn)與微流體相同。熱量需要從機架內(nèi)部吸出,將封裝內(nèi)部的熱負(fù)荷散發(fā)到外部冷卻槽比聽起來更復(fù)雜。它需要了解封裝中元件的放置位置、潛在的熱界面材料以及從數(shù)字邏輯到封裝外部的熱通道。
這兩種方法也可以一起使用來大幅降低熱量,從而實現(xiàn)均勻的晶體管密度和更大的電力需求。
資金和資源
芯片行業(yè)不會失去這些。為了至少像今天一樣向前發(fā)展并繼續(xù)增長,需要解決兩個相關(guān)問題 — 可持續(xù)性和成本。這些最終將決定 AI 數(shù)據(jù)中心的部署速度、它們可以處理的處理量,以及從傳輸角度和芯片/系統(tǒng)/封裝設(shè)計角度來看需要做出哪些改變。
“可持續(xù)發(fā)展一直成為等式的一部分,因為幾十年來,企業(yè)一直面臨著更好地利用我們的自然資源的壓力,”西門子數(shù)字工業(yè)軟件首席執(zhí)行官邁克·埃洛 (Mike Ellow) 說。“這就是我們的前進方向,以半導(dǎo)體為支柱,將幫助許多行業(yè)。如果您看看數(shù)據(jù)中心的功耗,我們就會發(fā)現(xiàn)我們的發(fā)展方向是不可持續(xù)的。對我們來說,挑戰(zhàn)是如何將四倍、五倍或六倍的計算能力放入該數(shù)據(jù)中心已經(jīng)存在的相同功率配置文件中。
商業(yè)基礎(chǔ)知識也參與了這幅圖景?!皻w根結(jié)底,這是總擁有成本,”英特爾的 Mongia 說。“無論是你正在創(chuàng)建的大型語言模型還是你試圖生成的推理,都要付出資本成本和運營成本。熱能與資本成本和運營成本有關(guān)。那么平衡是什么呢?投資回報率是多少?升級到液體冷卻解決方案需要多少成本,因為從歷史上看,這些解決方案比空氣冷卻更昂貴。所有這些人工智能數(shù)據(jù)中心或人工智能解決方案主要是液冷的。為了讓我們構(gòu)建它,您需要從您的軟件包中獲得更多收益,這意味著在生成語言模型時獲得更多的推理或更高的性能,從而隨著時間的推移降低運營成本。
結(jié)論
為了正確看待這一點,請考慮內(nèi)華達州的胡佛水壩每年產(chǎn)生約 4 TWh;亞利桑那州帕洛維德核電站年發(fā)電量為32太瓦時,中國三峽大壩預(yù)計年發(fā)電量為90太瓦時。但在 2028 年至 2030 年間,考慮到目前的增長率,人工智能數(shù)據(jù)中心的電力需求將增加 350 太瓦時,幾乎是所有這些發(fā)電設(shè)施總和的三倍。[2]
任何單一的改變都不會縮小這種差距。半導(dǎo)體行業(yè)要想繼續(xù)以目前的速度增長,就需要從電網(wǎng)開始,從芯片開始發(fā)生變化。即便如此,目前尚不清楚這是否真的會縮小差距,或者是否只會讓 AI 數(shù)據(jù)中心變得更大。
評論