新聞中心

EEPW首頁(yè) > 網(wǎng)絡(luò)與存儲(chǔ) > 設(shè)計(jì)應(yīng)用 > 未來(lái)的危機(jī)：人工智能數(shù)據(jù)中心的功耗

未來(lái)的危機(jī)：人工智能數(shù)據(jù)中心的功耗

—— 芯片可以幫助管理人工智能貪得無(wú)厭的功耗的四個(gè)關(guān)鍵領(lǐng)域。

作者：時(shí)間：2025-07-22 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

人工智能數(shù)據(jù)中心的能源消耗速度大約是電網(wǎng)新增電力速度的四倍，這為發(fā)電地點(diǎn)、人工智能數(shù)據(jù)中心的建設(shè)地點(diǎn)以及更高效的系統(tǒng)、芯片和軟件架構(gòu)的根本轉(zhuǎn)變奠定了基礎(chǔ)。

對(duì)于美國(guó)和中國(guó)來(lái)說(shuō)，這些數(shù)字尤其引人注目，它們正在競(jìng)相擴(kuò)大人工智能數(shù)據(jù)中心。美國(guó)能源部委托編寫的一份 2024 年報(bào)告顯示，去年，美國(guó)數(shù)據(jù)中心消耗了約 4.4% 的總發(fā)電量，約合 176 太瓦時(shí)。預(yù)計(jì)到 2028 年，這一數(shù)字將增加到 325 至 580 太瓦時(shí)，分別占美國(guó)所有發(fā)電量的 6.7% 至 12%。

圖 1：2014 年至 2028 年總發(fā)電量與服務(wù)器存儲(chǔ)、網(wǎng)絡(luò)設(shè)備和基礎(chǔ)設(shè)施消耗量（估計(jì)）。資料來(lái)源：勞倫斯伯克利國(guó)家實(shí)驗(yàn)室報(bào)告[1]

與此同時(shí)，中國(guó)預(yù)計(jì)到明年將達(dá)到 400 太瓦時(shí)，雖然這些數(shù)字看起來(lái)與美國(guó)的消費(fèi)量相當(dāng)，但國(guó)際能源署指出[2]，中國(guó)公民的能源消耗量明顯低于美國(guó)公民。在全球范圍內(nèi)，消費(fèi)率每年增長(zhǎng) 30%，這主要是由于人工智能，美國(guó)和中國(guó)約占其中 80%。

圖 2：用電的位置。資料來(lái)源：國(guó)際能源署

“電源不再是開玩笑了，”西門子 EDA 副總裁兼硬件輔助驗(yàn)證總經(jīng)理 Jean-Marie Brunet 說(shuō)?！跋胂笠幌拢绻?2028 年數(shù)據(jù)中心的功耗占美國(guó)整個(gè)功耗的 12%。這太瘋狂了。我們必須重做整個(gè)電網(wǎng)。

其他人也同意。“發(fā)電將是一件大事，”NVIDIA 總裁兼首席執(zhí)行官黃仁勛在最近與 Cadence 首席執(zhí)行官 Anirudh Devgan 的 CDNLive 討論中指出?！霸蚴请娋W(wǎng)不足以維持這個(gè)行業(yè)的增長(zhǎng)。我們想在岸上建立這個(gè)行業(yè)，如果你想這樣做，那么我們將看到很多柴油發(fā)電機(jī)和各種東西。

那么我們能做些什么呢？有四個(gè)主要目標(biāo)領(lǐng)域，每個(gè)領(lǐng)域都直接涉及半導(dǎo)體行業(yè)：

減少傳輸距離和降壓電壓數(shù)量;
盡可能限制數(shù)據(jù)移動(dòng);
更高效的處理，以及
在靠近加工元件或包裝內(nèi)部時(shí)冷卻效果更好。

距離和降壓損耗與數(shù)據(jù)
一樣，移動(dòng)電力也存在成本。根據(jù)美國(guó)能源信息署的數(shù)據(jù)，在輸配電過(guò)程中平均損失 5% 的電力。違反直覺(jué)的是，長(zhǎng)達(dá)數(shù)百英里的高壓線路的損耗（約 2%）低于運(yùn)行較短距離的低壓線路（約 4%）。這些數(shù)字也會(huì)因來(lái)源而復(fù)合，因?yàn)椴煌膩?lái)源具有不同的轉(zhuǎn)化率（見(jiàn)下圖 3）。

圖 3：以千萬(wàn)億 BTU 為單位的美國(guó)電流。來(lái)源：美國(guó)能源信息署，2025 年 4 月

“理想情況下，您將電壓保持在盡可能高的位置，這意味著電流盡可能低，”Saras Micro Devices 首席商務(wù)官 Eelco Bergman 說(shuō)?！皳p失是當(dāng)前乘以阻力的平方。所以你全程都在失去動(dòng)力。無(wú)論高壓電線是什么，你都要不斷降低它。這可能是 400 伏電壓進(jìn)入數(shù)據(jù)中心，然后轉(zhuǎn)換為機(jī)架的 48 伏電壓，然后最終降至 12 伏到負(fù)載點(diǎn)。但是，在每一步，您都希望在數(shù)據(jù)中心旁邊發(fā)電，以縮短距離并保持盡可能高的電壓，并使電壓更靠近您的端點(diǎn)?！?/p>

這里的權(quán)衡是電壓與電流。電流越高，熱量越大。沒(méi)有什么是 100% 高效的，因此當(dāng)電源靠近封裝時(shí)，會(huì)產(chǎn)生一些熱量。反過(guò)來(lái)，封裝內(nèi)部發(fā)生的一切（包括處理數(shù)據(jù)、在內(nèi)存中來(lái)回移動(dòng)數(shù)據(jù)以及互連中的電阻/電容）使情況變得更加復(fù)雜。最重要的是，人工智能數(shù)據(jù)中心需要處理更多的數(shù)據(jù)，因此這些工作負(fù)載需要更高的利用率，這使得跟上需要散發(fā)的熱量變得更加困難。

因此，從高壓線到低壓線，再到 PCB、封裝，最后是單個(gè)芯片，Bergman 說(shuō)，在此過(guò)程中的每一步都會(huì)斷電?！澳闳绾慰s短距離？我可以盡可能接近多少電壓？效率如何？我能散熱嗎？這些都是行業(yè)正在關(guān)注的事情。

芯片產(chǎn)業(yè)在這里可以發(fā)揮很大的作用?！坝捎诂F(xiàn)有基礎(chǔ)設(shè)施的原因，我們有太多的中間電壓水平，”弗勞恩霍夫 IIS 自適應(yīng)系統(tǒng)工程部高效電子部門負(fù)責(zé)人 Andy Heinig 說(shuō)。“當(dāng)然，我們可以在這里節(jié)省大量能源。我們還看到處理器和電源穩(wěn)壓器需要協(xié)同工作。目前，電源調(diào)節(jié)器并不智能。它們只遵循來(lái)自處理器的電流。但處理器知道他們?cè)谙乱粋€(gè)周期中必須做什么，他們可以通知電源轉(zhuǎn)換器巨大的跳躍即將到來(lái)或某些東西被關(guān)閉。因此，在某些方面，我們可以共同優(yōu)化處理器和穩(wěn)壓器，減少中間電壓電平的數(shù)量會(huì)有所幫助。

移動(dòng)數(shù)據(jù)
另一個(gè)挑戰(zhàn)是構(gòu)建系統(tǒng)，以便在更靠近源的位置處理數(shù)據(jù)。這減少了需要移動(dòng)的數(shù)據(jù)量。但除此之外，數(shù)據(jù)必須傳輸?shù)木嚯x也需要縮短。這是 3D-IC 封裝背后的關(guān)鍵驅(qū)動(dòng)力之一。組件可以戰(zhàn)略性地垂直放置以縮短這些距離，而不是在 SoC 上布線。這提高了性能，以及驅(qū)動(dòng)信號(hào)所需的功率。

“目前我們客戶面臨的最大挑戰(zhàn)之一是設(shè)計(jì)中的線材長(zhǎng)度，”Arteris 產(chǎn)品管理和營(yíng)銷副總裁 Andy Nightingale 說(shuō)。“多芯片是一項(xiàng)單獨(dú)的挑戰(zhàn)，但在每個(gè)單片芯片上，在進(jìn)入多芯片之前，縮短導(dǎo)線長(zhǎng)度對(duì)于電源至關(guān)重要。我們關(guān)注的一個(gè)方面是擁堵。我們?cè)谠O(shè)計(jì)分析中也有熱圖，用于查看擁塞，因?yàn)檫@是許多電線在交換機(jī)上相遇的關(guān)鍵點(diǎn)。我們也在平面圖內(nèi)工作，我們將物理設(shè)計(jì)可視化，這樣我們就可以將交換機(jī)移出擁塞點(diǎn)，同時(shí)仍然在平面圖內(nèi)工作，以減少一個(gè)區(qū)域的散熱和電力擁塞。

這也需要轉(zhuǎn)變思維方式，因?yàn)樵谌斯ぶ悄軘?shù)據(jù)中心中，功率仍然讓位于性能。但如果沒(méi)有更多的電力可用，或者電價(jià)飛漲，那么人工智能公司將別無(wú)選擇，只能認(rèn)真對(duì)待電力。

“如今，人工智能設(shè)計(jì)的重點(diǎn)仍然是性能，這意味著雖然功耗真的非常重要，但它仍然是從這些芯片中獲得最佳速度和性能的次要問(wèn)題，”Ansys（現(xiàn)為新思科技的一部分）產(chǎn)品營(yíng)銷總監(jiān)Marc Swinnen說(shuō)?！翱偸谴嬖诠β?性能權(quán)衡，這是根本。所以如果你真的想降低功率，你就必須降低性能。遵循摩爾定律會(huì)有所幫助。這降低了功率。另一件事是，大部分功能都在 GPU 和不同元件之間的通信中，甚至是數(shù)據(jù)中心的背板。NVIDIA 推出了共同封裝的光學(xué)網(wǎng)絡(luò)，只是為了降低機(jī)架內(nèi)和機(jī)架之間的通信功率。

解決這些問(wèn)題需要整個(gè)芯片行業(yè)的變革?！八鼜男酒_始，如果芯片非常耗電，而你想構(gòu)建一個(gè)法學(xué)碩士，那么你必須訓(xùn)練這個(gè)東西，”西門子的布魯內(nèi)特說(shuō)?！澳阃ㄟ^(guò)添加多個(gè)函數(shù)和擴(kuò)展來(lái)訓(xùn)練它。但是，如果把事情加起來(lái)，從一個(gè)非常耗電的元件開始，那么整個(gè)系統(tǒng)就會(huì)非常耗電。您還有一個(gè)數(shù)字孿生，您還需要大量的能力來(lái)計(jì)算該數(shù)字孿生。但這不僅僅是 EDA 行業(yè)的問(wèn)題。這是全世界的問(wèn)題。

更高效的加工
好消息是，有一些明顯的唾手可得的成果?！皟H僅因?yàn)槿狈χ?，就要征?20% 的電稅，”Movellus 總裁兼首席執(zhí)行官 Mo Faisal 說(shuō)?！袄纾僭O(shè)您設(shè)計(jì)了一個(gè) 2 GHz 時(shí)功率為 500 瓦的芯片。當(dāng)您完成系統(tǒng)級(jí)測(cè)試并準(zhǔn)備好進(jìn)行部署時(shí)，您會(huì)發(fā)現(xiàn)所有這些電力系統(tǒng)都是根據(jù)不同的目標(biāo)構(gòu)建的。所以現(xiàn)在，如果你想保持在 500 瓦以內(nèi)，你必須將頻率降低 10% 到 20%。它基本上是一個(gè)節(jié)流閥。而對(duì)于 chiplets，情況只會(huì)變得更糟，因?yàn)楝F(xiàn)在你有同樣的東西，但你把它乘以你正在處理的小芯片的數(shù)量。每個(gè)小芯片可能具有不同的工藝角，或者它可能位于不同的工藝中。

這是圖片的一部分?！巴ㄟ^(guò)安裝從芯片到系統(tǒng)一直到數(shù)據(jù)中心的更多可見(jiàn)性，可以額外獲得 20% 到 30% 的收益，”Faisal 說(shuō)。“而且這兩者都是復(fù)合的，所以它不是非此即彼的。原因是芯片設(shè)計(jì)者擔(dān)心風(fēng)險(xiǎn)?！昂?，我可不想讓芯片出現(xiàn)故障。因此，他們將通過(guò)冗余來(lái)超額計(jì)算。但在部署中，當(dāng)您設(shè)計(jì)數(shù)據(jù)中心時(shí)，您并沒(méi)有為最大工作負(fù)載而設(shè)計(jì)它。您正在針對(duì)峰值工作負(fù)載進(jìn)行設(shè)計(jì)。原因是工作負(fù)載和軟件的變化速度比芯片快得多。不可能用你在現(xiàn)場(chǎng)看到的所有工作負(fù)載組合來(lái)測(cè)試芯片，因?yàn)楣ぷ髫?fù)載、模型、轉(zhuǎn)換器和代理都在變化得太快了。所以你必須把它留出邊距。與您在最大負(fù)載中看到的容量相比，數(shù)據(jù)中心容量超額預(yù)置了 30%。

了解半導(dǎo)體的使用方式對(duì)于這個(gè)方程式也至關(guān)重要。在最壞的極端情況下，僅添加冗余和保護(hù)帶即可增加通過(guò)額外電路驅(qū)動(dòng)信號(hào)所需的功率，以及由于導(dǎo)線中的電阻/電容而需要消散的熱量。

摩爾定律在這里也起著作用。雖然每個(gè)新工藝節(jié)點(diǎn)的處理器性能改進(jìn)都在減少，但功耗的改進(jìn)預(yù)計(jì)將大幅增加 — 高達(dá) 30%，具體取決于工藝和代工廠。與任何新流程一樣，這些數(shù)字可能會(huì)因架構(gòu)和工作負(fù)載的不同而有很大差異。

冷卻
經(jīng)驗(yàn)法則是數(shù)據(jù)中心支付兩次電費(fèi)。第一次是為服務(wù)器和存儲(chǔ)的機(jī)架供電。第二次是冷卻它們，這樣它們就不會(huì)過(guò)熱，這正在成為一個(gè)更大的問(wèn)題，因?yàn)閯?dòng)態(tài)電流密度隨著人工智能服務(wù)器的利用率而增加。訓(xùn)練大型（甚至小型）語(yǔ)言模型以及支持生成式和代理式 AI 搜索需要更多的處理。這反過(guò)來(lái)又增加了各種計(jì)算元素的利用率，因此它們?cè)诟L(zhǎng)的時(shí)間內(nèi)以全孔運(yùn)行。

“冷卻的功率開銷約為 30% 到 40%，在沒(méi)有冷卻器的情況下進(jìn)行液體冷卻，您可以將其減少一半，”Saras Bergman 說(shuō)。“但是，如果你添加冷卻器，它就會(huì)立即回升。這里有一個(gè)優(yōu)化游戲需要玩。

這個(gè)方程式中的樞軸點(diǎn)是水的可用性。封閉系統(tǒng)中的自來(lái)水需要冷卻。使用當(dāng)?shù)毓┧畡t不會(huì)。但根據(jù)環(huán)境與能源研究所的數(shù)據(jù)，一個(gè)大型數(shù)據(jù)中心每天可以消耗多達(dá) 500 萬(wàn)加侖的水，這大約是一個(gè)擁有 10,000 到 50,000 人的城鎮(zhèn)的消耗量。

兩種選擇是單個(gè)芯片的直接冷卻和浸入式冷卻。直接冷卻可能涉及微流體通道，這是 IBM 在 1980 年代首次提出的一個(gè)想法，后來(lái)因?yàn)樘y而放棄了。但隨著熱密度的增加，芯片制造商可能別無(wú)選擇，只能使用某種類型的微流體。盡管如此，實(shí)施這種方法會(huì)增加結(jié)構(gòu)和制造方面的挑戰(zhàn)。這個(gè)想法很好理解，因?yàn)樗湟呀?jīng)使用了半個(gè)多世紀(jì)。但是，在更靠近晶體管的封裝或芯片中實(shí)現(xiàn)它仍然是一個(gè)挑戰(zhàn)。

“如果你正在研究冷卻技術(shù)，就會(huì)有傳熱效率，這往往是從熱阻的角度來(lái)看的，以及一般意義上的結(jié)到流體的溫度，”英特爾高級(jí)首席工程師兼公司熱核心能力小組負(fù)責(zé)人 Rajiv Mongia 解釋道?！暗绻阆霃臒崃W(xué)的角度來(lái)看待它，它不是結(jié)到流體的入口溫度。這是結(jié)到流體的出口溫度?；旧?，當(dāng)您離開封裝或封裝區(qū)域時(shí)，流體溫度越高，從傳熱的角度來(lái)看，下游的所有東西就越容易進(jìn)行管理。這會(huì)影響冷卻設(shè)備、冷水機(jī)組和所有這些東西的整體效率。

這是堆疊模具的一個(gè)關(guān)鍵考慮因素?！爱?dāng)我們使用 3D-IC 時(shí)，您可能需要在結(jié)構(gòu)本身內(nèi)獲得流體，例如芯片背面的硅微通道，”Mongia 說(shuō)?！斑@是一個(gè)收益與復(fù)雜性的比率。你可以用這種放在背面的盤子來(lái)冷卻它。但是，一旦您在 3D 堆棧中進(jìn)行了足夠的體積加熱（想象某種立方體），您就無(wú)法再通過(guò)硅的一側(cè)將熱量傳導(dǎo)出來(lái)。你必須以某種方式從硅內(nèi)部吸收熱量。歸根結(jié)底，將需要一些奇特的機(jī)制，因?yàn)槟阍谠擉w積的硅內(nèi)產(chǎn)生如此多的功率，而不僅僅是在一個(gè)表面上。

相比之下，浸入式冷卻涉及將整個(gè)服務(wù)器放入惰性液體中。這里的挑戰(zhàn)與微流體相同。熱量需要從機(jī)架內(nèi)部吸出，將封裝內(nèi)部的熱負(fù)荷散發(fā)到外部冷卻槽比聽(tīng)起來(lái)更復(fù)雜。它需要了解封裝中元件的放置位置、潛在的熱界面材料以及從數(shù)字邏輯到封裝外部的熱通道。

這兩種方法也可以一起使用來(lái)大幅降低熱量，從而實(shí)現(xiàn)均勻的晶體管密度和更大的電力需求。

資金和資源
芯片行業(yè)不會(huì)失去這些。為了至少像今天一樣向前發(fā)展并繼續(xù)增長(zhǎng)，需要解決兩個(gè)相關(guān)問(wèn)題 — 可持續(xù)性和成本。這些最終將決定 AI 數(shù)據(jù)中心的部署速度、它們可以處理的處理量，以及從傳輸角度和芯片/系統(tǒng)/封裝設(shè)計(jì)角度來(lái)看需要做出哪些改變。

“可持續(xù)發(fā)展一直成為等式的一部分，因?yàn)閹资陙?lái)，企業(yè)一直面臨著更好地利用我們的自然資源的壓力，”西門子數(shù)字工業(yè)軟件首席執(zhí)行官邁克·埃洛（Mike Ellow）說(shuō)?！斑@就是我們的前進(jìn)方向，以半導(dǎo)體為支柱，將幫助許多行業(yè)。如果您看看數(shù)據(jù)中心的功耗，我們就會(huì)發(fā)現(xiàn)我們的發(fā)展方向是不可持續(xù)的。對(duì)我們來(lái)說(shuō)，挑戰(zhàn)是如何將四倍、五倍或六倍的計(jì)算能力放入該數(shù)據(jù)中心已經(jīng)存在的相同功率配置文件中。

商業(yè)基礎(chǔ)知識(shí)也參與了這幅圖景。“歸根結(jié)底，這是總擁有成本，”英特爾的 Mongia 說(shuō)。“無(wú)論是你正在創(chuàng)建的大型語(yǔ)言模型還是你試圖生成的推理，都要付出資本成本和運(yùn)營(yíng)成本。熱能與資本成本和運(yùn)營(yíng)成本有關(guān)。那么平衡是什么呢？投資回報(bào)率是多少？升級(jí)到液體冷卻解決方案需要多少成本，因?yàn)閺臍v史上看，這些解決方案比空氣冷卻更昂貴。所有這些人工智能數(shù)據(jù)中心或人工智能解決方案主要是液冷的。為了讓我們構(gòu)建它，您需要從您的軟件包中獲得更多收益，這意味著在生成語(yǔ)言模型時(shí)獲得更多的推理或更高的性能，從而隨著時(shí)間的推移降低運(yùn)營(yíng)成本。

結(jié)論
為了正確看待這一點(diǎn)，請(qǐng)考慮內(nèi)華達(dá)州的胡佛水壩每年產(chǎn)生約 4 TWh;亞利桑那州帕洛維德核電站年發(fā)電量為32太瓦時(shí)，中國(guó)三峽大壩預(yù)計(jì)年發(fā)電量為90太瓦時(shí)。但在 2028 年至 2030 年間，考慮到目前的增長(zhǎng)率，人工智能數(shù)據(jù)中心的電力需求將增加 350 太瓦時(shí)，幾乎是所有這些發(fā)電設(shè)施總和的三倍。[2]

任何單一的改變都不會(huì)縮小這種差距。半導(dǎo)體行業(yè)要想繼續(xù)以目前的速度增長(zhǎng)，就需要從電網(wǎng)開始，從芯片開始發(fā)生變化。即便如此，目前尚不清楚這是否真的會(huì)縮小差距，或者是否只會(huì)讓 AI 數(shù)據(jù)中心變得更大。