新聞中心

EEPW首頁 > 電源與新能源 > 設(shè)計應(yīng)用 > AI芯片的供電挑戰(zhàn)

AI芯片的供電挑戰(zhàn)

—— 不斷上升的功率密度和新的架構(gòu)迫使人們重新思考互連、材料和熱管理。

作者：時間：2025-07-04 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

隨著人工智能（AI）工作負(fù)載變得越來越大和越來越復(fù)雜，為處理所有這些數(shù)據(jù)而開發(fā)的各種處理元素需要前所未有的能力。但是，在不降低信號完整性或引入熱瓶頸的情況下，高效可靠地提供這種電源，已經(jīng)帶來了半導(dǎo)體歷史上最嚴(yán)峻的設(shè)計和制造挑戰(zhàn)。

與通用處理器不同，專為 AI 工作負(fù)載設(shè)計的芯片將密度推向了極端水平。它們將更多的晶體管封裝到更小的封裝中，同時還增加了晶體管的總數(shù)，通常以小芯片的形式。結(jié)果是更大、更密集的系統(tǒng)級封裝，其中供電不僅僅是一個電氣問題，而且是一個封裝、材料和系統(tǒng)集成挑戰(zhàn)，從單個小芯片延伸到服務(wù)器機架。

“功率在很大程度上由動態(tài)功率主導(dǎo)，主要由計算和內(nèi)存之間的數(shù)據(jù)移動驅(qū)動，”Synopsys 研究員 Godwin Maben 說?！袄?，NVIDIA 的 Blackwell 功率范圍從 700 瓦到 1,400 瓦不等。這使得高效的總線架構(gòu)和架構(gòu)創(chuàng)新（例如數(shù)據(jù)壓縮策略）變得至關(guān)重要。

由于在內(nèi)存和計算單元之間來回穿梭的數(shù)據(jù)量很大，因此動態(tài)能力占主導(dǎo)地位。這些傳輸使用各種高速互連跨海量內(nèi)存層次結(jié)構(gòu)進(jìn)行。但是，移動所有這些數(shù)據(jù)是有代價的，會產(chǎn)生級聯(lián)設(shè)計約束，從內(nèi)存層次結(jié)構(gòu)決策一直延伸到供電網(wǎng)絡(luò) （PDN）。

“當(dāng)我們轉(zhuǎn)向背面和 3D 堆疊時，熱量變得更加局部化且更難消散，”imec 研發(fā)副總裁 Julien Ryckaert 說?！斑@種物理壓縮加劇了電遷移和局部熱熱點等挑戰(zhàn)?！?/p>

為了在這些級別上易于處理電力傳輸，多學(xué)科設(shè)計團隊必須全面考慮電壓的調(diào)節(jié)位置和方式、熱量的提取方式、材料在大電流應(yīng)力下的行為方式，以及它們在電遷移和 IR 壓降影響可靠性之前有多少裕量。這些設(shè)計決策的復(fù)雜性要求 EDA 工具、制造工藝和先進(jìn)封裝之間更加緊密地耦合。

“今天，高性能計算和 AI 加速器已經(jīng)跨越了千瓦級的界限，”Synopsys 首席架構(gòu)師 Jay Roy 說。“設(shè)計復(fù)雜性的爆炸式增長和周期的縮短給半導(dǎo)體 SOC 設(shè)計帶來了持續(xù)的挑戰(zhàn)。”

這種在最大限度地降低功耗的同時擴展性能的推動迫使電力輸送模式發(fā)生重大變化。這不再只是減少阻力。它涉及對具有不同膨脹系數(shù)的材料之間的感應(yīng)行為、熱梯度和耦合進(jìn)行建模?，F(xiàn)在，對電壓降、電流瓶頸和熱熱點的早期預(yù)測至關(guān)重要，并且必須在實際布局和集成約束的背景下進(jìn)行。

從橫向到垂直供電
再多的仿真都無法解決傳統(tǒng)橫向供電的固有局限性。在封裝和印刷電路板上橫向布線大電流電源走線會帶來不再擴展的損耗和空間限制。當(dāng)芯片消耗 100 或 200 瓦時，這種方法是可行的，但現(xiàn)在它已成為現(xiàn)代 AI 硬件的限制因素。

“當(dāng)前的加速卡通常采用橫向供電架構(gòu)，從電源模塊到處理器，在幾厘米長的 PCB 走線上路由數(shù)千安培的電流，”Saras Micro Devices 首席商務(wù)官 Eelco Bergman 說。“由于大電流和走線電阻，這種方法會導(dǎo)致大量的功率損失和過多的熱量產(chǎn)生。此外，可用于支持不斷增長的總功率、電源軌數(shù)量以及關(guān)鍵高速信號路由的電路板空間是有限的。

At these power levels, every milliohm of resistance translates into watts of heat that must be dissipated. Moreover, the spatial constraints imposed by lateral routing often create tradeoffs between power integrity and signal integrity. In high-bandwidth systems, where hundreds of high-speed SerDes lanes share board space with dense power planes, these tradeoffs become untenable.
圖 1：垂直供電網(wǎng)絡(luò)，顯示直接嵌入封裝基板中的多域電容器模塊。來源：Saras Micro Devices

在這些功率水平下，每一毫歐姆電阻都轉(zhuǎn)化為必須消散的瓦特?zé)崃俊４送?，橫向布線施加的空間限制通常會在電源完整性和信號完整性之間造成權(quán)衡。在高帶寬系統(tǒng)中，數(shù)百個高速 SerDes 通道與密集的電源層共享電路板空間，這些權(quán)衡變得站不住腳。

為了克服這些限制，半導(dǎo)體行業(yè)越來越多地探索垂直供電。通過將電源軌或穩(wěn)壓器直接嵌入芯片下方，并用低阻抗路徑垂直連接它們，從源極到硅的距離大大縮小。其結(jié)果是減少了 IR 壓降和噪聲，同時為關(guān)鍵信號釋放了頂部路由。

Bergman 補充道：“我們看到客戶正在積極探索具有嵌入式電壓調(diào)節(jié)和集成電容解決方案的垂直供電架構(gòu)，這些解決方案可以本地化供電?！斑@些方法釋放了頂部 PCB 空間，減少了寄生損耗，并提高了整體供電性能?！?/p>

在襯底和中介層中使用集成的供電層，以及局部去耦，使 AI 小芯片和加速器能夠獲得更清潔、更穩(wěn)定的功率，同時減少衰減。先進(jìn)的襯底，包括那些帶有嵌入式無源器件的襯底，現(xiàn)在正在與硅本身共同設(shè)計，以優(yōu)化阻抗曲線和散熱。

同時，這些技術(shù)也帶來了新的可靠性挑戰(zhàn)。通過新材料和垂直結(jié)構(gòu)提供大電流需要對電流擁擠、熱循環(huán)和材料疲勞進(jìn)行嚴(yán)格的建模。嵌入式功率元件必須能夠承受強熱通量，同時還要與敏感信號層保持電氣隔離。這反過來又推動了介電材料、沉積技術(shù)和協(xié)同設(shè)計方法的創(chuàng)新。

先進(jìn)的封裝和散熱
高功率密度直接轉(zhuǎn)化為熱密度，這可能會導(dǎo)致熱點，從而降低可靠性并降低性能。如果沒有先進(jìn)的熱提取技術(shù)，即使是最高效的系統(tǒng)也需要熱節(jié)流，這會大大降低性能。

“如今的先進(jìn)封裝采用多尺度熱管理技術(shù)來有效地傳播和去除熱量，”Amkor 小芯片和倒裝芯片球柵陣列（FCBGA）業(yè)務(wù)部高級總監(jiān) Gerard John 說?！般熀辖?TIM 因其約 80 W/m-K 的高導(dǎo)熱性而特別有效。然而，銦 TIM 需要芯片背面和蓋子底面的金屬化，通常使用 Ti/Au 或 Ni/Au 等材料?；亓骱腹に噷τ谠谛酒蜕w子之間形成粘合是必要的，這有助于降低界面阻力。

最小化芯片和散熱器之間的熱阻取決于材料和應(yīng)用技術(shù)。均勻的 TIM 覆蓋率和低空隙率加工對于實現(xiàn)整個芯片的一致散熱至關(guān)重要。傳統(tǒng)的基于焊料的 TIM 正在被高性能金屬合金、相變材料和新型碳基界面所取代或補充。

“確保 TIM 應(yīng)用中的最小空隙至關(guān)重要，”John 說。“空隙會嚴(yán)重阻礙導(dǎo)熱性，導(dǎo)致熱點和器件可靠性降低。監(jiān)測 TIM 空隙對于工藝優(yōu)化和設(shè)備篩選至關(guān)重要。

這些解決方案通常是針對特定工作負(fù)載量身定制的。例如，AI 訓(xùn)練產(chǎn)生的持續(xù)功率爆發(fā)比推理更長，并且需要不同的熱瞬態(tài)響應(yīng)。包裝工程師必須與系統(tǒng)架構(gòu)師合作，以確保冷卻解決方案與實際作配置文件相匹配。

“TIM 的選擇通常基于設(shè)備功率圖，這些圖顯示了高熱量產(chǎn)生區(qū)域，”John 指出?！巴ㄟ^將 TIM 屬性與這些映射相匹配，可以實現(xiàn)最佳熱管理，確保整個器件的高效散熱?！?/p>

在多芯片系統(tǒng)中，熱邏輯模塊的接近會放大熱挑戰(zhàn)。先進(jìn)的設(shè)計正在轉(zhuǎn)向均溫板、微流體冷卻和雙面熱提取來管理這種復(fù)雜性。每種方法都引入了新的制造、可靠性和材料集成障礙，但它們正迅速成為大規(guī)模實現(xiàn) AI 性能的重要工具。

鉬和材料遷移
隨著 AI 加速器需要更大的功率和更緊密的集成，傳統(tǒng)的前端材料正在顯現(xiàn)其老化。鎢和銅廣泛用于局部互連和觸點一直是其導(dǎo)電性和可制造性的行業(yè)標(biāo)準(zhǔn)，但現(xiàn)在它對芯片最致密的部分施加了限制。

這就是鉬成為關(guān)鍵替代金屬的地方。鉬的電子平均自由程比銅短，在狹窄幾何形狀中的可擴展性比鎢好，在先進(jìn)節(jié)點的電阻率和可制造性方面都有了明顯的改善。

“從傳統(tǒng)的鎢金屬化過渡到鉬提供了實質(zhì)性的性能改進(jìn)，包括將接觸電阻降低多達(dá) 50%，”Lam Research 公司副總裁兼總經(jīng)理 Kaihan Ashtiani 說。“鉬的電子平均自由程較短，使其更適合更小的尺寸，顯著減少了緊密排列的互連結(jié)構(gòu)中的電阻問題?！?/p>

這在實踐中意味著鉬在局部互連中變得特別有利，其中線寬和間距現(xiàn)在低于 20nm。在這些尺寸下，鎢等傳統(tǒng)金屬的電子散射增加，從而導(dǎo)致更高的有效電阻率和熱負(fù)荷。相比之下，鉬在受限幾何形狀中保持良好的導(dǎo)電行為。

對于 AI 設(shè)備，此屬性至關(guān)重要。隨著更多的功能被封裝在更小的平方毫米中，以及垂直堆疊變得越來越普遍，熱量和電阻越來越局限。鉬等材料創(chuàng)新通過提高電氣性能并簡化與原子層沉積（ALD）和化學(xué)氣相沉積（CVD）工藝的集成，幫助減輕這些影響，這些工藝在尖端晶圓廠中已經(jīng)很常見。

“當(dāng)互連尺寸縮小到銅等金屬的平均自由程以下時，由于電子散射更頻繁，電阻會增加，”Ashtiani 說?！霸谶@些情況下，像鉬這樣的金屬，具有較短的平均自由程，實際上變得更有利，因為它在較小的尺度上保持較低的電阻?！?/p>

向鉬的轉(zhuǎn)變也與更廣泛的行業(yè)努力降低電遷移風(fēng)險相一致。在 AI 工作負(fù)載中常見的高電流密度下，金屬遷移會隨著時間的推移產(chǎn)生空隙和開路，這是對可靠性的日益關(guān)注的問題。鉬的高熔點和晶粒穩(wěn)定性有助于抵消這一點，使其成為長壽命 AI 計算應(yīng)用的有力候選者。

雖然尚未普及，但鉬的采用正在加速，尤其是在 GPU 矩陣引擎和 SRAM 陣列等功率密度極高的應(yīng)用中。它還在包含背面供電的設(shè)備中越來越受歡迎，其中金屬化層的復(fù)雜性需要高度保形和低電阻率的材料。

背面供電
也許當(dāng)今芯片架構(gòu)最具變革性的轉(zhuǎn)變是轉(zhuǎn)向背面供電網(wǎng)絡(luò) （BSPDN）。BSPDN 不是通過爭奪空間的頂部金屬層來路由電源和信號，而是通過在晶圓的底部引入電源連接來解耦這些功能。

最初的概念最初由 Intel 宣傳為“Power vias”，此后演變?yōu)檎麄€行業(yè)采用的更廣泛的技術(shù)類別。從本質(zhì)上講，晶圓的背面被蝕刻以露出觸點，然后用于直接向晶體管供電，繞過信號路由堆棧并顯著提高效率。

“背面供電始于將電源過孔蝕刻到硅中，以提供從背面直接供電，這有助于降低阻抗，”imec 的 Ryck?ert 說?！皬膬蓚?cè)處理晶圓為器件擴展和布線密度開辟了新的機會，盡管由于去除了作為散熱器的硅，它也帶來了熱挑戰(zhàn)?！?/p>

這種結(jié)構(gòu)重組為 AI 芯片提供了幾個關(guān)鍵優(yōu)勢。首先，通過分離電源和信號布線，工程師在布局規(guī)劃和時序優(yōu)化方面獲得了更大的靈活性。信號層可以擴展或微調(diào)，而無需擔(dān)心功率分配限制。其次，它使電網(wǎng)更薄、更均勻，從而減少了 IR 壓降，使電壓調(diào)節(jié)更具可預(yù)測性。

“電力輸送曾經(jīng)是眾多考慮因素之一，”Ryckaert 補充道?！艾F(xiàn)在它塑造了整個平面圖。背面 PDN 有助于緩解布線擁堵并實現(xiàn)更高的晶體管密度，但它們也增加了功率密度，這使得熱管理比以往任何時候都更加重要。

此外，背面加工引入了新的冷卻選項。由于硅襯底不再是散熱的屏障，因此設(shè)計人員可以實施雙面冷卻策略，其中熱界面應(yīng)用于芯片的兩側(cè)。

然而，反向供電并非沒有挑戰(zhàn)。它需要全新的工藝流程和材料進(jìn)步，包括晶圓減薄、硅通孔（TSV）對準(zhǔn)、混合鍵合和處理極其脆弱的芯片。這些結(jié)構(gòu)的機械可靠性仍在研究中，產(chǎn)量優(yōu)化仍然是大批量采用的障礙。

設(shè)計協(xié)同優(yōu)化和系統(tǒng)級影響
盡管背板電源、鉬互連和垂直 PDN 的技術(shù)前景廣闊，但這些進(jìn)步都不是孤立發(fā)生的。下一代 AI 芯片將需要在整個設(shè)計堆棧中采用更緊密集成的方法，使用通常所說的系統(tǒng)技術(shù)協(xié)同優(yōu)化（STCO）。

在此模型中，芯片架構(gòu)師、封裝工程師和系統(tǒng)設(shè)計人員從最早的設(shè)計階段開始協(xié)作。輸電網(wǎng)絡(luò)、熱分布、機械應(yīng)力和平面圖必須建模為相互依賴的系統(tǒng)，而不是流程中的連續(xù)步驟。

“功耗感知協(xié)同設(shè)計越來越重要，”Synopsys 的 Maben 說?！八兄谄胶鉄嵝阅芘c時序收斂，使客戶能夠在最終產(chǎn)品中實現(xiàn)更高的效率和可靠性?！?/p>

在系統(tǒng)級別，這些優(yōu)化具有廣泛的后果。例如，熱節(jié)流是 AI 芯片性能面臨的最大威脅之一。如果沒有對局部加熱進(jìn)行有效預(yù)測和緩解，否則設(shè)計良好的系統(tǒng)在現(xiàn)場可能會表現(xiàn)不佳。

“上游輸電效率的邊際提高可以防止下游的熱降解，”Synopsys 的 Roy 說?！澳繕?biāo)是讓工程師及早了解這些系統(tǒng)如何交互，以便可靠性是內(nèi)置的，而不是附加的?！?/p>

這的影響遠(yuǎn)遠(yuǎn)超出了模具。系統(tǒng)集成商必須考慮整個堆棧（芯片、中介層、基板和 PCB）的 PDN 阻抗。信號完整性、板級去耦和外殼級氣流都會影響高能效芯片在實際應(yīng)用中是否按預(yù)期運行。

這些約束提高了協(xié)同仿真和跨域反饋循環(huán)的重要性。電壓完整性和電磁干擾（EMI）現(xiàn)在與熱仿真、材料建模和功耗感知驗證直接交叉。作為回應(yīng)，一些芯片制造商正在將封裝和系統(tǒng)工程團隊引入內(nèi)部，或?qū)⑺麄兦度胄酒O(shè)計團隊，以加快迭代并確保一致性。

除了技術(shù)協(xié)調(diào)之外，經(jīng)濟激勵還推動了協(xié)同優(yōu)化。通過添加多余的電容、更寬的電源層或過度設(shè)計的 VRM 來過度配置供電系統(tǒng)會消耗電路板面積和資源，否則這些資源可能會用于計算。

“減少 IR 壓降和提高輸電效率直接轉(zhuǎn)化為更少的熱量和更低的冷卻成本，”Saras 的 Bergman 說?！斑@是超大規(guī)模數(shù)據(jù)中心的直接成本優(yōu)勢?！?/p>

結(jié)論
隨著 AI 需求的增長，優(yōu)化每一瓦特和交付它所花費的每一美元的壓力只會越來越大。這意味著電力輸送不再是后端考慮因素。它已成為塑造 AI 芯片設(shè)計和制造方式的一線約束。隨著 AI 芯片進(jìn)入千瓦級市場，該行業(yè)必須重新考慮從材料到平面圖、晶圓鍵合到散熱的方方面面。背面供電網(wǎng)絡(luò)、鉬互連和垂直集成基板等創(chuàng)新只是一個開始。

AI 芯片的供電之路需要跨學(xué)科的深度合作。隨著工程師面對下一代電力輸送的多物理場性質(zhì)，圍繞硅、封裝和系統(tǒng)設(shè)計構(gòu)建的孤島正在瓦解。雖然這些解決方案的成本和復(fù)雜性很高，但以性能、效率和可擴展性衡量的回報將是巨大的。