浸入式冷卻(第1部分):重新定義可靠性標(biāo)準(zhǔn)
由于 AI 和高性能計(jì)算 (HPC) 的興起,數(shù)據(jù)中心工作負(fù)載繼續(xù)激增,反過(guò)來(lái),傳統(tǒng)的風(fēng)冷方法正在達(dá)到其實(shí)際極限。隨著熱負(fù)荷的增加和密度要求的擴(kuò)大,數(shù)據(jù)中心運(yùn)營(yíng)商正在尋找新的熱量管理方法。浸入式冷卻已成為一條前景廣闊的發(fā)展道路。
本文引用地址:http://www.bjwjmy.cn/article/202505/470555.htm然而,這種轉(zhuǎn)變暴露了該行業(yè)在定義和測(cè)試組件可靠性方面的巨大差距。為風(fēng)冷環(huán)境制定的標(biāo)準(zhǔn)從來(lái)都不是為了預(yù)測(cè)材料在完全浸沒(méi)在介電流體中時(shí)的行為。鑒于架構(gòu)設(shè)計(jì)和性能的新要求,老化模型、故障模式,甚至有關(guān)組件耐用性的基本假設(shè)等關(guān)鍵因素都需要重新思考。
這種演變正在重塑數(shù)據(jù)中心運(yùn)營(yíng)商評(píng)估組件可靠性的方式。為支持風(fēng)冷系統(tǒng)而制定的標(biāo)準(zhǔn)達(dá)到了其目的。但它們必須不斷發(fā)展,以應(yīng)對(duì)沉浸式環(huán)境帶來(lái)的新挑戰(zhàn)。
雖然空氣冷卻標(biāo)準(zhǔn)長(zhǎng)期以來(lái)一直指導(dǎo)系統(tǒng)規(guī)劃,但浸入式冷卻引入了一組不同的老化機(jī)制和材料挑戰(zhàn)。為了跟上步伐,工程師和開(kāi)放計(jì)算項(xiàng)目 (OCP) 等行業(yè)團(tuán)體正在合作,根據(jù)真實(shí)世界的浸入條件構(gòu)建測(cè)試框架。這種轉(zhuǎn)變?cè)陲L(fēng)冷和浸入式冷卻系統(tǒng)之間帶來(lái)了不同的設(shè)計(jì)和可靠性挑戰(zhàn)(見(jiàn)圖)。
該圖表列出了風(fēng)冷和浸入式冷卻系統(tǒng)之間的設(shè)計(jì)和可靠性差異。
浸入式冷卻如何解決系統(tǒng)設(shè)計(jì)挑戰(zhàn)
浸入式冷卻消除了氣流限制,但需要從根本上重新考慮基礎(chǔ)設(shè)施、材料選擇和系統(tǒng)設(shè)計(jì)。傳統(tǒng)的風(fēng)冷系統(tǒng)依賴(lài)于風(fēng)扇和散熱器,在管理組件熱設(shè)計(jì)功耗 (TDP) 方面面臨著越來(lái)越大的挑戰(zhàn),這些功耗現(xiàn)在通常超過(guò) 300 W,甚至在許多下一代 GPU 和 AI 加速器中超過(guò)了關(guān)鍵的 400 W 閾值。超過(guò)這一點(diǎn),氣流通常不足以維持安全的工作溫度。
為了彌合這一差距,許多數(shù)據(jù)中心運(yùn)營(yíng)商最初轉(zhuǎn)向冷板冷卻,它通過(guò)將液體直接循環(huán)到最熱的組件來(lái)改善熱傳遞。然而,雖然這種方法比空氣冷卻更好地解決了更高的芯片密度問(wèn)題,但冷板解決方案引入了廣泛的歧管、復(fù)雜的機(jī)架級(jí)熱交換器集成,并增加了機(jī)械故障點(diǎn),包括管道和連接泄漏的風(fēng)險(xiǎn)。
隨著計(jì)算負(fù)載的不斷攀升,完全浸沒(méi)(無(wú)論是單相還是雙相)正在成為克服空氣和冷板系統(tǒng)的結(jié)構(gòu)和熱限制的下一步。通過(guò)將服務(wù)器完全浸沒(méi)在介電流體中,浸入式冷卻完全避免了氣流限制。
與傳統(tǒng)的風(fēng)冷部署相比,潛在的節(jié)能通常高達(dá) 30%,這取決于幾個(gè)因素。這些因素可能包括使用的特定浸入式技術(shù)、基線風(fēng)冷系統(tǒng)的電源使用效率 (PUE)、氣候條件以及 IT 負(fù)載的性質(zhì),從而在最佳條件下提供可能有意義的能源效率提升。盡管如此,實(shí)現(xiàn)這些收益需要的不僅僅是改造現(xiàn)有硬件。
浸入式冷卻改造的挑戰(zhàn)
棕地改造通常面臨嚴(yán)重的障礙。許多傳統(tǒng)數(shù)據(jù)中心使用高架地板,這些地板的設(shè)計(jì)無(wú)法支撐浸入式槽的重量和密度。升級(jí)這些站點(diǎn)通常需要昂貴的結(jié)構(gòu)加固以及添加浸泡所需的系統(tǒng),例如熱交換器、流體管路和維護(hù)通道。
鑒于這些結(jié)構(gòu)和基礎(chǔ)設(shè)施挑戰(zhàn),大多數(shù)新的沉浸式擴(kuò)建都部署在專(zhuān)門(mén)構(gòu)建的“AI 工廠”環(huán)境中,其中地板支撐、冷卻基礎(chǔ)設(shè)施和空間布局專(zhuān)為沉浸式架構(gòu)而設(shè)計(jì)。
在新建項(xiàng)目中,浸入式冷卻可以提高機(jī)架密度和更好的熱控制,但前提是基礎(chǔ)設(shè)施是專(zhuān)為浸沒(méi)式系統(tǒng)構(gòu)建的。
空氣標(biāo)準(zhǔn)品的局限性
浸入式冷卻具有明顯的熱優(yōu)勢(shì),但也暴露了傳統(tǒng)可靠性框架的局限性。大多數(shù)現(xiàn)有標(biāo)準(zhǔn)都是為了模擬材料在空氣中的老化而構(gòu)建的,在這些條件下,氧化(而不是化學(xué)相互作用)是主要的故障驅(qū)動(dòng)因素。
在介電流體內(nèi)部,氧化速度會(huì)顯著減慢。
取而代之的是熱化學(xué)降解(包括潛在的水解、材料膨脹和逐漸浸出到流體中的添加劑)成為主要風(fēng)險(xiǎn)。隨著時(shí)間的推移,這些化學(xué)變化會(huì)削弱機(jī)械性能并損害長(zhǎng)期可靠性?;炝鳉怏w老化等測(cè)試方法最初設(shè)計(jì)用于模擬通過(guò)暴露于二氧化硫和二氧化氮等反應(yīng)性氣體而產(chǎn)生的空氣腐蝕,但不再與流體環(huán)境中起作用的真實(shí)失效機(jī)制保持一致。
評(píng)論