構(gòu)建節(jié)能AI加速器的硬件策略有哪些?
人工智能 (AI) 應(yīng)用每天都在擴展到更多行業(yè)。然而,這些人工智能系統(tǒng)使用的能源量已成為一個重大問題?,F(xiàn)代深度神經(jīng)網(wǎng)絡(luò)需要大量的計算能力。
本文研究了構(gòu)建節(jié)能 AI 加速的五種關(guān)鍵硬件策略:專用加速器架構(gòu)、模擬內(nèi)存計算、異構(gòu)計算系統(tǒng)、神經(jīng)形態(tài)計算和 3D 芯片堆疊技術(shù)。
專用加速器、硬件架構(gòu)
人工智能系統(tǒng)需要特殊的計算機芯片,在運行人工智能模型時,這些芯片比普通 CPU 工作得更好。普通 CPU 無法足夠有效地處理 AI 任務(wù)并消耗過多的功率。為了解決這個問題,工程師們創(chuàng)建了四種主要類型的專用加速器架構(gòu),如圖 1 所示。每種類型的硬件加速器都有其優(yōu)勢,最適合不同類型的 AI 工作負(fù)載:
圖 1.不同的專用 AI 加速器硬件架構(gòu)。(圖片來源:AI加速器研究院)
圖形處理單元 (GPU) 具有數(shù)千個具有高內(nèi)存帶寬的并行計算核心,使其成為深度學(xué)習(xí)中常見的矩陣運算的理想選擇。他們的架構(gòu)包括專門的張量核心,可以加速人工智能作,同時保持跨各種框架的靈活性。
神經(jīng)處理單元 (NPU) 專為 AI 推理而設(shè)計,具有針對矩陣乘法和卷積運算優(yōu)化的多個計算單元。它們的架構(gòu)包括片上存儲器,以減少數(shù)據(jù)傳輸開銷并提高吞吐量,尤其是在卷積神經(jīng)網(wǎng)絡(luò)方面表現(xiàn)出色。
現(xiàn)場可編程門陣列 (FPGA) 提供數(shù)百萬個可編程門,可針對特定 AI 任務(wù)進行重新配置。這種靈活性允許優(yōu)化特定的神經(jīng)網(wǎng)絡(luò)架構(gòu),同時實現(xiàn)低延遲,使其對實時應(yīng)用程序很有價值。
專用集成電路 (ASIC) 通過專門為特定人工智能模型量身定制的定制設(shè)計架構(gòu)提供最高的能源效率。雖然缺乏靈活性,但它們?yōu)閷S脩?yīng)用提供了卓越的每瓦性能。
每種架構(gòu)都代表了靈活性、性能和能源效率之間的不同權(quán)衡,允許開發(fā)人員根據(jù)其特定的 AI 推理要求和部署限制選擇最佳硬件策略。
模擬內(nèi)存計算架構(gòu)
模擬內(nèi)存計算 (AIMC) 通過在存儲數(shù)據(jù)的地方執(zhí)行計算來解決馮·諾依曼瓶頸,而不是在單獨的處理單元和內(nèi)存單元之間移動信息。圖 2 說明了相變存儲器 (PCM) 器件如何通過利用基本物理原理的交叉陣列實現(xiàn)這種方法。
圖 2.模擬內(nèi)存計算的工作原理。顯示了從基本存儲設(shè)備到可以直接在內(nèi)存中運行不同類型神經(jīng)網(wǎng)絡(luò)的完整系統(tǒng)的進展。(圖片來源:ResearchGate)
矩陣向量乘法是神經(jīng)網(wǎng)絡(luò)中的主要運算。這些作使用歐姆定律和基爾霍夫定律執(zhí)行。施加到字線的輸入電壓與存儲的電導(dǎo)值相互作用,產(chǎn)生與所需計算結(jié)果成正比的電流。
AIMC tile 架構(gòu)集成了數(shù)模轉(zhuǎn)換器和模數(shù)轉(zhuǎn)換器。這些組件與數(shù)字系統(tǒng)接口,同時保持模擬計算效率。這種方法通過消除數(shù)據(jù)移動開銷并實現(xiàn)顯著的并行性(同時執(zhí)行數(shù)百萬個作)來提供能源優(yōu)勢。
非易失性存儲器特性進一步降低了靜態(tài)功耗。ALPINE 框架在多種神經(jīng)網(wǎng)絡(luò)類型(例如 MLP、CNN、RNN 和 LSTM)中展示了這些優(yōu)勢。與傳統(tǒng)實施相比,它可以實現(xiàn)高達 20.5 倍的性能加速和 20.8 倍的能源改進。然而,在管理精度限制和設(shè)備可變性方面仍然存在挑戰(zhàn)。
異構(gòu)計算架構(gòu)
異構(gòu)計算架構(gòu)通過部署多個專用處理單元來協(xié)同處理人工智能工作負(fù)載的不同方面,從而提高能源效率。圖 3 說明了瑞薩電子的 DRP-AI3 實現(xiàn),其中 AI 加速器與動態(tài)可重構(gòu)處理器 (DRP) 和傳統(tǒng) CPU 內(nèi)核一起工作。這種方法認(rèn)識到人工智能應(yīng)用程序需要不同的計算模式。這些范圍從神經(jīng)網(wǎng)絡(luò)推理到基于算法的處理和系統(tǒng)控制。每種模式都針對不同的硬件類型進行了優(yōu)化。
圖 3.用于異構(gòu)架構(gòu)中 AI 任務(wù)的專用硬件,用于其他算法的可配置硬件,以及用于系統(tǒng)控制的常規(guī)處理器。(圖片來源:瑞薩電子)
AI 加速器組件使用專用 MAC 單元和優(yōu)化的數(shù)據(jù)流處理計算密集型神經(jīng)網(wǎng)絡(luò)作,而可重新配置的 DRP 處理器動態(tài)調(diào)整其電路配置以進行流數(shù)據(jù)處理、圖像預(yù)處理和池化作。CPU 管理系統(tǒng)級任務(wù)并提供編程靈活性。
這種分工使每個處理單元能夠在其專業(yè)領(lǐng)域內(nèi)高效運行,從而避免了與強制通用硬件處理專門任務(wù)相關(guān)的能源損失。合作設(shè)計取得了顯著的成果,硬件與軟件的協(xié)調(diào)提供了高達 10 倍的性能提升,同時保持了對不同 AI 模型類型的靈活性。
跨異構(gòu)組件的多線程流水線進一步優(yōu)化了資源利用率,展示了戰(zhàn)略任務(wù)分區(qū)如何提高整體系統(tǒng)能效。
神經(jīng)形態(tài)計算
神經(jīng)形態(tài)計算復(fù)制了人腦使用能量的方式。這種受大腦啟發(fā)的方法通過使用憶阻器作為電子突觸來改變我們構(gòu)建計算機的方式。這些憶阻器結(jié)合了處理和存儲器通常單獨執(zhí)行的工作。圖 4 顯示了三維神經(jīng)形態(tài)架構(gòu)如何構(gòu)建分布式計算網(wǎng)絡(luò)。在這些系統(tǒng)中,憶阻器件同時用作存儲和計算元件。這種方法創(chuàng)建了非馮諾依曼系統(tǒng),其工作方式與普通計算機非常不同。
圖 4.顯示 (a) 2D 神經(jīng)網(wǎng)絡(luò),(b) 3D 實現(xiàn),(c) 神經(jīng)元-突觸連接的 3D 神經(jīng)形態(tài)系統(tǒng)。(圖片:IntechOpen)
與傳統(tǒng)的 2D 方法相比,3D 實現(xiàn)具有優(yōu)勢,因為它在神經(jīng)元層之間提供高連接性,同時解決影響傳統(tǒng)設(shè)計的路由擁塞問題。憶阻突觸能夠通過自適應(yīng)學(xué)習(xí)能力實現(xiàn)并行數(shù)據(jù)處理,以類似于生物神經(jīng)網(wǎng)絡(luò)的事件驅(qū)動方式處理信息。
該架構(gòu)支持各種神經(jīng)形態(tài)計算方法,包括分布式、集中式和自適應(yīng)神經(jīng)形態(tài)計算架構(gòu)。
調(diào)查數(shù)據(jù)表明,尖峰神經(jīng)網(wǎng)絡(luò)加速器表現(xiàn)出更高的能效,平均消耗 0.9 瓦,而非尖峰實現(xiàn)的平均功耗為 1.7 瓦。它使神經(jīng)形態(tài)計算非常適合需要智能、自適應(yīng)行為的低功耗邊緣應(yīng)用。
3D芯片堆疊
三維芯片堆疊解決了平面半導(dǎo)體縮放的物理限制,同時通過縮短互連距離來提高能效。圖 5 說明了兩種主要的 3D RRAM 集成策略:水平 3D RRAM (H-RRAM) 和垂直 3D RRAM (V-RRAM) 結(jié)構(gòu),它們將傳統(tǒng)的 2D 橫桿陣列擴展到三維空間。這種垂直縮放通過面積縮放實現(xiàn)了器件密度的顯著提高。
圖 5.3D 芯片堆疊架構(gòu)可提高器件密度和能效。(圖片來源:ResearchGate)
能效提升源于縮短的信號路徑和減少的互連電容,直接降低了功耗,同時實現(xiàn)了高連接性系統(tǒng)。硅通孔促進層間通信,創(chuàng)建適合密集神經(jīng)網(wǎng)絡(luò)實現(xiàn)的并行數(shù)據(jù)處理能力。
隨著層數(shù)的增加,V-RRAM架構(gòu)被證明特別具有成本效益。臨界光刻掩模的數(shù)量仍然相對獨立于堆疊層。這與 H-RRAM 不同,H-RRAM 的模板要求是線性擴展的。這種 3D 方法允許將內(nèi)存和處理元素組合到一個塊中。這使得神經(jīng)網(wǎng)絡(luò)加速器具有更高的密度和更高的能效,適用于需要緊湊性和速度的下一代人工智能應(yīng)用。
總結(jié)
構(gòu)建節(jié)能的 AI 加速器包括許多硬件策略。這些范圍從專用架構(gòu)和模擬內(nèi)存計算到異構(gòu)系統(tǒng)、神經(jīng)形態(tài)設(shè)計和 3D 集成技術(shù)。人工智能加速的未來在于巧妙地結(jié)合各種技術(shù)。成功將取決于硬件-軟件協(xié)同設(shè)計。這意味著算法優(yōu)化和硬件能力必須同步發(fā)展,以提高人工智能系統(tǒng)的能源效率。
評論