股價大漲!1530億晶體管,AMD發(fā)布史上最大、最強(qiáng)芯片!多項(xiàng)指標(biāo)數(shù)倍于H100,打響挑戰(zhàn)英偉達(dá)第一槍!
AMD 利用有史以來最先進(jìn)的量產(chǎn)技術(shù)打造了 MI300 系列產(chǎn)品,采用 "3.5D "封裝等新技術(shù)生產(chǎn)出兩款多芯片巨型處理器,并稱可在各種 AI 工作負(fù)載中提供與 Nvidia 不相上下的性能。其中有多項(xiàng)性能指標(biāo)評測數(shù)倍于競爭對手英偉達(dá)的H100。AMD 沒有透露其新的奇特芯片的價格,但這些產(chǎn)品現(xiàn)已向眾多 OEM 合作伙伴發(fā)貨。
Instinct MI300 是一種改變游戲規(guī)則的設(shè)計 - 數(shù)據(jù)中心 APU 混合了總共 13 個小芯片,其中許多是 3D 堆疊的,以創(chuàng)建一個具有 24 個 Zen 4 CPU 內(nèi)核并融合了 CDNA 3 圖形引擎和 8 個堆棧的芯片HBM3??傮w而言,該芯片擁有 1530 億個晶體管,是 AMD 迄今為止制造的最大芯片。AMD 聲稱該芯片在某些工作負(fù)載中的性能比 Nvidia H100 GPU 高出 4 倍,并宣稱其每瓦性能是其兩倍。
AMD 表示,其 Instinct MI300X GPU 在人工智能推理工作負(fù)載中的性能比 Nidia H100 高出 1.6 倍,并在訓(xùn)練工作中提供類似的性能,從而為業(yè)界提供了急需的 Nvidia GPU 的高性能替代品。此外,這些加速器的 HBM3 內(nèi)存容量是 Nvidia GPU的兩倍以上(每個 192 GB 令人難以置信),使其 MI300X 平臺能夠支持每個系統(tǒng)兩倍以上的 LLM 數(shù)量,并運(yùn)行比 Nvidia H100 HGX 更大的模型。
AMD Instinct MI300XMI300X代表了 AMD 基于小芯片的設(shè)計方法的頂峰,將八個 12Hi 堆棧的 HBM3 內(nèi)存與八個 3D 堆棧的 5nm CDNA 3 GPU 小芯片(稱為 XCD)融合在四個底層 6nm I/O 芯片上,這些芯片使用 AMD 現(xiàn)已成熟的技術(shù)進(jìn)行連接混合鍵合技術(shù)。






MI300X 加速器設(shè)計用于在 AMD 的生成式 AI 平臺中以 8 個為一組工作,GPU 之間通過 Infinity Fabric 互聯(lián)實(shí)現(xiàn) 896 GB/s 的吞吐量。該系統(tǒng)擁有 1.5TB 的 HBM3 內(nèi)存,性能高達(dá) 10.4 Petaflops(BF16/FP16)。該系統(tǒng)基于開放計算項(xiàng)目(OCP)通用底板(UBB)設(shè)計標(biāo)準(zhǔn)構(gòu)建,從而簡化了采用過程,特別是對于超大規(guī)模用戶而言。
與 Nvidia 的 H100 HGX 平臺(BF16/FP16)相比,AMD 的 MI300X 平臺內(nèi)存容量增加了 2.4 倍,計算能力提高了 1.3 倍,同時還保持了相當(dāng)?shù)碾p向和單節(jié)點(diǎn)環(huán)帶寬。AMD 為 MI300X 平臺配備了 400GbE 網(wǎng)絡(luò),并支持多種網(wǎng)卡,而 Nvidia 則傾向于使用其收購 Mellanox 后生產(chǎn)的自有網(wǎng)絡(luò)產(chǎn)品。





AMD 的 MI300X 平臺在 300 億參數(shù) MPT 訓(xùn)練工作負(fù)載中提供的性能與 H100 HGX 系統(tǒng)大致相同,但需要注意的是,此測試并不是加速器的一對一比較。相反,該測試讓八個加速器組相互競爭,因此平臺級功能更像是一個限制因素。無論哪種情況,這種性能都會很快引起受到 Nvidia GPU短缺困擾的行業(yè)的興趣。
在平臺功能方面,AMD 還宣稱,MI300X 平臺的內(nèi)存容量優(yōu)勢允許托管的 300 億參數(shù)訓(xùn)練模型和 700 億數(shù)推理模型數(shù)量是 H100 系統(tǒng)的兩倍。此外,MI300X 平臺還可支持多達(dá) 70B 的訓(xùn)練模型和 2900 億參數(shù)的推理模型,兩者都是 H100 HGX 所支持模型的兩倍。當(dāng)然,Nvidia 即將推出的 H200 GPU在內(nèi)存容量和帶寬方面將更具競爭力,而計算性能將與現(xiàn)有的 H100 保持相似。Nvidia 要到明年才會開始發(fā)貨 H200,因此與 MI300X 的競爭仍然存在。AMD Instinct MI300AAMD Instinct MI300A 是全球首款數(shù)據(jù)中心 APU,這意味著它將 CPU 和 GPU 結(jié)合在同一個封裝中。它將直接與Nvidia 的 Grace Hopper Superchips競爭,后者的 CPU 和 GPU 位于單獨(dú)的芯片封裝中,可以協(xié)同工作。MI300A 已經(jīng)在El Capitan 超級計算機(jī)中取得了顯著的勝利,AMD 已經(jīng)將該芯片運(yùn)送給其合作伙伴。






MI300A 的默認(rèn) TDP 為 350W,但可配置為最高 760W。AMD 根據(jù)使用情況在芯片的 CPU 和 GPU 部分之間動態(tài)分配功率,從而優(yōu)化性能和效率。AMD 盡可能巧妙地重復(fù)利用:MI300A 插入 AMD 的標(biāo)準(zhǔn) LGA6096 插槽,就像 EPYC Genoa 處理器一樣,但該插槽的 SH5 版本與使用 SP5 的 AMD EPYC 處理器在電氣上不兼容。內(nèi)存空間在 CPU 和 GPU 之間共享,從而消除了數(shù)據(jù)傳輸。該技術(shù)通過消除單元之間的數(shù)據(jù)傳輸來提高性能和能源效率,同時還減少編碼負(fù)擔(dān)。與 MI300X 一樣,該芯片具有中央 256MB Infinity Cache,有助于確保流經(jīng)芯片的數(shù)據(jù)的帶寬和延遲。AMD 聲稱 FP64 Matrix/DGEMM 和 FP64/FP32 Vector TFLOPS 比 H100 高出 1.8 倍。該公司還聲稱 TF32、FP16、BF16、FP8 和 INT8 與 H100 相同。







5nm XCD GPU 芯片標(biāo)志著 AMD GPU 設(shè)計的全面小芯片化。與 MI200 中使用的小芯片表現(xiàn)為兩個獨(dú)立的設(shè)備不同,MI300 小芯片則是表現(xiàn)為一個單片 GPU。每個 XCD 有 40 個物理 CDNA3 計算單元,但只有 38 個被激活(這有助于解決良率問題)。每個 38-CU 小芯片都有 4MB 共享 L2 (16x 256KB)。XCD 和 IOD 具有硬件輔助機(jī)制,可將作業(yè)分解為更小的部分、分派它們并保持它們同步,從而減少主機(jī)系統(tǒng)開銷。這些單元還具有硬件輔助的緩存一致性。上圖中的最后一張PPT展示了 CDNA 3 計算單元的增強(qiáng)功能和性能。








該公司在這種現(xiàn)已成熟的混合鍵合技術(shù)方面積累的長期經(jīng)驗(yàn)使其有信心在 MI300 處理器中繼續(xù)采用該技術(shù)。與由 3D V-Cache和標(biāo)準(zhǔn)型號組成的 AMD 消費(fèi)類 PC 芯片系列相比,MI300 處理器代表該公司首次在整個產(chǎn)品堆棧中完全依賴該技術(shù)。 總體而言,SoC 連接可在各種 3D 堆疊單元中提供高達(dá) 17 TB/s 的垂直帶寬。SoIC 尺寸為 13x29mm。 專輯最后一張PPT中的剖面圖展示了 3.5D 封裝方法的復(fù)雜性和美妙之處。。它說明了如何從底部使用有機(jī)基板、上方具有金屬布線和 TSV 的 CoWos 無源硅中介層,以及采用混合鍵合(9 微米間距)的 3D 堆疊 IOD 和 XCD 來構(gòu)建封裝。將有機(jī)基板與硅中介層(底部)配合的巨大銅凸塊突出了 3D 堆疊部分的頂部和底部芯片(靠近頂部)之間幾乎不可見的混合鍵合連接是多么小和密集。芯片)。混合鍵合技術(shù)需要減薄芯片以暴露 TSV,以便它們可以配對。因此,AMD 必須在封裝頂部采用硅墊片以保持結(jié)構(gòu)完整性,就像其他配備 3D V-Cache 的處理器一樣。





來源:EETOP
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。