超越傳統(tǒng)OOO:高性能RISC-V CPU基于時間、基于切片的方法
關(guān)鍵
高性能 CPU 設(shè)計正在從傳統(tǒng)的無序 (OOO) 執(zhí)行架構(gòu)轉(zhuǎn)向新的基于時間的 OOO 微架構(gòu),以解決電源效率低下、復(fù)雜性和不靈活的問題。
RISC-V 和開源建??蚣艿呐d起促進了基于時間的調(diào)度的采用,克服了以前與專有工具鏈相關(guān)的障礙以及對社區(qū)驅(qū)動支持的需求。
基于時間的 OOO 為客戶帶來的好處包括卓越的每瓦性能、可擴展性、簡化的驗證流程以及針對數(shù)據(jù)中心、移動、汽車和定制加速器中特定領(lǐng)域應(yīng)用程序的增強定制。
幾十年來,高性能 CPU 設(shè)計一直由傳統(tǒng)的亂序 (OOO) 執(zhí)行架構(gòu)主導(dǎo)。英特爾、Arm 和 AMD 等巨頭已將這種方法完善為行業(yè)標準——通過日益復(fù)雜的調(diào)度程序、推測和運行時邏輯來平衡性能和復(fù)雜性。然而,隨著工作負載在數(shù)據(jù)中心、移動和汽車領(lǐng)域的多樣化,傳統(tǒng) OOO 架構(gòu)的弱點——功耗低下、復(fù)雜性和不靈活——變得越來越明顯。
現(xiàn)在,一種新的范式正在出現(xiàn):基于時間的 OOO 微架構(gòu)。這種方法以研究和新專利為基礎(chǔ),提供了一種顛覆性的替代方案,可能會使 RISC-V 在與根深蒂固的現(xiàn)有企業(yè)相比中具有第一個可防御的高性能優(yōu)勢。在 RISC-V 時代,開放性、可擴展性和生態(tài)系統(tǒng)杠桿性是關(guān)鍵的差異化因素,基于時間的 OOO 提供了一條超越傳統(tǒng)現(xiàn)有企業(yè)的途徑。
在 Hot Chips 2025 上,來自 Condor Computing 的 Ty Garibay 和 Shashank Nemawarkar 就該主題發(fā)表了演講。他們詳細介紹了其處理器架構(gòu)(代號:Cuzco),這是一種高性能、兼容 RVA23 的 RISC-V CPU IP,具有基于時間的 OOO 執(zhí)行和基于切片的微架構(gòu)。Ty 是公司的總裁兼創(chuàng)始人,Shashank 是高級研究員兼建筑總監(jiān)。
關(guān)鍵思想:時間是一流的資源
傳統(tǒng)的 OOO 處理器依賴于動態(tài)解析依賴關(guān)系和發(fā)出指令的每周期調(diào)度程序。這種方法雖然有效,但需要大型、耗電的硬件結(jié)構(gòu)(預(yù)留站、喚醒/選擇邏輯和動態(tài)記分牌跟蹤),這些結(jié)構(gòu)在更寬的超標量內(nèi)核時擴展性很差。
基于時間的 OOO 執(zhí)行翻轉(zhuǎn)了這種模型。寄存器記分牌跟蹤指令的未來“寫入時間”,以便下游指令自動知道作數(shù)何時準備就緒。時間資源矩陣 (TRM) 記錄執(zhí)行資源(如 ALU、總線、加載/存儲隊列)的繁忙間隔,這有助于提前預(yù)測資源可用性周期。這支持預(yù)測調(diào)度,其中發(fā)出指令時了解作數(shù)和資源的確切未來周期。
在實踐中,這將指令調(diào)度轉(zhuǎn)換為類似于編譯器的靜態(tài)分析,但在硬件中執(zhí)行,并針對錯誤預(yù)測、緩存未命中和動態(tài)延遲進行運行時調(diào)整。這導(dǎo)致更少的柵極數(shù)、更低的動態(tài)功率和更簡單的邏輯,同時仍提供高 IPC 性能。
為什么是現(xiàn)在?縮小工具和生態(tài)系統(tǒng)差距
基于時間的調(diào)度概念在學術(shù)研究中并不新鮮,但有幾個障礙阻礙了它在工業(yè)界的采用:
從歷史上看,CPU 設(shè)計依賴于專有的封閉工具鏈和性能建??蚣?。實現(xiàn)完全不同的調(diào)度模型需要深入的編譯器和模擬器協(xié)同設(shè)計——如果沒有社區(qū)驅(qū)動的支持,這幾乎是不可能的。RISC-V 的興起改變了等式。Sparta、Olympia、Spike 和 Dromajo 等開源建??蚣転樘剿餍碌恼{(diào)度策略提供了可擴展的平臺。Condor Computing 貢獻了新工具,例如 Fusion Spec Language (FSL),并積極為 Dromajo 和 Spike 增強做出了貢獻,以實現(xiàn)精確建模和整個生態(tài)系統(tǒng)的采用。傳統(tǒng)的 OOO 曾經(jīng)受益于標準化和慣性,而高性能 RISC-V OOO 現(xiàn)在受益于開源杠桿和社區(qū)貢獻。基于時間的 OOO 依靠即插即用的比較和改進,而不是使用這些工具的傳統(tǒng) OOO 技術(shù)。
Cuzco 基于切片的設(shè)計:靈活、高效且可擴展
基于切片的微架構(gòu)通過將 CPU 分解為模塊化、可重復(fù)的“切片”來提供可擴展性、效率和靈活性,每個切片都有自己的管道和資源。這種方法避免了單片超標量設(shè)計的關(guān)鍵路徑瓶頸,從而實現(xiàn)了從低功耗物聯(lián)網(wǎng)到數(shù)據(jù)中心工作負載的可預(yù)測性能擴展??蛻舾鶕?jù)其面積/功耗/性能要求選擇兩個、三個或四個切片,從而實現(xiàn)靜態(tài)可配置性。它們還可以通過在運行時對切片進行電源門控來實現(xiàn)動態(tài)可配置性,從而允許處理器針對低功耗工作負載進行縮減。其結(jié)果是更高的每瓦性能、更快的上市時間以及更靈活的 IP 產(chǎn)品,客戶可以根據(jù)不同的用例進行定制。
客戶利益
對于評估可許可 CPU IP 的客戶來說,基于時間的 OOO 的吸引力不僅在于架構(gòu)的優(yōu)雅,還在于切實的好處:
每瓦性能:IPC 與傳統(tǒng) OOO 相當或更優(yōu)越
可擴展性:每個集群支持多達 8 個內(nèi)核,具有私有 L2 和共享 L3 緩存,可提供數(shù)據(jù)中心級吞吐量,而無需過高的功率預(yù)算。
可預(yù)測性:與傳統(tǒng)的 OOO 設(shè)計相比,簡化的調(diào)度降低了驗證復(fù)雜性和門數(shù),從而加快了上市時間。
定制:原生 RISC-V ISA 可擴展性與 TRM 驅(qū)動的調(diào)度相結(jié)合,可以更快地部署特定領(lǐng)域的加速器,這對于 AI、網(wǎng)絡(luò)和汽車用例至關(guān)重要。
總結(jié)
Cuzco 基于時間的無序執(zhí)行代表了對 CPU 設(shè)計的根本性重新思考。通過消除每個周期調(diào)度的低效率,它降低了復(fù)雜性,降低了功耗,并實現(xiàn)了更廣泛的可擴展性,同時與 RISC-V ISA 和軟件生態(tài)系統(tǒng)完全兼容。
它是一款兼容 RVA23 的處理器,可在可許可的 CPU IP 中提供每瓦和每 sq.mm 的最佳性能。這不是漸進式的改進,而是一種結(jié)構(gòu)性轉(zhuǎn)變,可以定義 RISC-V 的高性能時代。
Cuzco 的設(shè)計具有廣泛的適用性:
數(shù)據(jù)中心:高吞吐量和較低的功耗預(yù)算意味著更低的 TCO。
手機和手機:具有競爭力性能的能源效率。
汽車:可預(yù)測性和確定性,對于安全工作負載至關(guān)重要。
自定義加速器:通過 RISC-V ISA 可擴展性解鎖的特定領(lǐng)域優(yōu)化。
評論