熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 玄鐵基于RISC-V的AI大模型部署優(yōu)化實踐

玄鐵基于RISC-V的AI大模型部署優(yōu)化實踐

作者: 時間:2025-07-18 來源: 收藏

7月18日,第五屆在上海進入分論壇環(huán)節(jié)。作為未來電子產(chǎn)業(yè)最龐大的應用范疇之一,人工智能是不可回避的話題。人工智能的飛速發(fā)展,正以年均超過100%的算力需求增長驅(qū)動底層架構(gòu)的革新,“開放、靈活、可定制”的已成為構(gòu)建自主AI算力基石的戰(zhàn)略支點。人工智能分論壇邀請各方企業(yè)探討架構(gòu)如何利用其開源、開放、可擴展的特性,實現(xiàn)AI計算架構(gòu)的革新,以及RISC-V架構(gòu)在AI軟硬件的最新進展和應用落地情況。

阿里巴巴達摩院高級開發(fā)工程師徐鵬在現(xiàn)場分享了實踐。作為國內(nèi)高性能RISC-V處理器IP開發(fā)的先鋒,團隊一直引領著國內(nèi)RISC-V架構(gòu)在AI應用部署技術(shù)前沿,徐鵬介紹,截至2025年3月底,“魔搭社區(qū)”開源數(shù)量超過5.2萬個,與此同時“千問模型家族”及其衍生模型數(shù)量超過10萬家。不僅傳統(tǒng)模型的數(shù)量龐大,大模型也在各行各業(yè)內(nèi)涌現(xiàn)出了一些定制化的需求。在積極推動Vector和AME的推進。目前RISC-V社區(qū)當前的Vector已經(jīng)ready,AME也在快速推進中。基于以上的業(yè)務需求和更新,對上層軟件棧提出了更高的要求。

    具體到玄鐵處理器AI能力演進,早在2019玄鐵開始進行Vector0.7.1,接下來是Vector1.0,再然后是大位寬PyTorch以及AME單元,最近玄鐵更新了第二代AME單元。玄鐵硬件持續(xù)演進PyTorch和AME加速單元,提升計算能力,補充數(shù)據(jù)類型支持,特殊操作函數(shù)加速,針對性強化LLM場景。下圖是玄鐵相關的業(yè)務需求和硬件生態(tài),玄鐵AI部署工具集HHB。玄鐵AI工具集包含三個層次,包括了HHB AICompiler和HHB-onnxruntime和HHB-XTorch。

 圖片.png

  玄鐵另一個重要的工作是PyTorch擴展。做好PyTorch的支持,一方面可以使用戶能夠無痛的切換到RISC-V硬件上,第二個方面可以復用PyTorch目前已經(jīng)成熟的軟件生態(tài)、拓展RISC-V的AI能力。具體到玄鐵XTorch上,玄鐵針對大模型、MoE模型提供系列算子融合,端到端性能提升了11.2%。同時在這個層次也方便用戶部署,提供了大模型的良好能力的一些主流良好算法。例如:AWQ、GPTQ等,也提供q80等多粒度、多精度的量化能力支持。具體看一下XTorch如何加速大模型推理的。下圖作為典型的一個使用Transformer進行大模型推理的范式。最簡單的流程下,我們只需要插入兩行代碼使能XTorch就可以實現(xiàn)最原生的PyTorch加速。右邊是XTorch內(nèi)部的一些工作,像針對MoE的算子融合,還有其他的一些常規(guī)算子融合和模型優(yōu)化能力。

圖片.png

   第三個工作進展是玄鐵運行時引擎和玄鐵算子庫。玄鐵NN庫是支持靜態(tài)圖和動態(tài)圖的推理,支持目前大模型中需要用到的FP8、FP4等多數(shù)據(jù)類型、新數(shù)據(jù)類型的一些量化推理。在計算任務進入玄鐵NN運行之后,會將整個計算任務拆分成一個一個的算子任務去進行適合于在單個核心上運算的,玄鐵提供線程間的負載均衡來形成極致的多核推理。同時,玄鐵在進行大模型的推理過程之中,會將單個大模型計算任務去視為同一個計算流,然后通過整體的整個計算流的全局態(tài)的分析,最大程度的運行硬件的并行能力,通過One Graph推理方式端到端性能提升20.5%。底層會將Matrix和Vector抽象成流數(shù)據(jù)單元,一次性編排所有的計算任務和通信任務,相較于傳統(tǒng)的執(zhí)行方式能夠更大的消減硬件的等待時間。

    玄鐵團隊的優(yōu)勢是可以做軟硬件協(xié)同優(yōu)化,可以利用并行能力加速Softmax計算,硬件會根據(jù)需求分析、最終形成了reduce dup系列指令,最終形成Softmax、通過閉環(huán)加速有了8倍提升。在Vector方面大模型用到的編碼會使用到sigmoid、sin的操作,玄鐵硬件會專門的去做函數(shù)加速。例如sigmoid和silu算子都會有5倍的提升。針對GEMM加速效果相較于FP16、相較于競品來說,提升了3倍左右。


評論


相關推薦

技術(shù)專區(qū)

關閉