熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 玄鐵基于RISC-V的AI大模型部署優(yōu)化實(shí)踐

玄鐵基于RISC-V的AI大模型部署優(yōu)化實(shí)踐

作者: 時(shí)間:2025-07-18 來源: 收藏

7月18日,第五屆在上海進(jìn)入分論壇環(huán)節(jié)。作為未來電子產(chǎn)業(yè)最龐大的應(yīng)用范疇之一,人工智能是不可回避的話題。人工智能的飛速發(fā)展,正以年均超過100%的算力需求增長(zhǎng)驅(qū)動(dòng)底層架構(gòu)的革新,“開放、靈活、可定制”的已成為構(gòu)建自主AI算力基石的戰(zhàn)略支點(diǎn)。人工智能分論壇邀請(qǐng)各方企業(yè)探討架構(gòu)如何利用其開源、開放、可擴(kuò)展的特性,實(shí)現(xiàn)AI計(jì)算架構(gòu)的革新,以及RISC-V架構(gòu)在AI軟硬件的最新進(jìn)展和應(yīng)用落地情況。

阿里巴巴達(dá)摩院高級(jí)開發(fā)工程師徐鵬在現(xiàn)場(chǎng)分享了實(shí)踐。作為國(guó)內(nèi)高性能RISC-V處理器IP開發(fā)的先鋒,團(tuán)隊(duì)一直引領(lǐng)著國(guó)內(nèi)RISC-V架構(gòu)在AI應(yīng)用部署技術(shù)前沿,徐鵬介紹,截至2025年3月底,“魔搭社區(qū)”開源數(shù)量超過5.2萬個(gè),與此同時(shí)“千問模型家族”及其衍生模型數(shù)量超過10萬家。不僅傳統(tǒng)模型的數(shù)量龐大,大模型也在各行各業(yè)內(nèi)涌現(xiàn)出了一些定制化的需求。在積極推動(dòng)Vector和AME的推進(jìn)。目前RISC-V社區(qū)當(dāng)前的Vector已經(jīng)ready,AME也在快速推進(jìn)中?;谝陨系臉I(yè)務(wù)需求和更新,對(duì)上層軟件棧提出了更高的要求。

    具體到玄鐵處理器AI能力演進(jìn),早在2019玄鐵開始進(jìn)行Vector0.7.1,接下來是Vector1.0,再然后是大位寬PyTorch以及AME單元,最近玄鐵更新了第二代AME單元。玄鐵硬件持續(xù)演進(jìn)PyTorch和AME加速單元,提升計(jì)算能力,補(bǔ)充數(shù)據(jù)類型支持,特殊操作函數(shù)加速,針對(duì)性強(qiáng)化LLM場(chǎng)景。下圖是玄鐵相關(guān)的業(yè)務(wù)需求和硬件生態(tài),玄鐵AI部署工具集HHB。玄鐵AI工具集包含三個(gè)層次,包括了HHB AICompiler和HHB-onnxruntime和HHB-XTorch。

 圖片.png

  玄鐵另一個(gè)重要的工作是PyTorch擴(kuò)展。做好PyTorch的支持,一方面可以使用戶能夠無痛的切換到RISC-V硬件上,第二個(gè)方面可以復(fù)用PyTorch目前已經(jīng)成熟的軟件生態(tài)、拓展RISC-V的AI能力。具體到玄鐵XTorch上,玄鐵針對(duì)大模型、MoE模型提供系列算子融合,端到端性能提升了11.2%。同時(shí)在這個(gè)層次也方便用戶部署,提供了大模型的良好能力的一些主流良好算法。例如:AWQ、GPTQ等,也提供q80等多粒度、多精度的量化能力支持。具體看一下XTorch如何加速大模型推理的。下圖作為典型的一個(gè)使用Transformer進(jìn)行大模型推理的范式。最簡(jiǎn)單的流程下,我們只需要插入兩行代碼使能XTorch就可以實(shí)現(xiàn)最原生的PyTorch加速。右邊是XTorch內(nèi)部的一些工作,像針對(duì)MoE的算子融合,還有其他的一些常規(guī)算子融合和模型優(yōu)化能力。

圖片.png

   第三個(gè)工作進(jìn)展是玄鐵運(yùn)行時(shí)引擎和玄鐵算子庫(kù)。玄鐵NN庫(kù)是支持靜態(tài)圖和動(dòng)態(tài)圖的推理,支持目前大模型中需要用到的FP8、FP4等多數(shù)據(jù)類型、新數(shù)據(jù)類型的一些量化推理。在計(jì)算任務(wù)進(jìn)入玄鐵NN運(yùn)行之后,會(huì)將整個(gè)計(jì)算任務(wù)拆分成一個(gè)一個(gè)的算子任務(wù)去進(jìn)行適合于在單個(gè)核心上運(yùn)算的,玄鐵提供線程間的負(fù)載均衡來形成極致的多核推理。同時(shí),玄鐵在進(jìn)行大模型的推理過程之中,會(huì)將單個(gè)大模型計(jì)算任務(wù)去視為同一個(gè)計(jì)算流,然后通過整體的整個(gè)計(jì)算流的全局態(tài)的分析,最大程度的運(yùn)行硬件的并行能力,通過One Graph推理方式端到端性能提升20.5%。底層會(huì)將Matrix和Vector抽象成流數(shù)據(jù)單元,一次性編排所有的計(jì)算任務(wù)和通信任務(wù),相較于傳統(tǒng)的執(zhí)行方式能夠更大的消減硬件的等待時(shí)間。

    玄鐵團(tuán)隊(duì)的優(yōu)勢(shì)是可以做軟硬件協(xié)同優(yōu)化,可以利用并行能力加速Softmax計(jì)算,硬件會(huì)根據(jù)需求分析、最終形成了reduce dup系列指令,最終形成Softmax、通過閉環(huán)加速有了8倍提升。在Vector方面大模型用到的編碼會(huì)使用到sigmoid、sin的操作,玄鐵硬件會(huì)專門的去做函數(shù)加速。例如sigmoid和silu算子都會(huì)有5倍的提升。針對(duì)GEMM加速效果相較于FP16、相較于競(jìng)品來說,提升了3倍左右。


評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉