熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > LLM 中評(píng)價(jià)指標(biāo)與訓(xùn)練概要介紹

LLM 中評(píng)價(jià)指標(biāo)與訓(xùn)練概要介紹

發(fā)布人:地平線開(kāi)發(fā)者 時(shí)間:2025-08-24 來(lái)源:工程師 發(fā)布文章

在【LLM】LLM 中增量解碼與模型推理解讀一文中對(duì) LLM 常見(jiàn)名詞進(jìn)行了介紹,本文會(huì)對(duì) LLM 中評(píng)價(jià)指標(biāo)與訓(xùn)練概要進(jìn)行介紹,本文并未介紹訓(xùn)練實(shí)操細(xì)節(jié),未來(lái)有機(jī)會(huì)再了解~

一、LLM 如何停止輸出

在看 LLM 評(píng)價(jià)指標(biāo)前,先看看 LLM 如何停止輸出。

大模型常通過(guò)以下幾種策略控制生成終止:

  1. 結(jié)束符號(hào)(EOS Token)

模型生成特殊終止符(如 DeepSeek R1 MoE 中 ID 為 1 的 token)表示回答完成。

...在物理學(xué)領(lǐng)域做出了革命性貢獻(xiàn)。[EOS]
  1. 最大長(zhǎng)度限制 預(yù)設(shè)生成 token 上限(常見(jiàn)值:512/1024/2048),防止無(wú)限生成,保障系統(tǒng)資源安全。

  2. 停止詞 / 序列觸發(fā) 設(shè)置 “\n\n”“###” 等符號(hào)為停止信號(hào),強(qiáng)制結(jié)束生成(適用于格式控制)。

  3. 內(nèi)容智能判斷

    1. 重復(fù)檢測(cè):識(shí)別循環(huán)或冗余內(nèi)容時(shí)自動(dòng)終止。

    2. 語(yǔ)義完整性:當(dāng)回答覆蓋查詢(xún)所有維度(如時(shí)間、影響)時(shí)停止。

停止機(jī)制建議組合使用(如 EOS + 最大長(zhǎng)度),確保生成既完整又可控。

綜合來(lái)看,Decode 階段的循環(huán)機(jī)制是大模型實(shí)現(xiàn)長(zhǎng)文本生成的核心:

  • 效率優(yōu)化:通過(guò) KV 緩存復(fù)用大幅降低計(jì)算成本;

  • 可控生成:多維度停止策略平衡輸出質(zhì)量與資源消耗;

  • 語(yǔ)義連貫:自回歸模式確保上下文邏輯銜接緊密。

二、LLM 評(píng)價(jià)指標(biāo)

常見(jiàn) LLM 評(píng)價(jià)指標(biāo)如下:

Description

三、LLM 訓(xùn)練概要

本節(jié)主要參考: https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526

  1. 數(shù)據(jù)準(zhǔn)備:喂給模型“知識(shí)”

    • 收集數(shù)據(jù):從互聯(lián)網(wǎng)、書(shū)籍、論文等獲取海量文本(如英文維基百科+書(shū)籍+網(wǎng)頁(yè))。

    • 清洗數(shù)據(jù):過(guò)濾垃圾、重復(fù)內(nèi)容、有害信息,保留高質(zhì)量文本。

    • 分詞(Tokenization):把文本拆成“詞語(yǔ)片段”(如用 Byte-Pair Encoding 或 SentencePiece)。

  2. 模型設(shè)計(jì):搭建“大腦”結(jié)構(gòu)

    • 選擇架構(gòu):通常用 Transformer 解碼器堆疊(如 GPT 系列)。

    • 確定參數(shù)量:比如 70 億、150 億參數(shù)(參數(shù)越多,模型越強(qiáng),但計(jì)算成本越高)。

  3. 預(yù)訓(xùn)練(Pre-training):自主學(xué)習(xí)語(yǔ)言規(guī)律

    • 輸入一段文本 → 模型預(yù)測(cè)下一個(gè)詞 → 計(jì)算損失(預(yù)測(cè)誤差) → 反向傳播更新參數(shù)。

    • 重復(fù)數(shù)萬(wàn)億次(用 GPU/TPU 集群加速),直到模型學(xué)會(huì)語(yǔ)言規(guī)律。

    • 自回歸(AutoRegressive):根據(jù)上文預(yù)測(cè)下一個(gè)詞(如 GPT 系列)。

    • 掩碼預(yù)測(cè)(Masked Modeling):隨機(jī)遮蔽部分詞,讓模型填補(bǔ)空缺(如 BERT)。

    • 任務(wù)目標(biāo):通過(guò)自監(jiān)督學(xué)習(xí)預(yù)測(cè)文本中的缺失部分(如遮蔽語(yǔ)言建模,Masked Language Modeling)

    • 訓(xùn)練方法:

  4. 微調(diào)(Fine-tuning):定向優(yōu)化能力 場(chǎng)景化訓(xùn)練:用特定任務(wù)的數(shù)據(jù)(如客服對(duì)話、醫(yī)療問(wèn)答)進(jìn)一步優(yōu)化模型。

    • 監(jiān)督微調(diào)(SFT):人工標(biāo)注的高質(zhì)量問(wèn)答對(duì),教模型生成更準(zhǔn)確的回答。

    • 強(qiáng)化學(xué)習(xí)(RLHF):讓人類(lèi)對(duì)模型輸出打分,通過(guò)獎(jiǎng)勵(lì)機(jī)制優(yōu)化(如 ChatGPT 的訓(xùn)練方法)。

  5. 評(píng)估與部署:測(cè)試和落地

    • 評(píng)估指標(biāo):用困惑度(Perplexity)、準(zhǔn)確率等指標(biāo)測(cè)試模型性能。

    • 部署上線:壓縮模型(如量化、剪枝),部署到服務(wù)器供用戶(hù)調(diào)用。

四、LLM 中學(xué)習(xí)策略

在上面的訓(xùn)練過(guò)程中,提到了“自監(jiān)督學(xué)習(xí)"、"強(qiáng)化學(xué)習(xí)”這幾個(gè)概念。這些都屬于大模型訓(xùn)練過(guò)程中的學(xué)習(xí)策略或者叫學(xué)習(xí)范式,以下是對(duì)不同學(xué)習(xí)策略的總結(jié)和對(duì)比:

Description

  • 監(jiān)督學(xué)習(xí)的標(biāo)簽是人工標(biāo)注的,這是 CNN 這些架構(gòu)訓(xùn)練模型或算法很常見(jiàn)的方法。標(biāo)注的意思就是我們喂給模型的數(shù)據(jù)會(huì)被人工提前標(biāo)注出特征點(diǎn),比如我們會(huì)給很多圖片中的汽車(chē)做出標(biāo)記,目的是告訴大模型我們打標(biāo)簽的這些圖形就是汽車(chē),讓大模型記住它。

  • 強(qiáng)化學(xué)習(xí)不需要大量的人工標(biāo)注,只是需要設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)好獎(jiǎng)勵(lì)規(guī)則,當(dāng)模型給出的結(jié)果是接近目標(biāo)值的,我們就給一個(gè)正反饋或者高的分?jǐn)?shù)。

五、常見(jiàn) LLM 模型

常見(jiàn) LLM 模型如下表

Description

六、LLM 的挑戰(zhàn)與展望
6.1 挑戰(zhàn)
  • 幻覺(jué)現(xiàn)象(Hallucination):生成看似合理但事實(shí)錯(cuò)誤的內(nèi)容。

  • 推理成本高:內(nèi)存與計(jì)算資源消耗大,部署成本高昂。

  • 推理速度慢:長(zhǎng)文本響應(yīng)延遲顯著影響用戶(hù)體驗(yàn)。

  • 數(shù)據(jù)安全與偏見(jiàn)問(wèn)題:訓(xùn)練數(shù)據(jù)中可能包含歧視或敏感信息。

6.2 展望

LLM 目前已用于多個(gè)場(chǎng)景,例如:

  • 文本生成:自動(dòng)撰寫(xiě)新聞、故事、詩(shī)歌。

  • 翻譯系統(tǒng):多語(yǔ)言互譯,甚至語(yǔ)音到文本。

  • 情緒分析:用于品牌情感監(jiān)測(cè)、影評(píng)判斷。

  • 對(duì)話機(jī)器人:如 ChatGPT,提供自然流暢的對(duì)話能力。

  • 代碼生成:輔助編程任務(wù),生成/解釋代碼。

近年來(lái)也發(fā)展出支持圖像、語(yǔ)音、視頻等多模態(tài)輸入的 VLM(Vision-Language Models)和 VLA(Vision-Language-Action),可以研究學(xué)習(xí)的地方非常多。

后續(xù)會(huì)轉(zhuǎn)到 VLM 的學(xué)習(xí)~


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉