在【LLM】LLM 中增量解碼與模型推理解讀一文中對(duì) LLM 常見(jiàn)名詞進(jìn)行了介紹,本文會(huì)對(duì) LLM 中評(píng)價(jià)指標(biāo)與訓(xùn)練概要進(jìn)行介紹,本文并未介紹訓(xùn)練實(shí)操細(xì)節(jié),未來(lái)有機(jī)會(huì)再了解~
一、LLM 如何停止輸出
在看 LLM 評(píng)價(jià)指標(biāo)前,先看看 LLM 如何停止輸出。
結(jié)束符號(hào)(EOS Token)
模型生成特殊終止符(如 DeepSeek R1 MoE 中 ID 為 1 的 token)表示回答完成。
...在物理學(xué)領(lǐng)域做出了革命性貢獻(xiàn)。[EOS]
最大長(zhǎng)度限制 預(yù)設(shè)生成 token 上限(常見(jiàn)值:512/1024/2048),防止無(wú)限生成,保障系統(tǒng)資源安全。
停止詞 / 序列觸發(fā) 設(shè)置 “\n\n”“###” 等符號(hào)為停止信號(hào),強(qiáng)制結(jié)束生成(適用于格式控制)。
內(nèi)容智能判斷
重復(fù)檢測(cè):識(shí)別循環(huán)或冗余內(nèi)容時(shí)自動(dòng)終止。
語(yǔ)義完整性:當(dāng)回答覆蓋查詢(xún)所有維度(如時(shí)間、影響)時(shí)停止。
停止機(jī)制建議組合使用(如 EOS + 最大長(zhǎng)度),確保生成既完整又可控。
綜合來(lái)看,Decode 階段的循環(huán)機(jī)制是大模型實(shí)現(xiàn)長(zhǎng)文本生成的核心:
效率優(yōu)化:通過(guò) KV 緩存復(fù)用大幅降低計(jì)算成本;
可控生成:多維度停止策略平衡輸出質(zhì)量與資源消耗;
語(yǔ)義連貫:自回歸模式確保上下文邏輯銜接緊密。
二、LLM 評(píng)價(jià)指標(biāo)
常見(jiàn) LLM 評(píng)價(jià)指標(biāo)如下:
三、LLM 訓(xùn)練概要
本節(jié)主要參考: https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526
數(shù)據(jù)準(zhǔn)備:喂給模型“知識(shí)”
收集數(shù)據(jù):從互聯(lián)網(wǎng)、書(shū)籍、論文等獲取海量文本(如英文維基百科+書(shū)籍+網(wǎng)頁(yè))。
清洗數(shù)據(jù):過(guò)濾垃圾、重復(fù)內(nèi)容、有害信息,保留高質(zhì)量文本。
分詞(Tokenization):把文本拆成“詞語(yǔ)片段”(如用 Byte-Pair Encoding 或 SentencePiece)。
模型設(shè)計(jì):搭建“大腦”結(jié)構(gòu)
預(yù)訓(xùn)練(Pre-training):自主學(xué)習(xí)語(yǔ)言規(guī)律
微調(diào)(Fine-tuning):定向優(yōu)化能力 場(chǎng)景化訓(xùn)練:用特定任務(wù)的數(shù)據(jù)(如客服對(duì)話、醫(yī)療問(wèn)答)進(jìn)一步優(yōu)化模型。
評(píng)估與部署:測(cè)試和落地
四、LLM 中學(xué)習(xí)策略
在上面的訓(xùn)練過(guò)程中,提到了“自監(jiān)督學(xué)習(xí)"、"強(qiáng)化學(xué)習(xí)”這幾個(gè)概念。這些都屬于大模型訓(xùn)練過(guò)程中的學(xué)習(xí)策略或者叫學(xué)習(xí)范式,以下是對(duì)不同學(xué)習(xí)策略的總結(jié)和對(duì)比:
監(jiān)督學(xué)習(xí)的標(biāo)簽是人工標(biāo)注的,這是 CNN 這些架構(gòu)訓(xùn)練模型或算法很常見(jiàn)的方法。標(biāo)注的意思就是我們喂給模型的數(shù)據(jù)會(huì)被人工提前標(biāo)注出特征點(diǎn),比如我們會(huì)給很多圖片中的汽車(chē)做出標(biāo)記,目的是告訴大模型我們打標(biāo)簽的這些圖形就是汽車(chē),讓大模型記住它。
強(qiáng)化學(xué)習(xí)不需要大量的人工標(biāo)注,只是需要設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)好獎(jiǎng)勵(lì)規(guī)則,當(dāng)模型給出的結(jié)果是接近目標(biāo)值的,我們就給一個(gè)正反饋或者高的分?jǐn)?shù)。
五、常見(jiàn) LLM 模型
六、LLM 的挑戰(zhàn)與展望
6.1 挑戰(zhàn)
幻覺(jué)現(xiàn)象(Hallucination):生成看似合理但事實(shí)錯(cuò)誤的內(nèi)容。
推理成本高:內(nèi)存與計(jì)算資源消耗大,部署成本高昂。
推理速度慢:長(zhǎng)文本響應(yīng)延遲顯著影響用戶(hù)體驗(yàn)。
數(shù)據(jù)安全與偏見(jiàn)問(wèn)題:訓(xùn)練數(shù)據(jù)中可能包含歧視或敏感信息。
6.2 展望
LLM 目前已用于多個(gè)場(chǎng)景,例如:
文本生成:自動(dòng)撰寫(xiě)新聞、故事、詩(shī)歌。
翻譯系統(tǒng):多語(yǔ)言互譯,甚至語(yǔ)音到文本。
情緒分析:用于品牌情感監(jiān)測(cè)、影評(píng)判斷。
對(duì)話機(jī)器人:如 ChatGPT,提供自然流暢的對(duì)話能力。
代碼生成:輔助編程任務(wù),生成/解釋代碼。
近年來(lái)也發(fā)展出支持圖像、語(yǔ)音、視頻等多模態(tài)輸入的 VLM(Vision-Language Models)和 VLA(Vision-Language-Action),可以研究學(xué)習(xí)的地方非常多。
后續(xù)會(huì)轉(zhuǎn)到 VLM 的學(xué)習(xí)~
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。