熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 有時(shí)抄個(gè)1000詞,有時(shí)自己發(fā)揮,新研究揭示GPT到底是怎么寫作文的

有時(shí)抄個(gè)1000詞,有時(shí)自己發(fā)揮,新研究揭示GPT到底是怎么寫作文的

發(fā)布人:機(jī)器之心 時(shí)間:2021-11-21 來源:工程師 發(fā)布文章

GPT-2 這樣的大規(guī)模語言模型也能學(xué)會(huì)「句法」、生成新詞,然而事情真要這么簡(jiǎn)單就好了。

深度學(xué)習(xí)到底能學(xué)多深?在過去的一段時(shí)間,我們大多會(huì)用生成文本的質(zhì)量來評(píng)價(jià) GPT 等語言生成模型的表現(xiàn)。但與此同時(shí),我們忽略了一個(gè)問題:那些用生成模型做的「狗屁不通文章生成器」、「滿分作文生成器」到底是鸚鵡學(xué)舌(簡(jiǎn)單地記住看過的例子,并以淺顯的方式重新組合),還是真的學(xué)到了復(fù)雜的語言結(jié)構(gòu)?

在最近的一篇文章中,來自約翰霍普金斯大學(xué)、微軟研究院等機(jī)構(gòu)的研究者就提出了這樣一個(gè)問題。

1.png

神經(jīng)網(wǎng)絡(luò)語言模型可以生成合乎語法的連貫文本,但文本本身并不能告訴我們它是由模型構(gòu)建的還是從訓(xùn)練集中抄的。論文作者認(rèn)為,理清這一問題非常關(guān)鍵,因?yàn)槌艘呀?jīng)成為標(biāo)準(zhǔn)的質(zhì)量評(píng)估外,文本生成模型的新穎性評(píng)估也很重要。

為什么新穎性如此重要?首先,從語言學(xué)的角度來看,能夠以新穎的方式將熟悉的部分組合起來是衡量語言掌握能力的一個(gè)關(guān)鍵要素。其次,從機(jī)器學(xué)習(xí)的角度來看,模型本來就應(yīng)該學(xué)到訓(xùn)練分布,而不僅僅是把訓(xùn)練集記下來。最后,從更加實(shí)用的角度來看,那些只會(huì)復(fù)制訓(xùn)練數(shù)據(jù)的模型可能會(huì)泄露敏感信息,或重復(fù)仇恨言論。

在這篇論文中,為了評(píng)估生成文本的新穎性,研究者提出了一套名為「RAVEN(RAting VErbal Novelty)」的分析系統(tǒng)。分析指標(biāo)包括序列結(jié)構(gòu)(n-grams)和句法結(jié)構(gòu)?!窻AVEN」的名字來源于愛倫 · 坡的詩《烏鴉》,在這首詩中,敘述者遇到了一只神秘的烏鴉,它不斷地叫著「永不復(fù)還(Nevermore)!」敘述者不知道烏鴉只是在重復(fù)人說的話,還是在構(gòu)建自己的話語。

他們將這套系統(tǒng)應(yīng)用于 LSTM、Transformer、Transformer-XL 以及四種尺寸的 GPT-2 生成的文本。因?yàn)橛泻芏喾椒梢詮恼Z言模型中生成文本,所以他們測(cè)試了 12 種生成方法和 4 種 prompt 長度。作為基線,他們還分析了來自每個(gè)模型測(cè)試集的人工生成文本。

在實(shí)驗(yàn)中,研究者發(fā)現(xiàn),上述模型在結(jié)構(gòu)分析的每個(gè)方面都表現(xiàn)出了新穎性:它們生成了新的 n-grams、形態(tài)組合和句法結(jié)構(gòu)。例如,GPT-2 生成了幾種類型的新詞,包括屈折變化(如 Swissified)、派生(IKEA-ness)等;在 Transformer-XL 生成的句子中,74% 的句子具有訓(xùn)練句子所沒有的句法結(jié)構(gòu)。因此,神經(jīng)語言模型并不是簡(jiǎn)單地記住訓(xùn)練數(shù)據(jù),而是使用某種流程,以一種新穎的方式將熟悉的部分組合起來。

其中,在考慮小 n-grams 時(shí),這些模型生成的文本并沒有 baseline 那么新穎。例如,對(duì)于每一個(gè)模型,人類生成的基線文本的新穎 bigram 數(shù)是模型的 1.4 到 3.3 倍。對(duì)于大于 5-gram 的 n-grams,模型的新穎性要高于基線,但它們偶爾也會(huì)大量復(fù)制:GPT-2 有時(shí)會(huì)復(fù)制超過 1000 詞的訓(xùn)練文本。

2.png

論文鏈接:https://arxiv.org/pdf/2111.09509.pdf

目前,該論文的代碼還沒有公布,但作者表示,如果能得到其中幾位作者的雇主的批準(zhǔn),他們將盡快公布代碼。

方法概覽

如上所述,研究者通過 n-grams 和句法結(jié)構(gòu)來評(píng)估生成文本的新穎度。如果生成文本出現(xiàn)在訓(xùn)練集或上下文(「prompt」和「語言模型已經(jīng)基于 prompt 生成的文本」之間的連結(jié))中,該文本會(huì)被判定為復(fù)制文本,否則為新穎文本。

復(fù)制未必都是不好的。例如,一些很長的 n-grams 可能是從訓(xùn)練集中復(fù)制的,如書名。為了分辨這種情況,研究者將模型生成的文本與來自測(cè)試集的人工生成文本進(jìn)行了比較,這樣他們就能知道模型訓(xùn)練域中大約存在多少需要復(fù)制的文本。如果模型的新穎程度至少達(dá)到了基線的水平,研究者就判定它沒有過度復(fù)制。

實(shí)驗(yàn)一:基于序列結(jié)構(gòu)(n-grams)的新穎性分析

為了進(jìn)行架構(gòu)之間的受控比較,該研究使用了在同一個(gè)數(shù)據(jù)集上訓(xùn)練的三個(gè)模型,即 Wikitext-103(Merity et al.,2017)。Wikitext-103 是在詞的級(jí)別進(jìn)行分詞的高質(zhì)量維基百科文章集合,它的訓(xùn)練集包含 1.03 億個(gè)詞。研究者在該訓(xùn)練集上比較了 LSTM(Hochreiter and Schmidhuber,1997)、Transformer(Vaswani et al.,2017)和 Transformer-XL(TXL;Dai et al.,2019)架構(gòu)。采用這三種模型是因?yàn)樗鼈兘o出了語言建模中兩種主要的處理類型:循環(huán)(在 LSTM 中使用)和自注意力(在 Transformer 中使用),TXL 同時(shí)用到了這兩種機(jī)制。

除了這些系統(tǒng)分析之外,該研究還分析了更大規(guī)模的 Transformer LM——GPT-2(Radford et al.,2019),選用 GPT-2 是因?yàn)樵谀苷业接?xùn)練集的眾多模型中,它的訓(xùn)練集是最大的。與實(shí)驗(yàn)中的其他模型不同,GPT-2 在 WebText 語料庫上進(jìn)行訓(xùn)練,該語料庫由鏈接到 Reddit 上的網(wǎng)頁構(gòu)建而成。

 GPT-2 的分詞方案也不同于實(shí)驗(yàn)中的其他模型:其他模型均使用詞級(jí)分詞(其中每個(gè) token 都是一個(gè)完整的詞),而 GPT-2 使用子詞(subword)分詞方案(Sennrich et al.,2016)。WebText 訓(xùn)練語料庫包含 77 億個(gè)詞,比 Wikitext-103 大得多。

該研究首先在 n-gram 層面研究各種模型的新穎性,其中 n-gram 是 n 個(gè)詞的序列。

在 n 取不同的值時(shí),模型生成文本的新穎性有何不同

該研究發(fā)現(xiàn):對(duì)于較小的 n 值,LM 生成的 n-gram 很少是新穎的;而對(duì)于較大的 n 值 (n > 6),生成的 n-gram 幾乎總是新穎的。

3.png

當(dāng) n 取值較大時(shí),模型會(huì)復(fù)制文本嗎?

該研究發(fā)現(xiàn):所有的模型偶爾都會(huì)復(fù)制 100 詞或更長的訓(xùn)練集段落。

具體來說,模型很少復(fù)制大于 10 個(gè) token 的 n-gram。但是,偶爾會(huì)出現(xiàn)模型復(fù)制極長序列的情況。例如,在幾種情況下,GPT-2 生成的文本中某個(gè)段落(超過 1000 個(gè)詞)是完全復(fù)制訓(xùn)練集的。該研究使用「supercopying」指代這些極端復(fù)制情況(supercopying 指大小為 100 或更大的 n-gram 重復(fù)。

下圖給出了幾種模型「supercopying」訓(xùn)練集 100-grams 的次數(shù)統(tǒng)計(jì)數(shù)據(jù)。

4.png

新穎性與解碼方案及生成文本的質(zhì)量有何關(guān)系?

研究者發(fā)現(xiàn),改變解碼參數(shù)可以在很大程度上改變模型的新穎性。新穎性可以通過提高 top-p 采樣中的 p、top-k 采樣中的 k 或溫度來提升。然而,所有提高生成文本新穎性的變動(dòng)均會(huì)降低質(zhì)量。

5.png

圖 2:對(duì)解碼方案的控制可以生成高質(zhì)量的文本(例如,更低的困惑度;x 軸),但也會(huì)降低新穎性(例如,更大程度的重復(fù); y 軸)。每個(gè)點(diǎn)顯示不同的解碼方案。

附錄中提供了其他分析。研究者發(fā)現(xiàn),模型大小 (附錄 H) 和 prompt 長度 (附錄 I) 對(duì)新穎性沒有明顯的影響;對(duì)于某些模型,新穎性受到生成文本中的位置的影響,但影響很小(附錄 J) ;如果只考慮從訓(xùn)練集中復(fù)制,而不考慮從上下文和 / 或訓(xùn)練集中復(fù)制,那么新穎性結(jié)果不會(huì)有太大變化(附錄 K)。

實(shí)驗(yàn)二:基于句法結(jié)構(gòu)的新穎性分析

在全局句子結(jié)構(gòu)層面,模型表現(xiàn)出了高度的句法新穎性,大多數(shù)生成的句子具備訓(xùn)練數(shù)據(jù)中的句子所沒有的整體句法結(jié)構(gòu)。對(duì)于局部結(jié)構(gòu),模型也展示出了一定程度的新穎性,但要比基線低得多。

6.png

圖 3: 句法新穎性。縮寫分別表示: seq = sequence; dep = dependency; struct = structure

GPT-2 生成能力的手動(dòng)分析

最后,研究者對(duì)新生成的文本進(jìn)行了人工分析。這種分析是勞動(dòng)密集型的,基于提升效率的考慮,這里主要關(guān)注了 GPT-2,因?yàn)樗切阅茏顝?qiáng)的模型。在初步分析階段,研究者只分析了 GPT-2 產(chǎn)生的新詞語,GPT-2 使用了子詞級(jí)分詞,所以它可以用新的方式組合可見的子詞來產(chǎn)生新詞語。附錄 O 和 P 中展示了 GPT-2 生成新詞的詳細(xì)分類。

GPT-2 生成新詞的詞法結(jié)構(gòu)是否完備?

GPT-2 生成的新詞絕大多數(shù) (96%) 是詞法完備的,然而這低于基線(99%)。

7.png

GPT-2 生成的新詞是否符合上下文句法? 

GPT-2 生成的新詞絕大多數(shù) (94%) 是在語法正確的上下文中使用的 ,但它確實(shí)比基線中的錯(cuò)誤多。

8.png

GPT-2 生成的新詞是否意義合理?

GPT-2 在這一領(lǐng)域的表現(xiàn)不如在詞法和語法上的表現(xiàn),這與語言模型只學(xué)習(xí)「形式」而不學(xué)習(xí)「意義」的說法 (Bender and Koller, 2020) 相符。

9.png

圖 6:新詞與其上下文的語義匹配程度。

通過使用 RAVEN 分析系統(tǒng),研究者發(fā)現(xiàn)模型產(chǎn)生了許多種類的新穎性:各種大小的新穎 n-gram、新穎的句法結(jié)構(gòu)和新穎的詞法組合。模型屬于「創(chuàng)作,但沒有完全創(chuàng)作」的狀態(tài),結(jié)果也顯示出許多復(fù)制的跡象:對(duì)于局部結(jié)構(gòu),模型表現(xiàn)大大低于基線; 此外也偶爾出現(xiàn)大規(guī)模的復(fù)制,例如復(fù)制超過 1000 詞的訓(xùn)練集段落。

除了文本生成之外,研究者表示,希望這項(xiàng)工作能夠讓人們更加謹(jǐn)慎地考慮在 NLP 的訓(xùn)練集與測(cè)試集之間現(xiàn)存的分歧。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉