博客專欄

EEPW首頁(yè) > 博客 > Meta AI 新研究，統(tǒng)一模態(tài)的自監(jiān)督新里程碑

Meta AI 新研究，統(tǒng)一模態(tài)的自監(jiān)督新里程碑

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-02-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

雖然 AI 領(lǐng)域不斷涌現(xiàn)出新的突破和進(jìn)展，卻始終難以逃離單一領(lǐng)域的束縛——一種用于個(gè)性化語(yǔ)音合成的新穎方法，卻并不能用于識(shí)別人臉的表情。

為了解決這個(gè)問題，不少研究人員正在致力于開發(fā)功能更強(qiáng)大、應(yīng)用更廣泛的 AI 工具：無(wú)論在口頭、書面還是視覺材料上，都可以實(shí)現(xiàn)自主學(xué)習(xí)。

傳統(tǒng)訓(xùn)練 AI 模型正確理解某些內(nèi)容的方法是，提供大量（比如數(shù)百萬(wàn)個(gè)）有標(biāo)記的例子。

試想一下，一幅標(biāo)有貓的部分特征的圖片，一段與演講者的對(duì)話或摘錄的文本，等等。但這種方法日趨淘汰，因?yàn)檠芯咳藛T發(fā)現(xiàn)，手動(dòng)創(chuàng)建訓(xùn)練下一代 AI 所需的數(shù)據(jù)庫(kù)已不再可行。試想一下，誰(shuí)想給 5000 萬(wàn)張貓的照片貼上標(biāo)簽?zāi)?？好吧，可能有幾個(gè)人；但是誰(shuí)又愿意給 5000 萬(wàn)張常見水果和蔬菜的照片貼上標(biāo)簽?zāi)兀看鸢该黠@是否定的。

目前，最有前景的一些 AI 系統(tǒng)采用的就是所謂的“自我監(jiān)督”（self - supervision）：模型可以在大量無(wú)標(biāo)簽數(shù)據(jù)（比如人們互動(dòng)的書籍或視頻）中運(yùn)行，并建立自己對(duì)系統(tǒng)規(guī)則的結(jié)構(gòu)化理解。例如，模型通過(guò)閱讀 1000 本書，會(huì)自主學(xué)習(xí)語(yǔ)法結(jié)構(gòu)，包括單詞的相對(duì)位置，而無(wú)需任何人告訴它什么是賓語(yǔ)、冠詞或逗號(hào)……這些完全可以從大量的例子中推理得出。

就在近日，基于上述理論，來(lái)自 Meta 的研究團(tuán)隊(duì)發(fā)表了一篇題為“data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”的論文。

在這項(xiàng)研究中，開發(fā)人員構(gòu)建了一個(gè)名為 data2vec 的框架，可以跨語(yǔ)音處理、NLP 和計(jì)算機(jī)視覺（CV, Computer Vision）使用相同的學(xué)習(xí)方法，極大地克服了單一開發(fā)模式的缺陷，提高了模型的通用性能。

其核心思想是，在使用標(biāo)準(zhǔn) Transformer 體系結(jié)構(gòu)的自蒸餾設(shè)置中，基于輸入的掩碼視圖（masked view）預(yù)測(cè)完整輸入數(shù)據(jù)的潛在表示。data2vec 并非是預(yù)測(cè)特定模式的目標(biāo)，比如像單詞、視覺 tokens 或語(yǔ)言單元等，而是預(yù)測(cè)包含來(lái)自整個(gè)輸入信息的上下文潛在表示。通過(guò)在語(yǔ)音識(shí)別、圖像分類和自然語(yǔ)言理解的主要基準(zhǔn)上進(jìn)行實(shí)驗(yàn)，有力證明了該方法的技術(shù)水平和優(yōu)異性能。

從直覺上看，這更像是人們學(xué)習(xí)的方式，這也是研究人員喜歡它的原因之一。但是這些模型仍然趨向于單模態(tài)，也就是說(shuō)，你為建立語(yǔ)音識(shí)別的半監(jiān)督學(xué)習(xí)系統(tǒng)所做的所有工作根本不適用于圖像分析，兩者無(wú)疑是大相徑庭。從而，這就更加突顯出 Meta 這項(xiàng)最新研究的意義所在。

然而從本質(zhì)上看，data2vec 的想法就是建立一個(gè) AI 框架，然后以更抽象的方式學(xué)習(xí)。這便意味著一切從零開始，你可以準(zhǔn)備一些可閱讀的書籍、可掃描的圖像或有聲的讀物供其訓(xùn)練，以使模型達(dá)到學(xué)習(xí)這些知識(shí)的目的。這有點(diǎn)像從一粒種子開始，給它不同植物的生存環(huán)境和營(yíng)養(yǎng)條件，使其開出不同的花朵，如水仙、三色堇或郁金香。

總而言之，團(tuán)隊(duì)提出的方法就是將掩碼預(yù)測(cè)與潛在目標(biāo)表示的學(xué)習(xí)相結(jié)合，只不過(guò)是通過(guò)使用多個(gè)網(wǎng)絡(luò)層作為目標(biāo)，對(duì)后者進(jìn)行推廣，并表明該方法適用于多種模式。

具體來(lái)說(shuō)，如圖 1 所示，團(tuán)隊(duì)成員需要訓(xùn)練一個(gè)現(xiàn)成的可以在教師模式和學(xué)生模式中使用的 Transformer 網(wǎng)絡(luò)：首先需要構(gòu)建完整的輸入數(shù)據(jù)表示，其目的是充當(dāng)學(xué)習(xí)任務(wù)中的目標(biāo)（教師模式）。接下來(lái)，對(duì)輸入樣本的掩碼版本進(jìn)行編碼，用它預(yù)測(cè)完整的數(shù)據(jù)表示（學(xué)生模式）。教師的權(quán)重是學(xué)生權(quán)重指數(shù)衰減的平均值。由于不同的模式有著截然不同的輸入，例如，像素和單詞，因此，團(tuán)隊(duì)采用了特定于模式的特征編碼器和掩碼策略。

在整體架構(gòu)上，采用標(biāo)準(zhǔn) Transformer 體系結(jié)構(gòu)，并沿用先前的工作對(duì)輸入數(shù)據(jù)進(jìn)行特定模式的編碼。

對(duì)于 CV，團(tuán)隊(duì)成員采用了 ViT 策略，將圖像編碼為一系列補(bǔ)丁序列，每個(gè)補(bǔ)丁跨越 16x16 像素，輸入到線性變換之中。語(yǔ)音數(shù)據(jù)使用多層一維 CNN 進(jìn)行編碼，該網(wǎng)絡(luò)將 16 kHz 波形映射為 50 Hz 表示。對(duì)文本進(jìn)行預(yù)處理以獲得子詞單元，然后通過(guò)學(xué)習(xí)得到的嵌入向量將其嵌入到分布空間中。

在訓(xùn)練目標(biāo)上，基于掩碼樣本的編碼訓(xùn)練模型，以預(yù)測(cè)原始未掩碼訓(xùn)練樣本的模型表示。需要注意的是，團(tuán)隊(duì)僅針對(duì)掩碼的時(shí)間步長(zhǎng)預(yù)測(cè)模型表示。預(yù)測(cè)的表示是一種上下文的表示，不僅對(duì)特定的時(shí)間步長(zhǎng)進(jìn)行編碼，還對(duì)來(lái)自樣本的其他信息進(jìn)行編碼，這是由于在 Transformer 網(wǎng)絡(luò)中使用了自注意力機(jī)制（Self-attention）。因此，相比于預(yù)測(cè)缺乏上下文信息目標(biāo)的 BERT、wav2vec 2.0 或BEiT、MAE、SimMIM 和 MaskFeat 模型，這是一條重要的區(qū)別。

在實(shí)驗(yàn)設(shè)置上，研究團(tuán)隊(duì)采用了兩種尺寸的模型：data2vec Base 和 data2vec Large，包含 H=768 或 1024 兩個(gè)隱藏維度的 L=12 或 24 的 Transformer blocks。

在用各種數(shù)據(jù)語(yǔ)料庫(kù)對(duì) data2vec 進(jìn)行訓(xùn)練后，測(cè)試的結(jié)果表明，在該模式上，相比于類似規(guī)模的專用模型，它具有一定的競(jìng)爭(zhēng)力，甚至表現(xiàn)得更加出色。（也就是說(shuō)，如果所有模型都被限制在 100 兆字節(jié)，data2vec 會(huì)做得更好——隨著模型規(guī)模的增大，專用模型取勝的幾率會(huì)更大。）

具體而言，為了評(píng)估該方法在 CV 領(lǐng)域的應(yīng)用，團(tuán)隊(duì)成員在 ImageNet-1K 訓(xùn)練集的圖像上預(yù)訓(xùn)練 data2vec，并使用相同基準(zhǔn)的標(biāo)記數(shù)據(jù)對(duì)圖像分類的結(jié)果模型進(jìn)行微調(diào)。結(jié)果如表 1 所示，data2vec 優(yōu)于之前使用 ViT-B 和 ViT-L 的研究工作。與預(yù)測(cè)局部目標(biāo)的方法相比，在掩碼預(yù)測(cè)設(shè)置中預(yù)測(cè)上下文的潛在表示可以很好地執(zhí)行。

而在語(yǔ)音處理方面，團(tuán)隊(duì)成員使用 Librispeech （LS-960）的 960 小時(shí)語(yǔ)音音頻數(shù)據(jù)對(duì) data2vec 進(jìn)行預(yù)訓(xùn)練。這個(gè)數(shù)據(jù)集包含了從英語(yǔ)有聲讀物中獲取的相對(duì)清晰的語(yǔ)音音頻，是語(yǔ)音社區(qū)的標(biāo)準(zhǔn)基準(zhǔn)。

為了了解不同資源設(shè)置下的性能，團(tuán)隊(duì)使用不同數(shù)量的標(biāo)記數(shù)據(jù)（從 10 分鐘到 960 小時(shí)不等）對(duì)自動(dòng)語(yǔ)音識(shí)別模型進(jìn)行了微調(diào)。表 2 顯示了所有標(biāo)記數(shù)據(jù)設(shè)置的改進(jìn)，很明顯，標(biāo)記數(shù)據(jù)為 10 分鐘時(shí)，收益達(dá)到最大值。

最后，為了了解 data2vec 在語(yǔ)言方面的表現(xiàn)，研究團(tuán)隊(duì)采用了與BERT相同的訓(xùn)練設(shè)置，通過(guò)對(duì)圖書語(yǔ)料庫(kù)和英語(yǔ)維基百科的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。結(jié)果如表 3 所示，data2vec 的性能優(yōu)于 RoBERTa 基線。據(jù)團(tuán)隊(duì)所知，這是首個(gè)不使用離散單元（單詞，子單詞，字符或字節(jié)）作為訓(xùn)練目標(biāo)而成功完成預(yù)訓(xùn)練的 NLP 模型。

此外，研究團(tuán)隊(duì)還進(jìn)行了一系列的消融實(shí)驗(yàn)，如圖 2 所示，對(duì)于大多數(shù)模式來(lái)說(shuō)，預(yù)測(cè)多個(gè)層的平均目標(biāo)要比只預(yù)測(cè)最頂層（K = 1）更加穩(wěn)健。使用所有層通常是一個(gè)不錯(cuò)的選擇，并且僅比仔細(xì)調(diào)整的 K 值稍差一點(diǎn)。現(xiàn)代神經(jīng)網(wǎng)絡(luò)往往在多個(gè)層上構(gòu)建特征，并在不同的層上提取不同類型的特征。顯然，使用來(lái)自多個(gè)層的特征既豐富了自監(jiān)督任務(wù)，又提高了準(zhǔn)確性。

在一篇博客文章中，該團(tuán)隊(duì)寫道：“這種方法的核心思想是更廣泛地學(xué)習(xí)。AI 應(yīng)該能夠?qū)W會(huì)做多種類型的任務(wù)，包括那些完全不熟悉的任務(wù)。

我們也殷切希望 data2vec 能夠讓我們更接近這樣的一個(gè)世界，計(jì)算機(jī)只需要很少的標(biāo)記數(shù)據(jù)即可完成任務(wù)?！?/span>

除此之外，首席執(zhí)行官馬克·扎克伯格（Mark Zuckerberg）在研究中評(píng)論道，“人們通過(guò)視覺、聲音和文字的組合來(lái)體驗(yàn)世界，這樣的系統(tǒng)有朝一日可能會(huì)像我們一樣理解世界”。

顯然，這仍然屬于早期研究的范疇，所以不要期待傳說(shuō)中的“通用人工智能”（GAI, General Artificial Intelligence）會(huì)突然出現(xiàn)。

不過(guò)，相比于當(dāng)下我們所使用的支離破碎的微智能（micro-intelligence），擁有一個(gè)具有通用學(xué)習(xí)結(jié)構(gòu)的 AI，以勝任處理各種領(lǐng)域和數(shù)據(jù)類型，這似乎是一個(gè)更完美、更優(yōu)雅的解決方案。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>