熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > Meta AI 新研究,統(tǒng)一模態(tài)的自監(jiān)督新里程碑

Meta AI 新研究,統(tǒng)一模態(tài)的自監(jiān)督新里程碑

發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2022-02-19 來(lái)源:工程師 發(fā)布文章

雖然 AI 領(lǐng)域不斷涌現(xiàn)出新的突破和進(jìn)展,卻始終難以逃離單一領(lǐng)域的束縛——一種用于個(gè)性化語(yǔ)音合成的新穎方法,卻并不能用于識(shí)別人臉的表情。


為了解決這個(gè)問題,不少研究人員正在致力于開發(fā)功能更強(qiáng)大、應(yīng)用更廣泛的 AI 工具:無(wú)論在口頭、書面還是視覺材料上,都可以實(shí)現(xiàn)自主學(xué)習(xí)。


傳統(tǒng)訓(xùn)練 AI 模型正確理解某些內(nèi)容的方法是,提供大量(比如數(shù)百萬(wàn)個(gè))有標(biāo)記的例子。


試想一下,一幅標(biāo)有貓的部分特征的圖片,一段與演講者的對(duì)話或摘錄的文本,等等。但這種方法日趨淘汰,因?yàn)檠芯咳藛T發(fā)現(xiàn),手動(dòng)創(chuàng)建訓(xùn)練下一代 AI 所需的數(shù)據(jù)庫(kù)已不再可行。試想一下,誰(shuí)想給 5000 萬(wàn)張貓的照片貼上標(biāo)簽?zāi)??好吧,可能有幾個(gè)人;但是誰(shuí)又愿意給 5000 萬(wàn)張常見水果和蔬菜的照片貼上標(biāo)簽?zāi)兀看鸢该黠@是否定的。


目前,最有前景的一些 AI 系統(tǒng)采用的就是所謂的“自我監(jiān)督”(self - supervision):模型可以在大量無(wú)標(biāo)簽數(shù)據(jù)(比如人們互動(dòng)的書籍或視頻)中運(yùn)行,并建立自己對(duì)系統(tǒng)規(guī)則的結(jié)構(gòu)化理解。例如,模型通過(guò)閱讀 1000 本書,會(huì)自主學(xué)習(xí)語(yǔ)法結(jié)構(gòu),包括單詞的相對(duì)位置,而無(wú)需任何人告訴它什么是賓語(yǔ)、冠詞或逗號(hào)……這些完全可以從大量的例子中推理得出。


就在近日,基于上述理論,來(lái)自 Meta 的研究團(tuán)隊(duì)發(fā)表了一篇題為“data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”的論文。


在這項(xiàng)研究中,開發(fā)人員構(gòu)建了一個(gè)名為 data2vec 的框架,可以跨語(yǔ)音處理、NLP 和計(jì)算機(jī)視覺(CV, Computer Vision)使用相同的學(xué)習(xí)方法,極大地克服了單一開發(fā)模式的缺陷,提高了模型的通用性能。


其核心思想是,在使用標(biāo)準(zhǔn) Transformer 體系結(jié)構(gòu)的自蒸餾設(shè)置中,基于輸入的掩碼視圖(masked view)預(yù)測(cè)完整輸入數(shù)據(jù)的潛在表示。data2vec 并非是預(yù)測(cè)特定模式的目標(biāo),比如像單詞、視覺 tokens 或語(yǔ)言單元等,而是預(yù)測(cè)包含來(lái)自整個(gè)輸入信息的上下文潛在表示。通過(guò)在語(yǔ)音識(shí)別、圖像分類和自然語(yǔ)言理解的主要基準(zhǔn)上進(jìn)行實(shí)驗(yàn),有力證明了該方法的技術(shù)水平和優(yōu)異性能。


從直覺上看,這更像是人們學(xué)習(xí)的方式,這也是研究人員喜歡它的原因之一。但是這些模型仍然趨向于單模態(tài),也就是說(shuō),你為建立語(yǔ)音識(shí)別的半監(jiān)督學(xué)習(xí)系統(tǒng)所做的所有工作根本不適用于圖像分析,兩者無(wú)疑是大相徑庭。從而,這就更加突顯出 Meta 這項(xiàng)最新研究的意義所在。


然而從本質(zhì)上看,data2vec 的想法就是建立一個(gè) AI 框架,然后以更抽象的方式學(xué)習(xí)。這便意味著一切從零開始,你可以準(zhǔn)備一些可閱讀的書籍、可掃描的圖像或有聲的讀物供其訓(xùn)練,以使模型達(dá)到學(xué)習(xí)這些知識(shí)的目的。這有點(diǎn)像從一粒種子開始,給它不同植物的生存環(huán)境和營(yíng)養(yǎng)條件,使其開出不同的花朵,如水仙、三色堇或郁金香。


總而言之,團(tuán)隊(duì)提出的方法就是將掩碼預(yù)測(cè)與潛在目標(biāo)表示的學(xué)習(xí)相結(jié)合,只不過(guò)是通過(guò)使用多個(gè)網(wǎng)絡(luò)層作為目標(biāo),對(duì)后者進(jìn)行推廣,并表明該方法適用于多種模式。


圖片


具體來(lái)說(shuō),如 圖 1 所示,團(tuán)隊(duì)成員需要訓(xùn)練一個(gè)現(xiàn)成的可以在教師模式和學(xué)生模式中使用的 Transformer 網(wǎng)絡(luò):首先需要構(gòu)建完整的輸入數(shù)據(jù)表示,其目的是充當(dāng)學(xué)習(xí)任務(wù)中的目標(biāo)(教師模式)。接下來(lái),對(duì)輸入樣本的掩碼版本進(jìn)行編碼,用它預(yù)測(cè)完整的數(shù)據(jù)表示(學(xué)生模式)。教師的權(quán)重是學(xué)生權(quán)重指數(shù)衰減的平均值。由于不同的模式有著截然不同的輸入,例如,像素和單詞,因此,團(tuán)隊(duì)采用了特定于模式的特征編碼器和掩碼策略。


在整體架構(gòu)上,采用標(biāo)準(zhǔn) Transformer 體系結(jié)構(gòu),并沿用先前的工作對(duì)輸入數(shù)據(jù)進(jìn)行特定模式的編碼。


對(duì)于 CV,團(tuán)隊(duì)成員采用了 ViT 策略,將圖像編碼為一系列補(bǔ)丁序列,每個(gè)補(bǔ)丁跨越 16x16 像素,輸入到線性變換之中。語(yǔ)音數(shù)據(jù)使用多層一維 CNN 進(jìn)行編碼,該網(wǎng)絡(luò)將 16 kHz 波形映射為 50 Hz 表示。對(duì)文本進(jìn)行預(yù)處理以獲得子詞單元,然后通過(guò)學(xué)習(xí)得到的嵌入向量將其嵌入到分布空間中。


在訓(xùn)練目標(biāo)上,基于掩碼樣本的編碼訓(xùn)練模型,以預(yù)測(cè)原始未掩碼訓(xùn)練樣本的模型表示。需要注意的是,團(tuán)隊(duì)僅針對(duì)掩碼的時(shí)間步長(zhǎng)預(yù)測(cè)模型表示。預(yù)測(cè)的表示是一種上下文的表示,不僅對(duì)特定的時(shí)間步長(zhǎng)進(jìn)行編碼,還對(duì)來(lái)自樣本的其他信息進(jìn)行編碼,這是由于在 Transformer 網(wǎng)絡(luò)中使用了自注意力機(jī)制(Self-attention)。因此,相比于預(yù)測(cè)缺乏上下文信息目標(biāo)的 BERT、wav2vec 2.0 或BEiT、MAE、SimMIM 和 MaskFeat 模型,這是一條重要的區(qū)別。


在實(shí)驗(yàn)設(shè)置上,研究團(tuán)隊(duì)采用了兩種尺寸的模型:data2vec Base 和 data2vec Large,包含 H=768 或 1024 兩個(gè)隱藏維度的 L=12 或 24 的 Transformer blocks。


在用各種數(shù)據(jù)語(yǔ)料庫(kù)對(duì) data2vec 進(jìn)行訓(xùn)練后,測(cè)試的結(jié)果表明,在該模式上,相比于類似規(guī)模的專用模型,它具有一定的競(jìng)爭(zhēng)力,甚至表現(xiàn)得更加出色。(也就是說(shuō),如果所有模型都被限制在 100 兆字節(jié),data2vec 會(huì)做得更好——隨著模型規(guī)模的增大,專用模型取勝的幾率會(huì)更大。)


具體而言,為了評(píng)估該方法在 CV 領(lǐng)域的應(yīng)用,團(tuán)隊(duì)成員在 ImageNet-1K 訓(xùn)練集的圖像上預(yù)訓(xùn)練 data2vec,并使用相同基準(zhǔn)的標(biāo)記數(shù)據(jù)對(duì)圖像分類的結(jié)果模型進(jìn)行微調(diào)。結(jié)果如表 1 所示,data2vec 優(yōu)于之前使用 ViT-B 和 ViT-L 的研究工作。與預(yù)測(cè)局部目標(biāo)的方法相比,在掩碼預(yù)測(cè)設(shè)置中預(yù)測(cè)上下文的潛在表示可以很好地執(zhí)行。 


圖片


而在語(yǔ)音處理方面,團(tuán)隊(duì)成員使用 Librispeech (LS-960)的 960 小時(shí)語(yǔ)音音頻數(shù)據(jù)對(duì) data2vec 進(jìn)行預(yù)訓(xùn)練。這個(gè)數(shù)據(jù)集包含了從英語(yǔ)有聲讀物中獲取的相對(duì)清晰的語(yǔ)音音頻,是語(yǔ)音社區(qū)的標(biāo)準(zhǔn)基準(zhǔn)。


為了了解不同資源設(shè)置下的性能,團(tuán)隊(duì)使用不同數(shù)量的標(biāo)記數(shù)據(jù)(從 10 分鐘到 960 小時(shí)不等)對(duì)自動(dòng)語(yǔ)音識(shí)別模型進(jìn)行了微調(diào)。表 2 顯示了所有標(biāo)記數(shù)據(jù)設(shè)置的改進(jìn),很明顯,標(biāo)記數(shù)據(jù)為 10 分鐘時(shí),收益達(dá)到最大值。


圖片


最后,為了了解 data2vec 在語(yǔ)言方面的表現(xiàn),研究團(tuán)隊(duì)采用了與BERT相同的訓(xùn)練設(shè)置,通過(guò)對(duì)圖書語(yǔ)料庫(kù)和英語(yǔ)維基百科的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。結(jié)果如表 3 所示,data2vec 的性能優(yōu)于 RoBERTa 基線。據(jù)團(tuán)隊(duì)所知,這是首個(gè)不使用離散單元(單詞,子單詞,字符或字節(jié))作為訓(xùn)練目標(biāo)而成功完成預(yù)訓(xùn)練的 NLP 模型。


圖片


此外,研究團(tuán)隊(duì)還進(jìn)行了一系列的消融實(shí)驗(yàn),如圖 2 所示,對(duì)于大多數(shù)模式來(lái)說(shuō),預(yù)測(cè)多個(gè)層的平均目標(biāo)要比只預(yù)測(cè)最頂層(K = 1)更加穩(wěn)健。使用所有層通常是一個(gè)不錯(cuò)的選擇,并且僅比仔細(xì)調(diào)整的 K 值稍差一點(diǎn)。現(xiàn)代神經(jīng)網(wǎng)絡(luò)往往在多個(gè)層上構(gòu)建特征,并在不同的層上提取不同類型的特征。顯然,使用來(lái)自多個(gè)層的特征既豐富了自監(jiān)督任務(wù),又提高了準(zhǔn)確性。


圖片


在一篇博客文章中,該團(tuán)隊(duì)寫道:“這種方法的核心思想是更廣泛地學(xué)習(xí)。AI 應(yīng)該能夠?qū)W會(huì)做多種類型的任務(wù),包括那些完全不熟悉的任務(wù)。


我們也殷切希望 data2vec 能夠讓我們更接近這樣的一個(gè)世界,計(jì)算機(jī)只需要很少的標(biāo)記數(shù)據(jù)即可完成任務(wù)?!?/span>


除此之外,首席執(zhí)行官馬克·扎克伯格(Mark Zuckerberg)在研究中評(píng)論道,“人們通過(guò)視覺、聲音和文字的組合來(lái)體驗(yàn)世界,這樣的系統(tǒng)有朝一日可能會(huì)像我們一樣理解世界”。


顯然,這仍然屬于早期研究的范疇,所以不要期待傳說(shuō)中的“通用人工智能”(GAI, General Artificial Intelligence)會(huì)突然出現(xiàn)。


不過(guò),相比于當(dāng)下我們所使用的支離破碎的微智能(micro-intelligence),擁有一個(gè)具有通用學(xué)習(xí)結(jié)構(gòu)的 AI,以勝任處理各種領(lǐng)域和數(shù)據(jù)類型,這似乎是一個(gè)更完美、更優(yōu)雅的解決方案。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉