FaceBook推出強(qiáng)大的多語(yǔ)言模型,試圖理解所有人類語(yǔ)言
以下文章來(lái)源于數(shù)據(jù)實(shí)戰(zhàn)派 ,作者Facebook
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實(shí)戰(zhàn)派
作者:MetaAI
譯者:張雨嘉
語(yǔ)言交流是人們?nèi)粘I钪凶畛S玫慕换シ绞?,而隨著語(yǔ)音技術(shù)的發(fā)展,未來(lái)人們還可以與電子設(shè)備以及虛擬世界進(jìn)行交互,將虛擬體驗(yàn)與現(xiàn)實(shí)世界合二為一。
但是,現(xiàn)有的語(yǔ)音技術(shù)僅適用于數(shù)千種世界語(yǔ)言中的一小部分。
有效的方法是基于有限標(biāo)記數(shù)據(jù)的少樣本學(xué)習(xí),或者無(wú)監(jiān)督的語(yǔ)音識(shí)別方法,而這些方法的成功取決于自監(jiān)督模型的性能。
目前,Meta AI 團(tuán)隊(duì)( 原Facebook AI)發(fā)布了一個(gè)用于多種語(yǔ)音任務(wù)的自監(jiān)督模型——XLS-R。
通過(guò)在之前 2 倍以上的語(yǔ)言數(shù)量和近 10 倍的公共數(shù)據(jù)集上進(jìn)行訓(xùn)練,XLS-R 模型的性能遠(yuǎn)超以前的多語(yǔ)言模型。
為了讓單一模型實(shí)現(xiàn)理解多種不同語(yǔ)言語(yǔ)音的能力,Meta AI 團(tuán)隊(duì)對(duì) XLS-R 進(jìn)行微調(diào),以執(zhí)行語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別任務(wù)。并分別在以下基準(zhǔn)上獲得不錯(cuò)的結(jié)果:用于語(yǔ)音識(shí)別的 BABEL、CommonVoice 和 VoxPopuli;用于外文到英文翻譯的 CoVoST-2;以及用于語(yǔ)言識(shí)別的 VoxLingua107。
為了讓更多人可以使用這種方法,F(xiàn)B已經(jīng)和 Hugging Face 聯(lián)手發(fā)布該模型,并可以在 GitHub 的 fairseq 項(xiàng)目中使用 (https://github.com/pytorch/fairseq/tree/master/examples/wav2vec)。
XLS-R 在 436,000 多小時(shí)的公開(kāi)語(yǔ)音錄音數(shù)據(jù)上進(jìn)行訓(xùn)練,并且基于 wav2vec 2.0 模型對(duì)語(yǔ)音表征進(jìn)行自監(jiān)督學(xué)習(xí)。該方法的訓(xùn)練數(shù)據(jù)量比去年發(fā)布的最好模型 XLSR-53 還多 10 倍。
通過(guò)收集會(huì)議記錄、有聲讀物等不同來(lái)源的語(yǔ)音數(shù)據(jù),XLS-R 模型已經(jīng)可以支持 128 種不同語(yǔ)言,是之前語(yǔ)言數(shù)量的約 2.5 倍。
最大 XLS-R 模型有超過(guò) 20 億個(gè)參數(shù),其性能遠(yuǎn)遠(yuǎn)優(yōu)于其他較小的模型,因?yàn)楦嗟膮?shù)可以更充分地學(xué)習(xí)數(shù)據(jù)集中的多種語(yǔ)言。并且團(tuán)隊(duì)發(fā)現(xiàn),與在單一語(yǔ)言上預(yù)訓(xùn)練相比,更大的模型可以得到更好的性能。
將 XLS-R 在四個(gè)多語(yǔ)言的語(yǔ)音識(shí)別任務(wù)上進(jìn)行評(píng)估,結(jié)果表明它在 37 種測(cè)試語(yǔ)言上的表現(xiàn)都優(yōu)于之前的工作。具體包括 BABEL 的5種語(yǔ)言、CommonVoice 的 10 種語(yǔ)言、MLS 的 8 種語(yǔ)言和 VoxPopuli 的 14 種語(yǔ)言。
圖 | 在 BABEL 上的單詞錯(cuò)誤率結(jié)果。與以前的工作相比,XLS-R 有明顯改進(jìn)
團(tuán)隊(duì)還在語(yǔ)音翻譯任務(wù)上對(duì)模型進(jìn)行評(píng)估,語(yǔ)音翻譯就是將錄音翻譯成另一種語(yǔ)言。而且為了實(shí)現(xiàn)一個(gè)能夠執(zhí)行多任務(wù)的模型,他們將 XLS-R 在 CoVoST-2 基準(zhǔn)的不同翻譯方向上進(jìn)行微調(diào)。結(jié)果顯示,這種單一模型可以在英語(yǔ)和其他 21 種語(yǔ)言之間完成翻譯。
對(duì)英語(yǔ)以外的語(yǔ)言進(jìn)行編碼時(shí),XLS-R 有比較明顯的改進(jìn),這也是多語(yǔ)言語(yǔ)音表征方面的一大突破。模型在將印度尼西亞等低資源語(yǔ)種(low-resource language)翻譯為英語(yǔ)方面有顯著改進(jìn),BLEU 指標(biāo)的平均準(zhǔn)確率翻了一番,也是口語(yǔ)翻譯方面的一大進(jìn)步。BLEU 指標(biāo)的提升,意味著模型生成的自動(dòng)翻譯結(jié)果與人工翻譯間有更高的相似性。
圖 | 自動(dòng)語(yǔ)音翻譯在 BLEU 上的準(zhǔn)確性,模型對(duì)高資源語(yǔ)言(例如法語(yǔ)、德語(yǔ))、中等資源語(yǔ)言(例如俄語(yǔ)、葡萄牙語(yǔ))和低資源語(yǔ)言(例如泰米爾語(yǔ)、土耳其語(yǔ))的語(yǔ)音翻譯成英語(yǔ)時(shí),準(zhǔn)確性逐漸降低。
XLS-R 證明了通過(guò)跨語(yǔ)言預(yù)訓(xùn)練可以提高模型在低資源語(yǔ)言上的性能。
在語(yǔ)音識(shí)別和將外語(yǔ)翻譯到英語(yǔ)的語(yǔ)言翻譯任務(wù)上的準(zhǔn)確率提高了一倍以上。
FB表示,XLS-R 是用單一模型理解多種不同語(yǔ)言語(yǔ)音的關(guān)鍵一步,是在已知公共數(shù)據(jù)上進(jìn)行多語(yǔ)言預(yù)訓(xùn)練方面的最大努力。相信該研究將使機(jī)器學(xué)習(xí)應(yīng)用更好地理解所有人類語(yǔ)言,使語(yǔ)音技術(shù)在全球范圍尤其是在服務(wù)欠缺地區(qū)中被使用。
未來(lái),他們將繼續(xù)從少監(jiān)督學(xué)習(xí)中開(kāi)發(fā)新方法來(lái)改進(jìn)算法,并將其擴(kuò)展到全球 7,000多 種語(yǔ)言上。
如果你想使用該模型,可以查看 Hugging Face 上有關(guān)微調(diào)模型的教程(
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。