熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > AAAI 2022|AI頂會(huì)論文究竟關(guān)注什么?(2)

AAAI 2022|AI頂會(huì)論文究竟關(guān)注什么?(2)

發(fā)布人:MSRAsia 時(shí)間:2022-02-19 來(lái)源:工程師 發(fā)布文章

04

用于在線視頻實(shí)例分割的混合實(shí)例感知的時(shí)序融合方法
圖片論文鏈接:https://arxiv.org/abs/2112.01695
相較于圖像分割,有效利用時(shí)序一致性是視頻分割的核心問(wèn)題。本文提出了一種基于實(shí)例感知的時(shí)序融合方法,用于在線視頻實(shí)例分割(Video instance segmentation)框架。首先,研究員們利用圖像分割的一種表示,基于實(shí)例的全局編碼(instance code)和 CNN 特征圖來(lái)分別表示實(shí)例級(jí)和像素級(jí)特征?;谶@種表示,研究員們引入了一種無(wú)需裁剪對(duì)齊(ROI align)的時(shí)序融合方法來(lái)對(duì)視頻幀之間(Inter-frame)的內(nèi)容時(shí)間一致性進(jìn)行建模。具體地,研究員們?cè)趯?shí)例編碼中對(duì)全局實(shí)例信息進(jìn)行編碼,并通過(guò)實(shí)例編碼和 CNN 特征圖之間的混合注意力機(jī)制建模幀間的上下文融合。利用學(xué)習(xí)到的混合時(shí)間一致性,研究員們能夠直接檢索和維護(hù)跨幀的實(shí)例身份,摒除了先前方法中復(fù)雜的逐幀實(shí)例匹配方案,提高方法效率。如圖7所展示的幀間注意力圖,對(duì)于不同的參考幀,當(dāng)前幀的關(guān)注點(diǎn)在像素級(jí)和實(shí)例級(jí)都在時(shí)序上是一致的(不同顏色表示不同實(shí)例)。

圖片

圖7:幀間注意力圖可視化 

圖8描述了該方法的具體框架。研究員們通過(guò)引入混合的幀間通訊來(lái)強(qiáng)制視頻實(shí)例分割中的時(shí)間一致性,突出顯示了兩個(gè)主要組件,即用于連接當(dāng)前實(shí)例編碼和功能的幀內(nèi)注意力和幀間注意力,以及用于融合相鄰幀中的混合(像素級(jí)和實(shí)例級(jí))時(shí)序信息。首先,N 個(gè)幀內(nèi)注意力層被集成到卷積主干中,然后是 M 個(gè)注意力層交織幀間和幀內(nèi)注意力建模。歸因于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和附加的對(duì)比損失函數(shù),最終在不同幀間實(shí)例編碼順序能夠保持一致(Order consistent)。
圖片圖8:框架概述
綜合實(shí)驗(yàn)表明,該模型在 Youtube-VIS-19/21數(shù)據(jù)集上,與所有在線視頻實(shí)例分割方法對(duì)比,取得了最佳性能,結(jié)果在表4展示。

圖片表4:在 YoutubeVIS-2019的視頻實(shí)例分割結(jié)果

05

用于視頻對(duì)象分割的可靠傳播-校正調(diào)制網(wǎng)絡(luò)
圖片論文鏈接:https://arxiv.org/abs/2112.02853
誤差傳播是視頻對(duì)象分割(Video object segmentation)中一個(gè)普遍但至關(guān)重要的問(wèn)題。如何通過(guò)具有高可靠性的校正機(jī)制來(lái)抑制誤差傳播,從而提高分割的準(zhǔn)確性,也成為研究員們關(guān)注的一個(gè)重要問(wèn)題。本文中所提出的方法的核心是把信息流在常規(guī)的傳播(Propagation)過(guò)程和用可靠線索校正(Correction)的過(guò)程中解耦。圖9概述了該網(wǎng)絡(luò)框架。微軟亞洲研究院的研究員們引入了兩種調(diào)制器(Modulation)網(wǎng)絡(luò),傳播和校正調(diào)制模塊,分別根據(jù)局部時(shí)間相關(guān)性和參考可靠性對(duì)目標(biāo)幀特征逐通道重新校準(zhǔn)。具體來(lái)說(shuō),研究員們使用級(jí)聯(lián)傳播校正方案組裝調(diào)制模塊,從而避免了傳播模塊對(duì)校正模塊的影響。盡管參考幀提供了可靠的線索,但它可能與目標(biāo)幀差異較大(如圖10,參考幀中的袋鼠在最后一幀消失了,人物外觀變化也非常大),具有不完整和不確定的相關(guān)性(即被參考的可靠性 Reliability 減弱)。研究員們還通過(guò)將可靠的功能補(bǔ)丁補(bǔ)充到維護(hù)池(Reliable patch pool),從而為調(diào)制網(wǎng)絡(luò)提供更全面和更具表現(xiàn)力的對(duì)象代理表示(Object proxy)。其中可靠性過(guò)濾器(Reliability filter)可過(guò)濾掉后續(xù)幀的不確定補(bǔ)丁。
圖片圖9:網(wǎng)路框架概述
圖片圖10:該方法的關(guān)鍵是利用可靠線索補(bǔ)全物體對(duì)象的表示并抑制誤差傳播
該模型在當(dāng)時(shí)的 YouTube-VOS18/19 和 DAVIS17-Val/Test 基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)的性能,結(jié)果在表5展示。圖10(a)也展示了該方法隨著時(shí)間增長(zhǎng)準(zhǔn)確性下降最少,這歸功于模型抑制了誤差的傳播。
圖片表5:在 Youtube-VOS 2018和2019上的結(jié)果

06

XLM-K:通過(guò)多語(yǔ)言知識(shí)庫(kù)提高跨語(yǔ)言預(yù)訓(xùn)練模型
圖片論文鏈接:https://arxiv.org/abs/2109.12573
跨語(yǔ)言預(yù)訓(xùn)練的目標(biāo)是提高模型在語(yǔ)言之間的遷移能力,使模型可以在一種語(yǔ)言上訓(xùn)練,然后在其他語(yǔ)言上直接測(cè)試。之前跨語(yǔ)言模型的能力主要來(lái)源于單語(yǔ)和雙語(yǔ)的普通文本。本文首次提出從多語(yǔ)言的知識(shí)庫(kù)中來(lái)學(xué)習(xí)跨語(yǔ)言能力。多語(yǔ)言知識(shí)庫(kù)中的實(shí)體可以同時(shí)對(duì)應(yīng)多個(gè)語(yǔ)言,提供新的跨語(yǔ)言監(jiān)督,而且也可以增強(qiáng)模型對(duì)于知識(shí)的理解。圖11為一個(gè)多語(yǔ)言知識(shí)庫(kù)的例子。
圖片圖11:多語(yǔ)言知識(shí)庫(kù)示例 
微軟亞洲研究院的研究員們提出了兩個(gè)新的預(yù)訓(xùn)練任務(wù):掩碼實(shí)體預(yù)測(cè)(Masked Entity Prediction)和客體推理(Object Entailment)。這兩個(gè)任務(wù)可以幫助模型實(shí)現(xiàn)更好的跨語(yǔ)言對(duì)齊,以及讓模型有更好的記憶知識(shí)。掩碼實(shí)體預(yù)測(cè)中,在文本輸入中有掩碼的位置,模型不僅需要預(yù)測(cè)被去掉的詞,還需要預(yù)測(cè)這個(gè)詞能夠鏈接到知識(shí)庫(kù)中的哪個(gè)實(shí)體。例如一段文本中的蘋果被去掉后,模型需要判斷這個(gè)詞應(yīng)該鏈接到屬于水果的蘋果還是屬于公司的蘋果??腕w推理任務(wù)中,模型的輸入是一段描述主體(subject)的文本以及主體和客體(object)的關(guān)系,模型需要預(yù)測(cè)的客體是什么。例如,主體是“蘋果“的介紹,關(guān)系是“屬于子類”,那么客體就是“水果”,因?yàn)椤疤O果屬于水果的子類”。兩個(gè)任務(wù)中,輸入和輸出的問(wèn)題都可以是不同的語(yǔ)言,因此模型可以獲得更好的跨語(yǔ)言性能。
圖片圖12:預(yù)訓(xùn)練任務(wù)介紹
在具體任務(wù)上的測(cè)試表明了 XLM-K 模型可以顯著提高知識(shí)相關(guān)的任務(wù)的性能。可以看到,該模型在閱讀理解和命名體識(shí)別上有較大的提升,在普通文本任務(wù)上效果持平。
圖片表6:跨語(yǔ)言下游任務(wù)評(píng)測(cè)結(jié)果
最后,研究員們用知識(shí)探針任務(wù)來(lái)測(cè)試 XLM-K 模型對(duì)知識(shí)的記憶程度。知識(shí)探針任務(wù)把知識(shí)庫(kù)中的知識(shí)轉(zhuǎn)化成帶有掩碼的句子,例如“愛(ài)因斯坦出生在____”。模型需要直接預(yù)測(cè)”德國(guó)“。由結(jié)果可見(jiàn),XLM-K 模型取得了更好的記憶效果。這也表明了研究員們的模型更好地融入了知識(shí)庫(kù)。
圖片表7:知識(shí)探針評(píng)測(cè)結(jié)果


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉