博客專欄

EEPW首頁 > 博客 > TPAMI 2021｜聽聲識物：視音一致性下的視覺物體感知

TPAMI 2021｜聽聲識物：視音一致性下的視覺物體感知

發(fā)布人：機器之心時間：2022-03-08 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

該研究由中國人民大學(xué)GeWu實驗室主導(dǎo)，發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)，目前相關(guān)代碼已開源。

隨著互聯(lián)網(wǎng)的發(fā)展，在能夠輕易獲取海量數(shù)據(jù)但標(biāo)注困難的背景下，無監(jiān)督學(xué)習(xí)的重要性不斷上升并在近年得到了廣泛關(guān)注。其中，如何能夠讓機器以無監(jiān)督的方式建立對客觀物體的認知是亟待解決的問題之一。
在人類的實踐經(jīng)驗中，出色的多重感官讓我們對周圍的環(huán)境能夠做出快速而準(zhǔn)確的判斷。根據(jù)有關(guān)研究表明，人類通過視覺和聽覺獲取了大腦從外界所接收信息的絕大部分（約占 90% 以上）。視覺，聽覺，及其相互之間的關(guān)聯(lián)關(guān)系在我們對外界的認知過程中起著至關(guān)重要的作用。例如，當(dāng)在音樂廳享受音樂時，無論是悠揚的弦樂組，還是渾厚的管樂組，甚至藏在角落的三角鐵，只要聽到了聲音，我們就可以毫不費力地判斷出是哪個樂器在舞臺的哪個角落奏鳴。這是因為一個我們在小時候?qū)W到的物理現(xiàn)象：聲音是由物體振動產(chǎn)生的，那么不同樂器因為其所具有的不同的振動頻率，導(dǎo)致其所發(fā)出的音色是不同的，而不同的聲色幫助我們區(qū)別并認識不同的樂器。
由此可見，物體與其所發(fā)出聲音之間的天然對應(yīng)關(guān)系為模型的訓(xùn)練提供了自監(jiān)督信號。并且，大部分物體在視覺和聽覺上均具有類間差異大而類內(nèi)差異小的物理性質(zhì)。這一物理性質(zhì)為模型通過表征聚合等方式習(xí)得類別判別能力提供了實際基礎(chǔ)?；谶@一現(xiàn)象，在該研究中，作者首先對復(fù)雜場景下的多聲源定位任務(wù)進行了定義，為模型引入類別判別能力。再則，借助判別性聲源定位任務(wù)實現(xiàn)對不同類別物體的認知，在無需人為標(biāo)注的情況下，為解決典型視覺任務(wù)，如物體檢測，提供了新思路。
引言
在該研究中，作者以判別性聲源定位為基礎(chǔ)實現(xiàn)了構(gòu)建物體類別認知的目標(biāo)，并將其應(yīng)用在其他經(jīng)典視覺任務(wù)中，如物體檢測。聲源定位任務(wù)的目標(biāo)為：輸入一段視頻及其對應(yīng)的音頻（一般指單通道音頻），模型能夠定位出畫面中發(fā)聲物體的位置。先前的聲源定位任務(wù)所涉及的場景相對較單一，主要聚焦在單聲源或具備先驗知識（如畫面中物體均發(fā)聲且個數(shù)已知）的多聲源場景中。但在現(xiàn)實生活中，如雞尾酒會，不僅常常同時具備多個物體，而且發(fā)聲與不發(fā)聲物體往往交織在一起。此外，現(xiàn)有聲源定位工作僅停留在對發(fā)聲物體的定位上，而缺乏在發(fā)聲物體的類別判別方面的探索。因此，該研究希望在無需額外先驗知識的情況下解決更加貼近生活場景的包含不發(fā)聲物體的判別性多聲源定位任務(wù)。

圖 1 真實的多聲源場景常常包含多種物體且存在不發(fā)聲物體。
該研究的貢獻和創(chuàng)新點可以總結(jié)為以下幾個方面：

受人類視音感知能力的啟發(fā)，提出了判別性多聲源定位任務(wù)：不僅定位出發(fā)聲物體的位置而且辨別其類別。
提出了兩階段的學(xué)習(xí)框架。在單聲源場景中學(xué)習(xí)物體的視音表征，并遷移至多聲源場景下解決包含不發(fā)聲物體的判別性多聲源定位任務(wù)。
通過解決判別性聲源定位任務(wù)構(gòu)建對不同類別物體視覺表征的認知，并將其遷移到其他經(jīng)典視覺任務(wù)中，如物體檢測等。

論文鏈接：https://ieeexplore.ieee.org/document/9662191

項目主頁：

https://gewu-lab.github.io/CSOL_TPAMI2021/

方法

圖 2 一階段 - 單聲源定位框架。
首先，由于判別性多聲源定位是相對困難的任務(wù)，該研究提出按照從易到難，逐步遷移的思路。從單聲源定位任務(wù)開始，通過在簡單的場景下對物體的視覺表征有一定認知之后，遷移到更為復(fù)雜的多聲源場景中。根據(jù)聲音是由物體的振動產(chǎn)生的這一規(guī)律可知，視覺和聽覺之間天然存在著一一對應(yīng)關(guān)系，已有許多先前的研究利用該視音一致性作為自監(jiān)督信號對網(wǎng)絡(luò)進行預(yù)訓(xùn)練。在聲源定位，特別是單聲源定位任務(wù)中，借助視音一致性自監(jiān)督信號能夠以判斷輸入的音頻和視頻信號是否匹配作為目標(biāo)進行訓(xùn)練，進而得到畫面中對音頻信號響應(yīng)較大的區(qū)域，即為發(fā)聲物體所在區(qū)域。這一過程利用了場景級別的視音一致性作為自監(jiān)督信號。
與此同時，基于聲源定位得到的定位圖能夠為排除復(fù)雜變化的背景干擾提供幫助，提取出較為干凈的物體視覺表征。并且，考慮到同一類別的物體的視覺表征具有一致性，通過將相似的視覺表征聚集，而后提取該聚集類別的代表性視覺表征是可行的?；谶@一思想，該研究提出用聚類的方法對基于單聲源定位得到的所有樣本的視覺表征進行聚類。聚類的每一個簇被認為能夠代表一種語義類別的視覺表征的集合。同時，針對每個簇提取該類別的代表性視覺表征并打上偽標(biāo)簽，便能構(gòu)建相應(yīng)的物體視覺表征字典，為解決多聲源定位任務(wù)做鋪墊。

圖 3 二階段 - 多聲源定位框架。
在第二階段的多聲源定位中，該研究遞進地先從視覺上定位出畫面中存在的物體，再進一步根據(jù)聽覺信息過濾不發(fā)聲物體。畫面中存在物體的判斷借助了一階段中對物體視覺表征學(xué)習(xí)及所構(gòu)建的不同類別物體視覺表征字典。具體來說，對于某幀多聲源場景下的視頻，經(jīng)過視覺網(wǎng)絡(luò)提取其特征圖后，再將字典各個類別的視覺表征與該特征圖的各個部分進行內(nèi)積操作判斷相似性。對于某一類別而言，若特征圖中存在對該類別視覺表征響應(yīng)比較大的區(qū)域，則可認為該區(qū)域存在這一類別的物體。此時，畫面中存在的物體能夠被初步定位。進而，對于不發(fā)聲物體的過濾，該研究首先利用場景級別的視音一致性進行粗略的聲源定位得到畫面中的大致發(fā)聲區(qū)域，而后將基于畫面中存在物體的定位結(jié)果與發(fā)聲區(qū)域進行哈達瑪積，過濾掉不發(fā)聲的物體，同時細化發(fā)聲物體的定位結(jié)果。
此時，經(jīng)定位和過濾之后，便達到了在定位圖中過濾不發(fā)聲物體，保留發(fā)聲物體的目標(biāo)。并且，根據(jù)定位結(jié)果所得到的發(fā)聲物體視覺表征與音頻表征構(gòu)成了更細粒度的類別級別的視音一致性，能夠作為自監(jiān)督信號幫助訓(xùn)練，最終達成多聲源定位的目標(biāo)。
聲源定位結(jié)果

圖 4 在多個真實與合成數(shù)據(jù)集上的可視化定位結(jié)果。綠色框：發(fā)聲物體，紅色框：不發(fā)聲的物體。

圖 5 在多個真實與合成數(shù)據(jù)集上的定量分析結(jié)果。
文中在涵蓋了音樂、日常生活場景等廣泛類別的多個真實及合成數(shù)據(jù)集上進行了多聲源定位的實驗，并分別進行了可視化及定量分析。在可視化定位圖中，每張圖展示了一類物體的定位結(jié)果，且發(fā)聲物體有較大響應(yīng)，而不發(fā)聲物體未響應(yīng)或響應(yīng)很低?？梢钥吹?，尤其在合成的含有不發(fā)聲物體的復(fù)雜多聲源場景中，該方法具有較大優(yōu)勢。并且，該方法進一步在聲源定位的基礎(chǔ)上具有辨別出物體的類別能力。
應(yīng)用：無監(jiān)督物體檢測

圖 6 在 ImageNet 子集上的無監(jiān)督物體檢測結(jié)果。
除了場景復(fù)雜性更高、更貼近生活之外，該研究通過將先前的聲源定位任務(wù)拓展到具有類別敏感性的判別性聲源定位，達到了幫助模型認知不同類別物體及其視覺表征的目標(biāo)。這一特點為視覺領(lǐng)域其他典型任務(wù)，如物體檢測，向無監(jiān)督方向的發(fā)展提供了新的角度。對于無監(jiān)督物體檢測任務(wù)來說，兩個關(guān)鍵問題分別是物體邊界框的構(gòu)建和類別偽標(biāo)簽的生成，而判別性聲源定位任務(wù)與其不謀而合。首先，無需額外代價，聲源定位任務(wù)所提供的定位圖便能轉(zhuǎn)換為物體大致的邊界框。其次，判別性聲源定位為畫面中的發(fā)聲物體分配了類別偽標(biāo)簽。
在拓展實驗中，該研究利用單聲源定位所得到的定位圖構(gòu)造物體的邊界框，并與物體的類別偽標(biāo)簽一起作為監(jiān)督信號，在無需物體檢測標(biāo)注的情況下訓(xùn)練物體檢測器。ImageNet 子集上的可視化及定量實驗結(jié)果表明，該無監(jiān)督物體檢測思路具有一定的可行性，尤其是在吉他等體積較大的物體類別上。這一實驗驗證了這種從判別性聲源定位任務(wù)出發(fā)挖掘物體視覺知識并遷移到視覺領(lǐng)域其他任務(wù)上的思路具有應(yīng)用前景。
總述
總的來說，該研究從人的多重感官認知出發(fā)，考慮了聲音是由物體的振動產(chǎn)生的這一物理現(xiàn)象，利用視音之間的對應(yīng)關(guān)系及大部分物體在視音表征上類間差異大而類內(nèi)差異小這一性質(zhì)，引入并解決了具有挑戰(zhàn)性的判別性多聲源定位的任務(wù)。并且，該研究進一步將所學(xué)習(xí)到的物體視覺知識遷移到包括物體檢測在內(nèi)的其他視覺任務(wù)中，為用無監(jiān)督方法解決典型視覺問題提供了新方向。這一研究啟發(fā)我們充分利用多種模態(tài)的信息，尤其是視音模態(tài)之間的聯(lián)系，認知、學(xué)習(xí)不同物體的知識，重新思考多模態(tài)背景下傳統(tǒng)任務(wù)的解決。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm原理

電度表相關(guān)文章:電度表原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點

更多>>

技術(shù)專區(qū)

關(guān)閉

熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

博客專欄

TPAMI 2021｜聽聲識物：視音一致性下的視覺物體感知

相關(guān)推薦

技術(shù)專區(qū)