熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > TPAMI 2021|聽(tīng)聲識(shí)物:視音一致性下的視覺(jué)物體感知

TPAMI 2021|聽(tīng)聲識(shí)物:視音一致性下的視覺(jué)物體感知

發(fā)布人:機(jī)器之心 時(shí)間:2022-03-08 來(lái)源:工程師 發(fā)布文章
該研究由中國(guó)人民大學(xué)GeWu實(shí)驗(yàn)室主導(dǎo),發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI),目前相關(guān)代碼已開(kāi)源。


隨著互聯(lián)網(wǎng)的發(fā)展,在能夠輕易獲取海量數(shù)據(jù)但標(biāo)注困難的背景下,無(wú)監(jiān)督學(xué)習(xí)的重要性不斷上升并在近年得到了廣泛關(guān)注。其中,如何能夠讓機(jī)器以無(wú)監(jiān)督的方式建立對(duì)客觀物體的認(rèn)知是亟待解決的問(wèn)題之一。
在人類(lèi)的實(shí)踐經(jīng)驗(yàn)中,出色的多重感官讓我們對(duì)周?chē)沫h(huán)境能夠做出快速而準(zhǔn)確的判斷。根據(jù)有關(guān)研究表明,人類(lèi)通過(guò)視覺(jué)和聽(tīng)覺(jué)獲取了大腦從外界所接收信息的絕大部分(約占 90% 以上)。視覺(jué),聽(tīng)覺(jué),及其相互之間的關(guān)聯(lián)關(guān)系在我們對(duì)外界的認(rèn)知過(guò)程中起著至關(guān)重要的作用。例如,當(dāng)在音樂(lè)廳享受音樂(lè)時(shí),無(wú)論是悠揚(yáng)的弦樂(lè)組,還是渾厚的管樂(lè)組,甚至藏在角落的三角鐵,只要聽(tīng)到了聲音,我們就可以毫不費(fèi)力地判斷出是哪個(gè)樂(lè)器在舞臺(tái)的哪個(gè)角落奏鳴。這是因?yàn)橐粋€(gè)我們?cè)谛r(shí)候?qū)W到的物理現(xiàn)象:聲音是由物體振動(dòng)產(chǎn)生的,那么不同樂(lè)器因?yàn)槠渌哂械牟煌恼駝?dòng)頻率,導(dǎo)致其所發(fā)出的音色是不同的,而不同的聲色幫助我們區(qū)別并認(rèn)識(shí)不同的樂(lè)器。
由此可見(jiàn),物體與其所發(fā)出聲音之間的天然對(duì)應(yīng)關(guān)系為模型的訓(xùn)練提供了自監(jiān)督信號(hào)。并且,大部分物體在視覺(jué)和聽(tīng)覺(jué)上均具有類(lèi)間差異大而類(lèi)內(nèi)差異小的物理性質(zhì)。這一物理性質(zhì)為模型通過(guò)表征聚合等方式習(xí)得類(lèi)別判別能力提供了實(shí)際基礎(chǔ)?;谶@一現(xiàn)象,在該研究中,作者首先對(duì)復(fù)雜場(chǎng)景下的多聲源定位任務(wù)進(jìn)行了定義,為模型引入類(lèi)別判別能力。再則,借助判別性聲源定位任務(wù)實(shí)現(xiàn)對(duì)不同類(lèi)別物體的認(rèn)知,在無(wú)需人為標(biāo)注的情況下,為解決典型視覺(jué)任務(wù),如物體檢測(cè),提供了新思路。
引言
在該研究中,作者以判別性聲源定位為基礎(chǔ)實(shí)現(xiàn)了構(gòu)建物體類(lèi)別認(rèn)知的目標(biāo),并將其應(yīng)用在其他經(jīng)典視覺(jué)任務(wù)中,如物體檢測(cè)。聲源定位任務(wù)的目標(biāo)為:輸入一段視頻及其對(duì)應(yīng)的音頻(一般指單通道音頻),模型能夠定位出畫(huà)面中發(fā)聲物體的位置。先前的聲源定位任務(wù)所涉及的場(chǎng)景相對(duì)較單一,主要聚焦在單聲源或具備先驗(yàn)知識(shí)(如畫(huà)面中物體均發(fā)聲且個(gè)數(shù)已知)的多聲源場(chǎng)景中。但在現(xiàn)實(shí)生活中,如雞尾酒會(huì),不僅常常同時(shí)具備多個(gè)物體,而且發(fā)聲與不發(fā)聲物體往往交織在一起。此外,現(xiàn)有聲源定位工作僅停留在對(duì)發(fā)聲物體的定位上,而缺乏在發(fā)聲物體的類(lèi)別判別方面的探索。因此,該研究希望在無(wú)需額外先驗(yàn)知識(shí)的情況下解決更加貼近生活場(chǎng)景的包含不發(fā)聲物體的判別性多聲源定位任務(wù)。

圖片

圖 1 真實(shí)的多聲源場(chǎng)景常常包含多種物體且存在不發(fā)聲物體。
該研究的貢獻(xiàn)和創(chuàng)新點(diǎn)可以總結(jié)為以下幾個(gè)方面:

  • 受人類(lèi)視音感知能力的啟發(fā),提出了判別性多聲源定位任務(wù):不僅定位出發(fā)聲物體的位置而且辨別其類(lèi)別。

  • 提出了兩階段的學(xué)習(xí)框架。在單聲源場(chǎng)景中學(xué)習(xí)物體的視音表征,并遷移至多聲源場(chǎng)景下解決包含不發(fā)聲物體的判別性多聲源定位任務(wù)。

  • 通過(guò)解決判別性聲源定位任務(wù)構(gòu)建對(duì)不同類(lèi)別物體視覺(jué)表征的認(rèn)知,并將其遷移到其他經(jīng)典視覺(jué)任務(wù)中,如物體檢測(cè)等。


圖片


論文鏈接:https://ieeexplore.ieee.org/document/9662191

項(xiàng)目主頁(yè):

https://gewu-lab.github.io/CSOL_TPAMI2021/


方法

圖片

圖 2 一階段 - 單聲源定位框架。
首先,由于判別性多聲源定位是相對(duì)困難的任務(wù),該研究提出按照從易到難,逐步遷移的思路。從單聲源定位任務(wù)開(kāi)始,通過(guò)在簡(jiǎn)單的場(chǎng)景下對(duì)物體的視覺(jué)表征有一定認(rèn)知之后,遷移到更為復(fù)雜的多聲源場(chǎng)景中。根據(jù)聲音是由物體的振動(dòng)產(chǎn)生的這一規(guī)律可知,視覺(jué)和聽(tīng)覺(jué)之間天然存在著一一對(duì)應(yīng)關(guān)系,已有許多先前的研究利用該視音一致性作為自監(jiān)督信號(hào)對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。在聲源定位,特別是單聲源定位任務(wù)中,借助視音一致性自監(jiān)督信號(hào)能夠以判斷輸入的音頻和視頻信號(hào)是否匹配作為目標(biāo)進(jìn)行訓(xùn)練,進(jìn)而得到畫(huà)面中對(duì)音頻信號(hào)響應(yīng)較大的區(qū)域,即為發(fā)聲物體所在區(qū)域。這一過(guò)程利用了場(chǎng)景級(jí)別的視音一致性作為自監(jiān)督信號(hào)。
與此同時(shí),基于聲源定位得到的定位圖能夠?yàn)榕懦龔?fù)雜變化的背景干擾提供幫助,提取出較為干凈的物體視覺(jué)表征。并且,考慮到同一類(lèi)別的物體的視覺(jué)表征具有一致性,通過(guò)將相似的視覺(jué)表征聚集,而后提取該聚集類(lèi)別的代表性視覺(jué)表征是可行的?;谶@一思想,該研究提出用聚類(lèi)的方法對(duì)基于單聲源定位得到的所有樣本的視覺(jué)表征進(jìn)行聚類(lèi)。聚類(lèi)的每一個(gè)簇被認(rèn)為能夠代表一種語(yǔ)義類(lèi)別的視覺(jué)表征的集合。同時(shí),針對(duì)每個(gè)簇提取該類(lèi)別的代表性視覺(jué)表征并打上偽標(biāo)簽,便能構(gòu)建相應(yīng)的物體視覺(jué)表征字典,為解決多聲源定位任務(wù)做鋪墊。

圖片

圖 3 二階段 - 多聲源定位框架。
在第二階段的多聲源定位中,該研究遞進(jìn)地先從視覺(jué)上定位出畫(huà)面中存在的物體,再進(jìn)一步根據(jù)聽(tīng)覺(jué)信息過(guò)濾不發(fā)聲物體。畫(huà)面中存在物體的判斷借助了一階段中對(duì)物體視覺(jué)表征學(xué)習(xí)及所構(gòu)建的不同類(lèi)別物體視覺(jué)表征字典。具體來(lái)說(shuō),對(duì)于某幀多聲源場(chǎng)景下的視頻,經(jīng)過(guò)視覺(jué)網(wǎng)絡(luò)提取其特征圖后,再將字典各個(gè)類(lèi)別的視覺(jué)表征與該特征圖的各個(gè)部分進(jìn)行內(nèi)積操作判斷相似性。對(duì)于某一類(lèi)別而言,若特征圖中存在對(duì)該類(lèi)別視覺(jué)表征響應(yīng)比較大的區(qū)域,則可認(rèn)為該區(qū)域存在這一類(lèi)別的物體。此時(shí),畫(huà)面中存在的物體能夠被初步定位。進(jìn)而,對(duì)于不發(fā)聲物體的過(guò)濾,該研究首先利用場(chǎng)景級(jí)別的視音一致性進(jìn)行粗略的聲源定位得到畫(huà)面中的大致發(fā)聲區(qū)域,而后將基于畫(huà)面中存在物體的定位結(jié)果與發(fā)聲區(qū)域進(jìn)行哈達(dá)瑪積,過(guò)濾掉不發(fā)聲的物體,同時(shí)細(xì)化發(fā)聲物體的定位結(jié)果。
此時(shí),經(jīng)定位和過(guò)濾之后,便達(dá)到了在定位圖中過(guò)濾不發(fā)聲物體,保留發(fā)聲物體的目標(biāo)。并且,根據(jù)定位結(jié)果所得到的發(fā)聲物體視覺(jué)表征與音頻表征構(gòu)成了更細(xì)粒度的類(lèi)別級(jí)別的視音一致性,能夠作為自監(jiān)督信號(hào)幫助訓(xùn)練,最終達(dá)成多聲源定位的目標(biāo)。
聲源定位結(jié)果

圖片

圖 4 在多個(gè)真實(shí)與合成數(shù)據(jù)集上的可視化定位結(jié)果。綠色框:發(fā)聲物體,紅色框:不發(fā)聲的物體。

圖片

圖 5 在多個(gè)真實(shí)與合成數(shù)據(jù)集上的定量分析結(jié)果。
文中在涵蓋了音樂(lè)、日常生活場(chǎng)景等廣泛類(lèi)別的多個(gè)真實(shí)及合成數(shù)據(jù)集上進(jìn)行了多聲源定位的實(shí)驗(yàn),并分別進(jìn)行了可視化及定量分析。在可視化定位圖中,每張圖展示了一類(lèi)物體的定位結(jié)果,且發(fā)聲物體有較大響應(yīng),而不發(fā)聲物體未響應(yīng)或響應(yīng)很低??梢钥吹?,尤其在合成的含有不發(fā)聲物體的復(fù)雜多聲源場(chǎng)景中,該方法具有較大優(yōu)勢(shì)。并且,該方法進(jìn)一步在聲源定位的基礎(chǔ)上具有辨別出物體的類(lèi)別能力。
應(yīng)用:無(wú)監(jiān)督物體檢測(cè)

圖片

圖 6 在 ImageNet 子集上的無(wú)監(jiān)督物體檢測(cè)結(jié)果。
除了場(chǎng)景復(fù)雜性更高、更貼近生活之外,該研究通過(guò)將先前的聲源定位任務(wù)拓展到具有類(lèi)別敏感性的判別性聲源定位,達(dá)到了幫助模型認(rèn)知不同類(lèi)別物體及其視覺(jué)表征的目標(biāo)。這一特點(diǎn)為視覺(jué)領(lǐng)域其他典型任務(wù),如物體檢測(cè),向無(wú)監(jiān)督方向的發(fā)展提供了新的角度。對(duì)于無(wú)監(jiān)督物體檢測(cè)任務(wù)來(lái)說(shuō),兩個(gè)關(guān)鍵問(wèn)題分別是物體邊界框的構(gòu)建和類(lèi)別偽標(biāo)簽的生成,而判別性聲源定位任務(wù)與其不謀而合。首先,無(wú)需額外代價(jià),聲源定位任務(wù)所提供的定位圖便能轉(zhuǎn)換為物體大致的邊界框。其次,判別性聲源定位為畫(huà)面中的發(fā)聲物體分配了類(lèi)別偽標(biāo)簽。
在拓展實(shí)驗(yàn)中,該研究利用單聲源定位所得到的定位圖構(gòu)造物體的邊界框,并與物體的類(lèi)別偽標(biāo)簽一起作為監(jiān)督信號(hào),在無(wú)需物體檢測(cè)標(biāo)注的情況下訓(xùn)練物體檢測(cè)器。ImageNet 子集上的可視化及定量實(shí)驗(yàn)結(jié)果表明,該無(wú)監(jiān)督物體檢測(cè)思路具有一定的可行性,尤其是在吉他等體積較大的物體類(lèi)別上。這一實(shí)驗(yàn)驗(yàn)證了這種從判別性聲源定位任務(wù)出發(fā)挖掘物體視覺(jué)知識(shí)并遷移到視覺(jué)領(lǐng)域其他任務(wù)上的思路具有應(yīng)用前景。
總述
總的來(lái)說(shuō),該研究從人的多重感官認(rèn)知出發(fā),考慮了聲音是由物體的振動(dòng)產(chǎn)生的這一物理現(xiàn)象,利用視音之間的對(duì)應(yīng)關(guān)系及大部分物體在視音表征上類(lèi)間差異大而類(lèi)內(nèi)差異小這一性質(zhì),引入并解決了具有挑戰(zhàn)性的判別性多聲源定位的任務(wù)。并且,該研究進(jìn)一步將所學(xué)習(xí)到的物體視覺(jué)知識(shí)遷移到包括物體檢測(cè)在內(nèi)的其他視覺(jué)任務(wù)中,為用無(wú)監(jiān)督方法解決典型視覺(jué)問(wèn)題提供了新方向。這一研究啟發(fā)我們充分利用多種模態(tài)的信息,尤其是視音模態(tài)之間的聯(lián)系,認(rèn)知、學(xué)習(xí)不同物體的知識(shí),重新思考多模態(tài)背景下傳統(tǒng)任務(wù)的解決。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm原理


電度表相關(guān)文章:電度表原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉