熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架

精度超越Transformer,MIT、港大提出基于物理模型的Neuro-Symbolic視覺推理框架

發(fā)布人:機(jī)器之心 時(shí)間:2021-12-02 來源:工程師 發(fā)布文章

來自香港大學(xué),麻省理工大學(xué)和 MIT-IBM 沃森人工智能實(shí)驗(yàn)室的研究者提出了基于可微物理模型的神經(jīng)符號(hào)推理框架,在精度上超過了基于 Transformer 的模型。

動(dòng)態(tài)視覺推理(Dynamic Visual Reasoning),尤其是涉及到物體間物理關(guān)系的推理,是計(jì)算機(jī)視覺中一個(gè)重要且困難的問題。給定一個(gè)觀測(cè)視頻,它不僅要求模型根據(jù)視頻推理出視頻中物體的交互過程,還要求對(duì)視頻的長(zhǎng)期未來(Long-term)以及反事實(shí)(Counterfactual)情形進(jìn)行預(yù)測(cè),而這兩項(xiàng)預(yù)測(cè)恰好是現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的弱點(diǎn)。

現(xiàn)有方法可以大致被分為兩類:使用端到端神經(jīng)網(wǎng)絡(luò)(如 Vision Transformer)來對(duì)物體間關(guān)系進(jìn)行建模的方法 [3],和基于神經(jīng)符號(hào)(Neuro-Symbolic)的推理模型 [2, 4];前者受益于 Transformer 等的強(qiáng)大表征有著不錯(cuò)的性能,但是其依賴大量數(shù)據(jù),且推理過程不透明且難以解釋;而后者基于神經(jīng)符號(hào)逐步進(jìn)行推理,模型具有良好的解釋性,但是精度受限;此外,現(xiàn)有方案都難以解決長(zhǎng)期和反事實(shí)預(yù)測(cè)的難題。

本文提出的基于可微物理模型的神經(jīng)符號(hào)推理框架很好的解決了這個(gè)問題,它通過從視頻和問題對(duì)中學(xué)習(xí)物理模型,并利用顯式的物理模型對(duì)物體動(dòng)力學(xué)進(jìn)行建模,基于準(zhǔn)確的動(dòng)力學(xué)預(yù)測(cè)來回答長(zhǎng)期和反事實(shí)預(yù)測(cè)問題。本文的框架透明可解釋,并在精度上超過了基于 Transformer 的模型。此外,它顯示了良好的數(shù)據(jù)效率,在只使用 20% 甚至更少的數(shù)據(jù)即可取得不錯(cuò)的效果。本文作者來自香港大學(xué) (HKU),麻省理工大學(xué) (MIT) 和 MIT-IBM 沃森人工智能實(shí)驗(yàn)室,論文已被 NeurIPS 2021 接收。

1.png

圖 1. [NeurIPS 2021] VRDP 作者介紹

項(xiàng)目主頁:http://vrdp.csail.mit.edu/

論文鏈接:http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf

代碼鏈接:https://github.com/dingmyu/NCP

背景和數(shù)據(jù)介紹

本文使用最多的數(shù)據(jù)集是 CLEVRER 數(shù)據(jù)集 [2]。如下圖所示,它使用簡(jiǎn)化的物體(圓球,圓柱,正方體等)來學(xué)習(xí)動(dòng)力學(xué)相關(guān)的推理問題:1. 發(fā)生了什么 ?(Descriptive question); 2. 為什么發(fā)生?(Explanatory question); 3. 將會(huì)發(fā)生什么?(Predictive question); 4. 如果… 會(huì)發(fā)生什么 (Counterfactual question)。人類可以比較輕松地利用物理直覺和常識(shí)來推斷這些問題,然而這對(duì)于機(jī)器來說就有些困難了,尤其是 Counterfactual 的問題,例如,假設(shè)沒有黃色的金屬圓柱,會(huì)是怎樣的情形?這很考驗(yàn)物理建模和空間想象的能力。即使基于 Transformer 的模型可以很好的解決 Descriptive 和 Explanatory 問題,它們也總是會(huì)在 Counterfactual 的情形中失敗。

2.png

圖 2. CLEVRER 推理數(shù)據(jù)集示例

方法介紹

本文作者發(fā)現(xiàn),現(xiàn)有方案的弊端是沒有顯式的使用物理模型,而是過于依賴神經(jīng)網(wǎng)絡(luò)或 GNN 的隱式推理,這導(dǎo)致他們?cè)陂L(zhǎng)期預(yù)測(cè)和反事實(shí)推理中無法很好的捕捉視頻中的邏輯?;诖耍髡咭肓艘粋€(gè)可微的物理引擎,并通過從視頻中捕捉到的物體軌跡和屬性來還原視頻中物體和場(chǎng)景的物理參數(shù)(速度,加速度,質(zhì)量,彈性系數(shù),摩擦力等)。一旦所有的相對(duì)物理參數(shù)被推理出來,即得到了顯式的物理模型后,作者使用物理模型進(jìn)行基于預(yù)測(cè)的和反事實(shí)的物理模擬,并根據(jù)模擬后的軌跡和特征來回答相關(guān)問題。具體流程如下圖所示。

3.gif

圖 3. 基于物理模型的推理示例。(1)使用一個(gè)感知模塊從視頻中獲取每個(gè)物體及其對(duì)應(yīng)的軌跡和屬性;(2)利用上述視頻觀測(cè)通過可微物理模擬來學(xué)習(xí)相關(guān)物理參數(shù);(3)通過物理模擬進(jìn)行預(yù)測(cè)并回答相關(guān)問題。

然而上述框架仍然存在一個(gè)難點(diǎn),現(xiàn)實(shí)世界中往往沒有對(duì)物體的屬性標(biāo)注,在這種情況下,難以通過一個(gè)感知模塊得到物體的相關(guān)屬性(如顏色,形狀),而沒有這些先驗(yàn)信息就無法進(jìn)行可微物理模擬,更無法學(xué)到一個(gè)準(zhǔn)確的物理模型。因此,作者提出 VRDP 框架,將視覺感知模塊、概念學(xué)習(xí)器和物理模型結(jié)合,使用三個(gè)無縫銜接的模塊來解決上述問題。其中,視覺感知模塊用于對(duì)每幀圖片進(jìn)行分割,得到每個(gè)物體和對(duì)應(yīng)的軌跡;概念學(xué)習(xí)器負(fù)責(zé)從物體的軌跡信息和問題對(duì)中學(xué)習(xí)物體的屬性;在物體的軌跡和屬性都得到后,通過可微物理模擬學(xué)到較為準(zhǔn)確的物理模型;基于物理模型完成長(zhǎng)時(shí)和反直覺的推理。整體框架如下:

4.png

圖 4. VRDP 框架。由三部分組成:視覺感知模塊、概念學(xué)習(xí)器和可微物理模型

具體來說,框架中的物理引擎為一個(gè)基于動(dòng)量和動(dòng)能守恒的碰撞模型,它從單個(gè)視頻軌跡中估計(jì)物體的實(shí)時(shí)速度和加速度,并以此估計(jì)場(chǎng)景的摩擦力等參數(shù)。此外,它通過碰撞事件來估計(jì)碰撞物體的相對(duì)質(zhì)量和彈性系數(shù),一旦這些參數(shù)學(xué)習(xí)完成,它便可以自由地進(jìn)行各種模擬和推理。本文的概念學(xué)習(xí)器為問題中的每個(gè)概念詞分配一個(gè)編碼(embedding),并從視頻軌跡中學(xué)習(xí)物體感知的特征,通過講視覺特征和語義編碼投影到同一空間下并檢索來得到每個(gè)物體對(duì)應(yīng)的屬性,參考 NS-CL [1]。如下圖所示。

5.png

圖 5. 概念學(xué)習(xí)器

本文的神經(jīng)符號(hào)執(zhí)行器利用了 NS-DR [2] 和 DCL [4] 中的方案,通過預(yù)測(cè)出的物體軌跡和碰撞事件進(jìn)行顯式的符號(hào)推理,如 filter(Green) 代表得到所有的綠色物體,filter(Collision, filter(Green), filter(Cube)) 則代表找出綠色物體和方塊的碰撞事件。通過顯式的物理模型以及神經(jīng)符號(hào)執(zhí)行器,本文框架的每一步都是可解釋且完全透明的,整個(gè)推理過程和人類的逐步推理類似。

Demo 展示

6.gif

圖 6. 物理模擬示例,左側(cè)為原視頻,右側(cè)為模擬結(jié)果

7.gif

圖 7. 預(yù)測(cè)問題推理示例

8.gif

圖 8. 反事實(shí)問題推理示例

實(shí)驗(yàn)部分

本文提出的 VRDP 框架具有優(yōu)越的性能,在全部 CLEVRER 數(shù)據(jù)集上測(cè)試,它在更加困難的 Predictive 和 Counterfactual 兩類問題上都取得了最高的性能,在 Descriptive 和 Explanatory 問題上也得到了有競(jìng)爭(zhēng)力的結(jié)果,如下表所示。

9.png

圖 9. 實(shí)驗(yàn)結(jié)果(全部數(shù)據(jù))

此外,它具有極高的數(shù)據(jù)利用效率,僅使用 20% 的數(shù)據(jù)就可以得到相當(dāng)不錯(cuò)的結(jié)果,遠(yuǎn)超現(xiàn)有的其他方案,如下圖所示。

10.png

圖 10. 數(shù)據(jù)效率評(píng)估(部分?jǐn)?shù)據(jù))

作者還證明了,通過使用可微物理模型,VRDP 可以輕易擴(kuò)展到數(shù)據(jù)集中不存在的新的概念中,如概念 “更重”,VRDP 成功進(jìn)行物理模擬并準(zhǔn)確預(yù)測(cè)了當(dāng)藍(lán)色圓柱更重時(shí)的情況,這是更加復(fù)雜的反事實(shí)情形。

11.png

圖 11. 擴(kuò)展到新的反事實(shí)概念 “更重”

參考文獻(xiàn)

[1] The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision. Jiayuan Mao, Chuang Gan, Pushmeet Kohli, Joshua B. Tenenbaum, and Jiajun Wu. ICLR 2019.

[2] CLEVRER: CoLlision Events for Video REpresentation and Reasoning. Kexin Yi, Chuang Gan, Yunzhu Li, Pushmeet Kohli, Jiajun Wu, Antonio Torralba, and Joshua B. Tenenbaum. ICLR 2020.

[3] Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures. David Ding, Hill Felix, Santoro Adam, and Botvinick Matt. arXiv 2020.

[4] Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning. Zhenfang Chen, Jiayuan Mao, Jiajun Wu, Kwan-Yee K. Wong, Joshua B. Tenenbaum, and Chuang Gan. ICLR 2021.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

超聲波清洗機(jī)相關(guān)文章:超聲波清洗機(jī)原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉