熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 高效目標(biāo)檢測:動(dòng)態(tài)候選較大程度提升檢測精度(附論文下載)

高效目標(biāo)檢測:動(dòng)態(tài)候選較大程度提升檢測精度(附論文下載)

發(fā)布人:CV研究院 時(shí)間:2022-10-19 來源:工程師 發(fā)布文章

01

概述


大多數(shù)最先進(jìn)的檢測方法利用固定數(shù)量的提議作為候選對(duì)象的中間表示,這在推理過程中無法適應(yīng)不同的計(jì)算約束。

圖片

在今天分享中,研究者提出了一種簡單而有效的方法,該方法通過生成用于目標(biāo)檢測的動(dòng)態(tài)提議來適應(yīng)不同的計(jì)算資源。首先設(shè)計(jì)一個(gè)模塊來制作一個(gè)基于查詢的模型,以便能夠用不同數(shù)量的提議進(jìn)行推理。此外,研究者將其擴(kuò)展到動(dòng)態(tài)模型以根據(jù)輸入圖像選擇候選的數(shù)量,大大降低了計(jì)算成本。新提出的方法在包括兩階段和基于查詢的模型在內(nèi)的各種檢測模型中實(shí)現(xiàn)了顯著的加速,同時(shí)獲得了相似甚至更好的準(zhǔn)確度。


02

背景


目標(biāo)檢測是一項(xiàng)基本但具有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)。給定輸入圖像,算法旨在同時(shí)對(duì)圖像中的目標(biāo)進(jìn)行定位和分類。為了實(shí)現(xiàn)良好的目標(biāo)檢測性能,兩階段方法首先生成固定數(shù)量的粗略提議,然后對(duì)其進(jìn)行細(xì)化以輸出細(xì)粒度預(yù)測。作為成功的雙階段方法之一,R-CNN系列利用區(qū)域候選網(wǎng)絡(luò)(RPN)粗略定位目標(biāo),然后提取感興趣區(qū)域特征以輸出精細(xì)預(yù)測。為了簡化目標(biāo)檢測的過程,提出了基于查詢的方法來移除手動(dòng)設(shè)計(jì)的Anchor框。

其中,DETR是一項(xiàng)開創(chuàng)性的工作,將目標(biāo)檢測視為具有多階段變換器和學(xué)習(xí)對(duì)象查詢的直接集合預(yù)測問題。Sparse R-CNN設(shè)計(jì)了一個(gè)基于R-CNN檢測器的基于查詢的集合預(yù)測框架。通過用固定數(shù)量的可學(xué)習(xí)候選替換手工制作的候選,Sparse R-CNN有效地減少了候選的數(shù)量并避免了多對(duì)一的標(biāo)簽分配。

圖片

在今天分享中,研究者制定了一種訓(xùn)練策略,以促進(jìn)單個(gè)模型根據(jù)硬件約束自適應(yīng)地切換候選的數(shù)量。實(shí)證研究表明,新提出的模型在相同數(shù)量的候選下實(shí)現(xiàn)了與單獨(dú)訓(xùn)練的模型相似的性能。此外,研究者還設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)模塊,根據(jù)輸入圖像的復(fù)雜度動(dòng)態(tài)選擇proposals的數(shù)量,有效降低了計(jì)算成本。

如上圖,與提出的動(dòng)態(tài)候選相結(jié)合,四種所示檢測方法的推理速度大幅提高,同時(shí)保持了競爭性能。 推理速度是使用單個(gè)TITAN RTX GPU測量的。


03

新框架


研究者提出的方法的關(guān)鍵思想是用當(dāng)前目標(biāo)檢測方法中的動(dòng)態(tài)大小替換固定數(shù)量的候選。新提出的模型不是使用固定候選,而是根據(jù)輸入圖像的內(nèi)容或當(dāng)前的計(jì)算資源選擇不同數(shù)量的候選,如下圖所示。

圖片

新提出的方法可以很容易地插入大多數(shù)兩階段和基于查詢的檢測方法。在接下來的部分中,首先回顧了當(dāng)前帶有候選的目標(biāo)檢測方法,并介紹了一種帶有可切換候選的訓(xùn)練策略,以使新提出的模型在推理過程中適應(yīng)不同的配置。然后,將可切換候選擴(kuò)展到動(dòng)態(tài)候選,以便可以根據(jù)輸入圖像自適應(yīng)地調(diào)整候選編號(hào)。最后,引入了一種就地蒸餾策略,在每次訓(xùn)練迭代中將模型中的知識(shí)從具有更多候選的網(wǎng)絡(luò)轉(zhuǎn)移到具有較少候選的網(wǎng)絡(luò),這顯著提高了新模型的整體性能。

Dynamic Proposa

可切換候選有助于在不同數(shù)量的候選下執(zhí)行兩階段或基于查詢的檢測模型。在這種情況下,建議的數(shù)量是根據(jù)外部資源而不是圖像的內(nèi)容來選擇的。為了將proposal的數(shù)量和計(jì)算成本與圖像的內(nèi)容聯(lián)系起來,研究者使用圖像中的物體數(shù)量作為指導(dǎo)來生成proposa的動(dòng)態(tài)數(shù)量。

在訓(xùn)練過程中,估計(jì)圖像中的物體數(shù)量,記為n~。然后用定義的確定性函數(shù) δ(~n) 替換原始變量δ:

圖片

因此δ隨著預(yù)測目標(biāo)數(shù)量的上限為1線性增長。給定新的動(dòng)態(tài)候選數(shù)Nd:

圖片

在基于查詢的模型中,動(dòng)態(tài)候選特征qd0和框bd0是從原始q0和b0中切片的:

圖片

在兩階段模型中,目標(biāo)候選是從原始候選中采樣通過RPN使用下面定義的比率生成的的:

圖片


04

實(shí)驗(yàn)


在MS COCO驗(yàn)證集上單獨(dú)使用多種配置訓(xùn)練的原始方法與使用可切換候選聯(lián)合訓(xùn)練的原始方法之間的比較。

圖片


Cityscapes val上目標(biāo)檢測和實(shí)例分割的基線模型進(jìn)行比較?!癉P”表示結(jié)合動(dòng)態(tài)候選的模型。如下表:

圖片

圖片

具有動(dòng)態(tài)候選的目標(biāo)檢測及其相應(yīng)的估計(jì)目標(biāo)數(shù)量和候選數(shù)量。第一列顯示來自MS-COCO的圖像,第二列顯示來自Cityscapes的圖像。

圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉