同濟、阿里獲CVPR最佳學生論文,李飛飛獲黃煦濤獎,近6000人線下參會(1)
剛剛,CVPR 2022 正式公布了最佳論文、最佳學生論文等獎項。來自 ETH Zurich、華盛頓大學、佐治亞理工學院、捷克理工大學多個機構(gòu)的研究者共同獲得了最佳論文獎,來自阿里巴巴和同濟大學的研究者獲得了最佳學生論文獎。此外,斯坦福大學教授李飛飛獲得了本次大會的 Thomas S. Huang (黃煦濤)紀念獎。
2022 年,CVPR 大會的投稿量達到 8161 份,相比 2021 年度的 7093 份提交增長了 15%。其中 44.59% 的作者來自中國,排在第二名的是美國,占據(jù) 20.65%。圖源:推特用戶 @Jared Heinly。
經(jīng)過三個多月的評審工作,大會最終共有 2064 篇論文被接收,接收率為 25.28%,高于去年的 23.6%。其中有 342 份被選為 Oral 論文,1721 份被選為 Poster 論文。此外,今年的 review 數(shù)量為 25804,rebuttal 數(shù)量為 5884。圖源:推特用戶 @raven。
其中,國內(nèi)有大量論文被接收。如據(jù)機器之心了解,商湯科技及聯(lián)合實驗室共有 71 篇論文被大會接收,其中近四分之一被錄用為 Oral。
自新冠疫情流行以來,今年 CVPR 還是首次線下舉辦。據(jù)主辦方統(tǒng)計,截至大會開幕,共有 9981 人注冊參會,其中 5641 人現(xiàn)場參會,4340 人以線上方式參會。
今年的大會特別紀念了孫劍博士:
在主會議的最開始,CVPR 2022 即公布了本次大會的全部獎項。來自 ETH Zurich、華盛頓大學、佐治亞理工學院、捷克理工大學多個機構(gòu)的研究者共同獲得了最佳論文獎,來自阿里巴巴和同濟大學的研究者獲得了最佳學生論文獎。此外,最佳論文提名和最佳學生論文提名的獎項分別由 CMU 以及哈佛大學、谷歌研究院獲得。
最佳論文
- 機構(gòu):ETH Zurich、華盛頓大學、佐治亞理工學院、捷克理工大學
- 論文地址:https://arxiv.org/abs/2112.03424
論文摘要:該研究提出了一種在 RANSAC 框架中解決困難的幾何優(yōu)化問題的方法。最小化問題源于將原始幾何優(yōu)化問題松弛化(relax)為具有許多虛假解決方案的最小問題。該研究提出的方法避免了計算大量虛假解決方案。研究者設(shè)計了一種學習策略,用于選擇初始問題 - 解決方案對以用數(shù)值方法繼續(xù)解決原問題。該研究通過創(chuàng)建一個 RANSAC 求解器來演示所提方法,該求解器通過使用每個視圖中的 4 個點進行最小松弛化來計算 3 個校準相機的相對位姿。平均而言,該方法可以在 70 μs 內(nèi)解決一個原始問題。此外,該研究還針對校準相機的相對位姿這一問題進行了基準測試和研究。
最佳論文提名
今年的最佳論文提名由 CMU 的研究《Dual-Shutter Optical Vibration Sensing》獲得。
- 機構(gòu):CMU
- 論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf
論文摘要:視覺振動測量是一種非常有用的工具,可用于遠程捕捉音頻、材料物理屬性、人體心率等。雖然視覺上可觀察的振動可以通過高速相機直接捕捉,但通過將激光束照射振動表面所產(chǎn)生的散斑圖案的位移成像,可以從光學上放大微小且不易察覺的物體振動。
在本文中,研究者提出了一種在高速(高達 63kHz)下同時檢測多個場景源振動的新方法,該方法使用了額定工作頻率僅為 130Hz 的傳感器。他們的方法使用兩個分別配備滾動和全局快門傳感器的相機來同時捕捉場景,其中滾動快門相機捕捉到對高速物體振動進行編碼的失真散斑圖像,全局快門相機捕捉散斑圖案的未失真參考圖像,從而有助于對源振動進行解碼。最后,研究者通過捕捉音頻源(如揚聲器、人聲和樂器)引起的振動并分析音叉的振動模式,展示了他們的方法。
研究者用一種新穎的方法「看到」(seeing)聲音。
最佳學生論文
今年獲得最佳學生論文獎項的是《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》,作者來自阿里巴巴、同濟大學。
- 機構(gòu):阿里巴巴、同濟大學
- 論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_EPro-PnP_Generalized_End-to-End_Probabilistic_Perspective-N-Points_for_Monocular_Object_Pose_Estimation_CVPR_2022_paper.pdf
論文摘要:利用****點(PnP)基數(shù)從單個 RGB 圖像中定位 3D 物體是計算機視覺領(lǐng)域一個長期存在的問題。在端到端深度學習的驅(qū)動下,近期的研究建議將 PnP 解釋為一個可微分層,如此 2D-3D 點對應(yīng)就可以部分地通過反向傳播梯度 w.r.t. 物體姿態(tài)來學習。然而,從零開始學習整套不受限的 2D-3D 點在現(xiàn)有的方法下很難收斂,因為確定性的姿態(tài)本質(zhì)上是不可微的。
這篇論文提出了一種用于普遍端到端姿態(tài)估計的概率 PnP 層——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上輸出姿態(tài)的分布,實質(zhì)地將分類 Softmax 帶入連續(xù)域。2D-3D 坐標和相應(yīng)的權(quán)值作為中間變量,通過最小化預(yù)測姿態(tài)與目標姿態(tài)分布之間的 KL 散度來學習。其基本原理統(tǒng)一了現(xiàn)有的方法,類似于注意力機制。EPro-PnP 的性能明顯優(yōu)于其他基準,縮小了基于 PnP 的方法與基于 LineMOD 6DoF 的姿態(tài)估計以及 nuScenes 3D 目標檢測基準的特定任務(wù)方法之間的差距。EPro-PnP 方法概覽。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。