熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

"); //-->

博客專欄

EEPW首頁 > 博客 > 0參數(shù)量 + 0訓練,3D點云分析方法Point-NN刷新多項SOTA(1)

0參數(shù)量 + 0訓練,3D點云分析方法Point-NN刷新多項SOTA(1)

發(fā)布人:機器之心 時間:2023-07-19 來源:工程師 發(fā)布文章
不引入任何可學習參數(shù)或訓練,是否可以直接實現(xiàn) 3D 點云的分類、分割和檢測?


圖片


  • 論文鏈接:https://arxiv.org/pdf/2303.08134.pdf
  • 代碼地址:https://github.com/ZrrSkywalker/Point-NN


本文提出了一個用于 3D 點云分析的非參數(shù)網(wǎng)絡(luò) Point-NN,它僅由純不可學習的組件組成:最遠點采樣(FPS)、k 近鄰(k-NN)、三角函數(shù)(Trigonometric Functions)以及池化(Pooling)操作。不需要參數(shù)和訓練,它能夠在各種 3D 任務(wù)上都取得不錯的準確率,甚至在 few-shot 分類上可以大幅度超越現(xiàn)有的完全訓練的模型。
基于 Point-NN 的非參數(shù)框架,這項研究對于當前 3D 領(lǐng)域的貢獻如下:
1、首先,我們可以通過插入簡單的線性層,來構(gòu)建 Point-NN 的參數(shù)化網(wǎng)絡(luò),Point-PN。由于 Point-NN 具有強大的非參數(shù)基礎(chǔ),所構(gòu)建出的 Point-PN 僅需要少量可學習參數(shù)就可以表現(xiàn)出優(yōu)秀的 3D 分類和分割性能。
2、其次,由于 Point-NN 不需要訓練的屬性,我們可以將其作為一個即插即用的增強模塊,去增強現(xiàn)有已經(jīng)訓練好的 3D 模型。通過提供互補知識,Point-NN 可以在各種 3D 任務(wù)上提升原本的 SOTA 性能。
一、引言
1. 動機
3D 點云的處理和分析是一項具有挑戰(zhàn)性的任務(wù),并且在學術(shù)界和工業(yè)界都取得了廣泛的關(guān)注。自從 PointNet++ 起,后續(xù)的 3D 模型為了提升性能,一方面設(shè)計了更加復雜的局部空間算子,一方面增大了網(wǎng)絡(luò)的可學習參數(shù)量。然而,除了不斷更新的可學習模塊,他們基本都沿用了同一套潛在的多尺度網(wǎng)絡(luò)框架,包括最遠點采樣(FPS)、k 近鄰(k-NN)和池化(Pooling)操作。目前,還幾乎沒有研究去探索這些非參數(shù)組件的潛力;因此,本文提出并探索了以下問題:這些非參數(shù)組件對于 3D 理解的貢獻有多大?僅僅使用非參數(shù)組件,能否實現(xiàn)無需訓練的 3D 點云分析?
2. 貢獻

圖片


為了解決以上問題,本文首次提出了一個非參數(shù)化(Non-Parametric)的 3D 網(wǎng)絡(luò),Point-NN,整體結(jié)構(gòu)如上圖所示。Point-NN 由一個用于 3D 特征提取的非參數(shù)編碼器(Non-Parametric Encoder)和一個用于特定任務(wù)識別的點云記憶庫(Point-Memory Bank)組成。非參數(shù)編碼器采用了多階段的結(jié)構(gòu)設(shè)計,使用了最遠點采樣(FPS)、k 近鄰(k-NN)、三角函數(shù)(Trigonometric Functions)和池化(Pooling)來逐步聚合局部幾何圖形,為點云生成一個高維度的全局特征。我們僅僅采用了簡單的三角函數(shù)來捕捉局部空間幾何信息,沒有使用任何可學習算子。接下來,我們使用此編碼器,去提取到所有訓練集點云的特征,并緩存為點云記憶庫。進行測試時,點云記憶庫通過對測試點云和訓練集點云的特征,進行相似度匹配,來輸出特定任務(wù)的預測。
不需要任何訓練,Point-NN 可以在多種 3D 任務(wù)中實現(xiàn)優(yōu)越的性能,例如 3D 分類、分割、檢測,甚至可以超過一些現(xiàn)有的經(jīng)過完全訓練的模型?;诖?,我們進一步提出了兩點 Point-NN 對于現(xiàn)今 3D 領(lǐng)域的貢獻,如下圖(a)和(b)所示:

圖片


1)以 Point-NN 為基礎(chǔ)框架,我們通過在 Point-NN 的每個階段插入簡單的線性層,引入了其 parameter-efficient 的變體 Point-PN,如上圖 (a) 所示。Point-PN 不包含復雜的局部算子,僅僅包含線性層以及從 Point-NN 繼承的三角函數(shù)算子,實現(xiàn)了效率和性能的雙贏。
2)我們將 Point-NN 作為一個即插即用的模塊,為各種 3D 任務(wù)中訓練好的模型提供互補知識,并在推理過程中可以直接提升這些訓練模型的性能,如上圖 (b) 所示。
二、方法    1.Point-NN
Point-NN 由一個 Non-Parametric Encoder (EncNP) 和一個 Point-Memory Bank (PoM) 組成。對于輸入的點云,我們使用 EncNP 提取其全局特征,并通過 PoM 的特征相似度匹配,來輸出分類結(jié)果,公式如下圖所示:

圖片


接下來,我們依次介紹 Point-NN 中的這兩個模塊。
(1)非參數(shù)編碼器 (Non-Parametric Encoder)
非參數(shù)編碼器首先將輸入點云進行 Raw-point Embedding,將 3 維的原始點坐標轉(zhuǎn)化為高維度特征,再經(jīng)過 4 個階段的 Local Geometry Aggregation 逐步聚合局部特征得到最終的點云全局特征,如下圖所示。

圖片


a. 原始點云映射 (Raw-point Embedding)
我們參考了 Transformer 中的 positional encoding,對于輸入點云的一個點圖片,利用三角函數(shù)將它嵌入到一個維向量中:

圖片


圖片分別表示三個軸的位置編碼。以圖片為例,對于通道索引圖片,具體的位置編碼公式如下:

圖片


其中,α,β 分別控制了尺度和波長。通過這種三角函數(shù)的編碼,我們可以將點云的絕對位置信息映射到高維度的特征空間中,并通過后續(xù)的點乘操作可以根據(jù)權(quán)重獲取不同點之間的相對位置信息,并捕獲三維形狀的細粒度結(jié)構(gòu)變化。
b. 局部幾何特征的聚合 (Local Geometry Aggregation)
對于每一個點云尺度的處理,我們分為三個步驟。
首先是特征擴維 (Feature Expansion)。我們使用 FPS 進行點云數(shù)量的下采樣,對于下采樣后得到的每一個中心點圖片,我們采用 k-NN 去找到他的 k 個鄰域點圖片以及對應(yīng)的特征圖片。基于此,我們將中心點特征圖片圖片在特征維度進行拼接,實現(xiàn)特征擴維,這樣可以在更深的網(wǎng)絡(luò)層中編碼更多的義信息

圖片


其次是幾何信息提取 (Geometry Extraction)。我們先使用均值和標準差對圖片的坐標進行歸一化,并使用三角函數(shù)進行相對位置圖片的編碼,來獲取圖片的相對幾何權(quán)重,標記為圖片。之后,我們通過下面的公式得到加權(quán)后的鄰域特征圖片。
圖片
最后是局部特征聚和 (Feature Aggregation)。我們利用最大池化和平均池化來進行局部特征聚合。

圖片


在完成 4 個階段的 Local Geometry Aggregation 后,我們再次運用最大池化和平均池化來得到點云的全局特征。
(2)點云記憶庫 (Point-Memory Bank)
在經(jīng)過非參數(shù)編碼器 (Non-Parametric Encoder) 的特征提取后,由于 Point-NN 不含任何可學習參數(shù),我們沒有使用傳統(tǒng)的可學習分類頭,而是采用了無需訓練的 point-memory bank。首先,我們使用非參數(shù)編碼器去構(gòu)造關(guān)于訓練集的 bank,接著在推理過程通過相似度匹配輸出預測,如下圖所示。

圖片


a. 記憶構(gòu)建 (Memory Construction)
Point memory 包括一個 feature memory圖片和一個 label memory圖片以點云分類任務(wù)為例,假設(shè)給定的訓練集包含 K 個類別的 N 個點云圖片。通過 Non-Parametric Encoder 可以得到 N 個訓練集點云的全局特征,同時將對應(yīng)的分類標簽圖片轉(zhuǎn)換為 one-hot 編碼,接著將它們沿著樣本維度進行拼接,緩存為兩個矩陣。

圖片


b. 基于相似度的預測 (Similarity-based Prediction)
在推理階段,我們利用構(gòu)造好的 bank 進行兩個矩陣乘法來完成分類。首先,我們通過 Non-Parametric Encoder 來計算測試點云的全局特征圖片,并計算與 feature memory 圖片之間的余弦相似度。

圖片


接下來,將 label memory 圖片中的 one-hot 標簽與圖片進行加權(quán),越相似的 feature memory 對最終的分類 logits 貢獻越大,反之亦然。

圖片


通過這種基于相似性的計算,point-memory bank 可以在不經(jīng)過任何訓練的情況下,學習到從訓練集中提取的知識,在推理過程自適應(yīng)地完成不同任務(wù)。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉