???一、論文
- 研究領域:計算機視覺 | 多視角數(shù)據(jù)處理中實現(xiàn)等變性
- 論文:Equivariant Multi-View Networks
-
ICCV 2019
- 論文鏈接
- 視頻鏈接
二、論文簡述
在計算機視覺中,模型在不同視角下對數(shù)據(jù)(例如,點云、圖像等)對數(shù)據(jù)的變化具有一定的響應性。為了使模型能夠更好地適應這種變化,不是僅僅對某個特定視角的數(shù)據(jù)進行訓練,研究人員提出了等變多視角網(wǎng)絡的概念。能夠同時處理多視角數(shù)據(jù),并通過共享權重或其他機制來保持數(shù)據(jù)的等變性。
三、論文詳述
等變多視圖網(wǎng)絡
- Abstract
利用在自然圖像上預先訓練好的深度神經(jīng)網(wǎng)絡獨立處理輸入圖像的多個視圖,通過對所有視圖進行一輪pooling來實現(xiàn)視圖排列不變性。我們認為,這種操作會丟棄重要信息,并導致不合格的全局描述符。在本文中,我們提出了一種多視圖聚合的群卷積方法,即在旋轉群的離散子群上進行卷積,從而能夠以等變(而非不變)的方式對所有視圖進行聯(lián)合推理,直至最后一層。我們進一步發(fā)展了這一想法,以便在旋轉組中更小的離散同質(zhì)空間上進行操作,在這里使用極視圖表示法,只需輸入視圖數(shù)量的一小部分就能保持等變關系。我們在多個大型三維形狀檢索任務中確立了新的技術水平,并展示了在全景場景分類中的其他應用。
- 先前工作:利用在自然圖像上預先訓練好的深度神經(jīng)網(wǎng)絡獨立處理輸入圖像的多個視圖,通過對所有視圖進行一輪pooling來實現(xiàn)視圖排列不變性
- 我們工作:我們提出了一種多視圖聚合的群卷積方法,即在旋轉群的離散子群上進行卷積,從而能夠以等變(而非不變)的方式對所有視圖進行聯(lián)合推理,直至最后一層。
?視圖排列不變性(Viewpoint Permutation Invariance)是指在處理三維數(shù)據(jù)(如點云、3D模型)時,模型對不同視角或觀察角度的變化具有不變性。在點云處理中,由于點云的點的順序和排列可能會在不同視角下發(fā)生變化,保持對這些排列變化的不變性對于實現(xiàn)穩(wěn)健的特征提取和分析至關重要。
視圖排列不變性對于點云處理中的許多任務非常重要,如點云分類、分割、目標檢測等。實現(xiàn)視圖排列不變性可以避免模型僅僅學習特定視角下的特征,使得模型能夠更好地泛化到不同視角的點云數(shù)據(jù)。
以下是一些方法和思路,可以幫助實現(xiàn)視圖排列不變性:
1. 捕捉點云在不同視角下的特征,并保持在球面上的等變性。
2. 設計旋轉不變的特征提取方法,確保不同視角下的點云特征保持一致。
3. 在訓練時,通過應用隨機的旋轉變換來增加數(shù)據(jù)的多樣性,幫助模型學習不同視角下的特征。
4. 將從不同視角提取的特征進行融合,以生成更綜合的特征表示。
5. **點云對齊**:在訓練前對點云進行對齊,使得不同視角下的點對應關系更一致。
多視圖聚合:整合多個視角(或多個輸入)的信息
Joint Reasoning Over All Views: 這個方法允許在所有視角上進行聯(lián)合推理,這意味著模型能夠考慮來自不同視角的信息,并在處理數(shù)據(jù)時保持這種多視角的信息。
旋轉群(Rotation Group)的一個離散子群是指旋轉群中的一個子集,其中包含一組離散的旋轉操作。常見的例子是在三維空間中,使用Z軸的離散旋轉操作來構成一個離散子群。這意味著我們只考慮繞Z軸旋轉一定角度的操作,而不考慮其他軸的旋轉。這個子群是離散的,因為我們只考慮一些特定的旋轉角度,而不是考慮所有可能的連續(xù)旋轉。
旋轉群是一個連續(xù)的、無限的群,包含了所有可能的連續(xù)旋轉操作。然而,當我們考慮到計算或離散的問題時,有時會使用旋轉群的一個子集來簡化問題或進行計算。
SO(3) 旋轉群由所有保持三維空間中原點不動的旋轉操作組成。這些操作可以用三維旋轉矩陣表示,其中包括繞任意軸的旋轉。旋轉群的元素可以表示為一個 3x3 的正交矩陣,具有特殊行列式等于1的性質(zhì)。
?
- Introduction
隨著大規(guī)模物體三維數(shù)據(jù)集[39, 3]和整個場景數(shù)據(jù)集[2, 8]的激增,可以對深度學習模型進行訓練,生成可用于分類和檢索任務的全局描述符。
對深度學習模型進行訓練,生成可用于分類和檢索任務的全局描述符
出現(xiàn)的第一個挑戰(zhàn)是如何表示輸入。盡管在體積[39, 24]、點云[27, 32]和基于網(wǎng)格[23, 26]的表示方面進行了大量嘗試,但使用三維輸入的多個視圖可以切換到二維域,在二維域中可以直接應用最近所有基于圖像的深度學習突破(例如[15]),從而促進最先進的性能[33, 20]。?
基于多視圖(MV)的方法需要某種形式的視圖池化,它可以是
(1)在一些中間卷積層上的逐像素池化[33],
(2)在最終的1D視圖描述符上池化[34],
(3)組合最終的logits [20],這可以被視為獨立投票。這些操作對于查看排列通常是不變的。
?
我們的主要觀點是,傳統(tǒng)的視圖池化是在對視圖集進行任何聯(lián)合處理之前進行的,不可避免地會丟棄有用的特征,從而導致描述符不合格。為了解決這個問題,我們首先認識到,每個視圖都可以與旋轉群 SO(3) 的一個元素相關聯(lián),因此將多個視圖組合起來的自然方法就是將其作為旋轉群上的一個函數(shù)。
- 傳統(tǒng)的視圖池化是在對視圖集進行任何聯(lián)合處理之前進行的,不可避免地會丟棄有用的特征,從而導致描述符不合格
- 每個視圖都可以與旋轉群 SO(3) 的一個元素相關聯(lián),因此將多個視圖組合起來的自然方法就是將其作為旋轉群上的一個函數(shù)。
我們采用傳統(tǒng)的 CNN 來獲取組成該函數(shù)的視圖描述符。我們設計了一個組卷積網(wǎng)絡(G-CNN,靈感來自文獻[5])來學習對組的變換具有等變性的表征。我們通過對最后一個 G-CNN 層進行池化,獲得了對分類和檢索有用的不變描述符。我們的 G-CNN 在組上具有局部支持的描述符,并且隨著層數(shù)的增加和感受域的擴大,可以學習到更復雜的分層描述符。
我們利用了多視圖的有限性,并考慮了二十面體等有限旋轉群,這與 [6, 10] 在連續(xù)群上的操作不同。為了減少處理每個群元素一個視圖的計算成本,我們證明,通過考慮與平面內(nèi)擴張旋轉群(對數(shù)極坐標)有關的典型坐標視圖,我們可以大大減少視圖的數(shù)量,并獲得同質(zhì)空間(H 空間)上的初始表示,該表示可以通過相關性提升,同時保持等差關系。?
我們專注于3D形狀,但我們的模型適用于任何任務,多個視圖可以表示輸入,如全景場景的實驗所示。
等變特征(Equivariant Features)指的是在輸入數(shù)據(jù)的某種變換下,特征在一定的方式下也進行相應的變換。在計算機視覺和深度學習中,等變性是一種重要的性質(zhì),特別是在處理具有變換對稱性的數(shù)據(jù)時,如圖像、點云和三維模型等。
等變特征對于保持輸入數(shù)據(jù)的變換性質(zhì)非常有用,因為它們能夠更好地捕捉數(shù)據(jù)的關鍵特征,從而提高模型的泛化能力和性能。例如,對于三維點云數(shù)據(jù),等變特征可以在數(shù)據(jù)進行旋轉、平移等操作時,保持相應的特征變化,從而使模型更好地適應不同的視角和變換。
在點云處理中,等變特征的實現(xiàn)涉及到了一些專門的方法和技術,例如:
1. **旋轉等變性**:通過設計神經(jīng)網(wǎng)絡架構,使得網(wǎng)絡在輸入數(shù)據(jù)旋轉時,特征也相應地進行旋轉,從而實現(xiàn)旋轉等變性。
2. **球面卷積神經(jīng)網(wǎng)絡(Spherical CNNs)**:用于處理球面數(shù)據(jù)(如球面點云)的網(wǎng)絡,能夠在球面上保持旋轉等變性,從而在點云的不同視角下提取有意義的特征。
3. **基于變換矩陣的操作**:使用變換矩陣來定義點云的變換,然后在神經(jīng)網(wǎng)絡中將這些變換操作納入,以捕捉等變特征。
4. **群卷積神經(jīng)網(wǎng)絡(Group CNNs)**:設計網(wǎng)絡結構,使其在特定的群(如旋轉群)變換下具有等變性,從而能夠處理變換對稱性數(shù)據(jù)。
實現(xiàn)等變特征通常需要深入的數(shù)學和幾何知識,以確保模型在數(shù)據(jù)變換時能夠正確地捕捉和表示特征。這在處理點云等不規(guī)則數(shù)據(jù)時尤其重要,因為這些數(shù)據(jù)沒有像圖像那樣的固定結構,需要特殊的處理方法來實現(xiàn)等變性。
組卷積(Group Convolution)是一種卷積神經(jīng)網(wǎng)絡(CNN)中的操作,用于處理具有一定對稱性或結構的數(shù)據(jù)。組卷積在一定程度上保持輸入數(shù)據(jù)的特定對稱性,從而可以更有效地捕獲數(shù)據(jù)的特征。
在組卷積中,卷積核被分成多個組(groups),每個組內(nèi)的卷積核只與對應組內(nèi)的輸入通道進行卷積操作。這種分組操作有助于實現(xiàn)特定的等變性,使模型能夠更好地處理具有變換對稱性的數(shù)據(jù)。
例如,在處理RGB圖像時,可以將三個顏色通道(紅、綠、藍)分成不同的組,然后在每個組內(nèi)分別進行卷積操作。這種操作保持了顏色通道之間的對稱性,從而有助于提取有關顏色特征的信息。
在點云處理中,組卷積也可以應用。如果點云數(shù)據(jù)有一定的結構或?qū)ΨQ性,可以將點云分成不同的組,然后在每個組內(nèi)應用卷積操作,以保持數(shù)據(jù)的等變性。
組卷積的優(yōu)點包括:
1. **減少參數(shù)和計算量**:由于卷積核被分組,組卷積可以降低參數(shù)的數(shù)量和計算量,從而在一定程度上加快訓練和推理的速度。
2. **保持特定的對稱性**:組卷積可以幫助模型捕捉輸入數(shù)據(jù)特定的對稱性或結構,從而提高模型的性能。
3. **降低過擬合**:分組操作可以限制每個組內(nèi)的參數(shù)共享,有助于減少過擬合的風險。
需要注意的是,組卷積適用于一些具有特定對稱性或結構的數(shù)據(jù),但不是適用于所有情況。在設計網(wǎng)絡架構時,需要根據(jù)數(shù)據(jù)的特點和任務的要求來決定是否使用組卷積。
?
圖1展示了我們的模型。我們的貢獻是:?
- 我們引入了一種新穎的方法來聚合多個視圖,無論是三維形狀的 "由外而內(nèi) "視圖,還是全景視圖的 "由內(nèi)而外 "視圖。我們的模型利用了底層組結構,從而產(chǎn)生了等變特征,這些特征是旋轉組的函數(shù)。
- 我們介紹了一種既能減少視圖數(shù)量又能保持等差性的方法,即通過平面內(nèi)旋轉轉換為典型坐標,然后進行同質(zhì)空間卷積。
- 我們探索了有限旋轉群和齊次空間,并在迄今為止最大的群--二十面體群上提出了一個離散的G-CNN模型。我們進一步探討這個組的過濾器本地化的概念。
- 我們在多個形狀檢索基準上實現(xiàn)了最先進的性能,無論是在規(guī)范的姿勢和旋轉擾動,并顯示應用于全景場景分類
?
圖 1:我們的等變多視圖網(wǎng)絡將多個視圖聚合為旋轉組上的函數(shù),并通過組卷積進行處理。這保證了三維旋轉的等方差性,并允許對所有視圖進行聯(lián)合推理,從而獲得卓越的形狀描述符。二十面體組上的矢量值函數(shù)顯示在五面十二面體上,相應的同質(zhì)空間(H 空間)上的函數(shù)顯示在十二面體和二十面體上。每個視圖首先由一個 CNN 進行處理,由此產(chǎn)生的描述符與一個組(或 H 空間)元素相關聯(lián)。當視圖被識別為一個 H 空間時,第一個操作就是將特征提升到組的相關性。一旦我們有了組的初始表示,就可以應用組 CNN。
- Related work
3D形狀分析
3D形狀分析的性能在很大程度上取決于輸入表示。主要的表示是體積、點云和多視圖。
體積方法的早期示例是[3],其引入了ModelNet數(shù)據(jù)集并使用基于體素表示的深度置信網(wǎng)絡訓練了3D形狀分類器;和[24],其提出了具有3D卷積層和全連接層的標準架構。
Su等人[33]意識到,通過渲染3D輸入的多個視圖,可以將基于圖像的CNN的能力轉移到3D任務。他們表明,即使只使用輸入的單個視圖,傳統(tǒng)的CNN也可以優(yōu)于體積方法,而多視圖(MV)模型進一步提高了分類準確性。
Qi等人[28]研究了體積和多視圖方法,并提出了對兩者的改進; Kanezaki等人[20]引入了一種MV方法,該方法通過聯(lián)合預測類別和姿態(tài)來實現(xiàn)最先進的分類性能,但沒有顯式的姿態(tài)監(jiān)督。
GVCNN [12]試圖學習如何聯(lián)合收割機不同的視圖描述符以獲得視圖組形狀表示;它們將特征的任意組合稱為“組”。這與我們使用的術語“群”是代數(shù)定義的不同
基于點云的方法[27]實現(xiàn)了體積和多視圖之間的中間性能,但在計算上更高效。雖然網(wǎng)格可以說是最自然的表示,并廣泛用于計算機圖形學,但直接在網(wǎng)格上操作的學習模型只取得了有限的成功[23,26]。
為了更好地比較3D形狀描述符,我們將專注于檢索性能。最近的方法在檢索方面顯示了顯著的改進:You等人。[41]結合了點云和MV表示; Yavartanoo等人[40]介紹了多視點赤平投影;和Han et al.[14]實現(xiàn)了一種遞歸MV方法。
我們還考慮了旋轉ModelNet和包含旋轉形狀的SHREC'17 [29]檢索挑戰(zhàn)上更具挑戰(zhàn)性的任務。任意旋轉的存在激發(fā)了等變表示的使用。
等變表示
為了處理任意方向的三維形狀,已經(jīng)引入了許多變通方法。典型的例子包括訓練時間旋轉增強和/或測試時間投票[28],以及學習初始旋轉到標準姿勢[27]。文獻[33]中的視圖池對輸入視圖集的排列是不變的。
處理旋轉的原則性方法是使用設計為等變的表示。將等方差嵌入CNN的方法主要有三種。
第一種方式是約束濾波器結構,這類似于基于Lie生成器的方法[30,17]。Worral等人[38]利用圓諧波將平移和2D旋轉等方差都引入CNN。類似地,托馬斯et al.[35]引入張量場以保持3D點云的平移和旋轉等變性。
第二種方式是通過坐標的改變;[11,18]對輸入進行對數(shù)極坐標變換,并將關于單個點的旋轉和縮放等方差轉換為平移等方差。
第三種方法是利用等變過濾軌道。Cohen 和 Welling 利用正方形旋轉組提出了組卷積(G-CNNs)[5],后來又擴展到六邊形[19]。Worrall 和 Brostow [37] 在三維體素化數(shù)據(jù)上使用克萊因四組提出了 CubeNet。Winkels 等人[36]在八面體對稱群上對容積 CT 圖像實施了三維群卷積。Cohen 等人[7]最近考慮了二十面體上的函數(shù),但他們的卷積是在循環(huán)群上,而不是像我們一樣在二十面體上。Esteves 等人[10]和 Cohen 等人[6]則側重于無限群 SO(3),并使用球面諧波變換來精確實現(xiàn)球面卷積或相關。這些方法的主要問題是,輸入的球面表示無法捕捉物體形狀的復雜性;而且效率較低,面臨帶寬挑戰(zhàn)。
- Preliminaries
我們尋求利用數(shù)據(jù)中的對稱性。對稱性是一種保留對象的某些結構的操作。如果對象是一個沒有附加結構的離散集合,則每個操作都可以被視為其元素的排列。?
術語群用于集合的經(jīng)典代數(shù)定義,其運算滿足閉包、結合性、恒等式和反演性質(zhì)。像置換這樣的變換群是“抽象群和對稱概念之間缺失的環(huán)節(jié)”[25]。
我們將視圖稱為從定向相機拍攝的圖像。這不同于參考光軸方向的視點,對于指向固定對象的移動相機而言,從外向內(nèi),或者對于指向不同方向的固定相機而言,從內(nèi)向外??梢詮耐灰朁c拍攝多個視圖;它們通過平面內(nèi)旋轉相關。
從外向內(nèi):對于指向不同方向的固定相機
從內(nèi)向外:從同一視點拍攝多個視圖?
Equivariance文章來源:http://www.zghlxwxcb.cn/news/detail-690669.html
通過設計等變的表示是利用對稱性的有效方法。?考慮一個集合X和一個變換群G??紤]一個集合X和一個變換群G。文章來源地址http://www.zghlxwxcb.cn/news/detail-690669.html
到了這里,關于《論文閱讀21》Equivariant Multi-View Networks的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!