国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<div id="iwhcz"><output id="iwhcz"><blockquote id="iwhcz"></blockquote></output></div>

《論文閱讀21》Equivariant Multi-View Networks

2年前作者：Darren_pty分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了《論文閱讀21》Equivariant Multi-View Networks。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

???一、論文

研究領域：計算機視覺 | 多視角數(shù)據(jù)處理中實現(xiàn)等變性
論文：Equivariant Multi-View Networks
ICCV 2019
論文鏈接
視頻鏈接

二、論文簡述

在計算機視覺中，模型在不同視角下對數(shù)據(jù)（例如，點云、圖像等）對數(shù)據(jù)的變化具有一定的響應性。為了使模型能夠更好地適應這種變化，不是僅僅對某個特定視角的數(shù)據(jù)進行訓練，研究人員提出了等變多視角網(wǎng)絡的概念。能夠同時處理多視角數(shù)據(jù)，并通過共享權重或其他機制來保持數(shù)據(jù)的等變性。

三、論文詳述

等變多視圖網(wǎng)絡

Abstract

利用在自然圖像上預先訓練好的深度神經(jīng)網(wǎng)絡獨立處理輸入圖像的多個視圖，通過對所有視圖進行一輪pooling來實現(xiàn)視圖排列不變性。我們認為，這種操作會丟棄重要信息，并導致不合格的全局描述符。在本文中，我們提出了一種多視圖聚合的群卷積方法，即在旋轉群的離散子群上進行卷積，從而能夠以等變（而非不變）的方式對所有視圖進行聯(lián)合推理，直至最后一層。我們進一步發(fā)展了這一想法，以便在旋轉組中更小的離散同質(zhì)空間上進行操作，在這里使用極視圖表示法，只需輸入視圖數(shù)量的一小部分就能保持等變關系。我們在多個大型三維形狀檢索任務中確立了新的技術水平，并展示了在全景場景分類中的其他應用。

先前工作：利用在自然圖像上預先訓練好的深度神經(jīng)網(wǎng)絡獨立處理輸入圖像的多個視圖，通過對所有視圖進行一輪pooling來實現(xiàn)視圖排列不變性

我們工作：我們提出了一種多視圖聚合的群卷積方法，即在旋轉群的離散子群上進行卷積，從而能夠以等變（而非不變）的方式對所有視圖進行聯(lián)合推理，直至最后一層。

?視圖排列不變性（Viewpoint Permutation Invariance）是指在處理三維數(shù)據(jù)（如點云、3D模型）時，模型對不同視角或觀察角度的變化具有不變性。在點云處理中，由于點云的點的順序和排列可能會在不同視角下發(fā)生變化，保持對這些排列變化的不變性對于實現(xiàn)穩(wěn)健的特征提取和分析至關重要。

視圖排列不變性對于點云處理中的許多任務非常重要，如點云分類、分割、目標檢測等。實現(xiàn)視圖排列不變性可以避免模型僅僅學習特定視角下的特征，使得模型能夠更好地泛化到不同視角的點云數(shù)據(jù)。

以下是一些方法和思路，可以幫助實現(xiàn)視圖排列不變性：

1. 捕捉點云在不同視角下的特征，并保持在球面上的等變性。

2. 設計旋轉不變的特征提取方法，確保不同視角下的點云特征保持一致。

3. 在訓練時，通過應用隨機的旋轉變換來增加數(shù)據(jù)的多樣性，幫助模型學習不同視角下的特征。

4. 將從不同視角提取的特征進行融合，以生成更綜合的特征表示。

5. **點云對齊**：在訓練前對點云進行對齊，使得不同視角下的點對應關系更一致。

《論文閱讀21》Equivariant Multi-View Networks,科研論文,論文閱讀

多視圖聚合：整合多個視角（或多個輸入）的信息

Joint Reasoning Over All Views: 這個方法允許在所有視角上進行聯(lián)合推理，這意味著模型能夠考慮來自不同視角的信息，并在處理數(shù)據(jù)時保持這種多視角的信息。

旋轉群（Rotation Group）的一個離散子群是指旋轉群中的一個子集，其中包含一組離散的旋轉操作。常見的例子是在三維空間中，使用Z軸的離散旋轉操作來構成一個離散子群。這意味著我們只考慮繞Z軸旋轉一定角度的操作，而不考慮其他軸的旋轉。這個子群是離散的，因為我們只考慮一些特定的旋轉角度，而不是考慮所有可能的連續(xù)旋轉。

旋轉群是一個連續(xù)的、無限的群，包含了所有可能的連續(xù)旋轉操作。然而，當我們考慮到計算或離散的問題時，有時會使用旋轉群的一個子集來簡化問題或進行計算。

SO(3) 旋轉群由所有保持三維空間中原點不動的旋轉操作組成。這些操作可以用三維旋轉矩陣表示，其中包括繞任意軸的旋轉。旋轉群的元素可以表示為一個 3x3 的正交矩陣，具有特殊行列式等于1的性質(zhì)。

?

Introduction

隨著大規(guī)模物體三維數(shù)據(jù)集[39, 3]和整個場景數(shù)據(jù)集[2, 8]的激增，可以對深度學習模型進行訓練，生成可用于分類和檢索任務的全局描述符。

對深度學習模型進行訓練，生成可用于分類和檢索任務的全局描述符

出現(xiàn)的第一個挑戰(zhàn)是如何表示輸入。盡管在體積[39, 24]、點云[27, 32]和基于網(wǎng)格[23, 26]的表示方面進行了大量嘗試，但使用三維輸入的多個視圖可以切換到二維域，在二維域中可以直接應用最近所有基于圖像的深度學習突破（例如[15]），從而促進最先進的性能[33, 20]。?

基于多視圖（MV）的方法需要某種形式的視圖池化，它可以是

（1）在一些中間卷積層上的逐像素池化[33]，

（2）在最終的1D視圖描述符上池化[34]，

（3）組合最終的logits [20]，這可以被視為獨立投票。這些操作對于查看排列通常是不變的。

?

我們的主要觀點是，傳統(tǒng)的視圖池化是在對視圖集進行任何聯(lián)合處理之前進行的，不可避免地會丟棄有用的特征，從而導致描述符不合格。為了解決這個問題，我們首先認識到，每個視圖都可以與旋轉群 SO(3) 的一個元素相關聯(lián)，因此將多個視圖組合起來的自然方法就是將其作為旋轉群上的一個函數(shù)。

傳統(tǒng)的視圖池化是在對視圖集進行任何聯(lián)合處理之前進行的，不可避免地會丟棄有用的特征，從而導致描述符不合格

每個視圖都可以與旋轉群 SO(3) 的一個元素相關聯(lián)，因此將多個視圖組合起來的自然方法就是將其作為旋轉群上的一個函數(shù)。

我們采用傳統(tǒng)的 CNN 來獲取組成該函數(shù)的視圖描述符。我們設計了一個組卷積網(wǎng)絡（G-CNN，靈感來自文獻[5]）來學習對組的變換具有等變性的表征。我們通過對最后一個 G-CNN 層進行池化，獲得了對分類和檢索有用的不變描述符。我們的 G-CNN 在組上具有局部支持的描述符，并且隨著層數(shù)的增加和感受域的擴大，可以學習到更復雜的分層描述符。

我們利用了多視圖的有限性，并考慮了二十面體等有限旋轉群，這與 [6, 10] 在連續(xù)群上的操作不同。為了減少處理每個群元素一個視圖的計算成本，我們證明，通過考慮與平面內(nèi)擴張旋轉群（對數(shù)極坐標）有關的典型坐標視圖，我們可以大大減少視圖的數(shù)量，并獲得同質(zhì)空間（H 空間）上的初始表示，該表示可以通過相關性提升，同時保持等差關系。?

我們專注于3D形狀，但我們的模型適用于任何任務，多個視圖可以表示輸入，如全景場景的實驗所示。

等變特征（Equivariant Features）指的是在輸入數(shù)據(jù)的某種變換下，特征在一定的方式下也進行相應的變換。在計算機視覺和深度學習中，等變性是一種重要的性質(zhì)，特別是在處理具有變換對稱性的數(shù)據(jù)時，如圖像、點云和三維模型等。

等變特征對于保持輸入數(shù)據(jù)的變換性質(zhì)非常有用，因為它們能夠更好地捕捉數(shù)據(jù)的關鍵特征，從而提高模型的泛化能力和性能。例如，對于三維點云數(shù)據(jù)，等變特征可以在數(shù)據(jù)進行旋轉、平移等操作時，保持相應的特征變化，從而使模型更好地適應不同的視角和變換。

在點云處理中，等變特征的實現(xiàn)涉及到了一些專門的方法和技術，例如：

1. **旋轉等變性**：通過設計神經(jīng)網(wǎng)絡架構，使得網(wǎng)絡在輸入數(shù)據(jù)旋轉時，特征也相應地進行旋轉，從而實現(xiàn)旋轉等變性。

2. **球面卷積神經(jīng)網(wǎng)絡（Spherical CNNs）**：用于處理球面數(shù)據(jù)（如球面點云）的網(wǎng)絡，能夠在球面上保持旋轉等變性，從而在點云的不同視角下提取有意義的特征。

3. **基于變換矩陣的操作**：使用變換矩陣來定義點云的變換，然后在神經(jīng)網(wǎng)絡中將這些變換操作納入，以捕捉等變特征。

4. **群卷積神經(jīng)網(wǎng)絡（Group CNNs）**：設計網(wǎng)絡結構，使其在特定的群（如旋轉群）變換下具有等變性，從而能夠處理變換對稱性數(shù)據(jù)。

實現(xiàn)等變特征通常需要深入的數(shù)學和幾何知識，以確保模型在數(shù)據(jù)變換時能夠正確地捕捉和表示特征。這在處理點云等不規(guī)則數(shù)據(jù)時尤其重要，因為這些數(shù)據(jù)沒有像圖像那樣的固定結構，需要特殊的處理方法來實現(xiàn)等變性。

組卷積（Group Convolution）是一種卷積神經(jīng)網(wǎng)絡（CNN）中的操作，用于處理具有一定對稱性或結構的數(shù)據(jù)。組卷積在一定程度上保持輸入數(shù)據(jù)的特定對稱性，從而可以更有效地捕獲數(shù)據(jù)的特征。

在組卷積中，卷積核被分成多個組（groups），每個組內(nèi)的卷積核只與對應組內(nèi)的輸入通道進行卷積操作。這種分組操作有助于實現(xiàn)特定的等變性，使模型能夠更好地處理具有變換對稱性的數(shù)據(jù)。

例如，在處理RGB圖像時，可以將三個顏色通道（紅、綠、藍）分成不同的組，然后在每個組內(nèi)分別進行卷積操作。這種操作保持了顏色通道之間的對稱性，從而有助于提取有關顏色特征的信息。

在點云處理中，組卷積也可以應用。如果點云數(shù)據(jù)有一定的結構或?qū)ΨQ性，可以將點云分成不同的組，然后在每個組內(nèi)應用卷積操作，以保持數(shù)據(jù)的等變性。

組卷積的優(yōu)點包括：

1. **減少參數(shù)和計算量**：由于卷積核被分組，組卷積可以降低參數(shù)的數(shù)量和計算量，從而在一定程度上加快訓練和推理的速度。

2. **保持特定的對稱性**：組卷積可以幫助模型捕捉輸入數(shù)據(jù)特定的對稱性或結構，從而提高模型的性能。

3. **降低過擬合**：分組操作可以限制每個組內(nèi)的參數(shù)共享，有助于減少過擬合的風險。

需要注意的是，組卷積適用于一些具有特定對稱性或結構的數(shù)據(jù)，但不是適用于所有情況。在設計網(wǎng)絡架構時，需要根據(jù)數(shù)據(jù)的特點和任務的要求來決定是否使用組卷積。

?

圖1展示了我們的模型。我們的貢獻是：?

我們引入了一種新穎的方法來聚合多個視圖，無論是三維形狀的 "由外而內(nèi) "視圖，還是全景視圖的 "由內(nèi)而外 "視圖。我們的模型利用了底層組結構，從而產(chǎn)生了等變特征，這些特征是旋轉組的函數(shù)。
我們介紹了一種既能減少視圖數(shù)量又能保持等差性的方法，即通過平面內(nèi)旋轉轉換為典型坐標，然后進行同質(zhì)空間卷積。
我們探索了有限旋轉群和齊次空間，并在迄今為止最大的群--二十面體群上提出了一個離散的G-CNN模型。我們進一步探討這個組的過濾器本地化的概念。
我們在多個形狀檢索基準上實現(xiàn)了最先進的性能，無論是在規(guī)范的姿勢和旋轉擾動，并顯示應用于全景場景分類

?

《論文閱讀21》Equivariant Multi-View Networks,科研論文,論文閱讀

圖 1：我們的等變多視圖網(wǎng)絡將多個視圖聚合為旋轉組上的函數(shù)，并通過組卷積進行處理。這保證了三維旋轉的等方差性，并允許對所有視圖進行聯(lián)合推理，從而獲得卓越的形狀描述符。二十面體組上的矢量值函數(shù)顯示在五面十二面體上，相應的同質(zhì)空間（H 空間）上的函數(shù)顯示在十二面體和二十面體上。每個視圖首先由一個 CNN 進行處理，由此產(chǎn)生的描述符與一個組（或 H 空間）元素相關聯(lián)。當視圖被識別為一個 H 空間時，第一個操作就是將特征提升到組的相關性。一旦我們有了組的初始表示，就可以應用組 CNN。

Related work

3D形狀分析

3D形狀分析的性能在很大程度上取決于輸入表示。主要的表示是體積、點云和多視圖。

體積方法的早期示例是[3]，其引入了ModelNet數(shù)據(jù)集并使用基于體素表示的深度置信網(wǎng)絡訓練了3D形狀分類器;和[24]，其提出了具有3D卷積層和全連接層的標準架構。

Su等人[33]意識到，通過渲染3D輸入的多個視圖，可以將基于圖像的CNN的能力轉移到3D任務。他們表明，即使只使用輸入的單個視圖，傳統(tǒng)的CNN也可以優(yōu)于體積方法，而多視圖（MV）模型進一步提高了分類準確性。

Qi等人[28]研究了體積和多視圖方法，并提出了對兩者的改進; Kanezaki等人[20]引入了一種MV方法，該方法通過聯(lián)合預測類別和姿態(tài)來實現(xiàn)最先進的分類性能，但沒有顯式的姿態(tài)監(jiān)督。

GVCNN [12]試圖學習如何聯(lián)合收割機不同的視圖描述符以獲得視圖組形狀表示;它們將特征的任意組合稱為“組”。這與我們使用的術語“群”是代數(shù)定義的不同

基于點云的方法[27]實現(xiàn)了體積和多視圖之間的中間性能，但在計算上更高效。雖然網(wǎng)格可以說是最自然的表示，并廣泛用于計算機圖形學，但直接在網(wǎng)格上操作的學習模型只取得了有限的成功[23，26]。

為了更好地比較3D形狀描述符，我們將專注于檢索性能。最近的方法在檢索方面顯示了顯著的改進：You等人。[41]結合了點云和MV表示; Yavartanoo等人[40]介紹了多視點赤平投影;和Han et al.[14]實現(xiàn)了一種遞歸MV方法。

我們還考慮了旋轉ModelNet和包含旋轉形狀的SHREC'17 [29]檢索挑戰(zhàn)上更具挑戰(zhàn)性的任務。任意旋轉的存在激發(fā)了等變表示的使用。

等變表示

為了處理任意方向的三維形狀，已經(jīng)引入了許多變通方法。典型的例子包括訓練時間旋轉增強和/或測試時間投票[28]，以及學習初始旋轉到標準姿勢[27]。文獻[33]中的視圖池對輸入視圖集的排列是不變的。

處理旋轉的原則性方法是使用設計為等變的表示。將等方差嵌入CNN的方法主要有三種。

第一種方式是約束濾波器結構，這類似于基于Lie生成器的方法[30，17]。Worral等人[38]利用圓諧波將平移和2D旋轉等方差都引入CNN。類似地，托馬斯et al.[35]引入張量場以保持3D點云的平移和旋轉等變性。

第二種方式是通過坐標的改變;[11，18]對輸入進行對數(shù)極坐標變換，并將關于單個點的旋轉和縮放等方差轉換為平移等方差。

第三種方法是利用等變過濾軌道。Cohen 和 Welling 利用正方形旋轉組提出了組卷積（G-CNNs）[5]，后來又擴展到六邊形[19]。Worrall 和 Brostow [37] 在三維體素化數(shù)據(jù)上使用克萊因四組提出了 CubeNet。Winkels 等人[36]在八面體對稱群上對容積 CT 圖像實施了三維群卷積。Cohen 等人[7]最近考慮了二十面體上的函數(shù)，但他們的卷積是在循環(huán)群上，而不是像我們一樣在二十面體上。Esteves 等人[10]和 Cohen 等人[6]則側重于無限群 SO(3)，并使用球面諧波變換來精確實現(xiàn)球面卷積或相關。這些方法的主要問題是，輸入的球面表示無法捕捉物體形狀的復雜性；而且效率較低，面臨帶寬挑戰(zhàn)。

Preliminaries

我們尋求利用數(shù)據(jù)中的對稱性。對稱性是一種保留對象的某些結構的操作。如果對象是一個沒有附加結構的離散集合，則每個操作都可以被視為其元素的排列。?

術語群用于集合的經(jīng)典代數(shù)定義，其運算滿足閉包、結合性、恒等式和反演性質(zhì)。像置換這樣的變換群是“抽象群和對稱概念之間缺失的環(huán)節(jié)”[25]。

我們將視圖稱為從定向相機拍攝的圖像。這不同于參考光軸方向的視點，對于指向固定對象的移動相機而言，從外向內(nèi)，或者對于指向不同方向的固定相機而言，從內(nèi)向外?？梢詮耐灰朁c拍攝多個視圖;它們通過平面內(nèi)旋轉相關。

從外向內(nèi)：對于指向不同方向的固定相機

從內(nèi)向外：從同一視點拍攝多個視圖?

Equivariance

通過設計等變的表示是利用對稱性的有效方法。?考慮一個集合X和一個變換群G?？紤]一個集合X和一個變換群G。文章來源地址http://www.zghlxwxcb.cn/news/detail-690669.html

到了這里，關于《論文閱讀21》Equivariant Multi-View Networks的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

【論文精讀】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo
今天讀一篇WACV 2024上MVS的文章，作者來自格拉茨技術大學。文章鏈接：點擊前往為了減少在深度圖融合點云參數(shù)調(diào)整上的實驗負擔，可以學習基于entropy的filtering mask進而根據(jù)兩個視角的幾何驗證來重建三維模型。并且，提出的網(wǎng)絡計算開銷不大，訓練只需要6GB，測試時，3
2024年01月21日
瀏覽(29)
【論文閱讀】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S
paper：Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation ????????現(xiàn)有的自監(jiān)督醫(yī)學圖像分割通常會遇到域偏移問題(也就是說,預訓練的輸入分布不同于微調(diào)的輸入分布)和/或多模態(tài)問題(也就是說,它僅基于單模態(tài)數(shù)據(jù),無法利
2024年02月03日
瀏覽(19)
無監(jiān)督多視角行人檢測 Unsupervised Multi-view Pedestrian Detection
論文url ：https://arxiv.org/abs/2305.12457 該論文提出了一種名為Unsupervised Multi-view Pedestrian Detection (UMPD)的新方法，旨在通過多視角視頻監(jiān)控數(shù)據(jù)準確地定位行人，而無需依賴于人工標注的視頻幀和相機視角。當我第一時間看到這個框架圖，頓時感覺頭發(fā)都掉了好幾根，他這個設計
2024年04月11日
瀏覽(23)
論文筆記：E(n) Equivariant Graph Neural Networks
????????本文介紹了一種新模型來學習與旋轉、平移、反射和排列等變的圖神經(jīng)網(wǎng)絡，稱為 E(n)-等變圖神經(jīng)網(wǎng)絡 (EGNN)。 ???????? 與現(xiàn)有方法相比，EGNN不需要在中間層中計算昂貴的高階表示，同時仍能獲得有競爭力或更好的性能。此外，雖然現(xiàn)有方法僅限于 3 維空間的
2023年04月08日
瀏覽(28)
PETR: Position Embedding Transformation for Multi-View 3D Object Detection
PETR: Position Embedding Transformation for Multi-View 3D Object Detection 曠視 DETR3D 中 2D-3D過程存在的問題：預測的參考點坐標可能不準確，在采樣圖片特征時可能拿不到對應的特征。只有參考點投影位置的圖像特征被使用，無法學到全局的特征。采樣圖像特征的過程過于復雜，難于應用
2024年02月16日
瀏覽(20)
Multi-View Learning（多視圖學習/多視角學習）是什么？ Co-training（協(xié)同訓練）和它的關系
一句話解釋什么是Multi-View Learning：從多個視角進行學習，可以讓模型從多方面更好的理解事物，從而提升模型的性能多個視角的來源： (1) 多個源（multiple sources ）：比如人物識別可以用臉、指紋等作為不同源的輸入。 (2) 多個特征子集（different feature subsets;）：比如圖像表
2024年02月05日
瀏覽(34)
一種提升深度多視角行人檢測的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection
論文url ： https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html 論文提出了一種用于多視角行人檢測的深度學習模型，旨在提高模型在不同攝像機數(shù)量、不同攝像機配置和新場景下的泛化能力。 $ {N} $ 個校準的RGB攝像
2024年04月10日
瀏覽(28)
用于多視圖 3D 對象檢測的位置嵌入變換(PETR: Position Embedding Transformation for Multi-View 3D Object Detection）
本文PETR (PETR: Position Embedding Transformation for Multi-View 3D Object Detection)是對DETR3D (3D Object Detection from Multi-view Images via 3D-to-2D Queries)的改進，將2D轉換至3D，還存在三個問題： (1) 空間與多視圖之間的信息交互依賴于3D參考點估計的準確性，使得采樣的特征超出了對象區(qū)域，無法投影
2024年02月07日
瀏覽(23)
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 本文提出了一個僅使用 2D 信息的，3D 目標檢測網(wǎng)絡，并且比依賴與密集的深度預測或者 3D 重建的過程。該網(wǎng)絡使用了和 DETR 相似的 trasformer decoder ，因此也無需 NMS 等后處理操作。長久以來 3D目標檢測是一個挑戰(zhàn)，并
2024年02月16日
瀏覽(27)
BEV學習--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion
BEV方法最近在多視圖3D檢測任務中取得了很大進展。Sparse4D通過sparsely sampling和fusing spatial-temporal features 對anchor box進行迭代改進：（1）Sparse 4D Sampling: 對于每個3D anchor，我們分配多個4D關鍵點，然后將其投影到多視圖/尺度/時間戳圖像特征，用來采樣相應的特征。（2）Hierarc
2024年04月13日
瀏覽(32)

<address id="34wzn"><tr id="34wzn"></tr></address>

<track id="34wzn"><abbr id="34wzn"></abbr></track>