一、論文簡述
1. 第一作者:Yisu Zhang
2. 發(fā)表年份:2023
3. 發(fā)表期刊:CVPR
4. 關(guān)鍵詞:MVS、3D重建、符號距離場
5. 探索動機(jī):像素深度估計仍存在兩個棘手的缺陷。一是無紋理區(qū)域的估計置信度較低。二是物體邊界附近的許多異常值。這主要是因為表面通常被視為一組不相關(guān)的采樣點,而不具有拓?fù)浣Y(jié)構(gòu)。由于每條射線只與一個表面采樣點相關(guān)聯(lián),因此不可能注意到表面的相鄰區(qū)域。如下圖所示,每個深度值的估計僅受一個表面采樣點的約束,無法利用周圍表面進(jìn)行推斷。然而,在沒有紋理的區(qū)域和物體邊界中,如果沒有更廣泛的表面信息,很難進(jìn)行推斷。因此,太小的感知范圍限制了現(xiàn)有的基于學(xué)習(xí)的MVS方法。
6. 工作目標(biāo):通過利用表面信息解決上述問題。
7. 核心思想:提出了一種新的RA-MVSNet框架,該框架能夠通過點對面距離使每個假設(shè)平面與更寬的表面相關(guān)聯(lián)。因此,該方法能夠在無紋理區(qū)域和物體邊界推斷周圍表面信息。
- We introduce point-to-surface distance supervision of sampled points to expand the perception range predicted by the model, which achieves complete estimation in textureless areas and reduce outliers in object boundary regions.
- To tackle the challenge of lacking the ground-truth mesh, we compute the signed distance between point sets based on the triangulated mesh, which trades off between accuracy and speed.
8. 實驗結(jié)果:
Experimental results on the challenging MVS datasets show that our proposed approach performs the best both on indoor dataset DTU and large-scale outdoor dataset Tanks and Temples.
9.論文下載:
https://arxiv.org/pdf/2304.13614.pdf
二、實現(xiàn)過程
1. RA-MVSNet概述
總體框架主要包括代價體構(gòu)建、多尺度深度圖和符號距離預(yù)測、真值處理三個部分,由兩個分支組成。第一個分支預(yù)測概率體,第二個分支估計符號距離體。RA-MVSNet融合兩個分支可以得到過濾后的深度圖,而SDF分支可以生成隱式表示。由于點到面距離監(jiān)督采用了一個額外的分支,通過代價體來計算采樣點在表面周圍的符號距離,因此很容易添加到現(xiàn)有的基于學(xué)習(xí)的MVSNet方案中,只需稍加修改。采用了級聯(lián)MVSNet為基準(zhǔn),并使用兩個分支Cas-MVSNet,分別預(yù)測深度和符號距離。
2. 代價體構(gòu)建
依據(jù)MVSnet,通過單應(yīng)性變化構(gòu)建。采用遞歸特征金字塔(RFP)作為圖像編碼器共享權(quán)值提取三個尺度的特征。?為了處理任意數(shù)量的源圖像,采用自適應(yīng)策略聚合了所有的特征Vi到單個代價體C∈D×C'×H'×W',用幾個3D CNN層來預(yù)測逐像素加權(quán)矩陣Wi。最終的代價體可以計算如下:
其中C為參考視圖的代價體?!驯硎局鹪氐某朔āi和V0是使用圖像編碼器從源圖像和參考視圖中提取的特征。
3. 符號距離監(jiān)督
點到面的距離通常表示為SDF(signed distance field 符號距離場)。這種隱式表示的核心是計算表面附近采樣點到物體的距離。因此遵循SDF的思想,構(gòu)建一個距離體來預(yù)測點到面的距離,從而利用隱式表示的優(yōu)勢。
對于聚合了參考視圖和源視圖特征的三維代價體,通常采用正則化網(wǎng)絡(luò)來獲得概率體P, P被視為不同深度假設(shè)平面的權(quán)值:
?其中Fsoftmax是基于softmax的3D CNN正則化網(wǎng)絡(luò)。距離體S表示這些假設(shè)平面的帶符號距離:
式中Ftanh為基于tanh的3D CNN正則化網(wǎng)絡(luò)。由于離表面較遠(yuǎn)的點通常不利于重建,采用tanh作為距離體的激活層。因此可以關(guān)注附近的采樣點。
由于引入了距離的預(yù)測,需要將深度圖的真值擴(kuò)展到符號距離場。因此,深度圖只包含距離為0的采樣點,缺乏表面周圍點的地面真實性。
對于代價體C的每個假設(shè)平面上的精確查詢點pi,我們計算從pi到表面采樣點p'的最短距離作為符號距離的真值。如圖所示,將每個假設(shè)的平面看作是表面周圍的一個采樣點,并找到其對應(yīng)的最近鄰表面采樣點,采用Kaolin計算的兩點距離d(pi, pj')作為真實符號距離。
為了加快這一過程,從所有表面采樣點中尋找最近鄰替換為基于塊的局部搜索,如圖所示。最近鄰?fù)ǔN挥诓樵凕c附近,這樣可以去除大量無用的表面采樣點,而只保留位于交點的局部塊內(nèi)的采樣點。
這種基于塊的局部搜索方法使需要在合理的范圍內(nèi)盡可能少地計算點,從而降低了搜索的時間復(fù)雜度。假設(shè)深度圖的分辨率為H×W,查詢點個數(shù)為n,則樸素計算的時間復(fù)雜度為O(n×H×W),與深度圖的分辨率成正比。而基于塊的局部搜索的時間復(fù)雜度則簡化為O(n×k×k),其中k為塊大小,通常設(shè)為5。因此,基于patch的局部搜索的時間復(fù)雜度可以簡化為O(n)。也就是說,它只與查詢點的個數(shù)n成正比,并且每個查詢點的搜索時間是常數(shù)。
4. 體融合
一旦得到概率體{P∈D×H'×W'}和距離體{S∈R×H'×W'},將這兩個體融合得到最終的深度圖D∈H' ×W'。通常,基于softmax的正則化網(wǎng)絡(luò)通常用于從P預(yù)測深度圖,P被視為不同深度的假設(shè)平面的權(quán)重。因此,深度圖的計算方法如下:
其中,dmin和dmax分別為最近和最遠(yuǎn)假設(shè)平面的距離。但該方法在計算中包含多個無效平面,存在精度問題。一個像素(U,V)的深度值只與該像素對應(yīng)的幾個假設(shè)平面相關(guān),不能與表面上的其他采樣點關(guān)聯(lián)。 所以如圖所示,融合概率體P和引入的距離體S來計算深度圖,使得每個像素點都與周圍的表面塊相關(guān)。
具體來說,S可以看作是一個概率值的閾值過濾器。這兩體的融合過程在算法中說明。
最后,使用深度圖真值和生成的符號距離真值來監(jiān)督兩個體P和S,使用L1損失如下:
其中D*i和Si*分別為第i階段的真實深度圖和點到面的距離。Di和Si為兩個分支的預(yù)測值。因此,總損失是兩個分支的加權(quán)和:
λ是平衡兩項的權(quán)重,在所有實驗中都設(shè)置為0.1。?
5. SDF分支監(jiān)督
由于是從相應(yīng)的深度圖中生成點到面的距離真值,因此必須進(jìn)行誤差邊界分析。一個合理的假設(shè)是使用三角網(wǎng)格來表示表面。有三種不同的情況,如圖所示。
在(a)中,以查詢點p為中心的最大球面與點o處物體表面相切,則p處符號距離的真值為d(p,o)。從查詢點p到采樣點集{p'}的邊距是d(p, p'j)。由于p'j與切點o重合,因此(a)的誤差為e2a,如下所示
其中d(p,o)和(dp,p′j)分別表示符號距離的真值和近似值。
在(b)和(c)中,使用類似的分析方法。 假定O′和O′′是中心在P的表面和球面的切點。 在(b)中,符號距離的真值是D(p,o′),在(C)中,真值是D(p,o′′)。因此,情形(b)和(c)的誤差范圍可以用下式表示:
其中e2 b和e2 c分別是(b)、(c)的誤差平方。將這三種情況結(jié)合起來,涵蓋所有可能的情況,得到查詢點p的最終誤差邊界如下所示:
其中e為查詢點p的一般誤差,p'j和p'j+1為相鄰的兩個表面點。這個不等式表明,誤差e2的平方不超過從兩個相鄰像素重投影的兩點之間距離的平方。?
6. 實驗
6.1. 實現(xiàn)細(xì)節(jié)
通過PyTorch實現(xiàn),批大小為2,DTU數(shù)據(jù)集用兩個NVIDIA RTX 2080Ti,BlendedMVS數(shù)據(jù)集用在單個NVIDIA Tesla P40。使用更精細(xì)的DTU真值如AA-RMVSnet。對DTU數(shù)據(jù)集和Tanks and Temples數(shù)據(jù)集進(jìn)行評估,使用了NVIDIA Tesla P40 GPU, 24G RAM。
6.2. 與先進(jìn)技術(shù)的比較
文章來源:http://www.zghlxwxcb.cn/news/detail-495036.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-495036.html
到了這里,關(guān)于【論文簡述】Multi-View Stereo Representation Revisit: Region-Aware MVSNet(CVPR 2023)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!