paper peoject
Abstract
由于模型容量有限,純基于 MLP 的神經(jīng)輻射場(基于 NeRF 的方法)在大型場景上經(jīng)常會出現(xiàn)渲染模糊的欠擬合問題。最近的方法提出在地理上劃分場景并采用多個子 NeRF 分別對每個區(qū)域進(jìn)行建模,從而導(dǎo)致訓(xùn)練成本和子 NeRF 的數(shù)量隨著場景的擴(kuò)展而線性增加。另一種解決方案是使用特征網(wǎng)格表示,它計算效率高,并且可以自然地擴(kuò)展到具有更高網(wǎng)格分辨率的大場景。然而,特征網(wǎng)格往往受到較少的約束并且經(jīng)常達(dá)到次優(yōu)的解決方案,從而在渲染中產(chǎn)生嘈雜的偽影,特別是在具有復(fù)雜幾何和紋理的區(qū)域中。在這項工作中,我們提出了一個新的框架,可以在計算效率高的同時實現(xiàn)大型城市場景的高保真渲染。我們建議使用緊湊的多分辨率地面特征平面表示來粗略捕獲場景,并通過另一個 NeRF 分支用位置編碼輸入對其進(jìn)行補(bǔ)充,以聯(lián)合學(xué)習(xí)方式進(jìn)行渲染。我們表明,這種集成可以利用兩種替代解決方案的優(yōu)勢:在特征網(wǎng)格表示的指導(dǎo)下,輕量級 NeRF 足以渲染具有精細(xì)細(xì)節(jié)的逼真新穎視圖;同時聯(lián)合優(yōu)化的地面特征平面,可以獲得進(jìn)一步的細(xì)化,形成更準(zhǔn)確和緊湊的特征空間,輸出更自然的渲染結(jié)果。
1. Introduction
由于神經(jīng)輻射場 (NeRF) 的逼真渲染和模型緊湊性,最近出現(xiàn)的大型城市場景建模已引起大量研究關(guān)注 [3、34、56、59、62、64]。這種建模可以實現(xiàn)各種實際應(yīng)用,包括自動駕駛汽車仿真 [23、39、67]、航空測量 [6,15] 和嵌入式 AI [35,61]?;?NeRF 的方法在對象級場景上顯示出令人印象深刻的結(jié)果,它們的連續(xù)性先驗受益于 MLP 架構(gòu)和高頻細(xì)節(jié)以及全局共享的位置編碼。但是,它們通常無法對大型復(fù)雜場景進(jìn)行建模。由于模型容量有限,這些方法存在欠擬合問題,并且只能產(chǎn)生沒有精細(xì)細(xì)節(jié)的模糊渲染 [56,62,64]。 BlockNeRF [58] 和 MegaNeRF [62] 提出在地理上劃分城市場景,并為每個區(qū)域分配不同的子 NeRF 以并行學(xué)習(xí)。隨后,當(dāng)目標(biāo)場景的規(guī)模和復(fù)雜性增加時,他們不可避免地要在 sub-NeRF 的數(shù)量和每個 sub-NeRF 完全捕獲每個區(qū)域的所有精細(xì)細(xì)節(jié)所需的容量之間進(jìn)行權(quán)衡。另一個基于網(wǎng)格的表示流使用特征網(wǎng)格 [27、27、30、36、55、68、69] 來表示目標(biāo)場景。這些方法在渲染過程中通常要快得多,并且在場景按比例放大時效率更高。然而,由于特征網(wǎng)格的每個單元格都以局部編碼方式單獨優(yōu)化,因此與基于 NeRF 的方法相比,生成的特征網(wǎng)格在整個場景中的連續(xù)性往往較低。盡管更大的靈活性在直覺上有利于捕獲精細(xì)細(xì)節(jié),但缺乏固有的連續(xù)性使這種表示容易受到帶有噪聲偽影的次優(yōu)解決方案的影響,如圖 1 所示。
圖 1. 我們使用新穎的網(wǎng)格引導(dǎo)神經(jīng)輻射場執(zhí)行大型城市場景渲染。左側(cè)顯示了我們的目標(biāo)大型城市場景的示例,它跨越 2.7 平方公里的地面區(qū)域,由超過 5000 幅無人機(jī)圖像捕獲。我們表明,基于 NeRF 的方法 [34、62] 的渲染結(jié)果模糊且過度平滑且模型容量有限,而基于特征網(wǎng)格的方法 [9、36] 在適應(yīng)具有高分辨率特征網(wǎng)格的大規(guī)模場景時,往往會顯示出嘈雜的假象。我們提出的雙分支模型結(jié)合了兩種方法的優(yōu)點,并通過對現(xiàn)有方法的顯著改進(jìn)實現(xiàn)了逼真的新穎視圖渲染。這兩個分支都比各自的基線獲得了顯著增強(qiáng)。
為了使用隱式神經(jīng)表示有效地重建大型城市場景,在這項工作中,我們提出了一種雙分支模型架構(gòu),它采用統(tǒng)一的場景表示,在聯(lián)合學(xué)習(xí)方案下集成了基于網(wǎng)格和基于 NeRF 的方法。我們的主要見解是,這兩種類型的表示可以相互補(bǔ)充:雖然特征網(wǎng)格可以輕松地將局部場景內(nèi)容與顯式且獨立學(xué)習(xí)的特征相匹配,但 NeRF 通過其可共享的 MLP 權(quán)重在學(xué)習(xí)的場景內(nèi)容上引入了固有的全局連續(xù)性跨所有 3D 坐標(biāo)輸入。 NeRF 還可以通過將作為傅里葉特征的位置編碼與細(xì)節(jié)帶寬相匹配來鼓勵捕獲高頻場景細(xì)節(jié)。然而,與特征網(wǎng)格表示不同,NeRF 在將大場景內(nèi)容壓縮到其全局共享的潛在坐標(biāo)空間中時效率較低。
具體來說,我們首先在預(yù)訓(xùn)練階段用特征網(wǎng)格對目標(biāo)場景進(jìn)行建模,粗略地捕捉場景的幾何形狀和外觀。然后使用粗特征網(wǎng)格
- 引導(dǎo) NeRF 的點采樣,讓它集中在場景表面周圍;
- 為 NeRF 的位置編碼提供關(guān)于場景幾何和采樣位置和額外的外觀特征。
在這樣的指引導(dǎo)下,NeRF 可以在大幅壓縮的采樣空間中有效且高效地提取更精細(xì)的細(xì)節(jié)。此外,由于向 NeRF 明確提供了粗略的幾何和外觀信息,因此輕量級 MLP 足以學(xué)習(xí)從全局坐標(biāo)到體積密度和顏色值的映射。
在第二個聯(lián)合學(xué)習(xí)階段,粗特征網(wǎng)格通過來自 NeRF 分支的梯度得到進(jìn)一步優(yōu)化,在單獨應(yīng)用時對它們進(jìn)行正則化以產(chǎn)生更準(zhǔn)確和自然的渲染結(jié)果。為了進(jìn)一步減少內(nèi)存占用并為大型城市場景學(xué)習(xí)可靠的特征網(wǎng)格,我們采用 3D 特征網(wǎng)格的緊湊分解來近似它而不損失表示能力?;诔鞘胁季值然菊Z義主要分布在地面(即 xy 平面)的觀察,我們將 3D 特征網(wǎng)格分解為跨越場景的 2D 地面特征平面和沿垂直方向共享的特征向量z 軸。好處是多方面的:
- 內(nèi)存從 O ( N 3 ) O(N^3) O(N3)減少到 O ( N 2 ) O(N^2) O(N2)。
- 學(xué)習(xí)到的特征網(wǎng)格被強(qiáng)制分解成高度緊湊的地面特征平面,提供明確和信息豐富的場景布局。
大量實驗證明了我們統(tǒng)一模型和場景表示的有效性。在實踐中渲染新穎的視圖時,允許用戶使用渲染速度更快的網(wǎng)格分支,或者使用具有更多高頻細(xì)節(jié)和空間平滑度的 NeRF 分支,但代價是渲染速度相對較慢。
2. Related Works and Background
大規(guī)模場景重建和渲染
這是計算機(jī)視覺和圖形學(xué)中長期存在的問題,許多早期作品 [1, 17, 24, 43, 48, 52, 72] 都試圖解決它。這些方法大多采用三級流水線。他們首先檢測 2D 圖像中的特征點 [19, 29] 并構(gòu)建點描述符 [4, 47]。然后點描述符在圖像之間進(jìn)行匹配以獲得用于相機(jī)姿態(tài)估計和 3D 點三角測量的 2D 對應(yīng)關(guān)系。最后,相機(jī)位姿和 3D 點被聯(lián)合優(yōu)化,以使用 bundle adjustment [18, 60] 最小化投影點和圖像點之間的差異。這些方法在大規(guī)模場景上表現(xiàn)出了令人印象深刻的重建性能。 [28, 50]利用重建結(jié)果完成場景的自由視點導(dǎo)航。然而,重建的場景中經(jīng)常存在偽影或孔洞,這限制了渲染質(zhì)量。最近的方法 [26、31、33] 利用深度學(xué)習(xí)技術(shù)來改進(jìn)圖像合成的結(jié)果。 [33] 將恢復(fù)的點云光柵化為深度緩沖區(qū),然后使用 2D 卷積神經(jīng)網(wǎng)絡(luò)將其解釋為 2D 圖像。最近,[31] 利用生成潛在優(yōu)化技術(shù)從照片集中重建輻射場,使其能夠?qū)崿F(xiàn)逼真的渲染結(jié)果。 [14, 51]分別在場景生成和靜態(tài)-動態(tài)解纏任務(wù)中采用了與我們相似的地平面表示,但它們適用場景的規(guī)模和渲染質(zhì)量仍然有限。
體積場景表示
基于坐標(biāo)的多層感知器已成為 3D 形狀建模 [7、10、32、40] 和新穎視圖合成 [2、3、34、38] 的流行表示。為了表示高分辨率的 3D 形狀,一些方法采用 MLP 網(wǎng)絡(luò),將連續(xù)的 3D 坐標(biāo)作為輸入并預(yù)測目標(biāo)值 [13、32、40]。 [11,12,42] 引入了卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)強(qiáng)大的場景先驗,使基于坐標(biāo)的表示能夠處理更大的場景。在新視圖合成領(lǐng)域,NeRF [34] 將 3D 場景表示為密度和顏色場,并通過體繪制技術(shù)從圖像中優(yōu)化這種表示。 [20,27,46,69] 使用高效的數(shù)據(jù)結(jié)構(gòu)擴(kuò)展 NeRF 以加速渲染過程。 [8,37,49,66] 將 NeRF 與生成模型相結(jié)合,實現(xiàn) 3D 感知圖像生成。 [25,41,44] 用運動場增強(qiáng) NeRF,使它們能夠處理動態(tài)場景。
大尺度NeRF
雖然上述 NeRF 方法主要考慮規(guī)模有限的場景,但擴(kuò)大 NeRF 以處理城市等大規(guī)模場景將實現(xiàn)更廣泛的應(yīng)用。 [27、62、65] 試圖提高 NeRF 在大型場景上的渲染質(zhì)量。特征網(wǎng)格方法 [22,27] 通過從預(yù)定義的可學(xué)習(xí)特征向量表中查找,將輸入坐標(biāo)映射到高維空間,這增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的逼近能力。 PointNeRF [65] 從點云中回歸輻射場,實現(xiàn)室內(nèi)場景的高質(zhì)量渲染。 BungeeNeRF [64] 設(shè)計了一種多尺度表示,可以有效地對場景內(nèi)容進(jìn)行建模并提高渲染質(zhì)量。 [56, 62] 將場景分解為幾個空間區(qū)域,分別由 NeRF 網(wǎng)絡(luò)表示。在處理大場景時,另一個關(guān)鍵問題是如何減少訓(xùn)練時間。圖像編碼器 [63,71]、自動解碼器 [16,45] 和元學(xué)習(xí) [5, 57] 等幾種技術(shù)用于在數(shù)據(jù)集上預(yù)訓(xùn)練網(wǎng)絡(luò),以在改進(jìn)優(yōu)化過程之前學(xué)習(xí)場景。 [36,53,54,68]進(jìn)一步探索網(wǎng)格表示以加快訓(xùn)練速度。 TensoRF [9] 研究了 3D 場景的分解,使其能夠緊湊地表示場景并實現(xiàn)快速訓(xùn)練。 Instant-NGP [36] 采用了特征向量的多分辨率哈希表,可以實現(xiàn)極快的渲染。然而,我們注意到這兩種方法在應(yīng)用于大場景時都會受到噪聲特征網(wǎng)格的影響。
3. Grid-guided Neural Radiance Fields
回想一下,基于 NeRF 的表示通過將點坐標(biāo)的位置編碼 (PE) 傳遞到 8 層 MLP [34] 來獲得點密度和顏色。這種模型非常緊湊,因為整個場景內(nèi)容都被編碼在以 PE 嵌入作為輸入的 MLP 權(quán)重中,但它們在擴(kuò)展時面臨模型容量限制的困難。相比之下,基于網(wǎng)格的表示將場景編碼為特征網(wǎng)格,可以直觀地將其視為網(wǎng)格分辨率與實際 3D 空間匹配的 3D 體素網(wǎng)格。每個體素在頂點存儲一個特征向量,然后可以插值以提取查詢點坐標(biāo)處的特征值,并通過小型網(wǎng)絡(luò)轉(zhuǎn)換為點密度和顏色。由于特征網(wǎng)格通常被實現(xiàn)為高維張量,因此還可以應(yīng)用各種分解方法來獲得更緊湊的特征網(wǎng)格表示 [9]。
為了有效地表示大型城市場景,我們提出了網(wǎng)格引導(dǎo)的神經(jīng)輻射場,它結(jié)合了基于 NeRF 和基于網(wǎng)格的方法的專業(yè)知識。網(wǎng)格特征被強(qiáng)制使用多分辨率地面特征平面可靠地捕獲盡可能多的局部信息。然后,我們讓位置編碼坐標(biāo)信息拾取提取缺失的高頻細(xì)節(jié)并生成高質(zhì)量的渲染圖。通過粗略構(gòu)建以多種分辨率捕獲場景的特征網(wǎng)格,密度場也用于指導(dǎo) NeRF 的采樣過程。在訓(xùn)練 NeRF 分支時,網(wǎng)格特征通過兩個分支的重建損失進(jìn)行聯(lián)合優(yōu)化和監(jiān)督。
圖 2. 框架概述。我們模型的核心是一種新穎的雙分支結(jié)構(gòu),即網(wǎng)格分支和 NeRF 分支。 1)我們首先在預(yù)訓(xùn)練階段用特征平面金字塔捕捉場景,然后通過淺層 MLP 渲染器(網(wǎng)格分支)對光線點進(jìn)行粗采樣并預(yù)測它們的輻射值,由 MSE 損失監(jiān)督體積積分像素顏色。此步驟產(chǎn)生一組信息豐富的多分辨率密度/外觀特征平面。 2)接下來,我們進(jìn)入聯(lián)合學(xué)習(xí)階段并進(jìn)行更精細(xì)的采樣。我們使用學(xué)習(xí)到的特征網(wǎng)格來引導(dǎo) NeRF 分支采樣集中在場景表面。通過特征平面上的雙線性插值推斷采樣點的網(wǎng)格特征。然后將這些特征與位置編碼連接起來并饋送到 NeRF 分支以預(yù)測體積密度和顏色。請注意,在聯(lián)合訓(xùn)練期間,網(wǎng)格分支輸出保持受地面真實圖像以及來自 NeRF 分支的精細(xì)渲染結(jié)果的監(jiān)督。
圖 2 說明了我們系統(tǒng)的整體管道。在 3.1節(jié)中,我們描述了多分辨率地面特征平面表示的預(yù)訓(xùn)練; 3.2節(jié)介紹神經(jīng)輻射場的grid-guided learning,對應(yīng)圖2中的NeRF分支;最后,在3.3節(jié)我們詳細(xì)說明了 NeRF 分支如何幫助改進(jìn)網(wǎng)格分支的預(yù)訓(xùn)練網(wǎng)格特征。
3.1. Multi-resolution Feature Grid Pre-train
3.1.多分辨率特征網(wǎng)格預(yù)訓(xùn)練
圖 1 說明了大型城市場景的代表性場景。受大型城市場景主要基于 xy 平面這一事實的啟發(fā),我們提出通過構(gòu)建多分辨率平面矢量特征空間來表示具有主要地面特征平面的目標(biāo)大型城市場景。與從整個 3D 網(wǎng)格獲得的特征平面相比,強(qiáng)制地平面壓縮提供了更多信息的特征平面。這種緊湊的表示特別適用于城市場景場景,并且對稀疏視圖訓(xùn)練數(shù)據(jù)表現(xiàn)穩(wěn)健。然后可以在此處考慮各種操作(例如,串聯(lián)、外積)以從 2D 地面特征平面恢復(fù) 3D 信息。外積運算在[9]中從張量分解和低秩近似的角度采用,在保持高質(zhì)量的同時實現(xiàn)了更壓縮的內(nèi)存占用。分別學(xué)習(xí)體積密度
σ
∈
R
+
σ ∈ R^+
σ∈R+ 和視點相關(guān)顏色
c
∈
R
3
c ∈ R^3
c∈R3 網(wǎng)格平面,以捕捉更多只影響外觀的環(huán)境影響。形式上,我們基于網(wǎng)格的輻射場寫為:
σ
,
c
=
F
σ
(
G
σ
(
X
)
)
,
F
c
(
G
c
(
X
)
,
P
E
(
d
)
)
σ, c = F_σ(G_σ(X)), F_c(G_c(X), PE(d))
σ,c=Fσ?(Gσ?(X)),Fc?(Gc?(X),PE(d)) 其中
G
σ
(
X
)
∈
R
R
σ
,
G
c
(
X
)
∈
R
R
c
G_σ(X) ∈ R^{R_σ} , G_c(X) ∈ R^{R_c}
Gσ?(X)∈RRσ?,Gc?(X)∈RRc? 是從位置
X
∈
R
3
X ∈ R^3
X∈R3 的兩個網(wǎng)格平面中提取的插值特征值。
F
σ
,
F
c
F_σ, F_c
Fσ?,Fc? 是兩個融合函數(shù),用兩個小的 MLP 實現(xiàn),將連接的密度/外觀特征轉(zhuǎn)換為
σ
,
c
σ, c
σ,c。
d
∈
S
2
d ∈ S^2
d∈S2是觀察方向。這里的PE表示位置編碼(
s
i
n
(
?
)
,
c
o
s
(
?
)
,
.
.
,
s
i
n
2
L
?
1
(
?
)
,
c
o
s
2
L
?
1
(
?
)
sin(·), cos(·), . . , sin ^{2L?1}(·) , cos^{2L?1}(·)
sin(?),cos(?),..,sin2L?1(?),cos2L?1(?))[34]。然后網(wǎng)格分支沿射線使用 N 個查詢樣本進(jìn)行訓(xùn)練,并在體繪制過程之后預(yù)測像素顏色,如 [34] 中所述,其中損失是此粗采樣階段的渲染像素顏色和真實像素顏色之間的總平方誤差,如圖2(a)所示。
按照[9]的做法,我們使用地面特征平面
R
σ
R_σ
Rσ? 和
R
c
R_c
Rc? 的通道外積以及全局編碼的
z
?
a
x
i
s
z-axis
z?axis 特征向量來近似全密度和外觀網(wǎng)格特征。對于每個通道
r
∈
R
σ
r ∈ R_σ
r∈Rσ? 和
R
c
R_c
Rc?,相應(yīng)的特征張量網(wǎng)格為:其中
v
z
v^z
vz 表示沿
z
z
z 軸的向量,
M
x
y
M^{xy}
Mxy 表示跨越
x
y
xy
xy 平面的矩陣,? 表示外積。在學(xué)習(xí)共享
z
z
z 軸特征向量的約束下,優(yōu)化的地面特征平面被鼓勵編碼足夠的局部場景內(nèi)容,這些內(nèi)容可以由全局共享的 MLP 渲染器翻譯。對于特定的網(wǎng)格分辨率
n
n
n,密度和外觀張量
G
σ
n
,
G
c
n
G^n_σ,G^n_c
Gσn?,Gcn? 然后作為
R
σ
,
R
c
R_σ,R_c
Rσ?,Rc? 特征分量的串聯(lián)獲得:
其中
⊕
⊕
⊕ 表示
R
σ
R_σ
Rσ? 和
R
c
R_c
Rc? 維度上的串聯(lián)操作。為了捕獲不同程度的場景局部復(fù)雜性,我們學(xué)習(xí)了具有
G
σ
=
G
σ
n
G_σ = {G^n_σ }
Gσ?=Gσn?和
G
c
=
G
c
n
G_c = {G^n_c }
Gc?=Gcn? 的多分辨率特征網(wǎng)格。生成的多分辨率特征網(wǎng)格包含不同粒度的特征來描述場景,特別適用于物體以不同比例出現(xiàn)的城市環(huán)境。
3.2. Grid-guided Neural Radiance Field
3.2.網(wǎng)格引導(dǎo)神經(jīng)輻射場
從頭開始訓(xùn)練的 NeRF 需要從純位置輸入來推理整個場景,這在 PE 中只提供了一個傅立葉頻率波波段。對于自然具有廣泛粒度的幾何和紋理細(xì)節(jié)的大型城市場景,NeRF 不斷偏向于學(xué)習(xí)低頻函數(shù),如 [58、64] 中所指出的。在需要對大量信息進(jìn)行編碼的大型場景中,這個問題會被放大。為了解決這個問題,我們建議使用預(yù)訓(xùn)練的特征網(wǎng)格密度壓縮 NeRF 的采樣空間,并使用在預(yù)訓(xùn)練階段初始化的粗網(wǎng)格特征來豐富 NeRF 的純坐標(biāo)輸入。
盡管精度和粒度有限,但預(yù)訓(xùn)練的網(wǎng)格特征已經(jīng)可以提供場景的近似值,可用于 1) 指導(dǎo) NeRF 的點采樣和 2) 提供中間特征作為坐標(biāo)輸入的補(bǔ)充。如圖 2 所示,NeRF 現(xiàn)在可以專注于近似場景表面以進(jìn)行更有效和更密集的點采樣,而不是映射跨越整個樣本空間的坐標(biāo),并在位置編碼中喚起高頻傅里葉特征以恢復(fù)更精細(xì)的細(xì)節(jié)。同時,沿采樣射線的點被投影到多分辨率特征平面上,以通過雙線性插值檢索密度和外觀特征。然后將推斷的網(wǎng)格特征連接到位置編碼,作為 NeRF 分支的輸入。每點密度和顏色
σ
′
、
c
′
σ'、c'
σ′、c′ 通過NeRF分支網(wǎng)絡(luò)
F
′
F'
F′ 預(yù)測為:
多分辨率特征平面起著關(guān)鍵作用,因為它提供了多粒度的場景信息,減輕了 NeRF的 PE 的擬合負(fù)擔(dān),使其可以專注于細(xì)化場景的細(xì)節(jié)。特別是,雖然高網(wǎng)格分辨率可以保證空間中的每個體素都能捕獲其局部內(nèi)容,但無論場景中細(xì)節(jié)級別可能存在異質(zhì)性,質(zhì)量都會以存儲為代價提高。因此,用傅里葉特征提供這種高頻細(xì)節(jié)會更有效,這些特征在 PE 中只需要花費幾個維度,并且可以在整個學(xué)習(xí)過程中適應(yīng)場景。
請注意,雙分支監(jiān)督和兩階段訓(xùn)練是必要的,因為:(1)隨機(jī)初始化的特征網(wǎng)格很難提供信息豐富的場景內(nèi)容,并且兩種網(wǎng)絡(luò)輸入的作用可能會糾纏。 (2) 預(yù)訓(xùn)練階段比包含 NeRF 分支的階段快得多,從而更有效地可靠地構(gòu)建僅包含網(wǎng)格分支的粗幾何結(jié)構(gòu)。 (3) 與 [53] 在提供 PE 輸入時凍結(jié)體素網(wǎng)格不同,我們稍后將展示特征網(wǎng)格可以通過與 NeRF 分支的聯(lián)合學(xué)習(xí)獲得進(jìn)一步的細(xì)化。此外,由于網(wǎng)格分支也受到重建損失的監(jiān)督,它強(qiáng)制網(wǎng)格分支繼續(xù)豐富其捕獲的場景信息,其中 PE 輸入可以專注于丟失的高頻細(xì)節(jié)。
3.3. Refined Grid Feature Planes from NeRF
3.3.來自 NeRF 的精細(xì)網(wǎng)格特征平面
回想一下,特征網(wǎng)格依賴于地面特征平面上的雙線性插值來獲得體素內(nèi)點的特征向量。給定足夠高的網(wǎng)格分辨率,該機(jī)制可以產(chǎn)生詳細(xì)的重建結(jié)果,從而可以恢復(fù)場景中最細(xì)微的變化。然而,如 [36] 所示,對于大型城市場景,學(xué)習(xí)具有匹配分辨率的網(wǎng)格可能會非常消耗內(nèi)存。此外,網(wǎng)格特征缺乏捕獲體素內(nèi)準(zhǔn)確變化的動機(jī),僅在地面真值 RGB 上進(jìn)行重建損失。因此,我們與 NeRF 聯(lián)合優(yōu)化特征平面和向量,以通過提供的 NeRF 輸入的逐點引導(dǎo)來增強(qiáng)網(wǎng)格特征的監(jiān)督信號。 NeRF 帶來的另一個好處是對獨立優(yōu)化的網(wǎng)格特征進(jìn)行全局正則化。圖 1 和圖 3 顯示,由于缺乏對空間連續(xù)性和語義相似性的約束,基于網(wǎng)格的方法會產(chǎn)生噪聲偽影。相反,NeRF 對整個場景空間使用共享的 MLP。稍后我們將展示,在與 NeRF 分支聯(lián)合訓(xùn)練后,從網(wǎng)格分支解釋的渲染新視圖可以得到很大改進(jìn)。
4. Experiments
4.1. Experimental Setup
數(shù)據(jù)集
我們的主要實驗是在真實世界的城市場景中進(jìn)行的。這三個場景涵蓋了不同的城市環(huán)境,包括農(nóng)村廢墟遺址[62](Rubble)、大學(xué)校園(Campus)和住宅區(qū)(Residential)。相機(jī)姿勢是從攝影測量軟件 ContextCapture 獲得的。有關(guān)一般場景數(shù)據(jù)集、替代相機(jī)姿勢和進(jìn)一步改進(jìn)技術(shù)的其他實驗和結(jié)果,請參見補(bǔ)充資料和我們的網(wǎng)頁。
基線和實施
我們將我們的方法的性能與 1)應(yīng)用于整個場景的 NeRF [34] 進(jìn)行比較; 2)具有4個分區(qū)的Mega-NeRF [62]; 3) TensoRF [9],通過低秩張量分解減少特征網(wǎng)格的內(nèi)存占用,被認(rèn)為適用于大場景場景。對于 NeRF 和 Mega-NeRF,我們相應(yīng)地采用了具有 12 層和 256 個隱藏單元的更大模型。位置編碼的最高頻率設(shè)置為
2
15
2^{15}
215,在第4、6、8、10層通過skip connection插入到NeRF模型中。我們在訓(xùn)練期間使用分層采樣,每條射線有 64 個粗糙樣本和 128 個精細(xì)樣本。所有 NeRF 模型都使用 Adam 優(yōu)化器 [21] 進(jìn)行了優(yōu)化,學(xué)習(xí)率從
5
e
?
4
5e^{?4}
5e?4 開始呈指數(shù)衰減,批量大小為 2048 條射線,訓(xùn)練了 150k 次迭代。對于 TensoRF,根據(jù)我們之前在第 3.1 節(jié)中討論的對大型城市場景的觀察。我們評估了將特征網(wǎng)格分解為 xy 平面矩陣和 z 軸向量分量的簡化版本。 16/48個分量分別用于密度和外觀特征網(wǎng)格。從具有 1283 個體素的初始低分辨率網(wǎng)格開始,在訓(xùn)練期間,網(wǎng)格在對數(shù)空間中線性上采樣到
102
4
3
1024^3
10243。沿每個維度的網(wǎng)格分辨率按 x、y、z 維度縮放。具有 2 個全連接層的 128 個隱藏層和 ReLU 激活的小型 MLP 用作顏色輸出頭。采用 Adam 優(yōu)化器,張量因子的初始傾斜率為 0.02,MLP 解碼器的初始傾斜率為 0.01。批量大小為 4096。該模型經(jīng)過 100k 次迭代訓(xùn)練。
我們的方法將匹配的網(wǎng)格分辨率作為最高分辨率的特征平面,密度/外觀網(wǎng)格分別采用 8/16 分量,另外兩個采用下采樣 ×4 和 ×16 分辨率。網(wǎng)格分支的 MLP 頭與 TensoRF 相同。 NeRF 分支使用 4 個 MLP 層,沒有跳過層。位置編碼的最高頻率也設(shè)置為
2
15
2^{15}
215。采用 Adam 優(yōu)化器,張量因子的初始學(xué)習(xí)率為 0.02,批量大小為 4096 的 MLP 層的初始學(xué)習(xí)率為 0.01。我們?yōu)榍?10k 次迭代預(yù)訓(xùn)練網(wǎng)格分支,并聯(lián)合優(yōu)化再進(jìn)行 100k 次迭代,兩個階段之間的時間比例大約為 1:4。我們在聯(lián)合訓(xùn)練中對兩個分支使用 1:1 的加權(quán)損失。
4.2. Results Analysis
我們在圖 3 和 表1 中報告了基線的性能和我們的方法。
圖 3. 基線與我們的定性比較。在大型城市場景中,基于 MLP 的方法 (NeRF) 和 (Mega-NeRF) 存在嚴(yán)重的模糊偽影問題?;诰W(wǎng)格的方法 (TensoRF) 顯示出更好的結(jié)果,但往往會產(chǎn)生帶有不準(zhǔn)確形狀的噪聲外觀。預(yù)訓(xùn)練的多分辨率網(wǎng)格特征(Ours,Grid Pretrain)比單一的高分辨率方法有所改進(jìn),但結(jié)果仍然不是最優(yōu)的。與新穎視圖上的地面真實圖像相比,我們的最終模型實現(xiàn)了照片般逼真的質(zhì)量。雖然網(wǎng)格分支(Ours, Grid branch)和 NeRF 分支(Ours, NeRF branch)獲得相似的指標(biāo)分?jǐn)?shù),但首選從具有更清晰的細(xì)節(jié)和更平滑的空間連續(xù)性的 NeRF 分支進(jìn)行渲染,尤其是在實踐中渲染長視頻時。
>表 1. 三個大型城市場景數(shù)據(jù)集的定量比較。我們在測試視圖上報告 PSNR(↑)、LPIPS(↑) [70]、SSIM(↓) 指標(biāo)。突出顯示最佳和次佳結(jié)果。
定性和定量
可以觀察到視覺質(zhì)量和所有指標(biāo)都有顯著改善。與純粹基于 MLP 的方法(NeRF 和 Mega-NeRF)相比,我們的方法揭示了更清晰的幾何形狀和更精致的細(xì)節(jié)。特別是,由于 NeRF 的容量和光譜偏差有限,它總是無法模擬幾何形狀和顏色的快速變化,例如操場上的植被和條紋。盡管如 Mega-NeRF 基線所示,將場景在地理上劃分為小區(qū)域略有幫助,但渲染結(jié)果仍然顯得過于平滑。相反,在學(xué)習(xí)到的特征網(wǎng)格的指導(dǎo)下,NeRF 的采樣空間被有效地大幅壓縮到近場景表面。從地面特征平面采樣的密度和外觀特征明確指示場景內(nèi)容,如圖 3 所示。盡管不太準(zhǔn)確,但它已經(jīng)提供了信息豐富的局部幾何和紋理,并鼓勵 NeRF 的 PE 拾取缺失的場景細(xì)節(jié)。
改進(jìn)的地面特征平面
基于網(wǎng)格的方法通常需要明確施加正則化,例如總變化損失或 L1 損失 [9],以避免觀測值較少的區(qū)域出現(xiàn)噪聲,否則獨立優(yōu)化的網(wǎng)格特征很容易導(dǎo)致模糊和波浪形的外觀,如中所示圖 3. 通過與 NeRF 分支聯(lián)合優(yōu)化,不斷改進(jìn) xy 平面和 z 軸編碼以編碼更多局部細(xì)節(jié),同時降低噪聲。在圖 6 中可以觀察到保真度的顯著提高。在特征空間中也可以觀察到類似的改進(jìn)。以住宅場景中的一維密度平面(圖 4)為例,在預(yù)訓(xùn)練的 xy 平面特征(圖 4(a))上已經(jīng)可以識別目標(biāo)城區(qū)的粗略樓層布局,它仍然遺漏了場景中廣泛存在的銳利邊緣和各種形狀和顏色等細(xì)節(jié),除非采用更精細(xì)的網(wǎng)格分辨率,否則很難用網(wǎng)格表示這些細(xì)節(jié)。另一方面,NeRF 搜索帶有點的場景表面,這為網(wǎng)格特征優(yōu)化提供了更準(zhǔn)確和有意義的信號,并將其提升到局部最小值之外。預(yù)訓(xùn)練特征平面上另一個值得注意的偽影是由于網(wǎng)格變化導(dǎo)致的連續(xù)區(qū)域(例如,土地、立面)的噪聲,在與 NeRF 聯(lián)合優(yōu)化后大大緩解了這一點。這可以歸因于 NeRF 對場景的連續(xù)表示,它通過在坐標(biāo)之間構(gòu)建更強(qiáng)的相關(guān)性,對特征網(wǎng)格施加隱式正則化。由此產(chǎn)生的精細(xì)特征平面(圖 4(b))展示了平滑的網(wǎng)格特征和更清晰的輪廓,其中內(nèi)容相似的網(wǎng)格可以聚集在一起(例如,建筑物、復(fù)式公寓和道路)。
圖 4. (a) 密度和 (b) 外觀特征平面(住宅場景)中一個特征分量的可視化。與預(yù)訓(xùn)練的特征平面相比,精化后的特征平面噪聲更少;也可以清楚地識別分組物體的更銳利的邊緣和規(guī)則的形狀。由于密度和外觀特征是獨立學(xué)習(xí)的,因此它們對描述場景的不同信息進(jìn)行編碼。外觀特征可以捕獲陰影等環(huán)境影響,如 (b) 所示。
圖 5. 來自(a)TensoRF 分解的 xy 特征平面切片的可視化; (b) 我們的地平面表示。我們的聯(lián)合學(xué)習(xí)產(chǎn)生了更準(zhǔn)確的平面特征,具有清晰的區(qū)域邊界,更好地與場景的物理平面圖對齊,這自然更適合大型城市場景建模和下游分析。更清晰的特征網(wǎng)格還表明學(xué)習(xí)到的潛在空間更緊湊,這對于大規(guī)模建模至關(guān)重要,即使模型容量有限。
圖 6. 顯示使用學(xué)習(xí)到的特征的渲染結(jié)果的定性比較 (a) 在中等網(wǎng)格分辨率 (
204
8
2
2048^2
20482),(b) 在高網(wǎng)格分辨率 (
409
6
2
4096^2
40962) 和 (c ) 在分辨率 (
409
6
2
4096^2
40962)上的再次網(wǎng)格分支。盡管更高的網(wǎng)格分辨率會帶來更好的視覺質(zhì)量,但添加 NeRF 監(jiān)督會將質(zhì)量進(jìn)一步推向逼真度。
緊湊的表示
雖然建模大場景會本能地設(shè)計一個重型框架,但我們的原則是在不顯顯著降低質(zhì)量的情況下保持緊湊和高效。牢記這一點,我們使用簡潔的平面矢量表示對完整的 3D 特征網(wǎng)格進(jìn)行建模。我們在圖 5 中證明,在重建大型城市場景時具有相似的性能(PSNR:(TensoRF)21.075 與(我們的)20.915),從 TensoRF 的 VM 分解 [9] 中學(xué)習(xí)的 2D 地平面似乎更模糊且信息量更少比我們的;與 TensoRF (4e8) 相比,我們的表示使用更少的參數(shù) ( 3 e 8 3e^8 3e8)。此外,回想一下網(wǎng)格分辨率對于純基于體素的表示以獲得高質(zhì)量渲染至關(guān)重要,我們的方法無需進(jìn)一步上采樣即可實現(xiàn)大場景的逼真渲染。盡管為我們的框架提供更細(xì)粒度的特征平面是有益的,但與 NeRF 的集成在很大程度上減輕了對網(wǎng)格分辨率捕獲場景細(xì)節(jié)的依賴。從 NeRF 的角度來看,我們表明相對較小的 MLP 足以通過將學(xué)習(xí)到的網(wǎng)格特征與 PE 一起處理大場景,并且取得了比放大的 NeRF 和 Mega-NeRF [62] 更好的結(jié)果,如圖 3 所示.
4.3. Ablations
進(jìn)行消融以驗證 1)不同模型配置的影響:對于網(wǎng)格分支,我們切換到不同分辨率的單分辨率特征網(wǎng)格;對于 NeRF 分支,我們檢查模型容量和 PE 的頻率帶寬,以幫助 NeRF 恢復(fù)場景細(xì)節(jié);除了模型架構(gòu),我們還研究了 2)用網(wǎng)格特征豐富 NeRF 的純坐標(biāo)輸入的功效; 3) NeRF 作為監(jiān)督信號增強(qiáng)特征網(wǎng)格的功效。
模型配置
圖 7. 使用單一分辨率網(wǎng)格功能會導(dǎo)致較差的結(jié)果。低分辨率特征網(wǎng)格會產(chǎn)生模糊的偽影,而高分辨率網(wǎng)格會產(chǎn)生嘈雜的結(jié)果。 NeRF 分支通過其逐點監(jiān)督信號極大地幫助解決了這些問題,以在規(guī)范化網(wǎng)格特征之前獲取更多細(xì)節(jié)和全局。
圖 8. 小型渲染器不足以轉(zhuǎn)換網(wǎng)格特征,從而產(chǎn)生不準(zhǔn)確的幾何圖形和場景內(nèi)容。然而,如果有足夠的建模能力,NeRF 可以在越來越高的 PE 頻率通道的幫助下獲取更多細(xì)節(jié)。
對于網(wǎng)格分支,我們在圖 7 中展示了采用單一分辨率特征網(wǎng)格會導(dǎo)致性能下降。具體而言,低分辨率 ( 51 2 2 512^2 5122) 網(wǎng)格分支的結(jié)果在預(yù)訓(xùn)練期間已經(jīng)存在模糊偽像。在后期添加 NeRF 分支可以幫助產(chǎn)生更多的立面和屋頂細(xì)節(jié),但總體上仍然缺乏清晰的細(xì)節(jié)。另一方面,高分辨率( 204 8 2 2048^2 20482)網(wǎng)格分支的結(jié)果在預(yù)訓(xùn)練階段是模糊和嘈雜的,這在很大程度上被 NeRF 緩解了,但在連續(xù)區(qū)域(如道路和墻壁)仍然不穩(wěn)定?,F(xiàn)有作品 [9, 36, 53] 通常采用小型 MLP 作為渲染器來翻譯網(wǎng)格特征。在圖 8 中,我們展示了對于我們的場景,具有小模型容量(D=3,W=32)的 NeRF 不足以轉(zhuǎn)換此類復(fù)雜場景的網(wǎng)格特征,給出不準(zhǔn)確的幾何形狀并丟失大量場景細(xì)節(jié)。在這種情況下,單純地增加 PE 中的頻率帶寬幾乎沒有幫助。通過擴(kuò)大 MLP(D=3,W =256),可以觀察到顯著的改進(jìn),通過 PE 施加更高頻率的輸入可以幫助恢復(fù)更多場景細(xì)節(jié)。
網(wǎng)格特征對 NeRF 的功效
我們首先簡單地為 NeRF 提供網(wǎng)格特征,不調(diào)整網(wǎng)格特征和來自網(wǎng)格分支的監(jiān)督, NeRF 已經(jīng)可以從網(wǎng)格特征中編碼的局部特征中獲益,PSNR 提高了約 1db。調(diào)整特征網(wǎng)格可以進(jìn)一步實現(xiàn) PSNR約 2.5db 增益。
NeRF 監(jiān)督對特征網(wǎng)格的功效
如圖 7 所示,NeRF 幫助特征網(wǎng)格在網(wǎng)格分辨率不足時恢復(fù)更多細(xì)節(jié),并使用全局先驗平滑不規(guī)則化的特征,從而產(chǎn)生更一致的渲染結(jié)果。在高分辨率網(wǎng)格上,結(jié)合 NeRF 可以在 Campus 場景中將 PSNR 提高 約 2db。文章來源:http://www.zghlxwxcb.cn/news/detail-487470.html
5. Discussion and Conclusion
在這項工作中,我們針對大型城市場景渲染,提出了一個新的框架,將基于 MLP 的 NeRF 與顯式構(gòu)建的特征網(wǎng)格相結(jié)合,以有效地編碼局部和全局場景信息。當(dāng)應(yīng)用于大規(guī)模場景時,我們的方法克服了最先進(jìn)方法的各種缺點。我們的模型即使對于超大規(guī)模的城市場景也能實現(xiàn)高視覺保真度渲染,這對于真實世界的應(yīng)用場景至關(guān)重要。雖然我們主要研究為大型城市場景場景量身定制的地面特征平面表示,但我們的雙分支設(shè)計也可以考慮用于其他基于網(wǎng)格的表示,通過帶來更多的連續(xù)性來對學(xué)習(xí)的特征值進(jìn)行額外的正則化。
盡管如此,我們的模型仍然繼承了基于 NeRF 的方法的一些局限性,例如我們聯(lián)合學(xué)習(xí)階段的緩慢訓(xùn)練。另一個關(guān)鍵問題是處理大量高分辨率圖像。在沒有分布式訓(xùn)練的情況下,目前shuffled rays(混洗光線?)的批量采樣是非常低效的。更多討論可以在補(bǔ)充中找到。文章來源地址http://www.zghlxwxcb.cn/news/detail-487470.html
到了這里,關(guān)于【論文閱讀】用于大型城市場景的網(wǎng)格引導(dǎo)神經(jīng)輻射場的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!