背景
近年來,采用三維和二維數(shù)據(jù)的應(yīng)用層出不窮,它們都需要將三維模型與二維圖像進(jìn)行匹配。大型定位識(shí)別系統(tǒng)可以估算出照片拍攝的位置。在全球定位系統(tǒng)可能失靈的情況下,地理定位系統(tǒng)可以進(jìn)行地點(diǎn)識(shí)別,對(duì)自動(dòng)駕駛非常有用。此外,法醫(yī)警察也可以利用該系統(tǒng)破案或防止襲擊。
本文的目標(biāo)是總結(jié)利用深度學(xué)習(xí)方法將二維圖像到三維點(diǎn)云進(jìn)行配準(zhǔn)的方法。
整個(gè)文章系列將介紹LCD、2D-3D MatchNet、三元損失函數(shù)、VGG-Net、圖神經(jīng)網(wǎng)絡(luò)等內(nèi)容。

1 引言
1.1 問題定義
近年來,增強(qiáng)現(xiàn)實(shí)應(yīng)用不斷涌現(xiàn)。這類應(yīng)用需要將三維模型與二維圖像進(jìn)行匹配。同樣,大規(guī)模位置識(shí)別系統(tǒng)可能需要定位拍攝 2D 圖像的準(zhǔn)確位置。為此,必須對(duì)二維和三維數(shù)據(jù)進(jìn)行注冊(cè)或?qū)R。如果不能確保被對(duì)齊的二維和三維數(shù)據(jù)是同一現(xiàn)實(shí)的相同表現(xiàn)形式,即它們之間存在匹配關(guān)系,則無法執(zhí)行此類操作。因此,在通過 2D-3D 注冊(cè)對(duì)齊匹配對(duì)之前,有必要完成 2D-3D 匹配任務(wù)。
尋找在圖像patch和點(diǎn)云patch上執(zhí)行2D-3D匹配的穩(wěn)健描述符的問題可以表述如下:
設(shè)
I
∈
R
W
×
H
×
3
I \in \mathbb{R}^{W \times H \times 3}
I∈RW×H×3為大小為
W
×
H
W \times H
W×H 的彩色圖像patch,在RGB空間中表示。
設(shè)
P
∈
R
N
×
6
P \in \mathbb{R}^{N \times 6}
P∈RN×6 為包含N個(gè)點(diǎn)的彩色點(diǎn)云patch,其中每個(gè)點(diǎn)包括其位置數(shù)據(jù)
(
x
,
y
,
z
)
∈
R
3
(x, y, z) \in \mathbb{R}^3
(x,y,z)∈R3 和RGB信息。
需要注意的是,雖然圖像數(shù)據(jù)是有結(jié)構(gòu)的,其中的像素必須保持有序,但點(diǎn)云體積是無序坐標(biāo)的集合。對(duì)于N個(gè)點(diǎn)的點(diǎn)云,數(shù)據(jù)集中有
N
!
N!
N!種可能的排列方式。然而,由于點(diǎn)云的結(jié)構(gòu)保持不變,因此其順序是無關(guān)緊要的。
一個(gè)進(jìn)行2D-3D匹配的模型希望找到兩個(gè)映射
f
:
R
W
×
H
×
3
→
D
f: \mathbb{R}^{W \times H \times 3} \to D
f:RW×H×3→D 和
g
:
R
N
×
6
→
D
g: \mathbb{R}^{N \times 6} \to D
g:RN×6→D 以便圖像和點(diǎn)云數(shù)據(jù)都可以通過共享空間
D
?
R
D
D \subseteq \mathbb{R}^D
D?RD中的向量
embeddings
\text{embeddings}
embeddings來表示,其中
D
D
D是跨領(lǐng)域空間的維數(shù)。函數(shù)
f
f
f 和
g
g
g 可以通過神經(jīng)網(wǎng)絡(luò)建模。
對(duì)于描述圖像和點(diǎn)云
I
,
P
I, P
I,P 組成的一對(duì)的每對(duì)特征匹配對(duì)
(
d
I
,
d
P
)
∈
D
(d_I, d_P) \in D
(dI?,dP?)∈D,其目標(biāo)是通過距離函數(shù)
F
F
F最小化它們之間的距離,使得
F
(
d
I
,
d
P
)
F(d_I, d_P)
F(dI?,dP?) 達(dá)到最小。
針對(duì)這一問題本文將著重介紹兩種方法——LCD和2D-3D MatchNet。
1.2 LCD: Learned Cross-Domain Descriptors
[1] Quang-Hieu Pham, Mikaela Angelina Uy, Binh-Son Hua, Duc Thanh Nguyen, Gemma
Roig, and Sai-Kit Yeung. LCD: Learned cross-domain descriptors for 2D-3D matching.
In AAAI Conference on Artificial Intelligence, 2020.
在LCD的工作中,提出了一種基于深度學(xué)習(xí)的學(xué)習(xí)2D-3D本地跨領(lǐng)域描述符的方法。該方法基于兩個(gè)聯(lián)合訓(xùn)練的自編碼器。此外,公開了一個(gè)2D-3D對(duì)應(yīng)關(guān)系的數(shù)據(jù)集。
1.2.1 網(wǎng)絡(luò)架構(gòu)
LCD采用基于雙分支自編碼器的架構(gòu),通過三個(gè)損失進(jìn)行訓(xùn)練。其中兩個(gè)損失分別用于訓(xùn)練每個(gè)分支。一個(gè)分支被訓(xùn)練為將輸入圖像patch編碼成向量embeddings,而另一個(gè)自編碼器對(duì)輸入點(diǎn)云patch執(zhí)行相同的操作。最終,采用三元損失以最小化兩個(gè)分支之間的差異,使得生成的embeddings在2D和3D數(shù)據(jù)之間共享相似性。
2D分支
2D分支能夠?qū)⑤斎雸D像數(shù)據(jù)編碼成具有固定大小的embeddings,該過程在編碼器中完成。它接受大小為64 × 64的圖像patch作為輸入,通過一系列的2D卷積操作并使用ReLU激活進(jìn)行前向傳播。在最后,一個(gè)全連接層將計(jì)算得到的特征映射轉(zhuǎn)換為大小為D的單維向量,然后進(jìn)行L2歸一化。為了解碼生成的embeddings并獲取原始圖像,向量被輸入到一個(gè)解碼器架構(gòu)中,通過一系列的反卷積操作并使用ReLU進(jìn)行數(shù)據(jù)傳播。
點(diǎn)云自編碼器
點(diǎn)云自編碼器具有類似的行為。點(diǎn)云描述符是通過PointNet架構(gòu)創(chuàng)建的,該架構(gòu)將輸入的3D數(shù)據(jù)轉(zhuǎn)化為大小為D的1D向量。原始點(diǎn)云可以通過解碼器中的全連接層進(jìn)行恢復(fù)。
1.2.2 損失函數(shù)
對(duì)圖像自編碼器的訓(xùn)練通過光度損失(Photometric loss)來實(shí)現(xiàn),該損失計(jì)算輸入圖像與解碼器輸出的重構(gòu)圖像之間的均方誤差。在下面給出的公式中, i i i表示輸入圖像的每個(gè)像素。
L m s e = 1 W × H ∑ i = 1 W × H ∣ ∣ I i ? I ˉ i ∣ ∣ 2 L_{mse} = \frac{1}{W \times H} \sum_{i=1}^{W \times H} ||I_i - \bar{I}_i||^2 Lmse?=W×H1?i=1∑W×H?∣∣Ii??Iˉi?∣∣2
點(diǎn)云自編碼器通過Chamfer損失進(jìn)行訓(xùn)練,該損失基于Chamfer距離:
L c h a m f e r = max ? ( 1 ∣ P ∣ ∑ p ∈ P min ? q ∈ P ˉ ∥ p ? q ∥ 2 , 1 ∣ P ˉ ∣ ∑ p ∈ P ˉ min ? q ∈ P ∥ p ? q ∥ 2 ) L_{chamfer} = \max \left( \frac{1}{|P|} \sum_{p \in P} \min_{q \in \bar{P}} \|p - q\|^2, \frac{1}{|\bar{P}|} \sum_{p \in \bar{P}} \min_{q \in P} \|p - q\|^2 \right) Lchamfer?=max ?∣P∣1?p∈P∑?q∈Pˉmin?∥p?q∥2,∣Pˉ∣1?p∈Pˉ∑?q∈Pmin?∥p?q∥2 ?
光度損失和Chamfer損失分別用于訓(xùn)練自編碼器以生成用于表示圖像patch點(diǎn)云的向量embeddings。然而,為了確保這些embeddings之間存在相似性,以便在測(cè)試應(yīng)用中正確識(shí)別圖像和點(diǎn)云embeddings的正匹配,需要共享相似性。為了強(qiáng)制執(zhí)行這種相似性,兩個(gè)自編碼器在同一時(shí)間聯(lián)合訓(xùn)練,使用Triplet loss:
L t r i p l e t = max ? ( F ( d a , d p ) ? F ( d a , d n ) + m , 0 ) L_{triplet} = \max \left( F(d_a, d_p) - F(d_a, d_n) + m, 0 \right) Ltriplet?=max(F(da?,dp?)?F(da?,dn?)+m,0)
其中,m是一個(gè)邊距參數(shù),F(xiàn)是距離函數(shù)(定義為歐氏距離)。在訓(xùn)練時(shí),損失的組合計(jì)算如下:
L = α ? L m s e + β ? L c h a m f e r + γ ? L t r i p l e t L = \alpha \cdot L_{mse} + \beta \cdot L_{chamfer} + \gamma \cdot L_{triplet} L=α?Lmse?+β?Lchamfer?+γ?Ltriplet?
這意味著在訓(xùn)練階段的每個(gè)批次計(jì)算中,使用權(quán)重 α = β = γ = 1 \alpha = \beta = \gamma = 1 α=β=γ=1 計(jì)算方程式 L L L。
2. Triplet loss
2D-3D配準(zhǔn)中的Triplet Loss
大多數(shù)最先進(jìn)的2D-3D配準(zhǔn)深度學(xué)習(xí)技術(shù)在其不同變體中使用了Triplet Loss,因此,探索這種損失機(jī)制的工作原理以及它在當(dāng)前任務(wù)中的用處可能是有趣的。
Triplet Loss首次在面部識(shí)別任務(wù)中被引入,它被用作通過孿生網(wǎng)絡(luò)生成面部描述符的新方法。在監(jiān)督學(xué)習(xí)中,通常存在固定數(shù)量的類別。然而,有時(shí)問題需要網(wǎng)絡(luò)能夠處理可變數(shù)量的類別。例如,在2D-3D配準(zhǔn)任務(wù)中,每個(gè)圖像點(diǎn)云匹配對(duì)都會(huì)成為一個(gè)唯一的類別。
在這項(xiàng)工作的背景下,想法是創(chuàng)建由圖像錨點(diǎn)
x
a
I
x_a^I
xaI?、其匹配點(diǎn)云(正點(diǎn)云)
x
M
+
x^+_M
xM+? 和數(shù)據(jù)庫中的非匹配點(diǎn)云
x
M
?
x^-_M
xM?? 組成的三元組。這些三元組以給定大小的批次輸入到網(wǎng)絡(luò)中,該網(wǎng)絡(luò)為每個(gè)三元組的三個(gè)元素生成向量
embeddings
\text{embeddings}
embeddings。然后,為每個(gè)三元組創(chuàng)建的描述符被評(píng)估在Triplet Loss函數(shù)中。該函數(shù)確保匹配的圖像-
point?cloud
\text{point cloud}
point?cloud對(duì)的
embeddings
\text{embeddings}
embeddings在
embeddings
\text{embeddings}
embeddings空間中彼此接近并與其他聚類分離。因此,給定一個(gè)三元組元組的Triplet Loss函數(shù)返回的值會(huì)在錨點(diǎn)圖像和正點(diǎn)云互相遠(yuǎn)離而負(fù)點(diǎn)云靠近時(shí)很高。相反,如果圖像錨點(diǎn)和正點(diǎn)云的描述符彼此接近且與負(fù)點(diǎn)云的
embeddings
\text{embeddings}
embeddings遠(yuǎn)離,則該值會(huì)很低。
數(shù)學(xué)上,
embeddings
\text{embeddings}
embeddings由
f
(
x
)
∈
R
n
f(x) \in \mathbb{R}^n
f(x)∈Rn 表示,其中函數(shù)
f
f
f 生成一個(gè)n維的單位范數(shù)描述符(
∥
f
(
x
)
∥
2
=
1
\lVert f(x) \rVert_2 = 1
∥f(x)∥2?=1),從輸入結(jié)構(gòu)(可以是圖像patch或點(diǎn)云)
x
x
x 中生成。Triplet Loss 強(qiáng)制這些
embeddings
\text{embeddings}
embeddings之間的距離滿足
d
pos
<
d
neg
→
d
(
f
(
x
a
I
)
,
f
(
x
M
+
)
)
?
d
(
f
(
x
a
I
)
,
f
(
x
M
?
)
)
d_{\text{pos}} < d_{\text{neg}} \rightarrow d(f(x_a^I), f(x^+_M)) \ll d(f(x_a^I), f(x^-_M))
dpos?<dneg?→d(f(xaI?),f(xM+?))?d(f(xaI?),f(xM??))。如果在正負(fù)對(duì)之間強(qiáng)制使用邊距
α
\alpha
α 并且使用歐氏距離進(jìn)行距離計(jì)算,則條件變?yōu)椋?br>
∥
f
(
x
a
I
)
?
f
(
x
M
+
)
∥
2
2
+
α
<
∥
f
(
x
a
I
)
?
f
(
x
M
?
)
∥
2
2
\lVert f(x_a^I) - f(x^+_M) \rVert_2^2 + \alpha < \lVert f(x_a^I) - f(x^-_M) \rVert_2^2
∥f(xaI?)?f(xM+?)∥22?+α<∥f(xaI?)?f(xM??)∥22?
?
(
f
(
x
a
I
)
,
f
(
x
M
+
)
,
f
(
x
M
?
)
)
∈
T
\forall (f(x_a^I), f(x^+_M), f(x^-_M)) \in \mathbb T
?(f(xaI?),f(xM+?),f(xM??))∈T
其中
T
\mathbb T
T 是數(shù)據(jù)集中所有可能的三元組組合的集合,數(shù)據(jù)集的大小為
N
N
N。
要最小化的損失函數(shù)是:
L
=
∑
i
N
[
∥
f
(
x
a
I
)
?
f
(
x
M
+
)
∥
2
2
?
∥
f
(
x
a
I
)
?
f
(
x
M
?
)
∥
2
2
+
α
]
+
L = \sum_{i}^N \left[ \lVert f(x_a^I) - f(x^+_M) \rVert_2^2 - \lVert f(x_a^I) - f(x^-_M) \rVert_2^2 + \alpha \right]_+
L=i∑N?[∥f(xaI?)?f(xM+?)∥22??∥f(xaI?)?f(xM??)∥22?+α]+?
基于損失的定義,在訓(xùn)練期間可以構(gòu)建三種不同的三元組類別:
? 簡單三元組Easy triplets:損失值為0的三元組。
? 困難三元組Hard triplets:負(fù)點(diǎn)云
embeddings
\text{embeddings}
embeddings在
embeddings
\text{embeddings}
embeddings空間中比正點(diǎn)云描述符更接近圖像錨點(diǎn)的三元組。
? 半困難三元組Semi-hard triplets:負(fù)點(diǎn)云
embeddings
\text{embeddings}
embeddings在
embeddings
\text{embeddings}
embeddings空間中不比正點(diǎn)云描述符更接近圖像錨點(diǎn),但仍有正的損失值。
根據(jù)負(fù)點(diǎn)云描述符相對(duì)于錨點(diǎn)和正描述符的位置,上述類別可以擴(kuò)展到負(fù)例:困難負(fù)例、半困難負(fù)例和簡單負(fù)例。注意,改變邊距α的值將影響負(fù)例的分類。較高的值將為半困難負(fù)例提供更多空間,而較低的值將使困難負(fù)例和簡單負(fù)例之間的邊界變得很薄,減少半困難負(fù)例的數(shù)量。
然后,根據(jù)定義,
embeddings
\text{embeddings}
embeddings空間可以分為三個(gè)子區(qū)域,每個(gè)三元組對(duì)應(yīng)一個(gè)區(qū)域:文章來源:http://www.zghlxwxcb.cn/news/detail-779509.html
如前所述,如果生成并將
T
\mathbb T
T中的所有可能的三元組饋送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,由于許多簡單三元組的損失為0,訓(xùn)練期間的收斂速度將很慢。損失越高,在反向傳播期間對(duì)網(wǎng)絡(luò)權(quán)重的修正就越大。因此,應(yīng)該避免簡單三元組以獲得最佳的訓(xùn)練過程。
有兩種建立三元組(三元組挖掘)的策略:文章來源地址http://www.zghlxwxcb.cn/news/detail-779509.html
- Offline triplet mining:所有三元組都在離線環(huán)境中構(gòu)建,例如在每個(gè)時(shí)期的開始。計(jì)算整個(gè)數(shù)據(jù)集的 embeddings \text{embeddings} embeddings,然后創(chuàng)建所有可能的三元組組合。然后,進(jìn)行評(píng)估以選擇半困難和困難三元組,這些將是用于訓(xùn)練的三元組。這種方法不太高效。
- Offline triplet mining:三元組是在訓(xùn)練期間即時(shí)構(gòu)建的,由每個(gè)批次的數(shù)據(jù)組成。為大小為B的圖像-點(diǎn)云對(duì)批次生成
embeddings
\text{embeddings}
embeddings。計(jì)算批次中圖像描述符和點(diǎn)云描述符的所有可能組合之間的距離,得到大小為B×B的距離矩陣。每個(gè)圖像中的正點(diǎn)云,即批次中的匹配點(diǎn)云,已知,因?yàn)樗c圖像一起被轉(zhuǎn)發(fā)。然而,仍然需要獲取負(fù)點(diǎn)云描述符以完成三元組。有兩種方法可以實(shí)現(xiàn):
- 隨機(jī)選擇:從批次中隨機(jī)選擇一個(gè)與正點(diǎn)云不同的隨機(jī)點(diǎn)云描述符。
- 困難選擇:選擇與錨點(diǎn)圖像描述符相對(duì)距離較大的點(diǎn)云描述符以完成三元組。
到了這里,關(guān)于2D-3D配準(zhǔn)指南[方法匯總]【入門指導(dǎo)向】(一)問題介紹+LCD跨域描述子+Triplet loss的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!