国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<mark id="y2ukv"></mark>

<noscript id="y2ukv"></noscript>

<span id="y2ukv"></span>

<mark id="y2ukv"><pre id="y2ukv"></pre></mark>

2D-3D配準(zhǔn)指南[方法匯總]【入門指導(dǎo)向】（一）問題介紹+LCD跨域描述子+Triplet loss

2年前作者：ESRSchao分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了2D-3D配準(zhǔn)指南[方法匯總]【入門指導(dǎo)向】（一）問題介紹+LCD跨域描述子+Triplet loss。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

背景

近年來，采用三維和二維數(shù)據(jù)的應(yīng)用層出不窮，它們都需要將三維模型與二維圖像進(jìn)行匹配。大型定位識(shí)別系統(tǒng)可以估算出照片拍攝的位置。在全球定位系統(tǒng)可能失靈的情況下，地理定位系統(tǒng)可以進(jìn)行地點(diǎn)識(shí)別，對(duì)自動(dòng)駕駛非常有用。此外，法醫(yī)警察也可以利用該系統(tǒng)破案或防止襲擊。
本文的目標(biāo)是總結(jié)利用深度學(xué)習(xí)方法將二維圖像到三維點(diǎn)云進(jìn)行配準(zhǔn)的方法。
整個(gè)文章系列將介紹LCD、2D-3D MatchNet、三元損失函數(shù)、VGG-Net、圖神經(jīng)網(wǎng)絡(luò)等內(nèi)容。

2d平面配準(zhǔn),CNN,3d,算法,python,vr,cnn

1 引言

1.1 問題定義

近年來，增強(qiáng)現(xiàn)實(shí)應(yīng)用不斷涌現(xiàn)。這類應(yīng)用需要將三維模型與二維圖像進(jìn)行匹配。同樣，大規(guī)模位置識(shí)別系統(tǒng)可能需要定位拍攝 2D 圖像的準(zhǔn)確位置。為此，必須對(duì)二維和三維數(shù)據(jù)進(jìn)行注冊(cè)或?qū)R。如果不能確保被對(duì)齊的二維和三維數(shù)據(jù)是同一現(xiàn)實(shí)的相同表現(xiàn)形式，即它們之間存在匹配關(guān)系，則無法執(zhí)行此類操作。因此，在通過 2D-3D 注冊(cè)對(duì)齊匹配對(duì)之前，有必要完成 2D-3D 匹配任務(wù)。

尋找在圖像patch和點(diǎn)云patch上執(zhí)行2D-3D匹配的穩(wěn)健描述符的問題可以表述如下：

設(shè) $\in \mathbb{R}^{W \times H \times 3}$ 為大小為 $\times H$ 的彩色圖像patch，在RGB空間中表示。
設(shè) $\in \mathbb{R}^{N \times 6}$ 為包含N個(gè)點(diǎn)的彩色點(diǎn)云patch，其中每個(gè)點(diǎn)包括其位置數(shù)據(jù) $\in \mathbb{R}^3$ 和RGB信息。

需要注意的是，雖然圖像數(shù)據(jù)是有結(jié)構(gòu)的，其中的像素必須保持有序，但點(diǎn)云體積是無序坐標(biāo)的集合。對(duì)于N個(gè)點(diǎn)的點(diǎn)云，數(shù)據(jù)集中有 $N!$ 種可能的排列方式。然而，由于點(diǎn)云的結(jié)構(gòu)保持不變，因此其順序是無關(guān)緊要的。
2d平面配準(zhǔn),CNN,3d,算法,python,vr,cnn

一個(gè)進(jìn)行2D-3D匹配的模型希望找到兩個(gè)映射 $\mathbb{R}^{W \times H \times 3} \to D$ 和 $\mathbb{R}^{N \times 6} \to D$ 以便圖像和點(diǎn)云數(shù)據(jù)都可以通過共享空間 $\subseteq \mathbb{R}^D$ 中的向量 $\text{embeddings}$ 來表示，其中 $D$ 是跨領(lǐng)域空間的維數(shù)。函數(shù) $f$ 和 $g$ 可以通過神經(jīng)網(wǎng)絡(luò)建模。
2d平面配準(zhǔn),CNN,3d,算法,python,vr,cnn

對(duì)于描述圖像和點(diǎn)云 $I, P$ 組成的一對(duì)的每對(duì)特征匹配對(duì) $(d_I, d_P) \in D$ ，其目標(biāo)是通過距離函數(shù) $F$ 最小化它們之間的距離，使得 $F(d_I, d_P)$ 達(dá)到最小。
針對(duì)這一問題本文將著重介紹兩種方法——LCD和2D-3D MatchNet。

1.2 LCD: Learned Cross-Domain Descriptors

[1] Quang-Hieu Pham, Mikaela Angelina Uy, Binh-Son Hua, Duc Thanh Nguyen, Gemma
Roig, and Sai-Kit Yeung. LCD: Learned cross-domain descriptors for 2D-3D matching.
In AAAI Conference on Artificial Intelligence, 2020.

在LCD的工作中，提出了一種基于深度學(xué)習(xí)的學(xué)習(xí)2D-3D本地跨領(lǐng)域描述符的方法。該方法基于兩個(gè)聯(lián)合訓(xùn)練的自編碼器。此外，公開了一個(gè)2D-3D對(duì)應(yīng)關(guān)系的數(shù)據(jù)集。

1.2.1 網(wǎng)絡(luò)架構(gòu)

LCD采用基于雙分支自編碼器的架構(gòu)，通過三個(gè)損失進(jìn)行訓(xùn)練。其中兩個(gè)損失分別用于訓(xùn)練每個(gè)分支。一個(gè)分支被訓(xùn)練為將輸入圖像patch編碼成向量embeddings，而另一個(gè)自編碼器對(duì)輸入點(diǎn)云patch執(zhí)行相同的操作。最終，采用三元損失以最小化兩個(gè)分支之間的差異，使得生成的embeddings在2D和3D數(shù)據(jù)之間共享相似性。
2d平面配準(zhǔn),CNN,3d,算法,python,vr,cnn
2D分支
2D分支能夠?qū)⑤斎雸D像數(shù)據(jù)編碼成具有固定大小的embeddings，該過程在編碼器中完成。它接受大小為64 × 64的圖像patch作為輸入，通過一系列的2D卷積操作并使用ReLU激活進(jìn)行前向傳播。在最后，一個(gè)全連接層將計(jì)算得到的特征映射轉(zhuǎn)換為大小為D的單維向量，然后進(jìn)行L2歸一化。為了解碼生成的embeddings并獲取原始圖像，向量被輸入到一個(gè)解碼器架構(gòu)中，通過一系列的反卷積操作并使用ReLU進(jìn)行數(shù)據(jù)傳播。
點(diǎn)云自編碼器
點(diǎn)云自編碼器具有類似的行為。點(diǎn)云描述符是通過PointNet架構(gòu)創(chuàng)建的，該架構(gòu)將輸入的3D數(shù)據(jù)轉(zhuǎn)化為大小為D的1D向量。原始點(diǎn)云可以通過解碼器中的全連接層進(jìn)行恢復(fù)。

1.2.2 損失函數(shù)

對(duì)圖像自編碼器的訓(xùn)練通過光度損失（Photometric loss）來實(shí)現(xiàn)，該損失計(jì)算輸入圖像與解碼器輸出的重構(gòu)圖像之間的均方誤差。在下面給出的公式中， $i$ 表示輸入圖像的每個(gè)像素。

$L_{mse} = \frac{1}{W \times H} \sum_{i=1}^{W \times H} ||I_i - \bar{I}_i||^2$

點(diǎn)云自編碼器通過Chamfer損失進(jìn)行訓(xùn)練，該損失基于Chamfer距離：

$L_{chamfer} = \max \left( \frac{1}{|P|} \sum_{p \in P} \min_{q \in \bar{P}} \|p - q\|^2, \frac{1}{|\bar{P}|} \sum_{p \in \bar{P}} \min_{q \in P} \|p - q\|^2 \right)$

光度損失和Chamfer損失分別用于訓(xùn)練自編碼器以生成用于表示圖像patch點(diǎn)云的向量embeddings。然而，為了確保這些embeddings之間存在相似性，以便在測(cè)試應(yīng)用中正確識(shí)別圖像和點(diǎn)云embeddings的正匹配，需要共享相似性。為了強(qiáng)制執(zhí)行這種相似性，兩個(gè)自編碼器在同一時(shí)間聯(lián)合訓(xùn)練，使用Triplet loss：

$L_{triplet} = \max \left( F(d_a, d_p) - F(d_a, d_n) + m, 0 \right)$

其中，m是一個(gè)邊距參數(shù)，F(xiàn)是距離函數(shù)（定義為歐氏距離）。在訓(xùn)練時(shí)，損失的組合計(jì)算如下：

$\alpha \cdot L_{mse} + \beta \cdot L_{chamfer} + \gamma \cdot L_{triplet}$

這意味著在訓(xùn)練階段的每個(gè)批次計(jì)算中，使用權(quán)重 $\alpha = \beta = \gamma = 1$ 計(jì)算方程式 $L$ 。

2. Triplet loss

2D-3D配準(zhǔn)中的Triplet Loss

大多數(shù)最先進(jìn)的2D-3D配準(zhǔn)深度學(xué)習(xí)技術(shù)在其不同變體中使用了Triplet Loss，因此，探索這種損失機(jī)制的工作原理以及它在當(dāng)前任務(wù)中的用處可能是有趣的。
Triplet Loss首次在面部識(shí)別任務(wù)中被引入，它被用作通過孿生網(wǎng)絡(luò)生成面部描述符的新方法。在監(jiān)督學(xué)習(xí)中，通常存在固定數(shù)量的類別。然而，有時(shí)問題需要網(wǎng)絡(luò)能夠處理可變數(shù)量的類別。例如，在2D-3D配準(zhǔn)任務(wù)中，每個(gè)圖像點(diǎn)云匹配對(duì)都會(huì)成為一個(gè)唯一的類別。

在這項(xiàng)工作的背景下，想法是創(chuàng)建由圖像錨點(diǎn) $x_a^I$ 、其匹配點(diǎn)云（正點(diǎn)云） $x^+_M$ 和數(shù)據(jù)庫中的非匹配點(diǎn)云 $x^-_M$ 組成的三元組。這些三元組以給定大小的批次輸入到網(wǎng)絡(luò)中，該網(wǎng)絡(luò)為每個(gè)三元組的三個(gè)元素生成向量 $\text{embeddings}$ 。然后，為每個(gè)三元組創(chuàng)建的描述符被評(píng)估在Triplet Loss函數(shù)中。該函數(shù)確保匹配的圖像- $\text{point cloud}$ 對(duì)的在 $\text{embeddings}$ 空間中彼此接近并與其他聚類分離。因此，給定一個(gè)三元組元組的Triplet Loss函數(shù)返回的值會(huì)在錨點(diǎn)圖像和正點(diǎn)云互相遠(yuǎn)離而負(fù)點(diǎn)云靠近時(shí)很高。相反，如果圖像錨點(diǎn)和正點(diǎn)云的描述符彼此接近且與負(fù)點(diǎn)云的 $\text{embeddings}$ 遠(yuǎn)離，則該值會(huì)很低。
2d平面配準(zhǔn),CNN,3d,算法,python,vr,cnn
數(shù)學(xué)上， $\text{embeddings}$ 由 $\in \mathbb{R}^n$ 表示，其中函數(shù) $f$ 生成一個(gè)n維的單位范數(shù)描述符（ $\lVert f(x) \rVert_2 = 1$ ），從輸入結(jié)構(gòu)（可以是圖像patch或點(diǎn)云） $x$ 中生成。Triplet Loss 強(qiáng)制這些 $\text{embeddings}$ 之間的距離滿足 $d_{\text{pos}} < d_{\text{neg}} \rightarrow d(f(x_a^I), f(x^+_M)) \ll d(f(x_a^I), f(x^-_M))$ 。如果在正負(fù)對(duì)之間強(qiáng)制使用邊距 $\alpha$ 并且使用歐氏距離進(jìn)行距離計(jì)算，則條件變?yōu)椋?br>
$\forall (f(x_a^I), f(x^+_M), f(x^-_M)) \in \mathbb T$
其中 $\mathbb T$ 是數(shù)據(jù)集中所有可能的三元組組合的集合，數(shù)據(jù)集的大小為 $N$ 。
要最小化的損失函數(shù)是：
$\sum_{i}^N \left[ \lVert f(x_a^I) - f(x^+_M) \rVert_2^2 - \lVert f(x_a^I) - f(x^-_M) \rVert_2^2 + \alpha \right]_+$
基于損失的定義，在訓(xùn)練期間可以構(gòu)建三種不同的三元組類別：
? 簡單三元組Easy triplets：損失值為0的三元組。
? 困難三元組Hard triplets：負(fù)點(diǎn)云 $\text{embeddings}$ 在 $\text{embeddings}$ 空間中比正點(diǎn)云描述符更接近圖像錨點(diǎn)的三元組。
? 半困難三元組Semi-hard triplets：負(fù)點(diǎn)云 $\text{embeddings}$ 在 $\text{embeddings}$ 空間中不比正點(diǎn)云描述符更接近圖像錨點(diǎn)，但仍有正的損失值。
根據(jù)負(fù)點(diǎn)云描述符相對(duì)于錨點(diǎn)和正描述符的位置，上述類別可以擴(kuò)展到負(fù)例：困難負(fù)例、半困難負(fù)例和簡單負(fù)例。注意，改變邊距α的值將影響負(fù)例的分類。較高的值將為半困難負(fù)例提供更多空間，而較低的值將使困難負(fù)例和簡單負(fù)例之間的邊界變得很薄，減少半困難負(fù)例的數(shù)量。
然后，根據(jù)定義，空間可以分為三個(gè)子區(qū)域，每個(gè)三元組對(duì)應(yīng)一個(gè)區(qū)域：

2d平面配準(zhǔn),CNN,3d,算法,python,vr,cnn
如前所述，如果生成并將 $\mathbb T$ 中的所有可能的三元組饋送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練，由于許多簡單三元組的損失為0，訓(xùn)練期間的收斂速度將很慢。損失越高，在反向傳播期間對(duì)網(wǎng)絡(luò)權(quán)重的修正就越大。因此，應(yīng)該避免簡單三元組以獲得最佳的訓(xùn)練過程。
有兩種建立三元組（三元組挖掘）的策略：文章來源地址http://www.zghlxwxcb.cn/news/detail-779509.html

Offline triplet mining：所有三元組都在離線環(huán)境中構(gòu)建，例如在每個(gè)時(shí)期的開始。計(jì)算整個(gè)數(shù)據(jù)集的 $\text{embeddings}$ ，然后創(chuàng)建所有可能的三元組組合。然后，進(jìn)行評(píng)估以選擇半困難和困難三元組，這些將是用于訓(xùn)練的三元組。這種方法不太高效。
Offline triplet mining：三元組是在訓(xùn)練期間即時(shí)構(gòu)建的，由每個(gè)批次的數(shù)據(jù)組成。為大小為B的圖像-點(diǎn)云對(duì)批次生成 $\text{embeddings}$ 。計(jì)算批次中圖像描述符和點(diǎn)云描述符的所有可能組合之間的距離，得到大小為B×B的距離矩陣。每個(gè)圖像中的正點(diǎn)云，即批次中的匹配點(diǎn)云，已知，因?yàn)樗c圖像一起被轉(zhuǎn)發(fā)。然而，仍然需要獲取負(fù)點(diǎn)云描述符以完成三元組。有兩種方法可以實(shí)現(xiàn)：
- 隨機(jī)選擇：從批次中隨機(jī)選擇一個(gè)與正點(diǎn)云不同的隨機(jī)點(diǎn)云描述符。
- 困難選擇：選擇與錨點(diǎn)圖像描述符相對(duì)距離較大的點(diǎn)云描述符以完成三元組。

到了這里，關(guān)于2D-3D配準(zhǔn)指南[方法匯總]【入門指導(dǎo)向】（一）問題介紹+LCD跨域描述子+Triplet loss的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

GIS大數(shù)據(jù)處理框架sedona(塞多納)編程入門指導(dǎo)
Apache Sedona?是一個(gè)用于處理大規(guī)?？臻g數(shù)據(jù)的集群計(jì)算系統(tǒng)。Sedona擴(kuò)展了現(xiàn)有的集群計(jì)算系統(tǒng)，如Apache Spark和Apache Flink，使用一組開箱即用的分布式空間數(shù)據(jù)集和空間SQL，可以有效地加載、處理和分析跨機(jī)器的大規(guī)?？臻g數(shù)據(jù)。碼云鏡像碼云sedona文檔持續(xù)更新中 common java核
2024年02月09日
瀏覽(25)
【Visual Studio 新手入門指導(dǎo)】包括項(xiàng)目創(chuàng)建、常用快捷鍵、美化、項(xiàng)目啟動(dòng)、添加文件等多種基礎(chǔ)操作，圖文詳細(xì)，準(zhǔn)確無誤
本文來自于作者在Visual Studio的使用過程中自己積累經(jīng)驗(yàn)的總結(jié)，主要介紹一些比較實(shí)用的技巧，適合新手入門使用。內(nèi)容追求細(xì)致、有用、基礎(chǔ)。 VS的每次運(yùn)行的是一個(gè)一個(gè)的項(xiàng)目（如果有多個(gè)項(xiàng)目，則每次執(zhí)行選定啟動(dòng)項(xiàng)目，后文有所介紹），但是不同項(xiàng)目在一起構(gòu)成一
2024年02月08日
瀏覽(32)
[點(diǎn)云配準(zhǔn)]LCD(2D-3D特征配準(zhǔn)算法)例程align_point_cloud.py解析
跨域描述符LCD可以實(shí)現(xiàn)二維圖片特征點(diǎn)到三維點(diǎn)云特征點(diǎn)的配準(zhǔn)，是個(gè)具有通用性的深度學(xué)習(xí)特征描述子。（圖片來源于論文 LCD: Learned Cross-Domain Descriptors for 2D-3D Matching ）在Github開源的源碼里面給出了利用LCD進(jìn)行三維點(diǎn)云配準(zhǔn) 的例程。align_point_cloud.py，這里對(duì)例程如何使用
2024年02月08日
瀏覽(28)
【視覺SLAM入門】5.2. 2D-3D PNP 3D-3D ICP BA非線性優(yōu)化方法數(shù)學(xué)方法SVD DLT
前置事項(xiàng)：該問題描述為：當(dāng)我們知道n 個(gè) 3D 空間點(diǎn)以及它們的投影位置時(shí)，如何估計(jì)相機(jī)所在的位姿 1.1.1 DLT(直接線性變換法) 解決的問題：已知空間點(diǎn) P = ( X , Y , Z , 1 ) T P = (X, Y, Z, 1)^T P = ( X , Y , Z , 1 ) T 和它投影點(diǎn) x 1 = ( u 1 , v 1 , 1 ) T x_1 = (u_1, v_1, 1)^T x 1 ? = ( u 1 ? , v 1
2024年02月12日
瀏覽(88)
配準(zhǔn)帶尺度點(diǎn)云的方法匯總
如果點(diǎn)集之間不存在縮放關(guān)系時(shí)(即尺度相同時(shí)), 可以用經(jīng)典ICP( Iterative Closest Point )方法求解得到旋轉(zhuǎn)矩陣R和平移向量t來進(jìn)行點(diǎn)集對(duì)齊。如果存在縮放關(guān)系時(shí)，首先估計(jì)出點(diǎn)集S1和S2之間的縮放倍數(shù)s, 我們就可以利用ICP算法求解。配準(zhǔn)兩組三維點(diǎn)集合步驟[參考]： ①找到一個(gè)
2024年02月01日
瀏覽(17)
CVPR2023最佳論文候選：3D點(diǎn)云配準(zhǔn)新方法
文章：3D Registration with Maximal Cliques 作者：Xiyu Zhang Jiaqi Yang* Shikun Zhang Yanning Zhang 編輯：點(diǎn)云PCL 代碼： https://github.com/zhangxy0517/3D-Registration-with-Maximal-Cliques.git 歡迎各位加入知識(shí)星球，獲取PDF論文，歡迎轉(zhuǎn)發(fā)朋友圈。文章僅做學(xué)術(shù)分享，如有侵權(quán)聯(lián)系刪文。公眾號(hào)致力于點(diǎn)云處
2024年02月08日
瀏覽(22)
【醫(yī)學(xué)影像數(shù)據(jù)處理】2D/3D patch的crop和merge操作匯總
在做 3D 分割任務(wù)中，多數(shù)的方法多采用整體縮放，或裁剪成一個(gè)個(gè)小的 patch 操作，這樣做的一個(gè)主要原因是內(nèi)存問題。還有就是有些目標(biāo)太小，比如分割結(jié)節(jié)，用整圖直接輸入網(wǎng)絡(luò)，正負(fù)樣本的不均衡是非常大的。相較于整體縮放，采用裁剪成 patch 的方法，對(duì)于小目標(biāo)會(huì)更
2024年02月11日
瀏覽(81)
高光譜圖像降噪方法（2D Wavelet, 3D Wavelet, FORPDN, HyRes等方法）
近年來，隨著遙感應(yīng)用的不斷深入，高光譜圖像研究已經(jīng)成為遙感領(lǐng)域發(fā)展最迅速的技術(shù)之一。與其他傳統(tǒng)成像技術(shù)相比，高光譜圖像具有更多優(yōu)勢(shì)：更豐富的信息量、納米級(jí)的光譜分辨率以及范圍更廣且連續(xù)的光譜。因此，在農(nóng)業(yè)、軍事、環(huán)境監(jiān)測(cè)和食品工業(yè)領(lǐng)域有著廣泛
2024年02月20日
瀏覽(29)
YOLO算法創(chuàng)新改進(jìn)系列項(xiàng)目匯總（入門級(jí)教程指南）
??一、主干網(wǎng)絡(luò)改進(jìn)（持續(xù)更新中）???? ??二、輕量化網(wǎng)絡(luò)（持續(xù)更新中）???? ??三、注意力機(jī)制（持續(xù)更新中）???? ??四、檢測(cè)頭部改進(jìn)（持續(xù)更新中）???? ??五、空間金字塔池化（持續(xù)更新中）???? ??六、損失函數(shù)及NMS改進(jìn)（持續(xù)更新中）???? ??七、其
2023年04月24日
瀏覽(61)
PCL - 3D點(diǎn)云配準(zhǔn)(registration)介紹
前面多篇博客都提到過，要善于從官網(wǎng)去熟悉一樣?xùn)|西。API部分詳細(xì)介紹見 Point Cloud Library (PCL): Module registration 這里博主主要借鑒Tutorial里內(nèi)容（博主整體都有看完） Introduction — Point Cloud Library 0.0 documentation 接下來主要跑下Registration中的sample例子一.直接運(yùn)行下How to use iter
2024年02月12日
瀏覽(26)

<rp id="yeji8"><noframes id="yeji8">

<label id="yeji8"><noframes id="yeji8">