原創(chuàng) | 文 BFT機(jī)器人?
大型的、有標(biāo)記的數(shù)據(jù)集的可用性是為了利用做有監(jiān)督的深度學(xué)習(xí)方法的一個(gè)關(guān)鍵要求。但是在RGB-D場(chǎng)景理解的背景下,可用的數(shù)據(jù)非常少,通常是當(dāng)前的數(shù)據(jù)集覆蓋了一小范圍的場(chǎng)景視圖,并且具有有限的語(yǔ)義注釋。
為了解決這個(gè)問(wèn)題,本文介紹了一個(gè)ScanNet的大規(guī)模室內(nèi)場(chǎng)景3D重建和語(yǔ)義分割數(shù)據(jù)集。該數(shù)據(jù)集包含1513個(gè)室內(nèi)場(chǎng)景的2.5M視角,具有3D相機(jī)姿態(tài)、表面重建和語(yǔ)義分割的注釋。并且為了收集這些數(shù)據(jù),設(shè)計(jì)了一個(gè)易于使用和可伸縮的RGB-D捕獲系統(tǒng),其中包括自動(dòng)表面重建和眾包語(yǔ)義注釋。實(shí)驗(yàn)結(jié)果表明使用這些數(shù)據(jù)有助于在幾個(gè)三維場(chǎng)景理解任務(wù)上實(shí)現(xiàn)最先進(jìn)的性能,表現(xiàn)在三維對(duì)象分類、語(yǔ)義體素標(biāo)記和CAD模型檢索幾個(gè)方面。
背景
BACKDROP
隨著RGB-D傳感器的引入以來(lái),3D幾何捕獲領(lǐng)域獲得了廣泛的關(guān)注,并開辟了廣泛的新應(yīng)用。在三維重建算法上已經(jīng)有了大量的努力,但利用RGB-D數(shù)據(jù)進(jìn)行的一般三維場(chǎng)景理解最近才開始流行起來(lái)。隨著現(xiàn)代機(jī)器學(xué)習(xí)方法的快速發(fā)展,如神經(jīng)網(wǎng)絡(luò)模型,也大大促進(jìn)了對(duì)語(yǔ)義理解的研究。
本文建立了一個(gè)來(lái)幫助初學(xué)者獲得語(yǔ)義標(biāo)記的場(chǎng)景3D模型。人們使用安裝有深度攝像頭的iPad上的一個(gè)應(yīng)用程序來(lái)獲取RGB-D視頻,然后后臺(tái)離線處理數(shù)據(jù),并返回一個(gè)完整的語(yǔ)義標(biāo)記的場(chǎng)景3D重建。確實(shí)開發(fā)這樣一個(gè)框架的挑戰(zhàn)是眾多的,包括如何穩(wěn)健地執(zhí)行三維表面重建,以及如何眾包語(yǔ)義標(biāo)記。對(duì)這些問(wèn)題的研究,并記錄了在擴(kuò)大RGB-D掃描收集(20人)和注釋(500名人群工作者)方面的經(jīng)驗(yàn)。
研究
STUDY
RGB-D重建和語(yǔ)義注釋框架的概述。左圖:一個(gè)新手用戶使用一個(gè)手持RGB-D設(shè)備與我們的掃描界面來(lái)掃描一個(gè)環(huán)境。中間:RGB-D序列被上傳到一個(gè)處理服務(wù)器,該服務(wù)器生成三維表面網(wǎng)格重建及其表面分割。右圖為發(fā)布語(yǔ)義注釋任務(wù)進(jìn)行眾包,獲得實(shí)例級(jí)對(duì)象類別注釋和三維CAD模型對(duì)齊重建。使用ScanNet提供的數(shù)據(jù)對(duì)三維深度網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,并測(cè)試了它們?cè)趲讉€(gè)場(chǎng)景理解任務(wù)上的性能,包括三維對(duì)象分類、語(yǔ)義體素標(biāo)記和CAD模型檢索。對(duì)于語(yǔ)義體素標(biāo)記任務(wù),本文引入了一種新的體積CNN架構(gòu)。
在校準(zhǔn)時(shí),本文使用RGB-D傳感器需要解除深度數(shù)據(jù)的扭曲和深度和顏色數(shù)據(jù)的對(duì)齊。先前的研究工作主要集中在具有更精確設(shè)備的控制實(shí)驗(yàn)室條件上,以告知商品傳感器的校準(zhǔn)。然而這對(duì)于新手用戶來(lái)說(shuō)是不實(shí)用的。因此,用戶只需要打印出一個(gè)棋盤圖案,將它放在一個(gè)大的、平坦的表面上,并捕獲一個(gè)從近距離觀察表面的RGB-D序列。這個(gè)序列,以及一組查看棋盤格的紅外線和彩色幀對(duì),由用戶上傳作為校準(zhǔn)的輸入,我們的系統(tǒng)運(yùn)行一個(gè)校準(zhǔn)程序,以獲得深度和顏色傳感器的內(nèi)在參數(shù),以及深度到顏色的外部轉(zhuǎn)換。
我們發(fā)現(xiàn),這種校準(zhǔn)程序易于用戶,結(jié)果改善數(shù)據(jù),從而提高重建質(zhì)量。本文研究選擇了捆綁融合(BundleFusion)系統(tǒng),因?yàn)樗窃O(shè)計(jì)和評(píng)估類似的傳感器設(shè)置,并提供實(shí)時(shí)速度,同時(shí)相當(dāng)穩(wěn)健的給定手持RGBD視頻數(shù)據(jù)。在驗(yàn)證過(guò)程時(shí)候,當(dāng)掃描上傳到處理服務(wù)器并在無(wú)監(jiān)督下運(yùn)行時(shí),將自動(dòng)觸發(fā)此重建過(guò)程。為了建立一個(gè)干凈的快照來(lái)構(gòu)建本文報(bào)道的ScanNet數(shù)據(jù)集,自動(dòng)丟棄了較短、殘差重建誤差高或?qū)R幀比例低的掃描序列。然后我們手動(dòng)檢查和丟棄有明顯失調(diào)的重建。
結(jié)論
CONCLUSION
文中還討論了如何在可擴(kuò)展的流水線中進(jìn)行3D表面重建和如何進(jìn)行眾包語(yǔ)義標(biāo)注的問(wèn)題,并介紹了使用ScanNet數(shù)據(jù)進(jìn)行3D場(chǎng)景理解任務(wù)的最新技術(shù)和結(jié)果。文章中在可擴(kuò)展的流水線中使用一種新的體積卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),用于解決語(yǔ)義體素標(biāo)注任務(wù)。結(jié)果表明,使用ScanNet數(shù)據(jù)可以獲得比現(xiàn)有數(shù)據(jù)集更好的性能,這證明了ScanNet數(shù)據(jù)集的重要性和實(shí)用性,該數(shù)據(jù)集還包括紋理網(wǎng)格、密集的物體級(jí)別語(yǔ)義分割和對(duì)齊的CAD模型。3D模型是使用RGB-D捕捉系統(tǒng)重建的,其中包括自動(dòng)表面重建和眾包語(yǔ)義注釋。
語(yǔ)義分割比任何先前的RGB-D數(shù)據(jù)集都要大一個(gè)數(shù)量級(jí)。模型使用估計(jì)的校準(zhǔn)參數(shù)、相機(jī)姿態(tài)、3D表面重建、紋理網(wǎng)格、密集的物體級(jí)別語(yǔ)義分割和對(duì)齊的CAD模型進(jìn)行注釋。這使得ScanNet成為場(chǎng)景理解研究的寶貴資源。。此外還提供了新的RGB-D基準(zhǔn)和改進(jìn)的結(jié)果,這些結(jié)果可以用于3D對(duì)象分類、語(yǔ)義體素標(biāo)注和CAD模型檢索等場(chǎng)景理解任務(wù)。
作者 |?ZZY
排版?|?春花
審核?|?貓文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-678726.html
若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)于我們聯(lián)系,將及時(shí)回應(yīng)。如果想要了解更多的前沿資訊,記得點(diǎn)贊關(guān)注哦~文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-678726.html
到了這里,關(guān)于論文解讀 | ScanNet:室內(nèi)場(chǎng)景的豐富注釋3D重建的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!