Deep Learning Based 3D Segmentation: A Survey
ABSTRACT
????????三維分割是計算機視覺領域的一個基本而具有挑戰(zhàn)性的問題,可應用于自動駕駛、機器人、增強現(xiàn)實和醫(yī)學圖像分析。它受到了計算機視覺、圖形學和機器學習界的極大關注。傳統(tǒng)的三維分割方法基于手工創(chuàng)建的特征和機器學習分類器,缺乏泛化能力。在二維計算機視覺領域取得成功的推動下,深度學習技術最近已成為三維分割任務的首選工具。這導致文獻中出現(xiàn)了大量在不同基準數(shù)據(jù)集上進行評估的方法。雖然存在關于 RGB-D 和點云分割的調查論文,但缺乏涵蓋所有三維數(shù)據(jù)模式和應用領域的深入的最新調查。本文填補了這一空白,對基于深度學習的三維分割領域的最新進展進行了全面調查。它涵蓋了 180 多項研究成果,分析了它們的優(yōu)勢和局限性,并討論了它們在基準數(shù)據(jù)集上的競爭結果。調查總結了最常用的管道,最后強調了未來有前景的研究方向。
1. Introduction
????????三維場景分割是計算機視覺和計算機圖形學中的一個基本而又具有挑戰(zhàn)性的問題。三維分割的目標是建立能預測三維場景中物體細粒度標簽的計算技術,以廣泛應用于自動駕駛、移動機器人、工業(yè)控制、增強現(xiàn)實和醫(yī)學圖像分析等領域。如圖 1 所示,三維分割可分為三種類型:語義分割、實例分割和部分分割。語義分割旨在預測物體類別標簽,如桌子和椅子。實例分割還能區(qū)分同一類別標簽的不同實例,例如桌子一/二和椅子一/二。部件分割的目的是將實例進一步分解為不同的組件,如同一把椅子的扶手、椅腿和靠背。
????????與傳統(tǒng)的單視角二維分割相比,三維分割能更全面地了解場景,因為三維數(shù)據(jù)(如 RGB-D、點云、體素、網(wǎng)格、三維視頻)包含更豐富的幾何、形狀和比例信息,背景噪音更少。此外,三維數(shù)據(jù)的表示形式,例如投影圖像,具有更多的語義信息。
????????最近,深度學習技術在計算機視覺和自然語言處理等許多研究領域占據(jù)了主導地位。由于深度學習在學習強大特征方面的成功,用于三維分割的深度學習已在過去十年中,三維深度學習方法也吸引了研究界越來越多的關注。然而,三維深度學習方法仍面臨許多尚未解決的難題。例如,點云的不規(guī)則性使其難以利用局部特征,而將其轉換為高分辨率體素又會帶來巨大的計算負擔。
????????本文全面介紹了三維分割深度學習方法的最新進展。它重點分析了常用的構建模塊、卷積核和完整架構,指出了每種情況下的利弊。調查涵蓋了過去五年中發(fā)表的 180 多篇代表性論文。盡管已經(jīng)發(fā)布了一些著名的三維分割調查報告,包括 RGB-D 語義分割 Fooladgar遙感圖像分割 Yuan, Shi and Gu (2021),點云分割 Xie, Jiaojiao and Zhu (2020a),Guo, Wang, Hu, Liu, Liu and Bennamoun (2020),Liu, Sun, Li, Hu and Wang (2019a),Bello, Yu、Naseer、Khan 和 Porikli (2018)、Ioannidou、Chatzilari、Nikolopoulos 和 Kompatsiaris (2017),這些調查并沒有全面覆蓋所有三維數(shù)據(jù)類型和典型應用領域。最重要的是,這些調查并不側重于三維分割,而是對來自點云的深度學習進行了一般性調查,如 Guo 等人(2020 年)、Liu 等人(2019a)、Bello 等人(2020 年)、Naseer 等人(2018 年)、Ioannidou 等人(2017 年)。鑒于這三個分割任務的重要性,本文專門關注三維分割的深度學習技術。本文的貢獻總結如下:
1.據(jù)我們所知,這是第一篇全面介紹三維分割深度學習方法的調查論文,涵蓋了所有三維數(shù)據(jù)表示,包括 RGB-D、投影圖像、體素、點云、網(wǎng)格和三維視頻。
2.本調查報告深入分析了不同類型三維數(shù)據(jù)分割方法的相對優(yōu)缺點。
3.與現(xiàn)有的綜述不同,本調查報告?zhèn)戎赜趯槿S分割設計的深度學習方法,還討論了典型的分割管道和應用領域。
4.最后,本調查報告在幾個公共基準三維數(shù)據(jù)集上對現(xiàn)有方法進行了全面比較,得出了有趣的結論,并確定了有前途的未來研究方向。
????????圖 2 展示了本研究的組織結構。第 2 節(jié)介紹了一些術語和背景概念,包括流行的三維數(shù)據(jù)集和三維分割的評估指標。第 3 節(jié)回顧了三維語義分割方法,第 4 節(jié)回顧了三維實例分割方法。第 5 節(jié)介紹了現(xiàn)有的三維部件分割方法。第 6 節(jié)回顧了一些常見應用領域中使用的三維分割方法,包括三維視頻分割和三維語義地圖。第 7 節(jié)對幾種常用數(shù)據(jù)集上的三維分割方法進行了性能比較,并給出了相應的數(shù)據(jù)分析。最后,第 8 節(jié)指出了未來有前景的研究方向,并對本文進行了總結。
2. Terminology and Background Concept
????????本節(jié)將介紹一些術語和背景概念,包括三維數(shù)據(jù)表示、流行的三維分割數(shù)據(jù)集和評估指標,以幫助讀者輕松瀏覽三維分割領域。
2.1. 3D Segmentation Dataset
????????數(shù)據(jù)集對于利用深度學習訓練和測試三維分割算法至關重要。然而,私人收集和注釋數(shù)據(jù)集既麻煩又昂貴,因為這需要專業(yè)領域的知識、高質量的傳感器和處理設備。因此,利用公共數(shù)據(jù)集是降低成本的理想方法。對社區(qū)來說,采用這種方法還有另一個好處,即可以對各種算法進行公平比較。表 1 總結了一些最流行、最典型的數(shù)據(jù)集,涉及傳感器類型、數(shù)據(jù)大小和格式、場景類別和注釋方法。
????????這些數(shù)據(jù)集由不同類型的傳感器采集,用于 3D 語義分割,其中包括 RGB-D 攝像機Silberman 和 Fergus (2011),Silberman、Hoiem、Kohli 和 Fergus (2012),Song、Lichtenberg 和 Xiao (2015),Hua、Pham、Nguyen、Tran、Yu 和 Yeung (2016),Dai、Chang、Savva、Halber、Funkhouser和Nie?ner(2017),移動激光掃描儀Roynard、Deschaud和Goulette(2018),Behley、Garbade、Milioto、Quenzel、Behnke、Stachniss和Gall(2019),靜態(tài)地面掃描儀Hackel、Savinov、Ladicky、Wegner、Schindler 和 Pollefeys(2017)以及虛幻引擎 Brodeur、Perez、Anand、Golemo、Celotti、Strub、Rouat、Larochelle 和 Courville(2017)、Wu、Wu、Gkioxari和Tian(2018b)以及其他三維掃描儀 Armeni、Sener、Zamir、Jiang、Brilakis、Fischer和Savarese(2016),Chang、Dai、Funkhouser、Halber、Niebner、Savva、Song、Zeng和Zhang(2017)。其中,從虛幻引擎中獲得的是合成數(shù)據(jù)集 Brodeur 等人(2017) Wu 等人(2018b),不需要昂貴的設備或注釋時間。這些數(shù)據(jù)集還具有豐富的對象類別和數(shù)量。合成數(shù)據(jù)集擁有完整的 360 度 3D 物體,沒有遮擋效應或噪聲,而真實世界的數(shù)據(jù)集則存在噪聲并包含遮擋物 Silberman 和 Fergus (2011)、Silberman 等人 (2012)、Song 等人 (2015)、Hua 等人 (2016)、Dai 等人 (2017)、Roynard 等人 (2018)、Behley 等人 (2019)、Armeni 等人 (2016)、Hackel 等人 (2017)、Chang 等人 (2017)。在三維實例分割方面,有一些有限的三維數(shù)據(jù)集,如 ScanNet Dai 等人(2017 年)和 S3DIS Armeni 等人(2016 年)。這兩個數(shù)據(jù)集包含由 RGB-D 相機或 Matterport 分別獲得的真實世界室內(nèi)場景掃描。在三維部件分割方面,普林斯頓分割基準(PSB)Chen、Golovinskiy 和 Funkhouser(2009 年)、COSEG Wang、Asafi、Van Kaick、Zhang、Cohen-Or 和 Chen(2012 年)以及 ShapeNet Yi、Kim、Ceylan、Shen、Yan、Su、Lu、Huang、Sheffer 和 Guibas(2016 年)是最受歡迎的三個數(shù)據(jù)集。下面,我們將詳細介紹五個著名的分割數(shù)據(jù)集,包括 S3DIS Armeni 等人(2016 年)、ScanNet Dai 等人(2017 年)、Semantic3D Hackel 等人(2017 年)、SemanticKITTI Chang 等人(2017 年)和 ShapeNet Yi 等人(2016 年)。圖3顯示了這些數(shù)據(jù)集的一些注釋示例。
S3DIS:在該數(shù)據(jù)集中,使用 Matterport 掃描儀無需任何人工干預即可獲得完整的點云。該數(shù)據(jù)集由 271 個房間組成,隸屬于 3 座不同建筑的 6 個大型室內(nèi)場景(總面積達 6020 平方米)。這些區(qū)域主要包括辦公室、教育和展覽空間以及會議室等。
Semantic3D:包含利用靜態(tài)地面激光掃描儀采集的總計約40億個三維點,在現(xiàn)實世界的三維空間中覆蓋范圍最大可達160×240×30米。點云屬于8個類別(如城市和農(nóng)村),包含三維坐標、RGB信息和強度。與二維標注策略不同,三維數(shù)據(jù)標注很容易進行過度分割,即每個點都被單獨分配到一個類別標簽中。
SemanticKITTI:是一個大型室外數(shù)據(jù)集,包含28類詳細的按點注釋。在KITTI視覺基準Geiger、Lenz和Urtasun(2012年)的基礎上,SemanticKITTI包含了該基準所有22個序列的注釋,其中包括43K次掃描。此外,該數(shù)據(jù)集還包含旋轉激光傳感器的完整水平360視角的標簽。
ScanNet :數(shù)據(jù)集對場景理解研究特別有價值,因為其注釋包含估計的校準參數(shù)、相機姿勢、三維表面重建、紋理網(wǎng)格、密集的對象級語義分割和 CAD 模型。該數(shù)據(jù)集包括真實世界環(huán)境中帶有注釋的 RGB-D 掃描。在 707 個不同地點采集的 1513 次掃描中共有 250 萬張 RGB-D 圖像。在對 RGB-D 圖像進行處理后,使用 Amazon Mechanical Turk 執(zhí)行了注釋人工智能任務。
ShapeNet :數(shù)據(jù)集采用了一種可擴展的新方法,可對海量三維形狀集合進行高效、準確的幾何標注。新穎的技術創(chuàng)新明確地模擬并減少了標注工作的人力成本。研究人員在 ShapeNetCore 中的形狀類別中為 31963 個模型創(chuàng)建了詳細的按點標注,并將基于特征的分類器、點對點對應關系和形狀對形狀的相似性結合到對形狀網(wǎng)絡的單一 CRF 優(yōu)化中。
2.2. Evaluation Metrics
????????不同的評價指標可以證明分割方法的有效性和優(yōu)越性,包括執(zhí)行時間、內(nèi)存占用和準確性。然而,很少有作者提供有關其方法的執(zhí)行時間和內(nèi)存占用的詳細信息。本文主要介紹準確度指標。
????????對于三維語義分割來說,總體準確度(OAcc)、平均類別準確度(mAcc)和平均類別交集大于聯(lián)合(mIoU)是衡量分割方法準確度最常用的指標。為了便于解釋,我們假設總共有 K + 1 個類別,而 pij 是類別 i 中暗示屬于類別 j 的最小單位(如像素、體素、網(wǎng)格、點)。換句話說,pii 代表真陽性,而 pij 和 pji 分別代表假陽性和假陰性。
????????總體準確率是一個簡單的指標,計算的是真正被分類的樣本數(shù)量與樣本總數(shù)之間的比率。
????????平均準確度是對 OAcc 的擴展,計算每個類別的 OAcc,然后對類別總數(shù) K 求平均值。
????????平均交叉比聯(lián)合是語義分割的一個標準指標。它計算的是基本真實值和預測值之間的交集比率,以 K 類總數(shù)為平均值。
????????在三維實例分割中,還經(jīng)常使用平均精度(AP)和平均類精度(mAP)。假設 LI ,I∈ [0, K] 每類中的實例,而 cij 是實例 i 推斷屬于實例 j 的點的數(shù)量(i = j 代表正確分割,i≠ j 代表錯誤分割)。
?????????平均精度是另一個簡單的分割指標,它計算真陽性樣本與陽性樣本總數(shù)之間的比率。
平均值平均精度是 AP 的擴展,它先計算每個班級的 AP,然后對總的 AP 求平均值。
????????在三維零件分割中,最常用的是整體平均類別聯(lián)合交集(mIoUcat)和整體平均實例聯(lián)合交集(mIoUins)。為了便于解釋,我們假設每個實例中都有 MJ , J ∈ [0, LI ]個零件,而 qij 是零件 i 中被推斷為屬于零件 j 的點的總數(shù),因此 qii 代表真陽性的數(shù)量,而 qij 和 qji 分別是假陽性和假陰性。
????????總體平均類別交集大于聯(lián)盟是一個用于零件分割的評價指標,用于衡量 K 個類別的平均 IoU。
總體平均實例交集大于聯(lián)盟,用于部分分割,衡量所有實例的平均 IoU。文章來源:http://www.zghlxwxcb.cn/news/detail-828452.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-828452.html
到了這里,關于【最新綜述】史上最全面的3D語義分割綜述(上)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!