論文鏈接:https://ieeexplore.ieee.org/abstract/document/10313067
Abstract
一個(gè)是考慮人類深度感知的機(jī)制,另一個(gè)是包括各種深度學(xué)習(xí)方法。
這篇論文是關(guān)于單目深度估計(jì)(Monocular Depth Estimation)的全面綜述,由Vasileios Arampatzakis等人撰寫。單目深度估計(jì)是指從二維圖像中恢復(fù)三維場景的深度信息,這是一個(gè)在計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的問題。盡管已經(jīng)有許多研究,但這個(gè)問題仍然是一個(gè)研究熱點(diǎn),因?yàn)樗婕暗饺祟惿疃雀兄獧C(jī)制的理解以及深度學(xué)習(xí)技術(shù)的應(yīng)用。
以下是論文的核心內(nèi)容概述:
引言:介紹了深度估計(jì)的重要性和應(yīng)用領(lǐng)域,如圖像分割、自主導(dǎo)航、機(jī)器人手術(shù)輔助、人體姿態(tài)估計(jì)等。同時(shí)指出,盡管機(jī)器學(xué)習(xí)技術(shù)取得了進(jìn)步,但與人類的視覺感知相比仍有差距。
背景和相關(guān)工作:回顧了深度感知的歷史,從歐幾里得的光學(xué)理論到現(xiàn)代的深度估計(jì)方法。討論了人類深度感知的機(jī)制,包括相對(duì)大小、紋理密度、視覺高度、大氣透視、運(yùn)動(dòng)透視等視覺線索。
深度估計(jì)方法:詳細(xì)介紹了傳統(tǒng)的深度估計(jì)方法,如立體視覺、運(yùn)動(dòng)視差、聚焦度等,以及基于深度學(xué)習(xí)的單目深度估計(jì)方法。這些方法包括監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法。
網(wǎng)絡(luò)架構(gòu):探討了用于單目深度估計(jì)的各種網(wǎng)絡(luò)架構(gòu),包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、全卷積神經(jīng)網(wǎng)絡(luò)(FCN)、編碼器-解碼器(ED)、自編碼器(AE)、生成對(duì)抗網(wǎng)絡(luò)(GAN)和Transformer。
評(píng)估指標(biāo):介紹了用于評(píng)估深度圖預(yù)測性能的誤差函數(shù)和度量標(biāo)準(zhǔn),如絕對(duì)相對(duì)誤差(AbsRel)、平方相對(duì)誤差(SqRel)、均方根誤差(RMSE)等。
挑戰(zhàn)和局限性:討論了當(dāng)前方法的挑戰(zhàn),包括模型的可解釋性、數(shù)據(jù)多樣性和質(zhì)量、以及在復(fù)雜場景中的泛化能力。
未來方向:提出了未來研究的方向,包括利用視覺Transformer和注意力機(jī)制來提高深度估計(jì)的準(zhǔn)確性和可解釋性,以及改進(jìn)損失函數(shù)、超參數(shù)學(xué)習(xí)和內(nèi)在矩陣估計(jì)。
結(jié)論:總結(jié)了單目深度估計(jì)領(lǐng)域的當(dāng)前進(jìn)展,并強(qiáng)調(diào)了繼續(xù)研究的重要性,以解決現(xiàn)有方法的局限性并推動(dòng)該領(lǐng)域的發(fā)展。
這篇論文為單目深度估計(jì)領(lǐng)域提供了一個(gè)全面的視角,不僅回顧了過去十年的研究進(jìn)展,還指出了未來研究的潛在方向。
Introduction
引言:介紹了深度估計(jì)的重要性和應(yīng)用領(lǐng)域,如圖像分割、自主導(dǎo)航、機(jī)器人手術(shù)輔助、人體姿態(tài)估計(jì)等。同時(shí)指出,盡管機(jī)器學(xué)習(xí)取得了進(jìn)步,但與人類的視覺感知相比仍有差距。
場景空間結(jié)構(gòu)的R識(shí)別是機(jī)器視覺感知中的一個(gè)基本問題,通常稱為深度估計(jì)或重建。當(dāng)三維(3D)場景被投影到平面上時(shí),出現(xiàn)二維(2D)圖像。深度估計(jì)的目標(biāo)是解決逆問題,即重建與場景對(duì)象和觀看位置之間的距離相對(duì)應(yīng)的丟失的維度。到目前為止已經(jīng)提出的用于空間結(jié)構(gòu)的表示以及3D場景與其對(duì)應(yīng)的2D圖像之間的映射的方法屬于深度估計(jì)領(lǐng)域。
在文章中提到的“空間結(jié)構(gòu)的表示”(representation of the spatial structure)通常指的是在計(jì)算機(jī)視覺和圖像處理領(lǐng)域中,如何從二維圖像中恢復(fù)或推斷出三維場景的深度信息。這涉及到將圖像中的像素點(diǎn)映射到三維空間中的相應(yīng)位置,從而構(gòu)建出場景的三維模型。
在單目深度估計(jì)的背景下,空間結(jié)構(gòu)的表示主要關(guān)注以下幾個(gè)方面:
深度圖(Depth Map):這是從單目圖像中估計(jì)出的每個(gè)像素點(diǎn)到觀察者(相機(jī))的距離。深度圖是一個(gè)二維圖像,其中每個(gè)像素的值代表了對(duì)應(yīng)場景點(diǎn)的深度信息。
三維重建(3D Reconstruction):使用深度圖,可以將二維圖像中的每個(gè)像素點(diǎn)映射到三維空間中的一個(gè)點(diǎn)。這樣,就可以構(gòu)建出場景的三維表示,包括物體的形狀、大小和相互之間的空間關(guān)系。
視覺線索(Visual Cues):人類和計(jì)算機(jī)視覺系統(tǒng)利用視覺線索來感知深度。這些線索包括相對(duì)大小、紋理梯度、透視變形、遮擋關(guān)系等。在計(jì)算機(jī)視覺中,這些線索被用來從單目圖像中推斷深度信息。
深度感知機(jī)制(Depth Perception Mechanisms):文章提到了人類如何利用視覺線索來感知深度,這些機(jī)制可以啟發(fā)計(jì)算機(jī)視覺算法的設(shè)計(jì)。例如,通過模擬人眼的聚焦變化(調(diào)節(jié))或雙眼視差(雙眼視差)來估計(jì)深度。
深度估計(jì)方法(Depth Estimation Methods):這些方法試圖從單目圖像中恢復(fù)出深度信息。它們可能基于傳統(tǒng)的圖像處理技術(shù),如邊緣檢測、紋理分析,或者基于現(xiàn)代的深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和生成對(duì)抗網(wǎng)絡(luò)(GAN)。
在這篇綜述中,作者們探討了這些表示方法的最新進(jìn)展,以及它們?cè)诟鞣N應(yīng)用中的潛力和挑戰(zhàn)。
人類深度感知的理解,我們的眼睛接收到的圖像信息在大腦中被處理和比較,以幫助我們理解場景中各個(gè)物體的相對(duì)位置和距離。
“視覺線索”(visual cues)指的是一系列可以幫助我們判斷物體深度和場景布局的視覺特征。這些線索包括但不限于:
相對(duì)大?。≧elative Size):遠(yuǎn)處的物體看起來比近處的同類物體小。
紋理漸變(Texture Gradients):隨著距離的增加,紋理看起來更加密集。
透視變形(Perspective):物體的尺寸和形狀隨著距離的增加而變化。
遮擋(Occlusion):一個(gè)物體被另一個(gè)物體部分或完全遮擋。
運(yùn)動(dòng)視差(Motion Parallax):當(dāng)觀察者移動(dòng)時(shí),遠(yuǎn)處的物體相對(duì)于近處的物體移動(dòng)得更慢。
大氣透視(Aerial Perspective):遠(yuǎn)處的物體因?yàn)榇髿馍⑸涠@得更模糊、顏色更淡。
雙眼視差(Binocular Disparity):由于兩只眼睛的位置不同,看到的同一物體略有差異,這種差異可以用來判斷深度
深度估計(jì)的幾種方法,其依賴于有限數(shù)量的深度線索,如立體聲、單目(例如,紋理變化,紋理梯度,霧度,對(duì)象的相對(duì)大小和遮擋),運(yùn)動(dòng)視差和焦點(diǎn)。理解觀察到的場景的絕對(duì)測量或相對(duì)深度估計(jì),這些方法之間存在根本區(qū)別。
絕對(duì)深度測量(Absolute Depth Estimation)和相對(duì)深度估計(jì)(Relative Depth Estimation)是計(jì)算機(jī)視覺和圖像處理中用于從圖像中推斷場景深度信息的兩種不同方法。它們的主要區(qū)別和聯(lián)系如下:
絕對(duì)深度測量:
絕對(duì)深度測量的目標(biāo)是估計(jì)場景中每個(gè)像素點(diǎn)到觀察者(通常是相機(jī))的實(shí)際物理距離。
它提供了一個(gè)具有實(shí)際尺度的深度圖,可以用于精確測量物體的大小和場景的布局。
絕對(duì)深度測量通常需要額外的傳感器或設(shè)備,如立體相機(jī)、結(jié)構(gòu)光掃描儀或激光雷達(dá)(LiDAR),這些設(shè)備能夠提供額外的深度信息。
在沒有額外傳感器的情況下,實(shí)現(xiàn)絕對(duì)深度測量是非常具有挑戰(zhàn)性的,因?yàn)樗枰鉀Q尺度模糊性(Scale Ambiguity)問題。
相對(duì)深度估計(jì):
相對(duì)深度估計(jì)的目標(biāo)是確定場景中物體之間的相對(duì)位置關(guān)系,而不是它們的絕對(duì)距離。
它通常用于場景中物體的排序和分層,而不是精確測量物體的大小或距離。
相對(duì)深度估計(jì)可以通過單目圖像、運(yùn)動(dòng)信息或使用深度學(xué)習(xí)模型來實(shí)現(xiàn),這些模型可以從圖像內(nèi)容中學(xué)習(xí)深度線索。
相對(duì)深度估計(jì)在許多應(yīng)用中已經(jīng)足夠,如自動(dòng)駕駛車輛的障礙物檢測和避障,以及增強(qiáng)現(xiàn)實(shí)(AR)中的虛擬物體放置。
聯(lián)系:
盡管絕對(duì)深度測量和相對(duì)深度估計(jì)的目標(biāo)不同,但它們?cè)谀承┣闆r下可以相互補(bǔ)充。例如,在自動(dòng)駕駛系統(tǒng)中,相對(duì)深度估計(jì)可以用來快速識(shí)別和分類障礙物,而絕對(duì)深度測量則可以用來精確計(jì)算與障礙物的距離,以做出更精確的避障決策。
在實(shí)際應(yīng)用中,相對(duì)深度估計(jì)往往更容易實(shí)現(xiàn),因?yàn)樗恍枰~外的傳感器,并且可以利用現(xiàn)有的圖像數(shù)據(jù)。然而,當(dāng)需要精確的三維重建或測量時(shí),絕對(duì)深度測量可能是必要的。
深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN),可以同時(shí)用于絕對(duì)和相對(duì)深度估計(jì)。研究者們會(huì)根據(jù)具體的應(yīng)用需求和可用的數(shù)據(jù)類型選擇合適的方法。
過往文獻(xiàn)
[18]重點(diǎn)是績效評(píng)估和未來方向。比較了基于評(píng)估指標(biāo)的少數(shù)方法,并討論了自適應(yīng)方法的潛力,使用高效網(wǎng)絡(luò)架構(gòu)的高密度圖像深度估計(jì),以及復(fù)雜場景中準(zhǔn)確深度估計(jì)的挑戰(zhàn)。
[19]討論了卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)和單目深度估計(jì)的進(jìn)步需求。他們強(qiáng)調(diào)了有限數(shù)據(jù)集與地面實(shí)況的一般問題,并提出了未來研究的六個(gè)目標(biāo):準(zhǔn)確性,計(jì)算時(shí)間,分辨率質(zhì)量,實(shí)時(shí)推理,可轉(zhuǎn)移性和輸入數(shù)據(jù)形狀。
[20]五個(gè)主要挑戰(zhàn),包括網(wǎng)絡(luò)框架的集成和優(yōu)化、數(shù)據(jù)集構(gòu)建、處理動(dòng)態(tài)對(duì)象和遮擋、生成高分辨率深度圖以及實(shí)現(xiàn)實(shí)時(shí)性能。
[21]基于立體的深度估計(jì)的雙目方法。強(qiáng)調(diào)了兩個(gè)未來的方向:跨不同領(lǐng)域的推廣和方法對(duì)高分辨率圖像的適用性[22]討論了單目深度估計(jì)的未來發(fā)展沿著三個(gè)主軸:準(zhǔn)確性,可轉(zhuǎn)移性和實(shí)時(shí)性能。他們還強(qiáng)調(diào)了缺乏對(duì)基于深度學(xué)習(xí)的單目深度估計(jì)方法的底層機(jī)制的研究,例如了解它們利用了什么深度線索以及網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了什么。
存在問題
在基于深度學(xué)習(xí)的單目深度估計(jì)方法中,對(duì)于這些方法背后的基本原理和機(jī)制的研究還不夠充分。換句話說,盡管深度學(xué)習(xí)在單目深度估計(jì)領(lǐng)域取得了顯著的進(jìn)展,但研究者們對(duì)于這些深度學(xué)習(xí)模型是如何具體地從單目圖像中提取和利用深度信息的過程理解得還不夠深入。
這里的“underlying mechanisms”(基本原理和機(jī)制)可能包括以下幾個(gè)方面:
-
特征提取:深度學(xué)習(xí)模型是如何從輸入的單目圖像中識(shí)別和提取有助于深度估計(jì)的特征的。
-
深度線索的利用:模型是如何理解和利用人類視覺系統(tǒng)中的深度線索(如紋理漸變、相對(duì)大小、遮擋等)來進(jìn)行深度估計(jì)的。
-
網(wǎng)絡(luò)架構(gòu):不同的網(wǎng)絡(luò)架構(gòu)(如卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)等)在深度估計(jì)任務(wù)中的作用和效率。
-
訓(xùn)練過程:模型在訓(xùn)練過程中是如何學(xué)習(xí)到從圖像到深度圖的映射關(guān)系的。
-
泛化能力:模型在面對(duì)新的、未見過的場景時(shí),其深度估計(jì)的準(zhǔn)確性和魯棒性。
-
可解釋性:模型的決策過程是否透明,以及是否能夠解釋其預(yù)測結(jié)果。
由于深度學(xué)習(xí)模型通常被視為“黑箱”,其內(nèi)部工作機(jī)制往往不透明,這使得理解這些模型的工作原理變得復(fù)雜。因此,研究者們需要開展更多的研究來揭示這些模型的內(nèi)部機(jī)制,以便更好地理解它們的性能,改進(jìn)模型設(shè)計(jì),提高深度估計(jì)的準(zhǔn)確性和可靠性。
研究者們應(yīng)該探索AI模型在處理深度估計(jì)任務(wù)時(shí)所采用的方法和策略,并將這些方法與人類視覺系統(tǒng)處理深度信息的已知機(jī)制進(jìn)行比較。例如,人類依賴于多種視覺線索(如紋理、大小、遮擋等)來感知深度,而AI模型可能通過學(xué)習(xí)這些線索的模式來做出預(yù)測。
作者建議,未來的研究應(yīng)該朝著這個(gè)方向發(fā)展,即不僅關(guān)注AI模型的性能,還要關(guān)注其決策過程的透明度和可解釋性。這樣的研究可能有助于:
-
提高模型的準(zhǔn)確性:通過理解AI模型的工作原理,可以更好地調(diào)整和優(yōu)化模型,以提高其在深度估計(jì)任務(wù)中的準(zhǔn)確性。
-
增強(qiáng)模型的魯棒性:了解模型在何種情況下可能失敗,可以幫助研究者設(shè)計(jì)出更魯棒的模型,以應(yīng)對(duì)各種復(fù)雜場景。
-
促進(jìn)人機(jī)交互:如果AI模型的決策過程更加透明,用戶可能更容易理解和信任這些模型,從而在實(shí)際應(yīng)用中更愿意接受和使用AI技術(shù)。
-
促進(jìn)跨學(xué)科研究:將計(jì)算機(jī)視覺與認(rèn)知科學(xué)等領(lǐng)域的知識(shí)結(jié)合起來,可以推動(dòng)跨學(xué)科的研究,促進(jìn)對(duì)深度感知機(jī)制的深入理解。
背景和相關(guān)工作
人類深度感知
主要線索:
-
相對(duì)大?。≧elative Size):物體的視網(wǎng)膜投影大小與其實(shí)際大小成反比。通常,我們認(rèn)為在視網(wǎng)膜上投影較大的物體更近。
-
遮擋(Occlusion):當(dāng)一個(gè)物體部分或完全遮擋另一個(gè)物體時(shí),我們傾向于認(rèn)為遮擋物體更近。
-
紋理漸變(Texture Gradient):紋理密度隨著距離的增加而增加,這通常意味著物體越遠(yuǎn),其紋理看起來越密集。
-
透視變形(Perspective):隨著物體距離的增加,物體的尺寸在視網(wǎng)膜上的投影會(huì)減小,線條會(huì)收斂。
-
運(yùn)動(dòng)視差(Motion Parallax):當(dāng)觀察者移動(dòng)時(shí),遠(yuǎn)處的物體相對(duì)于近處的物體移動(dòng)得更慢,這種相對(duì)運(yùn)動(dòng)可以提供深度信息。
-
大氣透視(Aerial Perspective):由于大氣散射,遠(yuǎn)處的物體看起來更模糊,顏色更淡,對(duì)比度更低。
-
雙眼視差(Binocular Disparity):由于兩只眼睛的位置不同,它們看到的同一場景略有差異。大腦利用這些差異來估計(jì)物體的深度。
-
聚焦(Accommodation):眼睛的晶狀體調(diào)整形狀以保持不同距離物體的清晰視圖,這種調(diào)整過程提供了深度信息。
-
收斂(Convergence):為了保持雙眼對(duì)準(zhǔn)同一物體,眼睛會(huì)向內(nèi)轉(zhuǎn)動(dòng),這種轉(zhuǎn)動(dòng)的角度與物體的距離有關(guān)。
-
高度線索(Height in the Visual Field):物體在視覺場中的高度位置也提供了深度線索,通常物體越高,我們認(rèn)為它越遠(yuǎn)。
-
線性透視(Linear Perspective):在場景中,平行線(如鐵路軌道)會(huì)隨著距離的增加而逐漸靠攏,直至在遠(yuǎn)處消失。
-
亮度和陰影(Brightness and Shading):物體的亮度和陰影模式也可以提供關(guān)于其形狀和深度的線索。
次要線索:
特定條件下或在主要線索不足以提供充分深度信息時(shí),輔助我們進(jìn)行深度判斷的視覺特征。以下是一些次要深度線索:
-
紋理對(duì)比度:紋理的清晰度和對(duì)比度隨距離增加而降低,遠(yuǎn)處的紋理看起來不如近處的清晰。
-
顏色飽和度:顏色的飽和度通常在遠(yuǎn)處降低,這可以幫助我們判斷物體的遠(yuǎn)近。
-
細(xì)節(jié)清晰度:遠(yuǎn)處物體的細(xì)節(jié)不如近處物體清晰,這種模糊效應(yīng)有助于我們感知深度。
-
線性透視:除了物體尺寸的變化外,場景中的直線元素(如道路、鐵路)隨著距離的增加而匯聚,這種線性透視也提供了深度信息。
-
陰影和光照:物體的陰影和光照模式可以揭示物體的形狀和相對(duì)位置,從而幫助我們感知深度。
-
動(dòng)態(tài)線索:觀察者的運(yùn)動(dòng)或物體的運(yùn)動(dòng)可以提供深度線索,例如,當(dāng)物體移動(dòng)時(shí),我們可以通過其在場景中的相對(duì)位置變化來感知深度。
-
重力線索:物體的擺放和支撐方式通常遵循重力原則,這有助于我們理解物體的穩(wěn)定性和空間關(guān)系。
-
運(yùn)動(dòng)視差:除了雙眼運(yùn)動(dòng)視差外,單眼運(yùn)動(dòng)視差(如頭部或身體的移動(dòng))也提供了深度信息。
-
視覺流:當(dāng)觀察者移動(dòng)視線時(shí),場景中的物體相對(duì)于彼此的運(yùn)動(dòng)可以提供深度線索。
-
上下文線索:場景中的上下文信息,如物體的典型尺寸和已知的空間布局,可以幫助我們推斷物體的深度。
-
文化和經(jīng)驗(yàn):我們的文化背景和個(gè)人經(jīng)驗(yàn)也會(huì)影響我們對(duì)深度的感知,例如,我們可能會(huì)根據(jù)物體的常見用途和功能來推斷其在空間中的位置。
基準(zhǔn)數(shù)據(jù)集
深度數(shù)據(jù)可以用作用于最小化深度誤差估計(jì)的參考點(diǎn)。
大多數(shù)數(shù)據(jù)集在這方面是不完整的,稀疏深度值通常關(guān)于其配對(duì)場景來提供。
研究人員一直在使用可用的基準(zhǔn)數(shù)據(jù)集來訓(xùn)練他們的新方法(例如,通過使用單個(gè)增強(qiáng)數(shù)據(jù)集)或估計(jì)新方法的泛化能力(例如,通過在數(shù)據(jù)集A上訓(xùn)練和在數(shù)據(jù)集B上測試)。
評(píng)估指標(biāo)
在像素總數(shù)N中,對(duì)于每個(gè)像素i,地面實(shí)況深度被表示為di,并且其預(yù)測深度值被表示為di^
沒有單一的評(píng)估指標(biāo)能夠全面評(píng)價(jià)所有深度估計(jì)算法的性能。通常需要結(jié)合多個(gè)指標(biāo),根據(jù)具體的應(yīng)用需求和場景來綜合評(píng)價(jià)算法的好壞。在實(shí)際研究和開發(fā)中,研究者可能會(huì)根據(jù)實(shí)驗(yàn)結(jié)果和應(yīng)用目標(biāo)選擇最合適的評(píng)估指標(biāo)。尺度不變性(Scale Invariance):
-
指標(biāo)應(yīng)該不受輸入圖像尺度變化的影響,特別是在深度估計(jì)中,尺度不變性是一個(gè)重要的特性。
-
RMSE(log)和sRMSE(log)等對(duì)數(shù)尺度的指標(biāo)通常具有更好的尺度不變性。
基于深度學(xué)習(xí)的單目深度估計(jì)
深度學(xué)習(xí)在深度估計(jì)任務(wù)中應(yīng)用的三種不同的學(xué)習(xí)范式進(jìn)行分類的方法。每種學(xué)習(xí)范式都有其獨(dú)特的特點(diǎn)和應(yīng)用場景:
-
監(jiān)督學(xué)習(xí)(Supervised Learning):
-
在監(jiān)督學(xué)習(xí)中,模型的訓(xùn)練需要大量的標(biāo)注數(shù)據(jù),即訓(xùn)練數(shù)據(jù)集包含輸入圖像和對(duì)應(yīng)的深度圖(ground truth)。
-
模型通過學(xué)習(xí)輸入圖像和深度圖之間的映射關(guān)系來進(jìn)行訓(xùn)練,目標(biāo)是最小化預(yù)測深度和真實(shí)深度之間的差異。
-
監(jiān)督學(xué)習(xí)通常能夠?qū)崿F(xiàn)較高的精度,但需要大量的標(biāo)注工作,這可能既耗時(shí)又昂貴。
-
-
自監(jiān)督學(xué)習(xí)(Self-Supervised Learning):
-
自監(jiān)督學(xué)習(xí)不依賴于外部的標(biāo)注數(shù)據(jù)。相反,它利用數(shù)據(jù)本身的結(jié)構(gòu)和屬性來生成訓(xùn)練信號(hào)。
-
在深度估計(jì)的上下文中,自監(jiān)督學(xué)習(xí)可能利用圖像序列中的時(shí)間一致性(例如,連續(xù)幀之間的運(yùn)動(dòng))或圖像本身的幾何約束(例如,通過立體匹配或光流估計(jì))來訓(xùn)練模型。
-
自監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)在于減少了對(duì)標(biāo)注數(shù)據(jù)的依賴,但可能需要設(shè)計(jì)復(fù)雜的訓(xùn)練策略來確保模型學(xué)習(xí)到有用的深度信息。
-
-
半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning):
-
半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)之間。它結(jié)合了少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)。
-
在這種范式下,模型首先使用有限的標(biāo)注數(shù)據(jù)學(xué)習(xí)深度估計(jì)的初步模型,然后利用未標(biāo)注數(shù)據(jù)來進(jìn)一步改進(jìn)模型的性能。
-
半監(jiān)督學(xué)習(xí)的目標(biāo)是利用未標(biāo)注數(shù)據(jù)的豐富性來提高模型的泛化能力,同時(shí)減少對(duì)標(biāo)注數(shù)據(jù)的需求。
-
如果有足夠的標(biāo)注數(shù)據(jù),監(jiān)督學(xué)習(xí)可能是最佳選擇;如果標(biāo)注數(shù)據(jù)稀缺,自監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)可能更為合適。
監(jiān)督學(xué)習(xí)
?
自監(jiān)督學(xué)習(xí)
單目圖像序列可以用來從幀中提取幾何約束。
光度損失的最小化
半監(jiān)督學(xué)習(xí)
根據(jù)學(xué)習(xí)方法的不同,這些方法分為三個(gè)主要組:監(jiān)督,自我監(jiān)督和半監(jiān)督。對(duì)這些方法進(jìn)行了單獨(dú)說明,并在比較表中列出了它們的性能。早期的方法,例如可以追溯到2014年的方法,主要依賴于傳統(tǒng)的CNN架構(gòu)。范式轉(zhuǎn)向了監(jiān)督域中的編碼器-解碼器架構(gòu),這一轉(zhuǎn)變促進(jìn)了更豐富的特征提取和上下文建模。同時(shí),自我監(jiān)督技術(shù)在實(shí)現(xiàn)更高性能時(shí)接受了GAN的集成。多年來,融合多個(gè)任務(wù)(例如表面法線估計(jì)與語義標(biāo)記)一直運(yùn)作良好,盡管這通常包括不同類型的數(shù)據(jù)和集成多個(gè)網(wǎng)絡(luò)。如今,一個(gè)新興的趨勢(shì)涉及視覺變換器在監(jiān)督和自我監(jiān)督方法中的應(yīng)用。
Challenges and Limitations
作者討論了單目深度估計(jì)領(lǐng)域當(dāng)前面臨的主要挑戰(zhàn)和局限性。以下是這一部分內(nèi)容的總結(jié):
-
模型可解釋性:深度學(xué)習(xí)模型在單目深度估計(jì)中通常被視為“黑盒”,這意味著它們的決策過程不透明,難以解釋。這導(dǎo)致了一個(gè)問題,即如何理解模型是如何從圖像中提取深度信息的,以及這些信息與人類視覺系統(tǒng)識(shí)別的深度線索(如紋理梯度、遮擋模式等)之間的關(guān)系。
-
數(shù)據(jù)多樣性和質(zhì)量:數(shù)據(jù)驅(qū)動(dòng)的方法依賴于訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。如果訓(xùn)練數(shù)據(jù)缺乏多樣性或質(zhì)量不高,模型可能無法泛化到新的、復(fù)雜的場景中。此外,單目深度估計(jì)方法在處理光學(xué)幻覺、反光/半透明物體和抽象表示等場景時(shí)可能會(huì)遇到深度預(yù)測的歧義。
-
數(shù)據(jù)集的局限性:現(xiàn)有的數(shù)據(jù)集可能無法完全覆蓋所有可能的現(xiàn)實(shí)世界場景,這限制了模型的泛化能力。為了確保模型在各種場景中都能準(zhǔn)確、可靠地工作,需要大型、多樣化且標(biāo)注良好的數(shù)據(jù)集。
-
深度估計(jì)的固有挑戰(zhàn):單目深度估計(jì)本身存在一些固有的挑戰(zhàn),如缺乏立體信息、尺度模糊和遮擋問題。這些挑戰(zhàn)強(qiáng)調(diào)了在實(shí)際應(yīng)用中需要模型具有魯棒性和可靠性。
未來方向
視覺變換器和注意力機(jī)制與解決單目深度估計(jì)挑戰(zhàn)高度相關(guān)。這些技術(shù)有望通過注意力地圖提供更好的可解釋性,揭示神經(jīng)網(wǎng)絡(luò)的深度感知過程及其與人類視覺線索的一致性。
未來的研究方向還包括細(xì)化損失函數(shù),超參數(shù)學(xué)習(xí)和內(nèi)在矩陣估計(jì)。除了Transformer之外,圖卷積,知識(shí)蒸餾,3D卷積也有希望。幾何約束和語義集成,如多任務(wù)訓(xùn)練和幾何約束,可以提高性能。文章來源:http://www.zghlxwxcb.cn/news/detail-860408.html
目前階段研究方向?yàn)閱文可疃裙烙?jì),如需要更詳盡PPT歡迎交流文章來源地址http://www.zghlxwxcb.cn/news/detail-860408.html
到了這里,關(guān)于最新??!單目深度估計(jì)方向文獻(xiàn)綜述--Monocular Depth Estimation: A Thorough Review的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!