国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

最新??!單目深度估計(jì)方向文獻(xiàn)綜述--Monocular Depth Estimation: A Thorough Review

這篇具有很好參考價(jià)值的文章主要介紹了最新!!單目深度估計(jì)方向文獻(xiàn)綜述--Monocular Depth Estimation: A Thorough Review。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

論文鏈接:https://ieeexplore.ieee.org/abstract/document/10313067

Abstract

一個(gè)是考慮人類深度感知的機(jī)制,另一個(gè)是包括各種深度學(xué)習(xí)方法。

這篇論文是關(guān)于單目深度估計(jì)(Monocular Depth Estimation)的全面綜述,由Vasileios Arampatzakis等人撰寫。單目深度估計(jì)是指從二維圖像中恢復(fù)三維場景的深度信息,這是一個(gè)在計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的問題。盡管已經(jīng)有許多研究,但這個(gè)問題仍然是一個(gè)研究熱點(diǎn),因?yàn)樗婕暗饺祟惿疃雀兄獧C(jī)制的理解以及深度學(xué)習(xí)技術(shù)的應(yīng)用。

以下是論文的核心內(nèi)容概述:

  1. 引言:介紹了深度估計(jì)的重要性和應(yīng)用領(lǐng)域,如圖像分割、自主導(dǎo)航、機(jī)器人手術(shù)輔助、人體姿態(tài)估計(jì)等。同時(shí)指出,盡管機(jī)器學(xué)習(xí)技術(shù)取得了進(jìn)步,但與人類的視覺感知相比仍有差距。

  2. 背景和相關(guān)工作:回顧了深度感知的歷史,從歐幾里得的光學(xué)理論到現(xiàn)代的深度估計(jì)方法。討論了人類深度感知的機(jī)制,包括相對(duì)大小、紋理密度、視覺高度、大氣透視、運(yùn)動(dòng)透視等視覺線索。

  3. 深度估計(jì)方法:詳細(xì)介紹了傳統(tǒng)的深度估計(jì)方法,如立體視覺、運(yùn)動(dòng)視差、聚焦度等,以及基于深度學(xué)習(xí)的單目深度估計(jì)方法。這些方法包括監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法。

  4. 網(wǎng)絡(luò)架構(gòu):探討了用于單目深度估計(jì)的各種網(wǎng)絡(luò)架構(gòu),包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、全卷積神經(jīng)網(wǎng)絡(luò)(FCN)、編碼器-解碼器(ED)、自編碼器(AE)、生成對(duì)抗網(wǎng)絡(luò)(GAN)和Transformer。

  5. 評(píng)估指標(biāo):介紹了用于評(píng)估深度圖預(yù)測性能的誤差函數(shù)和度量標(biāo)準(zhǔn),如絕對(duì)相對(duì)誤差(AbsRel)、平方相對(duì)誤差(SqRel)、均方根誤差(RMSE)等。

  6. 挑戰(zhàn)和局限性:討論了當(dāng)前方法的挑戰(zhàn),包括模型的可解釋性、數(shù)據(jù)多樣性和質(zhì)量、以及在復(fù)雜場景中的泛化能力。

  7. 未來方向:提出了未來研究的方向,包括利用視覺Transformer和注意力機(jī)制來提高深度估計(jì)的準(zhǔn)確性和可解釋性,以及改進(jìn)損失函數(shù)、超參數(shù)學(xué)習(xí)和內(nèi)在矩陣估計(jì)。

  8. 結(jié)論:總結(jié)了單目深度估計(jì)領(lǐng)域的當(dāng)前進(jìn)展,并強(qiáng)調(diào)了繼續(xù)研究的重要性,以解決現(xiàn)有方法的局限性并推動(dòng)該領(lǐng)域的發(fā)展。

這篇論文為單目深度估計(jì)領(lǐng)域提供了一個(gè)全面的視角,不僅回顧了過去十年的研究進(jìn)展,還指出了未來研究的潛在方向。

Introduction

  1. 引言:介紹了深度估計(jì)的重要性和應(yīng)用領(lǐng)域,如圖像分割、自主導(dǎo)航、機(jī)器人手術(shù)輔助、人體姿態(tài)估計(jì)等。同時(shí)指出,盡管機(jī)器學(xué)習(xí)取得了進(jìn)步,但與人類的視覺感知相比仍有差距。

場景空間結(jié)構(gòu)的R識(shí)別是機(jī)器視覺感知中的一個(gè)基本問題,通常稱為深度估計(jì)或重建。當(dāng)三維(3D)場景被投影到平面上時(shí),出現(xiàn)二維(2D)圖像。深度估計(jì)的目標(biāo)是解決逆問題,即重建與場景對(duì)象和觀看位置之間的距離相對(duì)應(yīng)的丟失的維度。到目前為止已經(jīng)提出的用于空間結(jié)構(gòu)的表示以及3D場景與其對(duì)應(yīng)的2D圖像之間的映射的方法屬于深度估計(jì)領(lǐng)域。

在文章中提到的“空間結(jié)構(gòu)的表示”(representation of the spatial structure)通常指的是在計(jì)算機(jī)視覺和圖像處理領(lǐng)域中,如何從二維圖像中恢復(fù)或推斷出三維場景的深度信息。這涉及到將圖像中的像素點(diǎn)映射到三維空間中的相應(yīng)位置,從而構(gòu)建出場景的三維模型。

在單目深度估計(jì)的背景下,空間結(jié)構(gòu)的表示主要關(guān)注以下幾個(gè)方面:

  1. 深度圖(Depth Map):這是從單目圖像中估計(jì)出的每個(gè)像素點(diǎn)到觀察者(相機(jī))的距離。深度圖是一個(gè)二維圖像,其中每個(gè)像素的值代表了對(duì)應(yīng)場景點(diǎn)的深度信息。

  2. 三維重建(3D Reconstruction):使用深度圖,可以將二維圖像中的每個(gè)像素點(diǎn)映射到三維空間中的一個(gè)點(diǎn)。這樣,就可以構(gòu)建出場景的三維表示,包括物體的形狀、大小和相互之間的空間關(guān)系。

  3. 視覺線索(Visual Cues):人類和計(jì)算機(jī)視覺系統(tǒng)利用視覺線索來感知深度。這些線索包括相對(duì)大小、紋理梯度、透視變形、遮擋關(guān)系等。在計(jì)算機(jī)視覺中,這些線索被用來從單目圖像中推斷深度信息。

  4. 深度感知機(jī)制(Depth Perception Mechanisms):文章提到了人類如何利用視覺線索來感知深度,這些機(jī)制可以啟發(fā)計(jì)算機(jī)視覺算法的設(shè)計(jì)。例如,通過模擬人眼的聚焦變化(調(diào)節(jié))或雙眼視差(雙眼視差)來估計(jì)深度。

  5. 深度估計(jì)方法(Depth Estimation Methods):這些方法試圖從單目圖像中恢復(fù)出深度信息。它們可能基于傳統(tǒng)的圖像處理技術(shù),如邊緣檢測、紋理分析,或者基于現(xiàn)代的深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和生成對(duì)抗網(wǎng)絡(luò)(GAN)。

在這篇綜述中,作者們探討了這些表示方法的最新進(jìn)展,以及它們?cè)诟鞣N應(yīng)用中的潛力和挑戰(zhàn)。

人類深度感知的理解,我們的眼睛接收到的圖像信息在大腦中被處理和比較,以幫助我們理解場景中各個(gè)物體的相對(duì)位置和距離。

“視覺線索”(visual cues)指的是一系列可以幫助我們判斷物體深度和場景布局的視覺特征。這些線索包括但不限于:

  • 相對(duì)大?。≧elative Size):遠(yuǎn)處的物體看起來比近處的同類物體小。

  • 紋理漸變(Texture Gradients):隨著距離的增加,紋理看起來更加密集。

  • 透視變形(Perspective):物體的尺寸和形狀隨著距離的增加而變化。

  • 遮擋(Occlusion):一個(gè)物體被另一個(gè)物體部分或完全遮擋。

  • 運(yùn)動(dòng)視差(Motion Parallax):當(dāng)觀察者移動(dòng)時(shí),遠(yuǎn)處的物體相對(duì)于近處的物體移動(dòng)得更慢。

  • 大氣透視(Aerial Perspective):遠(yuǎn)處的物體因?yàn)榇髿馍⑸涠@得更模糊、顏色更淡。

  • 雙眼視差(Binocular Disparity):由于兩只眼睛的位置不同,看到的同一物體略有差異,這種差異可以用來判斷深度

深度估計(jì)的幾種方法,其依賴于有限數(shù)量的深度線索,如立體聲、單目(例如,紋理變化,紋理梯度,霧度,對(duì)象的相對(duì)大小和遮擋),運(yùn)動(dòng)視差和焦點(diǎn)。理解觀察到的場景的絕對(duì)測量或相對(duì)深度估計(jì),這些方法之間存在根本區(qū)別。

絕對(duì)深度測量(Absolute Depth Estimation)和相對(duì)深度估計(jì)(Relative Depth Estimation)是計(jì)算機(jī)視覺和圖像處理中用于從圖像中推斷場景深度信息的兩種不同方法。它們的主要區(qū)別和聯(lián)系如下:

  1. 絕對(duì)深度測量

    1. 絕對(duì)深度測量的目標(biāo)是估計(jì)場景中每個(gè)像素點(diǎn)到觀察者(通常是相機(jī))的實(shí)際物理距離。

    2. 它提供了一個(gè)具有實(shí)際尺度的深度圖,可以用于精確測量物體的大小和場景的布局。

    3. 絕對(duì)深度測量通常需要額外的傳感器或設(shè)備,如立體相機(jī)、結(jié)構(gòu)光掃描儀或激光雷達(dá)(LiDAR),這些設(shè)備能夠提供額外的深度信息。

    4. 在沒有額外傳感器的情況下,實(shí)現(xiàn)絕對(duì)深度測量是非常具有挑戰(zhàn)性的,因?yàn)樗枰鉀Q尺度模糊性(Scale Ambiguity)問題。

  2. 相對(duì)深度估計(jì)

    1. 相對(duì)深度估計(jì)的目標(biāo)是確定場景中物體之間的相對(duì)位置關(guān)系,而不是它們的絕對(duì)距離。

    2. 它通常用于場景中物體的排序和分層,而不是精確測量物體的大小或距離。

    3. 相對(duì)深度估計(jì)可以通過單目圖像、運(yùn)動(dòng)信息或使用深度學(xué)習(xí)模型來實(shí)現(xiàn),這些模型可以從圖像內(nèi)容中學(xué)習(xí)深度線索。

    4. 相對(duì)深度估計(jì)在許多應(yīng)用中已經(jīng)足夠,如自動(dòng)駕駛車輛的障礙物檢測和避障,以及增強(qiáng)現(xiàn)實(shí)(AR)中的虛擬物體放置。

聯(lián)系

  • 盡管絕對(duì)深度測量和相對(duì)深度估計(jì)的目標(biāo)不同,但它們?cè)谀承┣闆r下可以相互補(bǔ)充。例如,在自動(dòng)駕駛系統(tǒng)中,相對(duì)深度估計(jì)可以用來快速識(shí)別和分類障礙物,而絕對(duì)深度測量則可以用來精確計(jì)算與障礙物的距離,以做出更精確的避障決策。

  • 在實(shí)際應(yīng)用中,相對(duì)深度估計(jì)往往更容易實(shí)現(xiàn),因?yàn)樗恍枰~外的傳感器,并且可以利用現(xiàn)有的圖像數(shù)據(jù)。然而,當(dāng)需要精確的三維重建或測量時(shí),絕對(duì)深度測量可能是必要的。

  • 深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN),可以同時(shí)用于絕對(duì)和相對(duì)深度估計(jì)。研究者們會(huì)根據(jù)具體的應(yīng)用需求和可用的數(shù)據(jù)類型選擇合適的方法。

過往文獻(xiàn)

[18]重點(diǎn)是績效評(píng)估和未來方向。比較了基于評(píng)估指標(biāo)的少數(shù)方法,并討論了自適應(yīng)方法的潛力,使用高效網(wǎng)絡(luò)架構(gòu)的高密度圖像深度估計(jì),以及復(fù)雜場景中準(zhǔn)確深度估計(jì)的挑戰(zhàn)。

[19]討論了卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)和單目深度估計(jì)的進(jìn)步需求。他們強(qiáng)調(diào)了有限數(shù)據(jù)集與地面實(shí)況的一般問題,并提出了未來研究的六個(gè)目標(biāo):準(zhǔn)確性,計(jì)算時(shí)間,分辨率質(zhì)量,實(shí)時(shí)推理,可轉(zhuǎn)移性和輸入數(shù)據(jù)形狀。

[20]五個(gè)主要挑戰(zhàn),包括網(wǎng)絡(luò)框架的集成和優(yōu)化、數(shù)據(jù)集構(gòu)建、處理動(dòng)態(tài)對(duì)象和遮擋、生成高分辨率深度圖以及實(shí)現(xiàn)實(shí)時(shí)性能。

[21]基于立體的深度估計(jì)的雙目方法。強(qiáng)調(diào)了兩個(gè)未來的方向:跨不同領(lǐng)域的推廣和方法對(duì)高分辨率圖像的適用性[22]討論了單目深度估計(jì)的未來發(fā)展沿著三個(gè)主軸:準(zhǔn)確性,可轉(zhuǎn)移性和實(shí)時(shí)性能。他們還強(qiáng)調(diào)了缺乏對(duì)基于深度學(xué)習(xí)的單目深度估計(jì)方法的底層機(jī)制的研究,例如了解它們利用了什么深度線索以及網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了什么。

存在問題

在基于深度學(xué)習(xí)的單目深度估計(jì)方法中,對(duì)于這些方法背后的基本原理和機(jī)制的研究還不夠充分。換句話說,盡管深度學(xué)習(xí)在單目深度估計(jì)領(lǐng)域取得了顯著的進(jìn)展,但研究者們對(duì)于這些深度學(xué)習(xí)模型是如何具體地從單目圖像中提取和利用深度信息的過程理解得還不夠深入。

這里的“underlying mechanisms”(基本原理和機(jī)制)可能包括以下幾個(gè)方面:

  1. 特征提取:深度學(xué)習(xí)模型是如何從輸入的單目圖像中識(shí)別和提取有助于深度估計(jì)的特征的。

  2. 深度線索的利用:模型是如何理解和利用人類視覺系統(tǒng)中的深度線索(如紋理漸變、相對(duì)大小、遮擋等)來進(jìn)行深度估計(jì)的。

  3. 網(wǎng)絡(luò)架構(gòu):不同的網(wǎng)絡(luò)架構(gòu)(如卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)等)在深度估計(jì)任務(wù)中的作用和效率。

  4. 訓(xùn)練過程:模型在訓(xùn)練過程中是如何學(xué)習(xí)到從圖像到深度圖的映射關(guān)系的。

  5. 泛化能力:模型在面對(duì)新的、未見過的場景時(shí),其深度估計(jì)的準(zhǔn)確性和魯棒性。

  6. 可解釋性:模型的決策過程是否透明,以及是否能夠解釋其預(yù)測結(jié)果。

由于深度學(xué)習(xí)模型通常被視為“黑箱”,其內(nèi)部工作機(jī)制往往不透明,這使得理解這些模型的工作原理變得復(fù)雜。因此,研究者們需要開展更多的研究來揭示這些模型的內(nèi)部機(jī)制,以便更好地理解它們的性能,改進(jìn)模型設(shè)計(jì),提高深度估計(jì)的準(zhǔn)確性和可靠性。

研究者們應(yīng)該探索AI模型在處理深度估計(jì)任務(wù)時(shí)所采用的方法和策略,并將這些方法與人類視覺系統(tǒng)處理深度信息的已知機(jī)制進(jìn)行比較。例如,人類依賴于多種視覺線索(如紋理、大小、遮擋等)來感知深度,而AI模型可能通過學(xué)習(xí)這些線索的模式來做出預(yù)測。

作者建議,未來的研究應(yīng)該朝著這個(gè)方向發(fā)展,即不僅關(guān)注AI模型的性能,還要關(guān)注其決策過程的透明度和可解釋性。這樣的研究可能有助于:

  1. 提高模型的準(zhǔn)確性:通過理解AI模型的工作原理,可以更好地調(diào)整和優(yōu)化模型,以提高其在深度估計(jì)任務(wù)中的準(zhǔn)確性。

  2. 增強(qiáng)模型的魯棒性:了解模型在何種情況下可能失敗,可以幫助研究者設(shè)計(jì)出更魯棒的模型,以應(yīng)對(duì)各種復(fù)雜場景。

  3. 促進(jìn)人機(jī)交互:如果AI模型的決策過程更加透明,用戶可能更容易理解和信任這些模型,從而在實(shí)際應(yīng)用中更愿意接受和使用AI技術(shù)。

  4. 促進(jìn)跨學(xué)科研究:將計(jì)算機(jī)視覺與認(rèn)知科學(xué)等領(lǐng)域的知識(shí)結(jié)合起來,可以推動(dòng)跨學(xué)科的研究,促進(jìn)對(duì)深度感知機(jī)制的深入理解。

背景和相關(guān)工作

人類深度感知

主要線索:

  1. 相對(duì)大?。≧elative Size):物體的視網(wǎng)膜投影大小與其實(shí)際大小成反比。通常,我們認(rèn)為在視網(wǎng)膜上投影較大的物體更近。

  2. 遮擋(Occlusion):當(dāng)一個(gè)物體部分或完全遮擋另一個(gè)物體時(shí),我們傾向于認(rèn)為遮擋物體更近。

  3. 紋理漸變(Texture Gradient):紋理密度隨著距離的增加而增加,這通常意味著物體越遠(yuǎn),其紋理看起來越密集。

  4. 透視變形(Perspective):隨著物體距離的增加,物體的尺寸在視網(wǎng)膜上的投影會(huì)減小,線條會(huì)收斂。

  5. 運(yùn)動(dòng)視差(Motion Parallax):當(dāng)觀察者移動(dòng)時(shí),遠(yuǎn)處的物體相對(duì)于近處的物體移動(dòng)得更慢,這種相對(duì)運(yùn)動(dòng)可以提供深度信息。

  6. 大氣透視(Aerial Perspective):由于大氣散射,遠(yuǎn)處的物體看起來更模糊,顏色更淡,對(duì)比度更低。

  7. 雙眼視差(Binocular Disparity):由于兩只眼睛的位置不同,它們看到的同一場景略有差異。大腦利用這些差異來估計(jì)物體的深度。

  8. 聚焦(Accommodation):眼睛的晶狀體調(diào)整形狀以保持不同距離物體的清晰視圖,這種調(diào)整過程提供了深度信息。

  9. 收斂(Convergence):為了保持雙眼對(duì)準(zhǔn)同一物體,眼睛會(huì)向內(nèi)轉(zhuǎn)動(dòng),這種轉(zhuǎn)動(dòng)的角度與物體的距離有關(guān)。

  10. 高度線索(Height in the Visual Field):物體在視覺場中的高度位置也提供了深度線索,通常物體越高,我們認(rèn)為它越遠(yuǎn)。

  11. 線性透視(Linear Perspective):在場景中,平行線(如鐵路軌道)會(huì)隨著距離的增加而逐漸靠攏,直至在遠(yuǎn)處消失。

  12. 亮度和陰影(Brightness and Shading):物體的亮度和陰影模式也可以提供關(guān)于其形狀和深度的線索。單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

次要線索:

特定條件下或在主要線索不足以提供充分深度信息時(shí),輔助我們進(jìn)行深度判斷的視覺特征。以下是一些次要深度線索:

  1. 紋理對(duì)比度:紋理的清晰度和對(duì)比度隨距離增加而降低,遠(yuǎn)處的紋理看起來不如近處的清晰。

  2. 顏色飽和度:顏色的飽和度通常在遠(yuǎn)處降低,這可以幫助我們判斷物體的遠(yuǎn)近。

  3. 細(xì)節(jié)清晰度:遠(yuǎn)處物體的細(xì)節(jié)不如近處物體清晰,這種模糊效應(yīng)有助于我們感知深度。

  4. 線性透視:除了物體尺寸的變化外,場景中的直線元素(如道路、鐵路)隨著距離的增加而匯聚,這種線性透視也提供了深度信息。

  5. 陰影和光照:物體的陰影和光照模式可以揭示物體的形狀和相對(duì)位置,從而幫助我們感知深度。

  6. 動(dòng)態(tài)線索:觀察者的運(yùn)動(dòng)或物體的運(yùn)動(dòng)可以提供深度線索,例如,當(dāng)物體移動(dòng)時(shí),我們可以通過其在場景中的相對(duì)位置變化來感知深度。

  7. 重力線索:物體的擺放和支撐方式通常遵循重力原則,這有助于我們理解物體的穩(wěn)定性和空間關(guān)系。

  8. 運(yùn)動(dòng)視差:除了雙眼運(yùn)動(dòng)視差外,單眼運(yùn)動(dòng)視差(如頭部或身體的移動(dòng))也提供了深度信息。

  9. 視覺流:當(dāng)觀察者移動(dòng)視線時(shí),場景中的物體相對(duì)于彼此的運(yùn)動(dòng)可以提供深度線索。

  10. 上下文線索:場景中的上下文信息,如物體的典型尺寸和已知的空間布局,可以幫助我們推斷物體的深度。

  11. 文化和經(jīng)驗(yàn):我們的文化背景和個(gè)人經(jīng)驗(yàn)也會(huì)影響我們對(duì)深度的感知,例如,我們可能會(huì)根據(jù)物體的常見用途和功能來推斷其在空間中的位置。單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

    單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

基準(zhǔn)數(shù)據(jù)集

深度數(shù)據(jù)可以用作用于最小化深度誤差估計(jì)的參考點(diǎn)。

大多數(shù)數(shù)據(jù)集在這方面是不完整的,稀疏深度值通常關(guān)于其配對(duì)場景來提供。

研究人員一直在使用可用的基準(zhǔn)數(shù)據(jù)集來訓(xùn)練他們的新方法(例如,通過使用單個(gè)增強(qiáng)數(shù)據(jù)集)或估計(jì)新方法的泛化能力(例如,通過在數(shù)據(jù)集A上訓(xùn)練和在數(shù)據(jù)集B上測試)。單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

評(píng)估指標(biāo)

在像素總數(shù)N中,對(duì)于每個(gè)像素i,地面實(shí)況深度被表示為di,并且其預(yù)測深度值被表示為di^

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

沒有單一的評(píng)估指標(biāo)能夠全面評(píng)價(jià)所有深度估計(jì)算法的性能。通常需要結(jié)合多個(gè)指標(biāo),根據(jù)具體的應(yīng)用需求和場景來綜合評(píng)價(jià)算法的好壞。在實(shí)際研究和開發(fā)中,研究者可能會(huì)根據(jù)實(shí)驗(yàn)結(jié)果和應(yīng)用目標(biāo)選擇最合適的評(píng)估指標(biāo)。尺度不變性(Scale Invariance)

  • 指標(biāo)應(yīng)該不受輸入圖像尺度變化的影響,特別是在深度估計(jì)中,尺度不變性是一個(gè)重要的特性。

  • RMSE(log)和sRMSE(log)等對(duì)數(shù)尺度的指標(biāo)通常具有更好的尺度不變性。

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

基于深度學(xué)習(xí)的單目深度估計(jì)

深度學(xué)習(xí)在深度估計(jì)任務(wù)中應(yīng)用的三種不同的學(xué)習(xí)范式進(jìn)行分類的方法。每種學(xué)習(xí)范式都有其獨(dú)特的特點(diǎn)和應(yīng)用場景:

  1. 監(jiān)督學(xué)習(xí)(Supervised Learning)

    1. 在監(jiān)督學(xué)習(xí)中,模型的訓(xùn)練需要大量的標(biāo)注數(shù)據(jù),即訓(xùn)練數(shù)據(jù)集包含輸入圖像和對(duì)應(yīng)的深度圖(ground truth)。

    2. 模型通過學(xué)習(xí)輸入圖像和深度圖之間的映射關(guān)系來進(jìn)行訓(xùn)練,目標(biāo)是最小化預(yù)測深度和真實(shí)深度之間的差異。

    3. 監(jiān)督學(xué)習(xí)通常能夠?qū)崿F(xiàn)較高的精度,但需要大量的標(biāo)注工作,這可能既耗時(shí)又昂貴。

  2. 自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)

    1. 自監(jiān)督學(xué)習(xí)不依賴于外部的標(biāo)注數(shù)據(jù)。相反,它利用數(shù)據(jù)本身的結(jié)構(gòu)和屬性來生成訓(xùn)練信號(hào)。

    2. 在深度估計(jì)的上下文中,自監(jiān)督學(xué)習(xí)可能利用圖像序列中的時(shí)間一致性(例如,連續(xù)幀之間的運(yùn)動(dòng))或圖像本身的幾何約束(例如,通過立體匹配或光流估計(jì))來訓(xùn)練模型。

    3. 自監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)在于減少了對(duì)標(biāo)注數(shù)據(jù)的依賴,但可能需要設(shè)計(jì)復(fù)雜的訓(xùn)練策略來確保模型學(xué)習(xí)到有用的深度信息。

  3. 半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning)

    1. 半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)之間。它結(jié)合了少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)。

    2. 在這種范式下,模型首先使用有限的標(biāo)注數(shù)據(jù)學(xué)習(xí)深度估計(jì)的初步模型,然后利用未標(biāo)注數(shù)據(jù)來進(jìn)一步改進(jìn)模型的性能。

    3. 半監(jiān)督學(xué)習(xí)的目標(biāo)是利用未標(biāo)注數(shù)據(jù)的豐富性來提高模型的泛化能力,同時(shí)減少對(duì)標(biāo)注數(shù)據(jù)的需求。

如果有足夠的標(biāo)注數(shù)據(jù),監(jiān)督學(xué)習(xí)可能是最佳選擇;如果標(biāo)注數(shù)據(jù)稀缺,自監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)可能更為合適。

監(jiān)督學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)?單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

自監(jiān)督學(xué)習(xí)

單目圖像序列可以用來從幀中提取幾何約束。

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

光度損失的最小化

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

半監(jiān)督學(xué)習(xí)

單目圖像的深度圖估計(jì):綜述,單目深度估計(jì),深度學(xué)習(xí)

根據(jù)學(xué)習(xí)方法的不同,這些方法分為三個(gè)主要組:監(jiān)督,自我監(jiān)督和半監(jiān)督。對(duì)這些方法進(jìn)行了單獨(dú)說明,并在比較表中列出了它們的性能。早期的方法,例如可以追溯到2014年的方法,主要依賴于傳統(tǒng)的CNN架構(gòu)。范式轉(zhuǎn)向了監(jiān)督域中的編碼器-解碼器架構(gòu),這一轉(zhuǎn)變促進(jìn)了更豐富的特征提取和上下文建模。同時(shí),自我監(jiān)督技術(shù)在實(shí)現(xiàn)更高性能時(shí)接受了GAN的集成。多年來,融合多個(gè)任務(wù)(例如表面法線估計(jì)與語義標(biāo)記)一直運(yùn)作良好,盡管這通常包括不同類型的數(shù)據(jù)和集成多個(gè)網(wǎng)絡(luò)。如今,一個(gè)新興的趨勢(shì)涉及視覺變換器在監(jiān)督和自我監(jiān)督方法中的應(yīng)用。

Challenges and Limitations

作者討論了單目深度估計(jì)領(lǐng)域當(dāng)前面臨的主要挑戰(zhàn)和局限性。以下是這一部分內(nèi)容的總結(jié):

  1. 模型可解釋性:深度學(xué)習(xí)模型在單目深度估計(jì)中通常被視為“黑盒”,這意味著它們的決策過程不透明,難以解釋。這導(dǎo)致了一個(gè)問題,即如何理解模型是如何從圖像中提取深度信息的,以及這些信息與人類視覺系統(tǒng)識(shí)別的深度線索(如紋理梯度、遮擋模式等)之間的關(guān)系。

  2. 數(shù)據(jù)多樣性和質(zhì)量:數(shù)據(jù)驅(qū)動(dòng)的方法依賴于訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。如果訓(xùn)練數(shù)據(jù)缺乏多樣性或質(zhì)量不高,模型可能無法泛化到新的、復(fù)雜的場景中。此外,單目深度估計(jì)方法在處理光學(xué)幻覺、反光/半透明物體和抽象表示等場景時(shí)可能會(huì)遇到深度預(yù)測的歧義。

  3. 數(shù)據(jù)集的局限性:現(xiàn)有的數(shù)據(jù)集可能無法完全覆蓋所有可能的現(xiàn)實(shí)世界場景,這限制了模型的泛化能力。為了確保模型在各種場景中都能準(zhǔn)確、可靠地工作,需要大型、多樣化且標(biāo)注良好的數(shù)據(jù)集。

  4. 深度估計(jì)的固有挑戰(zhàn):單目深度估計(jì)本身存在一些固有的挑戰(zhàn),如缺乏立體信息、尺度模糊和遮擋問題。這些挑戰(zhàn)強(qiáng)調(diào)了在實(shí)際應(yīng)用中需要模型具有魯棒性和可靠性。

未來方向

視覺變換器和注意力機(jī)制與解決單目深度估計(jì)挑戰(zhàn)高度相關(guān)。這些技術(shù)有望通過注意力地圖提供更好的可解釋性,揭示神經(jīng)網(wǎng)絡(luò)的深度感知過程及其與人類視覺線索的一致性。

未來的研究方向還包括細(xì)化損失函數(shù)超參數(shù)學(xué)習(xí)內(nèi)在矩陣估計(jì)。除了Transformer之外,圖卷積,知識(shí)蒸餾,3D卷積也有希望。幾何約束和語義集成,如多任務(wù)訓(xùn)練和幾何約束,可以提高性能。

目前階段研究方向?yàn)閱文可疃裙烙?jì),如需要更詳盡PPT歡迎交流文章來源地址http://www.zghlxwxcb.cn/news/detail-860408.html

到了這里,關(guān)于最新??!單目深度估計(jì)方向文獻(xiàn)綜述--Monocular Depth Estimation: A Thorough Review的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • NCNN----Monodepthv2單目深度估計(jì) 小米手機(jī)部署

    NCNN----Monodepthv2單目深度估計(jì) 小米手機(jī)部署

    題目要求:學(xué)習(xí)了解單目深度估計(jì)模型MonoDepthv2,基于NCNN推理框架部署到小米手機(jī) MonoDepthv2 論文:Digging Into Self-Supervised Monocular Depth Estimation MonoDepthv2 源碼:Monodepth2 GitHub 分析: 1)了解MonoDepthv2的基本原理和代碼理解 2)將模型轉(zhuǎn)化為更加方便高效的NCNN模型并在小米手機(jī)端完

    2024年02月03日
    瀏覽(20)
  • 最強(qiáng)無監(jiān)督單目深度估計(jì)Baseline--MonoViT--簡介與代碼復(fù)現(xiàn)

    最強(qiáng)無監(jiān)督單目深度估計(jì)Baseline--MonoViT--簡介與代碼復(fù)現(xiàn)

    ?? 單目深度估計(jì)是指,借助于深度神經(jīng)網(wǎng)絡(luò),從單張輸入視圖中推理場景的稠密深度信息;該技術(shù)可以廣泛用于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等依賴于三維場景感知理解的領(lǐng)域,同時(shí)也可以為其他視覺任務(wù)提供多模態(tài)深度信息,輔助其他任務(wù)感知的精確性。 ? 由于不需要

    2024年02月03日
    瀏覽(207)
  • 2022最新!視覺SLAM綜述(多傳感器/姿態(tài)估計(jì)/動(dòng)態(tài)環(huán)境/視覺里程計(jì))

    2022最新!視覺SLAM綜述(多傳感器/姿態(tài)估計(jì)/動(dòng)態(tài)環(huán)境/視覺里程計(jì))

    目錄 摘要 視覺SLAM算法的發(fā)展 相關(guān)綜述 VSLAM 設(shè)置標(biāo)準(zhǔn) 傳感器和數(shù)據(jù)采集 目標(biāo)環(huán)境 視覺特征處理 系統(tǒng)評(píng)估 語義等級(jí) 基于主要目標(biāo)的VSLAM方法 目標(biāo)一:多傳感器處理 目標(biāo)二:姿態(tài)估計(jì) 目標(biāo)三:現(xiàn)實(shí)世界可行性 目標(biāo)四:資源限制 目標(biāo)五:彈性化(Versatility) 目標(biāo)六:視覺里

    2023年04月20日
    瀏覽(22)
  • 論文閱讀《Robust Monocular Depth Estimation under Challenging Conditions》

    論文閱讀《Robust Monocular Depth Estimation under Challenging Conditions》

    論文地址:https://arxiv.org/pdf/2308.09711.pdf 源碼地址:https://github.com/md4all/md4all ??現(xiàn)有SOTA的單目估計(jì)方法在理想的環(huán)境下能得到滿意的結(jié)果,而在一些極端光照與天氣的情況下往往會(huì)失效。針對(duì)模型在極端條件下的表現(xiàn)不佳問題,文章提出一種用于解決這種安全問題的模型:

    2024年02月09日
    瀏覽(28)
  • Monocular 3D Object Detection with Depth from Motion 論文學(xué)習(xí)

    Monocular 3D Object Detection with Depth from Motion 論文學(xué)習(xí)

    論文鏈接:Monocular 3D Object Detection with Depth from Motion 從單目輸入感知 3D 目標(biāo)對(duì)于自動(dòng)駕駛非常重要,因?yàn)閱文?3D 的成本要比多傳感器的方案低許多。但單目方法很難取得令人滿意的效果,因?yàn)閱螐垐D像并沒有提供任何關(guān)于深度的信息,該方案實(shí)現(xiàn)起來非常困難。 Two view 場景

    2024年02月17日
    瀏覽(26)
  • 【論文閱讀】Digging Into Self-Supervised Monocular Depth Estimation

    【論文閱讀】Digging Into Self-Supervised Monocular Depth Estimation

    論文:https://arxiv.org/pdf/1806.01260.pdf 代碼:https://github.com/nianticlabs/monodepth2 A: 這篇論文試圖解決的問題是如何提高僅使用單目圖像進(jìn)行深度估計(jì)的性能。具體來說,它關(guān)注的是如何在沒有像素級(jí)地面真實(shí)深度數(shù)據(jù)的情況下,通過自監(jiān)督學(xué)習(xí)方法訓(xùn)練模型來生成高質(zhì)量的深度圖。

    2024年04月17日
    瀏覽(25)
  • 文獻(xiàn)學(xué)習(xí)-21-DaFoEs:混合數(shù)據(jù)集以推廣微創(chuàng)機(jī)器人手術(shù)中的視覺狀態(tài)深度學(xué)習(xí)力估計(jì)

    文獻(xiàn)學(xué)習(xí)-21-DaFoEs:混合數(shù)據(jù)集以推廣微創(chuàng)機(jī)器人手術(shù)中的視覺狀態(tài)深度學(xué)習(xí)力估計(jì)

    DaFoEs: Mixing Datasets Towards the Generalization of Vision-State Deep-Learning Force Estimation in Minimally Invasive Robotic Surgery Authors:? Mikel De Iturrate Reyzabal, Graduate Student Member, IEEE, Mingcong Chen, Wei Huang, Sebastien Ourselin, and Hongbin Liu Key words:? Deep learning in grasping and manipulation, surgical robotics: Laparoscopy, com

    2024年03月21日
    瀏覽(32)
  • Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

    Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

    論文鏈接 Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction 0. Abstract 盡管基于學(xué)習(xí)的方法在單視圖深度估計(jì)和視覺里程計(jì)方面顯示出有希望的結(jié)果,但大多數(shù)現(xiàn)有方法以監(jiān)督方式處理任務(wù)。最近的單視圖深度估計(jì)方法探索了通過最小化光度誤差在

    2024年03月10日
    瀏覽(43)
  • MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 論文解讀

    MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 論文解讀

    單目目標(biāo)檢測在自動(dòng)駕駛領(lǐng)域,一直是一個(gè)具有挑戰(zhàn)的任務(wù)?,F(xiàn)在大部分的方式都是沿用基于卷積的2D 檢測器,首先檢測物體中心,后通過中心附近的特征去預(yù)測3D屬性。 但是僅僅通過局部的特征去預(yù)測3D特征是不高效的,且并沒有考慮一些長距離的物體之間的深度關(guān)系,丟

    2024年02月09日
    瀏覽(24)
  • 論文精讀 《CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection》

    論文精讀 《CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection》

    研究動(dòng)機(jī):單目3D目標(biāo)檢測難以預(yù)測物體的深度 單目 3D 目標(biāo)檢測是自動(dòng)駕駛領(lǐng)域的一個(gè)關(guān)鍵問題,因?yàn)樗c典型的多傳感器系統(tǒng)相比配置比較簡單。 單目 3D 檢測的主要挑戰(zhàn)在于準(zhǔn)確預(yù)測物體深度 ,由于缺乏直接的距離測量,因此必須從物體和場景線索推斷出物體深度。許多

    2023年04月22日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包