Github: https://github.com/LiheYoung/Depth-Anything
2024年 TikTok 實(shí)習(xí)生的工作
主要內(nèi)容
這篇論文提出了一個(gè)使用的方案,用于魯棒的單目深度估計(jì),Depth Anything
論文的模型結(jié)構(gòu)沒(méi)有創(chuàng)新(Transformer),主要貢獻(xiàn)在于
- 探索了簡(jiǎn)單有效的數(shù)據(jù)擴(kuò)展方式(如何有效利用大量的無(wú)標(biāo)簽數(shù)據(jù)
- 從預(yù)訓(xùn)練模型繼承語(yǔ)義(使用凍結(jié)的 DINOv2 進(jìn)行特征約束
論文的方法在各中深度估計(jì)數(shù)據(jù)集上都取得了SOTA
故事邏輯
- 通過(guò)在大量數(shù)據(jù)上預(yù)訓(xùn)練得到的基礎(chǔ)模型,在各種下游任務(wù)上,表現(xiàn)出了強(qiáng)大的zero-/few- shot 能力。這一定程度上依賴于大規(guī)模的訓(xùn)練數(shù)據(jù)(當(dāng)然也包括強(qiáng)大的并行計(jì)算能力以及龐大的模型,對(duì)于深度估計(jì)這一領(lǐng)域來(lái)說(shuō),強(qiáng)調(diào)了大規(guī)模的訓(xùn)練數(shù)據(jù)的重要性)。
- 單目深度估計(jì)領(lǐng)域同樣需要一個(gè)這樣的基礎(chǔ)模型,但是受限于深度估計(jì)數(shù)據(jù)集有限且難以獲得
傳統(tǒng)的深度估計(jì)數(shù)據(jù)集,通過(guò) sensors, stereo matching, SfM 等方式獲得,花費(fèi)大,耗時(shí)且難以處理
-
論文關(guān)注大規(guī)模的無(wú)標(biāo)簽數(shù)據(jù)
- 數(shù)據(jù)簡(jiǎn)單廉價(jià),容易獲取
- 多樣性,圖像場(chǎng)景更豐富
- 容易標(biāo)注(使用預(yù)訓(xùn)練的單目深度估計(jì)模型標(biāo)注偽標(biāo)簽
-
類似于SAM的自動(dòng)標(biāo)注過(guò)程(SAM 有人工微調(diào)的過(guò)程,DAM沒(méi)有)
- 收集了深度估計(jì)公開(kāi)數(shù)據(jù)集以及大量無(wú)標(biāo)簽數(shù)據(jù)
- 使用帶標(biāo)簽數(shù)據(jù)訓(xùn)練模型
- 使用訓(xùn)練好的模型對(duì)無(wú)標(biāo)簽數(shù)據(jù)標(biāo)注偽標(biāo)簽,然后將偽標(biāo)注圖像加入到訓(xùn)練集(self-training)
- 實(shí)驗(yàn)表明,簡(jiǎn)單的合并帶標(biāo)簽數(shù)據(jù)和偽標(biāo)簽數(shù)據(jù)的方式不能能夠改進(jìn)模型的性能(這一點(diǎn)是比較關(guān)鍵的,也是論文需要解決的問(wèn)題之一)
- 使用語(yǔ)義分割的輔助監(jiān)督(過(guò)去方法采用的)能夠帶來(lái)深度估計(jì)的性能提升
- 然而本文實(shí)驗(yàn)表明,使用語(yǔ)義分割輔助監(jiān)督并沒(méi)有帶來(lái)精度的提升(應(yīng)該是模型性能優(yōu)化到一定程度之后,語(yǔ)義分割輔助不再帶來(lái)性能提升)。作者分析了原因:可能是因?yàn)檎Z(yǔ)義分割監(jiān)督只關(guān)注類別相關(guān)的特征,或者監(jiān)督使得特征映射到了離散的類別空間上,損失了深度估計(jì)關(guān)注的其他信息。(這是論文需要解決的第二個(gè)問(wèn)題)
解決方案
問(wèn)題一:如何更好的利用偽標(biāo)簽數(shù)據(jù)
- 模型從偽標(biāo)簽數(shù)據(jù)中獲得的額外信息是有限,因?yàn)?strong>在無(wú)標(biāo)簽數(shù)據(jù)上老師和學(xué)生模型都進(jìn)行相似的正確或錯(cuò)誤預(yù)測(cè)(原因分析
- 使用更加困難的優(yōu)化目標(biāo),以迫使模型從無(wú)標(biāo)簽數(shù)據(jù)中獲取額外的知識(shí)。主要的邏輯是對(duì)無(wú)標(biāo)簽數(shù)據(jù)添加強(qiáng)擾動(dòng),包括顏色擾動(dòng)(包括顏色擾動(dòng)和高斯模糊)以及空間擾動(dòng)(CutMix)(解決方案
- 這樣簡(jiǎn)單的改動(dòng)使得自訓(xùn)練帶來(lái)了較大的提升(效果
問(wèn)題二:語(yǔ)義分割輔助監(jiān)督
- 嘗試使用分割預(yù)測(cè)輔助監(jiān)督(共享編碼器,不同的解碼器)但是沒(méi)有性能的提升(前面分析了原因,語(yǔ)義分割只關(guān)注分割的語(yǔ)義類別,得到的是離散的類別特征表示)
- 使用語(yǔ)義信息更豐富的信號(hào)進(jìn)行輔助監(jiān)督,輔助的特征對(duì)齊損失(DINOv2的高層次特征,空間高維且連續(xù),與離散的類別相比,具有更豐富的語(yǔ)義)
- 具體的使用凍結(jié)的DINOv2的頂層特征監(jiān)督模型的頂層特征(不使用線性層映射!直接監(jiān)督主干提取的高層次特征)
使用 RAM,GroundingDINO,HQ-SAM 組合一起得到無(wú)標(biāo)簽圖像的語(yǔ)義分割偽標(biāo)簽
沒(méi)有使用映射層,由于隨機(jī)的初始化的映射器在早期會(huì)有較大的損失,進(jìn)而導(dǎo)致在訓(xùn)練初期占主導(dǎo)了模型的訓(xùn)練
DINO通常產(chǎn)生相似的特征表示在同一個(gè)物體上,而深度的在空間上是變化的,過(guò)于強(qiáng)制深度特征和DINO特征相同是無(wú)益的,因此相似性監(jiān)督會(huì)有容忍度 tolerance margin α \alpha α(相似度超過(guò),不計(jì)入損失)
使用逐像素的余弦相似度損失,f表示深度模型提取的特征,f‘表示凍結(jié)的DINOv2編碼器提取的特征
實(shí)驗(yàn)結(jié)果
下面挑選了部分實(shí)驗(yàn)結(jié)果展示
消融實(shí)驗(yàn)結(jié)果
以下是對(duì)使用帶標(biāo)簽數(shù)據(jù)、偽標(biāo)簽數(shù)據(jù)、圖像干擾、語(yǔ)義約束進(jìn)行的消融實(shí)驗(yàn)
以下是對(duì)超參數(shù)和語(yǔ)義約束的實(shí)驗(yàn)文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-855409.html
橫向?qū)Ρ葘?shí)驗(yàn)
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-855409.html
到了這里,關(guān)于【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!