国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Github: https://github.com/LiheYoung/Depth-Anything
2024年 TikTok 實(shí)習(xí)生的工作

主要內(nèi)容

這篇論文提出了一個(gè)使用的方案,用于魯棒的單目深度估計(jì),Depth Anything
論文的模型結(jié)構(gòu)沒(méi)有創(chuàng)新(Transformer),主要貢獻(xiàn)在于

  1. 探索了簡(jiǎn)單有效的數(shù)據(jù)擴(kuò)展方式(如何有效利用大量的無(wú)標(biāo)簽數(shù)據(jù)
  2. 從預(yù)訓(xùn)練模型繼承語(yǔ)義(使用凍結(jié)的 DINOv2 進(jìn)行特征約束

論文的方法在各中深度估計(jì)數(shù)據(jù)集上都取得了SOTA

故事邏輯

  1. 通過(guò)在大量數(shù)據(jù)上預(yù)訓(xùn)練得到的基礎(chǔ)模型,在各種下游任務(wù)上,表現(xiàn)出了強(qiáng)大的zero-/few- shot 能力。這一定程度上依賴于大規(guī)模的訓(xùn)練數(shù)據(jù)(當(dāng)然也包括強(qiáng)大的并行計(jì)算能力以及龐大的模型,對(duì)于深度估計(jì)這一領(lǐng)域來(lái)說(shuō),強(qiáng)調(diào)了大規(guī)模的訓(xùn)練數(shù)據(jù)的重要性)。
  2. 單目深度估計(jì)領(lǐng)域同樣需要一個(gè)這樣的基礎(chǔ)模型,但是受限于深度估計(jì)數(shù)據(jù)集有限且難以獲得

傳統(tǒng)的深度估計(jì)數(shù)據(jù)集,通過(guò) sensors, stereo matching, SfM 等方式獲得,花費(fèi)大,耗時(shí)且難以處理

  1. 論文關(guān)注大規(guī)模的無(wú)標(biāo)簽數(shù)據(jù)

    1. 數(shù)據(jù)簡(jiǎn)單廉價(jià),容易獲取
    2. 多樣性,圖像場(chǎng)景更豐富
    3. 容易標(biāo)注(使用預(yù)訓(xùn)練的單目深度估計(jì)模型標(biāo)注偽標(biāo)簽
  2. 類似于SAM的自動(dòng)標(biāo)注過(guò)程(SAM 有人工微調(diào)的過(guò)程,DAM沒(méi)有)

    1. 收集了深度估計(jì)公開(kāi)數(shù)據(jù)集以及大量無(wú)標(biāo)簽數(shù)據(jù)
    2. 使用帶標(biāo)簽數(shù)據(jù)訓(xùn)練模型
    3. 使用訓(xùn)練好的模型對(duì)無(wú)標(biāo)簽數(shù)據(jù)標(biāo)注偽標(biāo)簽,然后將偽標(biāo)注圖像加入到訓(xùn)練集(self-training)
    4. 實(shí)驗(yàn)表明,簡(jiǎn)單的合并帶標(biāo)簽數(shù)據(jù)和偽標(biāo)簽數(shù)據(jù)的方式不能能夠改進(jìn)模型的性能(這一點(diǎn)是比較關(guān)鍵的,也是論文需要解決的問(wèn)題之一)
    5. 使用語(yǔ)義分割的輔助監(jiān)督(過(guò)去方法采用的)能夠帶來(lái)深度估計(jì)的性能提升
    6. 然而本文實(shí)驗(yàn)表明,使用語(yǔ)義分割輔助監(jiān)督并沒(méi)有帶來(lái)精度的提升(應(yīng)該是模型性能優(yōu)化到一定程度之后,語(yǔ)義分割輔助不再帶來(lái)性能提升)。作者分析了原因:可能是因?yàn)檎Z(yǔ)義分割監(jiān)督只關(guān)注類別相關(guān)的特征,或者監(jiān)督使得特征映射到了離散的類別空間上,損失了深度估計(jì)關(guān)注的其他信息。(這是論文需要解決的第二個(gè)問(wèn)題)

解決方案

【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

問(wèn)題一:如何更好的利用偽標(biāo)簽數(shù)據(jù)

  1. 模型從偽標(biāo)簽數(shù)據(jù)中獲得的額外信息是有限,因?yàn)?strong>在無(wú)標(biāo)簽數(shù)據(jù)上老師和學(xué)生模型都進(jìn)行相似的正確或錯(cuò)誤預(yù)測(cè)(原因分析
  2. 使用更加困難的優(yōu)化目標(biāo),以迫使模型從無(wú)標(biāo)簽數(shù)據(jù)中獲取額外的知識(shí)。主要的邏輯是對(duì)無(wú)標(biāo)簽數(shù)據(jù)添加強(qiáng)擾動(dòng),包括顏色擾動(dòng)(包括顏色擾動(dòng)和高斯模糊)以及空間擾動(dòng)(CutMix)(解決方案
  3. 這樣簡(jiǎn)單的改動(dòng)使得自訓(xùn)練帶來(lái)了較大的提升(效果

問(wèn)題二:語(yǔ)義分割輔助監(jiān)督

  1. 嘗試使用分割預(yù)測(cè)輔助監(jiān)督(共享編碼器,不同的解碼器)但是沒(méi)有性能的提升(前面分析了原因,語(yǔ)義分割只關(guān)注分割的語(yǔ)義類別,得到的是離散的類別特征表示)
  2. 使用語(yǔ)義信息更豐富的信號(hào)進(jìn)行輔助監(jiān)督,輔助的特征對(duì)齊損失(DINOv2的高層次特征,空間高維且連續(xù),與離散的類別相比,具有更豐富的語(yǔ)義)
  3. 具體的使用凍結(jié)的DINOv2的頂層特征監(jiān)督模型的頂層特征(不使用線性層映射!直接監(jiān)督主干提取的高層次特征)

使用 RAM,GroundingDINO,HQ-SAM 組合一起得到無(wú)標(biāo)簽圖像的語(yǔ)義分割偽標(biāo)簽
沒(méi)有使用映射層,由于隨機(jī)的初始化的映射器在早期會(huì)有較大的損失,進(jìn)而導(dǎo)致在訓(xùn)練初期占主導(dǎo)了模型的訓(xùn)練
DINO通常產(chǎn)生相似的特征表示在同一個(gè)物體上,而深度的在空間上是變化的,過(guò)于強(qiáng)制深度特征和DINO特征相同是無(wú)益的,因此相似性監(jiān)督會(huì)有容忍度 tolerance margin α \alpha α(相似度超過(guò),不計(jì)入損失)

【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)
使用逐像素的余弦相似度損失,f表示深度模型提取的特征,f‘表示凍結(jié)的DINOv2編碼器提取的特征

實(shí)驗(yàn)結(jié)果

下面挑選了部分實(shí)驗(yàn)結(jié)果展示

消融實(shí)驗(yàn)結(jié)果

以下是對(duì)使用帶標(biāo)簽數(shù)據(jù)、偽標(biāo)簽數(shù)據(jù)、圖像干擾、語(yǔ)義約束進(jìn)行的消融實(shí)驗(yàn)
【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)
以下是對(duì)超參數(shù)和語(yǔ)義約束的實(shí)驗(yàn)
【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

橫向?qū)Ρ葘?shí)驗(yàn)

【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)
【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)
【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data,論文閱讀,論文閱讀,人工智能,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-855409.html

到了這里,關(guān)于【論文閱讀】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文標(biāo)題: TinySAM: 極致高效的分割一切模型 論文地址:https://arxiv.org/pdf/2312.13789.pdf 代碼地址(pytorch):https://github.com/xinghaochen/TinySAM 詳細(xì)論文解讀:TinySAM:極致高效壓縮,手機(jī)就能實(shí)時(shí)跑的分割一切模型 - 知乎 (zhihu.com)? 目錄 文章內(nèi)容解析 ?概括 文章的觀點(diǎn) 技術(shù)創(chuàng)新解

    2024年01月17日
    瀏覽(24)
  • 【論文精讀】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

    【論文精讀】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

    一篇大規(guī)模語(yǔ)言模型的指南,指南介紹詳細(xì)且會(huì)隨著大模型的發(fā)展不斷更新,相信初入大模型的朋友一定能有所收獲。 本文為L(zhǎng)LM的從業(yè)者或者其下游任務(wù)用戶提供了一個(gè)全面而實(shí)用的指南。首先對(duì)現(xiàn)有的LLM進(jìn)行介紹和總結(jié),其次討論了預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的影響

    2024年02月05日
    瀏覽(23)
  • On the Spectral Bias of Neural Networks論文閱讀

    On the Spectral Bias of Neural Networks論文閱讀

    眾所周知,過(guò)度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(DNNs)是一種表達(dá)能力極強(qiáng)的函數(shù),它甚至可以以100%的訓(xùn)練精度記憶隨機(jī)數(shù)據(jù)。這就提出了一個(gè)問(wèn)題,為什么他們不能輕易地對(duì)真實(shí)數(shù)據(jù)進(jìn)行擬合呢。為了回答這個(gè)問(wèn)題,研究人員使用傅里葉分析來(lái)研究深層網(wǎng)絡(luò)。他們證明了具有有限權(quán)值

    2024年02月22日
    瀏覽(25)
  • 【論文閱讀筆記】Endoscopic navigation in the absence of CT imaging

    ??上一篇的導(dǎo)航導(dǎo)論,是需要先驗(yàn),也就是需要事先拍攝堆疊的圖片(比如CT圖等),在體外構(gòu)建相應(yīng)的3D模型,再與內(nèi)窺鏡圖像進(jìn)行實(shí)時(shí)匹配。對(duì)于很多情況來(lái)說(shuō),是無(wú)法擁有如此充足的先驗(yàn)的。所以,本文探索的是沒(méi)有額外CT圖像的一個(gè)內(nèi)窺鏡導(dǎo)航算法,應(yīng)用場(chǎng)景是鼻腔

    2024年02月11日
    瀏覽(25)
  • 論文閱讀筆記A Systematic Review of the State of Cyber-Security in Water Systems

    論文閱讀筆記A Systematic Review of the State of Cyber-Security in Water Systems

    該論文主要回顧了水系統(tǒng)的網(wǎng)絡(luò)安全研究,研究重點(diǎn)是提高供水、廢水收集和處理系統(tǒng)的安全性 一、 Introduction 過(guò)去的供水系統(tǒng)安全:通過(guò)隔離、限制對(duì)控制組件的訪問(wèn)來(lái)實(shí)現(xiàn)的。 基于IoT的供水系統(tǒng):依靠連接多層網(wǎng)絡(luò)物理系統(tǒng)來(lái)促進(jìn)自主去中心化決策,并改善實(shí)時(shí)數(shù)據(jù)和預(yù)

    2024年02月04日
    瀏覽(23)
  • 論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文鏈接:https://www.researchgate.net/publication/371661341_Social_bot_detection_in_the_age_of_ChatGPT_Challenges_and_opportunities 目錄 摘要: 引言 1.1. Background on social bots and their role in society 1.2. The rise of AI-generated chatbots like ChatGPT 1.3. The importance of social bot detection 1.4. Scope and objectives of the paper? 2. T

    2024年02月14日
    瀏覽(18)
  • 【論文閱讀】The Design of a Practical System for Fault-Tolerant Virtual Machines

    【論文閱讀】The Design of a Practical System for Fault-Tolerant Virtual Machines

    為了更有效的做論文閱讀筆記,之后都打算將每篇論文筆記的內(nèi)容控制在較少的字?jǐn)?shù)范圍內(nèi),畢竟原論文擺在那里,將其翻譯照抄過(guò)來(lái)也沒(méi)什么意思,將論文讀薄才是最重要的。( ?? ω ?? )? \\\"The Design of a Practical System for Fault-Tolerant Virtual Machines\\\"是MIT6.824推薦閱讀的論文之一

    2024年02月03日
    瀏覽(26)
  • 【自監(jiān)督論文閱讀筆記】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

    【自監(jiān)督論文閱讀筆記】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

    ????????本文推出了 EVA ,這是一個(gè) 以視覺(jué)為中心 的基礎(chǔ)模型,旨在僅使用可公開(kāi)訪問(wèn)的數(shù)據(jù)來(lái) 探索大規(guī)模 視覺(jué)表示的 局限性 。EVA 是一種經(jīng)過(guò)預(yù)訓(xùn)練的普通 ViT,用于 重建 以可見(jiàn)圖像塊為條件的 屏蔽掉的 圖像-文本對(duì)齊(image-text aligned)的視覺(jué)特征 。通過(guò)這個(gè)前置任

    2024年02月06日
    瀏覽(24)
  • 論文閱讀|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

    ICLR 2017 神經(jīng)網(wǎng)絡(luò)吸收信息的能力受到其參數(shù)數(shù)量的限制。條件計(jì)算,即網(wǎng)絡(luò)的某些部分在每個(gè)示例的基礎(chǔ)上處于活動(dòng)狀態(tài),在理論上已被提出作為一種在不按比例增加計(jì)算量的情況下大幅增加模型容量的方法。然而,在實(shí)踐中,存在重大的算法和性能挑戰(zhàn)。在這項(xiàng)工作中,我

    2024年02月02日
    瀏覽(18)
  • 論文閱讀:AdaBins: Depth Estimation using Adaptive Bins

    論文閱讀:AdaBins: Depth Estimation using Adaptive Bins

    信息的全局處理會(huì)幫助提高整體深度估計(jì)。 提出的AdaBins預(yù)測(cè)的bin中心集中在較小的深度值附近,對(duì)于深度值范圍更廣的圖像,分布廣泛。 Fu et al. 發(fā)現(xiàn)將深度回歸任務(wù)轉(zhuǎn)化為分類任務(wù)可以提升效果,將深度范圍分成固定數(shù)量的bins。本文則解決了原始方法的多個(gè)限制: 計(jì)算根

    2024年04月17日
    瀏覽(25)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包