国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀筆記】Contrastive Learning with Stronger Augmentations

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀筆記】Contrastive Learning with Stronger Augmentations。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Contrastive Learning with Stronger Augmentations

摘要

基于提供的摘要,該論文的核心焦點(diǎn)是在對(duì)比學(xué)習(xí)領(lǐng)域提出的一個(gè)新框架——利用強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí)(Contrastive Learning with Stronger Augmentations,簡(jiǎn)稱CLSA)。以下是對(duì)摘要的解析:

  • 問(wèn)題陳述:
    • 表征學(xué)習(xí)(representation learning)已在對(duì)比學(xué)習(xí)方法的推動(dòng)下得到了顯著發(fā)展。
    • 當(dāng)前對(duì)比學(xué)習(xí)方法廣泛使用數(shù)據(jù)增強(qiáng)技術(shù),這些技術(shù)被仔細(xì)設(shè)計(jì)以維持圖像身份,從而使得從同一實(shí)例變換而來(lái)的圖像依舊可以檢索到。
    • 然而,這些精心設(shè)計(jì)的轉(zhuǎn)換限制了探索其他轉(zhuǎn)換可能揭示的新模式的能力。
  • 研究發(fā)現(xiàn):
    • 強(qiáng)數(shù)據(jù)增強(qiáng)扭曲了圖像的結(jié)構(gòu),這使得檢索過(guò)程變得困難。
  • 研究貢獻(xiàn):
    • 為了解決上述問(wèn)題,論文提出了一種名為CLSA的通用框架來(lái)補(bǔ)充當(dāng)前的對(duì)比學(xué)習(xí)方法。
    • CLSA通過(guò)采用弱增強(qiáng)和強(qiáng)增強(qiáng)圖像在表征庫(kù)上的分布差異來(lái)指導(dǎo)從實(shí)例池中檢索強(qiáng)增強(qiáng)查詢的過(guò)程。
  • 實(shí)驗(yàn)結(jié)果:
    • 在ImageNet數(shù)據(jù)集和下游數(shù)據(jù)集上的實(shí)驗(yàn)表明,弱增強(qiáng)和強(qiáng)增強(qiáng)圖像所提供的信息可以顯著提升性能。
    • 具體來(lái)說(shuō),使用標(biāo)準(zhǔn)ResNet-50架構(gòu)并通過(guò)單層分類器微調(diào)的CLSA在ImageNet上達(dá)到了76.2%的top-1準(zhǔn)確率,這幾乎與76.5%的監(jiān)督學(xué)習(xí)結(jié)果處于同一水平。
  • 資源分享:
  • 論文還提供了代碼和預(yù)訓(xùn)練模型的鏈接,方便其他研究者使用和參考。
    綜上所述,這項(xiàng)工作提出了在對(duì)比學(xué)習(xí)中引入不同級(jí)別的數(shù)據(jù)增強(qiáng)技術(shù)的新框架,尤其強(qiáng)調(diào)了強(qiáng)增強(qiáng)帶來(lái)的好處。通過(guò)在實(shí)驗(yàn)中表明這種方法有助于改善模型性能,研究者們?yōu)樯疃葘W(xué)習(xí)社區(qū)貢獻(xiàn)了一個(gè)有價(jià)值的工具,尤其對(duì)于那些需要提高圖像相關(guān)任務(wù)性能的研究者來(lái)說(shuō)尤為重要。

Introduction

  • 本段文本繼續(xù)探討了對(duì)比學(xué)習(xí)(contrastive learning)在無(wú)監(jiān)督視覺(jué)表征學(xué)習(xí)領(lǐng)域的角色和發(fā)展。以下是對(duì)文本內(nèi)容的詳細(xì)解析:

  • 深度學(xué)習(xí)成功的基礎(chǔ):

    • 深度神經(jīng)網(wǎng)絡(luò)在從像ImageNet這樣的大型標(biāo)注數(shù)據(jù)集中學(xué)習(xí)方面取得了巨大成功。
    • 這些成功建立在有大量昂貴的標(biāo)注樣本可供訓(xùn)練的基礎(chǔ)上。
  • 挑戰(zhàn)和應(yīng)對(duì)策略:

    • 這種依賴大量標(biāo)注樣本的方式使數(shù)據(jù)收集變得昂貴且困難,因此研究者們開(kāi)始轉(zhuǎn)向無(wú)監(jiān)督的視覺(jué)表征學(xué)習(xí)和自監(jiān)督學(xué)習(xí),以擺脫對(duì)大量標(biāo)簽的依賴,并學(xué)習(xí)到健壯和通用的特征表征。
  • 對(duì)比學(xué)習(xí)的作用:

    • 在這些方法中,對(duì)比學(xué)習(xí)脫穎而出,顯示出縮小與監(jiān)督學(xué)習(xí)性能差距的潛力。對(duì)比學(xué)習(xí)是實(shí)例學(xué)習(xí)的一種形式,在實(shí)例學(xué)習(xí)中,將每張圖像視為一個(gè)獨(dú)立的實(shí)例。
  • 實(shí)例學(xué)習(xí)目標(biāo):

    • 實(shí)例學(xué)習(xí)的目標(biāo)是訓(xùn)練網(wǎng)絡(luò)使得同一個(gè)實(shí)例的不同增強(qiáng)視圖的表征盡可能接近,同時(shí)保證來(lái)自不同實(shí)例的不同視圖的表征彼此有區(qū)別。
  • 對(duì)比學(xué)習(xí)方法:

    • 對(duì)比學(xué)習(xí)通過(guò)最小化同一實(shí)例不同視圖之間的相似度,同時(shí)最大化不同實(shí)例的視圖之間的相似度來(lái)實(shí)現(xiàn)這一目標(biāo)。
  • 對(duì)比學(xué)習(xí)的發(fā)展:

    • 為了提高對(duì)比學(xué)習(xí)的效果,提出了各種方法來(lái)探索不同的方向,包括增加負(fù)例的數(shù)量、改善負(fù)例的質(zhì)量、數(shù)據(jù)增強(qiáng)等。
  • 總結(jié)而言,這段文本強(qiáng)調(diào)了對(duì)比學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域中的重要性,并概述了學(xué)者們?cè)诮Y(jié)合實(shí)例學(xué)習(xí)和對(duì)比學(xué)習(xí)原則以學(xué)習(xí)強(qiáng)大的特征表征方面的研究和進(jìn)展。這些無(wú)監(jiān)督的學(xué)習(xí)策略在減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)集的依賴上發(fā)揮了關(guān)鍵作用,并在視覺(jué)表征的學(xué)習(xí)方法上提供了新的突破。

  • 這段文字繼續(xù)討論了數(shù)據(jù)增強(qiáng)在無(wú)監(jiān)督學(xué)習(xí)特別是對(duì)比學(xué)習(xí)中的重要性,以及強(qiáng)數(shù)據(jù)增強(qiáng)對(duì)模型性能的潛在正面影響。以下是對(duì)文本內(nèi)容的詳盡解釋:

  • 數(shù)據(jù)增強(qiáng)方法的普遍依賴:

    • 通常,無(wú)監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)方法依賴于精心設(shè)計(jì)的圖像增強(qiáng)(image augmentations),目的是維護(hù)實(shí)例的身份,允許圖像增強(qiáng)后的實(shí)例能從實(shí)例池中準(zhǔn)確檢索到。
  • 數(shù)據(jù)增強(qiáng)設(shè)計(jì)的重要性:

    • 研究如InfoMin強(qiáng)調(diào)了精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)對(duì)模型性能的重要影響,并指出了使用強(qiáng)數(shù)據(jù)增強(qiáng)的潛在功效。
  • 強(qiáng)數(shù)據(jù)增強(qiáng)的應(yīng)用:

    • 一些新的工作,如SwAV和PIRL,相較于早期的方法如MoCo和SimCLR,采用了更強(qiáng)的數(shù)據(jù)增強(qiáng)策略。
    • 但是,現(xiàn)有研究沒(méi)有嘗試應(yīng)用像RandAugment那樣的隨機(jī)組合不同增強(qiáng)來(lái)實(shí)現(xiàn)更強(qiáng)的數(shù)據(jù)增強(qiáng)效果。
  • 強(qiáng)數(shù)據(jù)增強(qiáng)揭示新模式:

    • 強(qiáng)數(shù)據(jù)增強(qiáng)能夠揭示新的模式,從而提升模型在監(jiān)督和半監(jiān)督任務(wù)中的性能。
  • 強(qiáng)數(shù)據(jù)增強(qiáng)與自監(jiān)督學(xué)習(xí):

    • 作者認(rèn)為,強(qiáng)數(shù)據(jù)增強(qiáng)中隱藏的模式也能為自監(jiān)督學(xué)習(xí)做出貢獻(xiàn),通過(guò)提升學(xué)習(xí)到的表征的泛化性,最終縮小與完全監(jiān)督模型之間的差距。
  • 強(qiáng)數(shù)據(jù)增強(qiáng)的挑戰(zhàn):

    • 直接在對(duì)比學(xué)習(xí)中應(yīng)用強(qiáng)數(shù)據(jù)增強(qiáng)可能會(huì)損害性能,因?yàn)橐氲呐で赡軙?huì)嚴(yán)重改變圖像結(jié)構(gòu),使變換后的圖像無(wú)法保持原始實(shí)例的身份。
  • 未來(lái)的研究方向:

    • 為了進(jìn)一步提升自監(jiān)督學(xué)習(xí),需要額外的努力去探索強(qiáng)數(shù)據(jù)增強(qiáng)的作用并克服相關(guān)的挑戰(zhàn)。
  • 總的來(lái)說(shuō),這段文字表明,盡管強(qiáng)數(shù)據(jù)增強(qiáng)被認(rèn)為在提高模型性能方面具有潛力,但是它們也帶來(lái)了新的挑戰(zhàn),例如可能改變圖像結(jié)構(gòu)并丟失實(shí)例標(biāo)識(shí)。因此,為了充分利用強(qiáng)數(shù)據(jù)增強(qiáng)的潛力,需要針對(duì)性地研究和開(kāi)發(fā)新方法以適應(yīng)這類增強(qiáng)手段。

  • 提出的CLSA(使用更強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí))框架旨在解決強(qiáng)數(shù)據(jù)增強(qiáng)可能導(dǎo)致的問(wèn)題。以下是對(duì)該方法的關(guān)鍵點(diǎn)詳細(xì)解讀:

  • 更強(qiáng)數(shù)據(jù)增強(qiáng):

    • 該框架引入了一個(gè)被稱為“強(qiáng)化增強(qiáng)”的新的數(shù)據(jù)增強(qiáng)方案,它是14種增強(qiáng)類型(如剪切、平移、旋轉(zhuǎn)、自動(dòng)對(duì)比、反相、均衡化、曬化、海報(bào)化、對(duì)比度、顏色、亮度、銳度等)的隨機(jī)組合。
  • 分布差異最小化:

    • CLSA不是將強(qiáng)化增強(qiáng)視圖應(yīng)用到對(duì)比損失中,而是提出最小化弱增強(qiáng)圖像與強(qiáng)增強(qiáng)圖像在表征庫(kù)上的分布差異,以此來(lái)指導(dǎo)強(qiáng)查詢的檢索。
    • 這種設(shè)計(jì)避免了過(guò)于樂(lè)觀的假設(shè),即認(rèn)為強(qiáng)化增強(qiáng)視圖的嵌入應(yīng)與弱增強(qiáng)視圖的嵌入完全相同。
    • 同時(shí),利用弱增強(qiáng)視圖的分布,該框架能夠探索強(qiáng)增強(qiáng)視圖所攜帶的新模式。
  • 與對(duì)比損失的結(jié)合:

    • 由于CLSA獨(dú)立于對(duì)比損失,因此它可以與任何基于對(duì)比損失的方法相結(jié)合,如MoCo、SimCLR、BYOL等。
  • 實(shí)驗(yàn)結(jié)果:

    • 實(shí)驗(yàn)表明,該框架通過(guò)引入分布損失,可以顯著提高性能。
    • 實(shí)驗(yàn)也驗(yàn)證了CLSA不僅改善了弱增強(qiáng)視圖的特征表征質(zhì)量,還同時(shí)進(jìn)一步增強(qiáng)了強(qiáng)增強(qiáng)視圖的表征。
  • 在多種數(shù)據(jù)集上的表現(xiàn):

    • 在不同數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提框架能夠通過(guò)學(xué)習(xí)更強(qiáng)的數(shù)據(jù)增強(qiáng)顯著提升性能。
    • 在ImageNet線性評(píng)估協(xié)議下,使用標(biāo)準(zhǔn)的ResNet-50網(wǎng)絡(luò)背景,達(dá)到了76.2%的top-1準(zhǔn)確率,幾乎達(dá)到了完全監(jiān)督模型的76.5%的top-1準(zhǔn)確率。
    • 同時(shí),在若干下游任務(wù)上也取得了有競(jìng)爭(zhēng)力的表現(xiàn),包括在VOC07上使用預(yù)訓(xùn)練的ResNet-50線性分類器達(dá)到93.6%的top-1準(zhǔn)確率,以及在COCO小目標(biāo)檢測(cè)任務(wù)上將APS提高到24.4%。
  • 對(duì)強(qiáng)化增強(qiáng)的討論:還有關(guān)于在對(duì)比學(xué)習(xí)中簡(jiǎn)單應(yīng)用更強(qiáng)數(shù)據(jù)增強(qiáng)可能會(huì)降低性能的消融研究。

  • 綜上所述,CLSA框架通過(guò)在對(duì)比學(xué)習(xí)中引入了更強(qiáng)的數(shù)據(jù)增強(qiáng)并最小化弱增強(qiáng)和強(qiáng)增強(qiáng)圖像的分布差異,顯示了在自監(jiān)督學(xué)習(xí)中使用強(qiáng)數(shù)據(jù)增強(qiáng)提升學(xué)習(xí)性能的可能性。在實(shí)驗(yàn)結(jié)果的支持下,CLSA證明了其在多種視覺(jué)任務(wù)上提升表征學(xué)習(xí)性能的有效性。

  • 首次探索強(qiáng)數(shù)據(jù)增強(qiáng)對(duì)自監(jiān)督學(xué)習(xí)的貢獻(xiàn):

  • 我們是第一個(gè)研究如何利用更強(qiáng)的數(shù)據(jù)增強(qiáng)手段來(lái)促進(jìn)自監(jiān)督學(xué)習(xí)的團(tuán)隊(duì)。
    提出分布損失:

  • 我們提出了一種分布損失機(jī)制,用于從弱增強(qiáng)視圖向強(qiáng)增強(qiáng)視圖遷移知識(shí)。

    • CLSA能和其他對(duì)比學(xué)習(xí)方法集成,并大幅提升性能:
    • CLSA框架可以輕松地與現(xiàn)有的基于對(duì)比損失的方法集成,并顯著提高它們的性能。
  • 詳盡的消融研究:

    • 我們細(xì)致地開(kāi)展了消融研究以驗(yàn)證分布損失的影響。
    • CLSA框架能同時(shí)提升弱增強(qiáng)和強(qiáng)增強(qiáng)圖像的表征能力:
    • CLSA能夠自主訓(xùn)練神經(jīng)網(wǎng)絡(luò),同時(shí)改善對(duì)弱增強(qiáng)圖像和強(qiáng)增強(qiáng)圖像的表征。
  • 總的來(lái)說(shuō),這些貢獻(xiàn)表示該研究的CLSA框架不僅突破了以往自監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)增強(qiáng)方法的應(yīng)用局限,而且提出了一個(gè)新的分布損失概念,有助于更有效地利用數(shù)據(jù)增強(qiáng)來(lái)提升模型性能。此外,CLSA的通用化設(shè)計(jì)意味著它可以與其他對(duì)比學(xué)習(xí)算法結(jié)合使用,從而提高了對(duì)這類算法的廣泛適用性和實(shí)用性。通過(guò)詳細(xì)的消融研究,該框架的有效性得到了進(jìn)一步證實(shí)。

2 RELATED WORK

2.1 Self-Supervised Learning

  • 自監(jiān)督學(xué)習(xí)方法被廣泛研究,用以縮小與監(jiān)督學(xué)習(xí)之間的差距,并減少標(biāo)記大量數(shù)據(jù)所需的時(shí)間和成本。這些方法可以從五個(gè)不同的方面進(jìn)行分類:

  • 生成模型: 這些模型通過(guò)構(gòu)建數(shù)據(jù)的潛在空間表示來(lái)生成新的數(shù)據(jù)樣本。例如,* 變分自編碼器(VAEs)和生成式對(duì)抗網(wǎng)絡(luò)(GANs)。

  • 上下文預(yù)測(cè): 通過(guò)預(yù)測(cè)數(shù)據(jù)中缺失的部分或預(yù)測(cè)數(shù)據(jù)的未來(lái)狀態(tài)來(lái)學(xué)習(xí)有用的特征。例如,在自然語(yǔ)言處理中的BERT,它通過(guò)上下文來(lái)預(yù)測(cè)句子中缺失的單詞。
    排列順序預(yù)測(cè): 這些模型通過(guò)重建輸入數(shù)據(jù)的正確順序來(lái)學(xué)習(xí)特征,如顛倒圖像塊或文本片段的順序,并訓(xùn)練模型將它們恢復(fù)到原來(lái)的順序。

  • 對(duì)比學(xué)習(xí): 這些方法包括訓(xùn)練模型區(qū)分正負(fù)樣本對(duì)。如SimCLR和MoCo,它們通過(guò)學(xué)習(xí)將增強(qiáng)的數(shù)據(jù)對(duì)拉近而將未匹配的示例推遠(yuǎn),從而學(xué)習(xí)表示。
    基于探索的方法: 主要通過(guò)交互式環(huán)境中的探索來(lái)學(xué)習(xí)特征,如強(qiáng)化學(xué)習(xí)或在游戲中自動(dòng)生成訓(xùn)練樣本。

  • 這些類別中的方法通過(guò)不同的學(xué)習(xí)范式允許模型學(xué)習(xí)到豐富的特征表征,而這些特征通常在沒(méi)有顯式標(biāo)簽的情況下被學(xué)習(xí)。自監(jiān)督學(xué)習(xí)有助于提高數(shù)據(jù)效率和可擴(kuò)展性,特別是在不可能或不實(shí)際手動(dòng)標(biāo)注大量數(shù)據(jù)的領(lǐng)域。

  • 自監(jiān)督學(xué)習(xí)方法中的生成式方法通常采用自編碼器和對(duì)抗學(xué)習(xí)算法來(lái)訓(xùn)練無(wú)監(jiān)督的表征。這些方法主要關(guān)注圖像的像素級(jí)信息來(lái)區(qū)分不同類別的圖像。以下是對(duì)這些方法的進(jìn)一步詳細(xì)解釋:

  • 生成式方法:

    • 自編碼器:通常被用來(lái)在訓(xùn)練階段通過(guò)重構(gòu)輸入來(lái)學(xué)習(xí)隱含的數(shù)據(jù)表示。自編碼器的目標(biāo)是學(xué)習(xí)一個(gè)壓縮的、丟失盡可能少信息的數(shù)據(jù)表示。
    • 對(duì)抗學(xué)習(xí):例如雙向生成式對(duì)抗網(wǎng)絡(luò)(BiGAN),用來(lái)捕捉潛在語(yǔ)義表征與輸入圖像之間的關(guān)系。
  • 聚類:

    • 深度聚類(DeepCluster):將 k-means 概括為通過(guò)交替地分配偽標(biāo)簽和更新網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),從而學(xué)習(xí)視覺(jué)表征。
    • SWAV(Swapping Assignments between Views):最近提出的方法通過(guò)在不同視圖之間強(qiáng)制一致性的聚類原型分配,已在ImageNet上取得了最先進(jìn)的性能。
  • 一致性表征學(xué)習(xí):

    • BYOL(Bootstrap Your Own Latent):研究人員首次發(fā)現(xiàn)可以不使用負(fù)樣本自我訓(xùn)練編碼器。它利用了孿生架構(gòu),在編碼器和投影器之上的查詢分支中添加了預(yù)測(cè)器結(jié)構(gòu)。編碼器可以通過(guò)簡(jiǎn)單地最小化查詢嵌入和關(guān)鍵嵌入之間的余弦相似性來(lái)學(xué)習(xí)良好的表征。
    • Simsiam:進(jìn)一步移除了動(dòng)量關(guān)鍵編碼器,并使用了停止梯度策略來(lái)避免模型崩潰問(wèn)題。
    • SCRL(Spatial Consistency Representation Learning):進(jìn)一步將一致性損失應(yīng)用于兩個(gè)視圖的交集區(qū)域的感興趣區(qū)域,以改善下游檢測(cè)任務(wù)的編碼器表征。
      此外,用于一致性學(xué)習(xí)的KL損失也被廣泛用于幫助表征學(xué)習(xí),例如CO2和RELIC,在這些方法中添加了正則化以強(qiáng)制不同數(shù)據(jù)增強(qiáng)下嵌入間的一致性。

2.2 Augmentation in Representation Learning

  • 數(shù)據(jù)增強(qiáng)在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中發(fā)揮著核心作用。一方面,它幫助學(xué)習(xí)到的表征在不同的數(shù)據(jù)增強(qiáng)下更加魯棒,這有助于模型學(xué)習(xí)到變換不變的表征。另一方面,增強(qiáng)手段也為訓(xùn)練引入了更豐富的數(shù)據(jù)。

  • 在監(jiān)督學(xué)習(xí)中,位置和方向調(diào)整首先在MNIST數(shù)據(jù)集中被引入,并取得了有希望的提升。之后,對(duì)于自然圖像數(shù)據(jù)集,例如CIFAR-10、ImageNet,隨機(jī)裁剪、圖像鏡像和顏色變換/美白等技術(shù)被引入來(lái)訓(xùn)練更好的神經(jīng)網(wǎng)絡(luò)。這些早期工作都是手動(dòng)設(shè)計(jì)的,需要時(shí)間和專業(yè)知識(shí)。當(dāng)我們想要結(jié)合數(shù)據(jù)增強(qiáng)以實(shí)現(xiàn)更強(qiáng)的增強(qiáng)時(shí),手動(dòng)設(shè)計(jì)既不可行也不是最優(yōu)的。為了解決這個(gè)問(wèn)題,研究人員通過(guò)兩種不同的方法探索了組合。

  • 首先,**生成對(duì)抗網(wǎng)絡(luò)(GANs)**被用來(lái)通過(guò)生成器直接生成具有不同變換的更多數(shù)據(jù)。然而,后來(lái)發(fā)現(xiàn)通過(guò)條件性GAN重新定義增強(qiáng)池,來(lái)學(xué)習(xí)數(shù)據(jù)增強(qiáng)的最佳序列更有益。受此啟發(fā),提出了其他方法來(lái)仔細(xì)研究如何自動(dòng)找到好的數(shù)據(jù)增強(qiáng)組合。AutoAugment首先采用強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)帶有應(yīng)用概率和幅度的增強(qiáng)操作序列。繼此工作之后,提出了基于人口的增強(qiáng)(PBA)、快速AutoAugment、更快速AutoAugment,以加速數(shù)據(jù)增強(qiáng)策略搜索并改進(jìn)它。RandAugment進(jìn)一步發(fā)現(xiàn),通過(guò)均勻采樣不同數(shù)據(jù)增強(qiáng)和均勻采樣幅度可以構(gòu)建強(qiáng)大的數(shù)據(jù)增加,而無(wú)需廣泛搜索。這些通過(guò)不同變換的組合創(chuàng)建的更強(qiáng)的增強(qiáng)在分類和檢測(cè)的監(jiān)督學(xué)習(xí)中做出了巨大貢獻(xiàn)。

  • 在半監(jiān)督學(xué)習(xí)中,MixMatch引入了MixUp增強(qiáng),以幫助半監(jiān)督學(xué)習(xí),其中模型通過(guò)混合視圖和使用MixUp的凸組合混合標(biāo)簽進(jìn)行訓(xùn)練。EnAET利用具有仿射和投影變換的視圖來(lái)進(jìn)一步改進(jìn)半監(jiān)督學(xué)習(xí)。FixMatch發(fā)現(xiàn),通過(guò)RandAugment產(chǎn)生的高度扭曲圖像對(duì)于從少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)中進(jìn)行學(xué)習(xí)起著關(guān)鍵作用。
    這表明數(shù)據(jù)增強(qiáng)不僅對(duì)于提高模型的魯棒性至關(guān)重要,而且在各種學(xué)習(xí)范式中發(fā)揮作用,包括監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。通過(guò)數(shù)據(jù)增強(qiáng),模型可以從多樣化的樣本中學(xué)習(xí),提高其泛化能力并提升對(duì)未見(jiàn)數(shù)據(jù)的預(yù)測(cè)精度。

  • 在自監(jiān)督學(xué)習(xí)中,InstDisc和MoCo等研究將顏色抖動(dòng)操作加入到數(shù)據(jù)增強(qiáng)管道中,并在對(duì)比學(xué)習(xí)方面取得了明顯的增益。SimCLR進(jìn)一步在其數(shù)據(jù)增強(qiáng)管道中加入了高斯模糊,這一改進(jìn)在MoCo v2以及后續(xù)的工作中得到了進(jìn)一步的驗(yàn)證?;谶@些觀察,InfoMin探究了不同數(shù)據(jù)增強(qiáng)組合在對(duì)比預(yù)訓(xùn)練中的效果,發(fā)現(xiàn)某些數(shù)據(jù)增強(qiáng)組合能夠帶來(lái)額外的改進(jìn)。同時(shí),SwAV進(jìn)一步引入了多重裁剪(multi-crop),包含額外的更小尺寸96x96裁剪,以幫助模型學(xué)習(xí)更強(qiáng)大的特征表征。此外,BoWNet甚至將CutMix作為更強(qiáng)大的增強(qiáng)方法引入到表征學(xué)習(xí)中。

  • 前述工作探索了如何通過(guò)引入越來(lái)越多的變換設(shè)計(jì)和構(gòu)建更合適的數(shù)據(jù)增強(qiáng)管道。然而,這些方法都需要時(shí)間、精力和專業(yè)知識(shí)來(lái)手動(dòng)設(shè)計(jì)增強(qiáng),并且這些設(shè)計(jì)的數(shù)據(jù)增強(qiáng)可能只適用于某些數(shù)據(jù)集。為了克服這個(gè)問(wèn)題,我們提出了由14種不同增強(qiáng)類型的隨機(jī)組合以及MoCo v2中的基線增強(qiáng)來(lái)構(gòu)建更強(qiáng)大的增強(qiáng)方法,應(yīng)用概率和強(qiáng)度同樣隨機(jī),詳細(xì)內(nèi)容在第3.3節(jié)進(jìn)行了說(shuō)明。
    首先,通過(guò)重復(fù)5次采樣增強(qiáng)操作,不同增強(qiáng)方法的完全隨機(jī)組合構(gòu)成了更強(qiáng)大的增強(qiáng)手段。其次,與以前的方法相比,我們的數(shù)據(jù)增強(qiáng)完全是自動(dòng)隨機(jī)采樣的,無(wú)需人工干預(yù)。此外,如同在監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)中指出的那樣,我們同樣展示了這種更強(qiáng)大的增強(qiáng)有助于模型在扭曲圖像下學(xué)習(xí)到強(qiáng)大的特征表征。

3 CLSA: CONTRASTIVE LEARNING WITH STRONGER AUGMENTATIONS

  • 在本節(jié)中,我們首先將回顧對(duì)比學(xué)習(xí)的初步工作,并在第3.1節(jié)中討論它們的優(yōu)勢(shì)和局限性。然后,在第3.2節(jié)中,我們將介紹一種新的分布式發(fā)散損失,該損失在弱增強(qiáng)和強(qiáng)增強(qiáng)圖像之間進(jìn)行,通過(guò)利用來(lái)自強(qiáng)增強(qiáng)視角的底層視覺(jué)語(yǔ)義信息來(lái)自訓(xùn)練表征。在那之后,實(shí)施細(xì)節(jié)將在第3.3節(jié)中解釋。

3.1 Contrastive Learning

  • 對(duì)比學(xué)習(xí)是一種流行的自監(jiān)督學(xué)習(xí)思想,并且在近年來(lái)由于計(jì)算能力的提高和各種圖像增強(qiáng)技術(shù)的應(yīng)用而取得了巨大的成功。它的目標(biāo)是找出一個(gè)參數(shù)函數(shù)fθ,它可以將輸入圖像x ∈ R^D映射到特征表示z = fθ(x) ∈ R^d,使得在特征空間中的特征表示z能夠反映輸入空間中的語(yǔ)義相似性。為了實(shí)現(xiàn)這一目標(biāo),提出了對(duì)比損失函數(shù)以優(yōu)化網(wǎng)絡(luò)fθ,該損失函數(shù)鼓勵(lì)z及其正樣本z?在特征空間中緊密相連,并將所有其他負(fù)樣本的表示推開(kāi)。在SimCLR之后,還引入了投影器g以進(jìn)一步將表示映射為z = gθ(fθ(x))用于對(duì)比預(yù)訓(xùn)練,盡管在下游任務(wù)中(例如分類/檢測(cè)),我們依舊只使用fθ(x)。這種設(shè)計(jì)被證實(shí)是提升對(duì)比學(xué)習(xí)性能的關(guān)鍵

  • 圖1展示了對(duì)比學(xué)習(xí)方法的最新通用框架。在有監(jiān)督的設(shè)置中,通過(guò)將同一類別的圖像定義為正樣本對(duì),而其余的圖像作為負(fù)樣本對(duì),就可以實(shí)現(xiàn)對(duì)比損失。類似的,在對(duì)比損失中正樣本對(duì)的定義也是受到了實(shí)例識(shí)別任務(wù)的啟發(fā)。在實(shí)例識(shí)別中,正樣本對(duì)通常是由同一個(gè)實(shí)例的不同變換得到的圖像組成的,而負(fù)樣本對(duì)則是由不同實(shí)例的圖像組成。在對(duì)比學(xué)習(xí)框架中,正樣本和負(fù)樣本是通過(guò)特定的數(shù)據(jù)增強(qiáng)策略來(lái)生成的,以確保正樣本對(duì)保持有相同的底層語(yǔ)義信息,同時(shí)負(fù)樣本之間具有足夠的區(qū)別。這種方法通過(guò)最小化正樣本對(duì)的距離以及最大化負(fù)樣本對(duì)的距離,從而使得模型能夠?qū)W習(xí)到有意義的特征表示。

  • 在對(duì)比學(xué)習(xí)中,通常會(huì)采用隨機(jī)增強(qiáng)的同一圖像的裁剪版本作為正樣本對(duì),而其他圖像的裁剪則作為負(fù)樣本。因此,在自監(jiān)督學(xué)習(xí)中的對(duì)比損失是用來(lái)最大化同一實(shí)例不同視圖(增強(qiáng)的裁剪)之間表示的一致性,同時(shí)最小化與其他負(fù)樣本表示之間的一致性。通過(guò)這種方式,模型被訓(xùn)練去識(shí)別哪些特征對(duì)區(qū)分圖像是否為同一實(shí)例更為重要,從而在沒(méi)有標(biāo)簽的情況下學(xué)習(xí)有意義的特征表示。這對(duì)于提高模型對(duì)未標(biāo)記數(shù)據(jù)的理解和泛化能力至關(guān)重要。

  • 具體來(lái)說(shuō),對(duì)于每個(gè)批次B中的圖像x,我們應(yīng)用兩種不同的變換T?和T來(lái)獲取同一個(gè)實(shí)例x的兩個(gè)不同視圖V?和V。然后,這兩個(gè)視圖分別通過(guò)一個(gè)查詢編碼器fθ和一個(gè)鍵編碼器fφ,接著通過(guò)MLP投影層(gθ/gφ),產(chǎn)生兩個(gè)嵌入表示z?和z來(lái)計(jì)算等式(1)中的對(duì)比損失。這種方法允許網(wǎng)絡(luò)學(xué)習(xí)如何把語(yǔ)義相似的圖像映射到特征空間中的靠近點(diǎn),并將不相似的圖像映射到距離較遠(yuǎn)的點(diǎn),通過(guò)這種訓(xùn)練,網(wǎng)絡(luò)能夠捕獲輸入圖像的關(guān)鍵特征,改善其特征表示的質(zhì)量。

外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳

  • 正樣本對(duì)的設(shè)計(jì):在設(shè)計(jì)正樣本對(duì)時(shí),數(shù)據(jù)增強(qiáng)是經(jīng)過(guò)仔細(xì)設(shè)計(jì)的。例如,在SimCLR [8] 中,研究者們小心翼翼地設(shè)計(jì)了顏色偏移和高斯模糊轉(zhuǎn)換來(lái)進(jìn)一步增強(qiáng)隨機(jī)裁剪視圖的效果。InfoMin [17] 探討了對(duì)比預(yù)訓(xùn)練中不同數(shù)據(jù)增強(qiáng)效果,并展示了某些數(shù)據(jù)增強(qiáng)組合相比于MoCo [4] 或SimCLR [8] 能夠進(jìn)一步改善性能。

  • 負(fù)樣本對(duì)的設(shè)計(jì):對(duì)于負(fù)樣本對(duì),研究者們探索了大量方法來(lái)提高負(fù)樣本對(duì)的數(shù)量和質(zhì)量。例如,InstDisc [9] 首次使用了內(nèi)存銀行(負(fù)樣本池)來(lái)追蹤前面批次的特征嵌入,作為負(fù)樣本對(duì),這大大提高了性能,通過(guò)大量的負(fù)樣本。MoCo [4], [5] 通過(guò)使用動(dòng)量編碼器作為鍵編碼器 gφ 來(lái)進(jìn)一步提高負(fù)樣本的質(zhì)量。SimCLR [8] 通過(guò)使用大批量在線訓(xùn)練,并使用同一個(gè)批次中的其他實(shí)例作為負(fù)樣本來(lái)平衡負(fù)樣本的質(zhì)量和數(shù)量,以優(yōu)化對(duì)比損失。AdCo [16] 最近甚至利用了一個(gè)對(duì)抗性內(nèi)存銀行作為負(fù)樣本對(duì),其中內(nèi)存銀行可以通過(guò)端到端訓(xùn)練來(lái)生成負(fù)特征。簡(jiǎn)而言之,負(fù)樣本的潛力已經(jīng)從各種角度被充分探索并大大提升了表征學(xué)習(xí)。

  • 然而,如果直接在對(duì)比學(xué)習(xí)中采用更強(qiáng)烈的變換(例如,使用更大的旋轉(zhuǎn)角度、更激進(jìn)的顏色抖動(dòng)和切割),并不能進(jìn)一步提高性能,甚至可能會(huì)導(dǎo)致下游任務(wù)的性能惡化,這并不令人意外。較強(qiáng)烈的變換可能扭曲圖像結(jié)構(gòu)和它們?cè)趯W(xué)習(xí)到的表示中的感知模式,以至于強(qiáng)烈的增強(qiáng)視圖無(wú)法在訓(xùn)練底層網(wǎng)絡(luò)時(shí)被視為同一實(shí)例。在InfoMin [17] 中,他們也只是探索了弱增強(qiáng)的組合,而沒(méi)有探索可能包含更多信息、有助于模型學(xué)習(xí)到健壯特征的強(qiáng)增強(qiáng)。不同的弱增強(qiáng)組合可能提供了不同的信息,以獲得獨(dú)特的特征表示,因此完全有可能某些有用的信息只能通過(guò)更強(qiáng)的增強(qiáng)來(lái)學(xué)習(xí)。在監(jiān)督學(xué)習(xí) [18], [46], [54] 和半監(jiān)督學(xué)習(xí) [20] 中,不同的更強(qiáng)數(shù)據(jù)增強(qiáng)方法已經(jīng)被廣泛研究,并通過(guò)由強(qiáng)烈增強(qiáng)圖像所展示的新穎模式大大提升了性能。RandAugment [18] 中的發(fā)現(xiàn)驗(yàn)證了即使沒(méi)有明確的增強(qiáng)策略,強(qiáng)烈增強(qiáng)的視圖也能提供更多線索。因此,我們相信從這些新穎模式中學(xué)習(xí)表示將鋪平最后一英里,以縮小與完全監(jiān)督表示之間的差距。這進(jìn)一步激發(fā)了我們探索在自監(jiān)督學(xué)習(xí)中利用更強(qiáng)變換的新方法,同時(shí)避免通過(guò)在對(duì)比模型 [4] 中直接使用它們而導(dǎo)致性能下降。

  • 通過(guò)探索先前的方法和我們的廣泛實(shí)驗(yàn),我們發(fā)現(xiàn)學(xué)習(xí)強(qiáng)增強(qiáng)圖像中嵌入的模式并不是一個(gè)直截了當(dāng)?shù)娜蝿?wù)。如圖 2 所示,強(qiáng)增強(qiáng)圖像在感知上可能與原始圖像看起來(lái)不同。因此,強(qiáng)增強(qiáng)圖像的表示可能與弱增強(qiáng)圖像的表示相差甚遠(yuǎn)。因此,在對(duì)比學(xué)習(xí)中天真地使用強(qiáng)增強(qiáng)圖像可能過(guò)于樂(lè)觀,因?yàn)橐氲呐で赡軙?huì)顯著改變它們的圖像結(jié)構(gòu)。

  • 為此,在第3.2節(jié)中,我們提出了一種分布發(fā)散最小化(DDM)方法,該方法在弱增強(qiáng)圖像和強(qiáng)增強(qiáng)圖像的表示庫(kù)上應(yīng)用,以避免對(duì)強(qiáng)增強(qiáng)圖像的表示進(jìn)行過(guò)擬合,以匹配相應(yīng)的正目標(biāo)。具體來(lái)說(shuō),DDM方法致力于最小化在表示空間中由于深度學(xué)習(xí)模型學(xué)習(xí)到的特征表示而產(chǎn)生的分布差異,達(dá)到平衡強(qiáng)增強(qiáng)圖像與弱增強(qiáng)圖像的表示,促使模型能夠更好地泛化至新的、未見(jiàn)過(guò)的數(shù)據(jù)變換。這樣的策略有助于保持對(duì)比學(xué)習(xí)中正樣本對(duì)的一致性,同時(shí)又不喪失通過(guò)更多樣化的數(shù)據(jù)增強(qiáng)帶來(lái)的額外信息。

Distributional Divergence Minimization between Weakly and Strongly Augmented Images

  • 由于上述所提到的限制,從對(duì)強(qiáng)烈增強(qiáng)查詢的檢索中學(xué)習(xí)對(duì)于自我訓(xùn)練深度網(wǎng)絡(luò)來(lái)說(shuō)是不可行的。然而,相對(duì)相似性的分布可以幫助我們從不同的角度理解對(duì)比學(xué)習(xí),這激發(fā)了我們提出分布發(fā)散最小化(DDM)來(lái)從更強(qiáng)烈的增強(qiáng)中學(xué)習(xí)。

  • DDM的概念基于這樣的觀察:盡管強(qiáng)增強(qiáng)圖像的表示可能與其對(duì)應(yīng)的弱增強(qiáng)圖像的表示有較大差異,但這些表示之間的相對(duì)相似性分布仍然可以為網(wǎng)絡(luò)訓(xùn)練提供有用的指導(dǎo)。通過(guò)最小化強(qiáng)增強(qiáng)圖像與弱增強(qiáng)圖像在表示空間中相對(duì)于其他隨機(jī)圖像的相似性分布之間的距離,模型可以更有效地利用從強(qiáng)增強(qiáng)圖像中學(xué)到的有價(jià)值的信息,同時(shí)避免因增強(qiáng)過(guò)度導(dǎo)致的性能退化。

  • 然而,我們無(wú)法從語(yǔ)義視角獲得理想的可能性分布。測(cè)量查詢圖像與鍵圖像(正/負(fù))之間的最優(yōu)可能性是很困難的。為了避免這種未知分布的探索,對(duì)比損失將q視為一個(gè)one-hot分布,其中正對(duì)滿足 q(zi|z?i) = 1 ,而負(fù)對(duì)則滿足 q(zk|z?i) = 0 (k ∈ [1, K])。這意味著對(duì)比損失僅僅最大化同一實(shí)例不同視圖表示之間的一致性,同時(shí)最小化與其他負(fù)樣本的一致性。查詢圖像與鍵圖像之間所有其他復(fù)雜的關(guān)系都完全被忽略了。

  • 對(duì)比損失的優(yōu)勢(shì)在于它可以極大地加速表示學(xué)習(xí)的收斂,并顯著改善分類和檢測(cè)任務(wù)的表示特征。然而,查詢圖像與負(fù)圖像之間的信息并沒(méi)有被充分利用,這些信息可能包含有助于進(jìn)一步提升表示學(xué)習(xí)的有用線索。

  • 這說(shuō)明當(dāng)代對(duì)比學(xué)習(xí)框架主要集中在區(qū)分正負(fù)樣本對(duì)上,并沒(méi)有利用負(fù)樣本之間的相互關(guān)系或結(jié)構(gòu)。正是這種對(duì)簡(jiǎn)單one-hot分布的依賴,可能會(huì)導(dǎo)致在某些情況下的表現(xiàn)受限。舉例來(lái)說(shuō),如果能夠挖掘查詢圖像與負(fù)樣本之間的細(xì)微和有意義的關(guān)聯(lián),可能有助于進(jìn)一步提煉和豐富表示空間,從而提供更為強(qiáng)大和泛化的模型性能。在實(shí)踐中,開(kāi)發(fā)新的損失函數(shù)或方法,能夠合理地利用這些額外的信息,是當(dāng)前對(duì)比學(xué)習(xí)領(lǐng)域的一個(gè)有趣和重要的研究方向。

  • 與弱增強(qiáng)視圖的表示類似,探索強(qiáng)增強(qiáng)模式的一個(gè)直接解決方案是直接使用強(qiáng)增強(qiáng)圖像作為查詢(query),并使用弱增強(qiáng)圖像作為鍵(key)在對(duì)比損失中。然而,這種過(guò)于樂(lè)觀的設(shè)計(jì)假設(shè)強(qiáng)增強(qiáng)視圖的表示應(yīng)該與其弱增強(qiáng)對(duì)(pair)非常接近,而且遠(yuǎn)離其他實(shí)例的弱增強(qiáng)視圖。一種one-hot分布不能模擬甚至接近最優(yōu)可能性分布,因此不能再幫助表示學(xué)習(xí)。

  • 因此,應(yīng)該提出另一種分布q來(lái)解決一種one-hot分布的這些限制。新的分布q需要能夠更好地反映強(qiáng)增強(qiáng)圖像和其它圖像之間實(shí)際的相似度,而不僅僅是簡(jiǎn)單地將正樣本的相似度最大化和負(fù)樣本的相似度最小化。新的分布可以更細(xì)致地學(xué)習(xí)不同實(shí)例之間的差異性,包括查詢圖像與自身弱增強(qiáng)版本的細(xì)微差異以及與其他實(shí)例的不同弱增強(qiáng)版本之間的差異。

  • 這樣的分布可以采用一種軟分配(soft assignment)或者分布對(duì)齊策略,允許模型學(xué)習(xí)到更豐富的、不只是基于一對(duì)一正負(fù)對(duì)關(guān)系的表示。例如,可以采用溫度調(diào)整的softmax函數(shù)或者其他權(quán)衡正負(fù)樣本影響的技術(shù)來(lái)更好地適應(yīng)強(qiáng)增強(qiáng)查詢的特性。通過(guò)這種方式,表示學(xué)習(xí)可以從不僅僅是弱增強(qiáng)的視圖中受益,同樣也可以從強(qiáng)增強(qiáng)圖像中發(fā)現(xiàn)更多的模式和特征,從而提升學(xué)習(xí)到的表示的泛化能力和效用。

  • 盡管幾乎不可能完美地獲得實(shí)際可能性分布來(lái)自我訓(xùn)練網(wǎng)絡(luò),幸運(yùn)的是,我們發(fā)現(xiàn)使用來(lái)自同一實(shí)例的弱增強(qiáng)圖像在表示庫(kù)中的相對(duì)相似度分布可以為強(qiáng)增強(qiáng)學(xué)習(xí)提供有用的線索。在圖3中,我們比較了弱(強(qiáng))增強(qiáng)查詢的正對(duì)概率分布 p(zi|z?i)(p(zi|zi’‘))和負(fù)對(duì)概率分布的方差 p(zk|z?i)(p(zk|zi’')),其中k ∈ [1, K]。在圖3A中,強(qiáng)增強(qiáng)查詢的初始相似度分布與弱增強(qiáng)查詢的相同,這表明預(yù)訓(xùn)練網(wǎng)絡(luò)的強(qiáng)視圖或弱視圖嵌入之間不存在差異。然而,經(jīng)過(guò)使用最具代表性的基于對(duì)比的方法MoCo[4],[5]訓(xùn)練后,正如圖3B所示,強(qiáng)增強(qiáng)視圖和弱增強(qiáng)視圖之間的相似度分布差異變得明顯。換句話說(shuō),分布差異表明,現(xiàn)有對(duì)比方法未能學(xué)習(xí)到對(duì)較強(qiáng)圖像扭曲魯棒的表示。這激發(fā)了我們提出一種可以在更強(qiáng)增強(qiáng)下穩(wěn)定學(xué)習(xí)表示的方法。同時(shí),我們不能直接將強(qiáng)增強(qiáng)視圖的表示拉到弱增強(qiáng)視圖的表示上,因?yàn)槲覀冊(cè)趯?shí)驗(yàn)中發(fā)現(xiàn)這會(huì)破壞表示學(xué)習(xí)。作為一種替代方案,我們采用了一種寬松的協(xié)議,利用查詢和鍵之間相對(duì)相似度的分布來(lái)預(yù)先訓(xùn)練模型。這個(gè)特性啟發(fā)了我們,弱增強(qiáng)查詢的相對(duì)相似度分布可以用來(lái)監(jiān)督強(qiáng)增強(qiáng)查詢的分布。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-825326.html

3.3 Implementation Details

  • 在之前的研究中(如文獻(xiàn) [19], [20], [31] 所示),強(qiáng)增強(qiáng)通常有兩種類型:幾何和非幾何增強(qiáng)。具體而言,我們考慮了 14 種類型的增強(qiáng):ShearX/Y(剪切),TranslateX/Y(平移),Rotate(旋轉(zhuǎn)),AutoContrast(自動(dòng)對(duì)比度),Invert(反轉(zhuǎn)),Equalize(均衡化),Solarize(曝光),Posterize(色彩簡(jiǎn)化),Contrast(對(duì)比度),Color(顏色調(diào)整),Brightness(亮度),Sharpness(銳度)。每種增強(qiáng)的幅度都足夠大,盡可能地生成強(qiáng)增強(qiáng)效果。不同變換的更多細(xì)節(jié)展示在表 1 中。例如,剪切操作是從 [-0.3,0.3] 范圍內(nèi)抽取,導(dǎo)致強(qiáng)烈變形的圖像,如果給定一個(gè)對(duì)應(yīng)目標(biāo),這些圖像可能很難檢索。特別地,為了變換一張圖像,我們隨機(jī)從上述 14 類變換中選擇一種,并以 0.5 的概率應(yīng)用于圖像。這個(gè)過(guò)程重復(fù)五次,這將強(qiáng)烈增強(qiáng)圖像,如圖 2 的右側(cè)面板中所示的例子。與中間面板中的弱增強(qiáng)圖像相比,可以清楚地看到強(qiáng)增強(qiáng)視圖的圖像結(jié)構(gòu)完全變了。
  • 弱增強(qiáng) T 是根據(jù)文獻(xiàn)中大多數(shù)現(xiàn)有對(duì)比學(xué)習(xí)方法(如文獻(xiàn) [4], [5], [6], [8])所做的:首先從輸入圖像中裁剪圖像并調(diào)整大小至 224×224 像素。然后依次應(yīng)用隨機(jī)顏色抖動(dòng)、高斯模糊、灰度轉(zhuǎn)換、水平翻轉(zhuǎn)、通道顏色歸一化等,以生成弱增強(qiáng)圖像,圖 2 中間的示例展示了這種情況。
  • 技術(shù)細(xì)節(jié) 與之前工作(如文獻(xiàn) [5], [6], [8])類似,我們使用 ResNet-50(文獻(xiàn) [57])作為我們的編碼器骨干 fθ 和 fφ,以及一個(gè) 2 層 MLP(隱藏層為 2048-d,ReLU 激活,輸出 FC 無(wú) ReLU)作為投影頭 gθ 和 gφ。我們?cè)趯?duì)比損失和 DDM 損失中使用余弦相似度。溫度 τ 設(shè)為 0.2。跟隨 MoCo [5],動(dòng)量平滑因子 α 設(shè)為 0.999 用于更新關(guān)鍵編碼器 fφ = α*fφ + (1?α)fθ 以及關(guān)鍵 MLP gφ = αgφ + (1?α)*gθ。損失平衡系數(shù) β 設(shè)為 1.0。我們將隊(duì)列 M 的大小 K 設(shè)為 65536,以存儲(chǔ)用于計(jì)算弱增強(qiáng)和強(qiáng)增強(qiáng)查詢的條件分布的負(fù)樣本,并最小化它們之間的差異。我們使用了相同的溫度用于 DDM 損失和對(duì)比損失,以簡(jiǎn)化公式。我們相信,通過(guò)為 LC 和 LD 調(diào)整不同的溫度,性能可以進(jìn)一步提高。

到了這里,關(guān)于【論文閱讀筆記】Contrastive Learning with Stronger Augmentations的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀】Equivariant Contrastive Learning for Sequential Recommendation

    【論文閱讀】Equivariant Contrastive Learning for Sequential Recommendation

    2023-RecSys https://github.com/Tokkiu/ECL 對(duì)比學(xué)習(xí)(CL)有利于對(duì)具有信息性自我監(jiān)督信號(hào)的順序推薦模型的訓(xùn)練。 現(xiàn)有的解決方案應(yīng)用一般的順序數(shù)據(jù)增強(qiáng)策略來(lái)生成正對(duì),并鼓勵(lì)它們的表示是不變的。 然而,由于用戶行為序列的固有屬性,一些增強(qiáng)策略,如項(xiàng)目替代,可能會(huì)導(dǎo)致

    2024年01月18日
    瀏覽(25)
  • 【論文閱讀】Self-supervised Learning: Generative or Contrastive

    【論文閱讀】Self-supervised Learning: Generative or Contrastive

    研究了在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和圖形學(xué)習(xí)中用于表示的新的自監(jiān)督學(xué)習(xí)方法。全面回顧了現(xiàn)有的實(shí)證方法,并根據(jù)其目的將其歸納為三大類:生成性、對(duì)比性和生成性對(duì)比(對(duì)抗性)。進(jìn)一步收集了關(guān)于自我監(jiān)督學(xué)習(xí)的相關(guān)理論分析,以對(duì)自我監(jiān)督學(xué)習(xí)為什么有效提供

    2024年01月18日
    瀏覽(20)
  • 論文閱讀:Heterogeneous Graph Contrastive Learning for Recommendation(WSDM ’23)

    論文閱讀:Heterogeneous Graph Contrastive Learning for Recommendation(WSDM ’23)

    論文鏈接 在推薦系統(tǒng)中,圖神經(jīng)網(wǎng)絡(luò)在建模圖結(jié)構(gòu)數(shù)據(jù)上已經(jīng)變成一個(gè)強(qiáng)有力的工具。但是現(xiàn)實(shí)生活的推薦語(yǔ)義通常涉及異質(zhì)關(guān)系(像用戶的社交關(guān)系,物品知識(shí)關(guān)系的依賴),這些都包含豐富的語(yǔ)義信息去提升表征能力的學(xué)習(xí)。同時(shí),對(duì)比自監(jiān)督學(xué)習(xí)在推薦系統(tǒng)中也取得了

    2024年02月08日
    瀏覽(20)
  • 論文閱讀-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)

    ????????人為設(shè)計(jì)的圖增強(qiáng),可能會(huì)破壞原始圖的拓?fù)浣Y(jié)構(gòu),同時(shí)相鄰節(jié)點(diǎn)被視為負(fù)節(jié)點(diǎn),因此被推離錨點(diǎn)很遠(yuǎn)。然而,這與網(wǎng)絡(luò)的同質(zhì)性假設(shè)是矛盾的,即連接的節(jié)點(diǎn)通常屬于同一類,并且應(yīng)該彼此接近。本文提出了一種端到端的自動(dòng)GCL方法,稱為NCLA,將 鄰居對(duì)比學(xué)習(xí)

    2024年02月14日
    瀏覽(24)
  • 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning

    論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning

    目錄 ?摘要: ?引言 3 問(wèn)題定義 4 CBD 4.1 框架概述 4.2 Model Learning 4.2.1 通過(guò) GCL 進(jìn)行模型預(yù)訓(xùn)練 ?4.2.2 通過(guò)一致性損失進(jìn)行模型微調(diào) ?4.3 在線檢測(cè) 5 實(shí)驗(yàn) 5.1 實(shí)驗(yàn)設(shè)置 5.2 性能比較 5.5 少量檢測(cè)研究 ?6 結(jié)論 https://dl.acm.org/doi/pdf/10.1145/3583780.3615468 ? ????????社交機(jī)器人檢測(cè)正

    2024年02月06日
    瀏覽(25)
  • 【論文閱讀筆記】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

    ?本文提出了一種自監(jiān)督框架,名為“時(shí)間鄰域編碼”(Temporal Neighborhood Coding,TNC),用于學(xué)習(xí)非平穩(wěn)時(shí)間序列的可泛化表示。該方法利用信號(hào)生成過(guò)程的局部平滑性來(lái)定義具有平穩(wěn)性質(zhì)的時(shí)間鄰域。通過(guò)使用去偏差對(duì)比目標(biāo),該框架通過(guò)確保在編碼空間中,來(lái)自鄰域內(nèi)的信

    2024年02月21日
    瀏覽(21)
  • 【論文閱讀筆記】Attack-Resistant Federated Learning with Residual-based Reweighting

    【論文閱讀筆記】Attack-Resistant Federated Learning with Residual-based Reweighting

    個(gè)人閱讀筆記,如有錯(cuò)誤歡迎指出 Arxiv 2019????????[1912.11464] Attack-Resistant Federated Learning with Residual-based Reweighting (arxiv.org) 問(wèn)題: ????????聯(lián)邦學(xué)習(xí)容易受到后門(mén)攻擊 創(chuàng)新: ????????提出一種基于殘差的重新加權(quán)聚合算法 ????????聚合算法將重復(fù)中值回歸和加權(quán)

    2024年02月15日
    瀏覽(31)
  • 論文閱讀<Contrastive Learning-based Robust Object Detection under Smoky Conditions>

    論文閱讀<Contrastive Learning-based Robust Object Detection under Smoky Conditions>

    論文鏈接:https://openaccess.thecvf.com/content/CVPR2022W/UG2/papers/Wu_Contrastive_Learning-Based_Robust_Object_Detection_Under_Smoky_Conditions_CVPRW_2022_paper.pdf ????????目標(biāo)檢測(cè)是指有效地找出圖像中感興趣的目標(biāo),然后準(zhǔn)確地確定它們的類別和位置。近年來(lái),許多優(yōu)秀的方法被開(kāi)發(fā)出來(lái),以提供強(qiáng)

    2024年02月04日
    瀏覽(30)
  • 【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介紹了一種名為“M3Care”的模型,旨在處理多模態(tài)醫(yī)療保健數(shù)據(jù)中的缺失模態(tài)問(wèn)題。這個(gè)模型是端到端的,能夠補(bǔ)償病人缺失模態(tài)的信息,以執(zhí)行臨床分析。M3Care不是生成原始缺失數(shù)據(jù),而是在潛在空間中估計(jì)缺失模態(tài)的任務(wù)相關(guān)信息,利用來(lái)自具有相似未缺失模態(tài)的

    2024年02月04日
    瀏覽(49)
  • DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀

    DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀

    原文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 該論文設(shè)計(jì)了一種 新的零樣本學(xué)習(xí)范式,通過(guò)遷移語(yǔ)言模型中的先驗(yàn)語(yǔ)義知識(shí),與視覺(jué)模型的特征感知能力進(jìn)行對(duì)齊,以增強(qiáng)后者對(duì)于未見(jiàn)過(guò)圖像的識(shí)別能力。 零樣本學(xué)習(xí)(ZSL)旨在預(yù)測(cè)在訓(xùn)練期間從未出現(xiàn)樣本的未

    2024年01月17日
    瀏覽(33)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包