国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ruby id="expml"></ruby>

^{<sup id="expml"></sup>}

<mark id="expml"><sub id="expml"><mark id="expml"></mark></sub></mark>

<tr id="expml"></tr>

【論文閱讀筆記】Contrastive Learning with Stronger Augmentations

1年前作者：少寫(xiě)代碼少看論文多多睡覺(jué)分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀筆記】Contrastive Learning with Stronger Augmentations。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Contrastive Learning with Stronger Augmentations

摘要

基于提供的摘要，該論文的核心焦點(diǎn)是在對(duì)比學(xué)習(xí)領(lǐng)域提出的一個(gè)新框架——利用強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí)（Contrastive Learning with Stronger Augmentations，簡(jiǎn)稱CLSA）。以下是對(duì)摘要的解析：

問(wèn)題陳述：
- 表征學(xué)習(xí)（representation learning）已在對(duì)比學(xué)習(xí)方法的推動(dòng)下得到了顯著發(fā)展。
- 當(dāng)前對(duì)比學(xué)習(xí)方法廣泛使用數(shù)據(jù)增強(qiáng)技術(shù)，這些技術(shù)被仔細(xì)設(shè)計(jì)以維持圖像身份，從而使得從同一實(shí)例變換而來(lái)的圖像依舊可以檢索到。
- 然而，這些精心設(shè)計(jì)的轉(zhuǎn)換限制了探索其他轉(zhuǎn)換可能揭示的新模式的能力。
研究發(fā)現(xiàn)：
- 強(qiáng)數(shù)據(jù)增強(qiáng)扭曲了圖像的結(jié)構(gòu)，這使得檢索過(guò)程變得困難。
研究貢獻(xiàn)：
- 為了解決上述問(wèn)題，論文提出了一種名為CLSA的通用框架來(lái)補(bǔ)充當(dāng)前的對(duì)比學(xué)習(xí)方法。
- CLSA通過(guò)采用弱增強(qiáng)和強(qiáng)增強(qiáng)圖像在表征庫(kù)上的分布差異來(lái)指導(dǎo)從實(shí)例池中檢索強(qiáng)增強(qiáng)查詢的過(guò)程。
實(shí)驗(yàn)結(jié)果：
- 在ImageNet數(shù)據(jù)集和下游數(shù)據(jù)集上的實(shí)驗(yàn)表明，弱增強(qiáng)和強(qiáng)增強(qiáng)圖像所提供的信息可以顯著提升性能。
- 具體來(lái)說(shuō)，使用標(biāo)準(zhǔn)ResNet-50架構(gòu)并通過(guò)單層分類器微調(diào)的CLSA在ImageNet上達(dá)到了76.2%的top-1準(zhǔn)確率，這幾乎與76.5%的監(jiān)督學(xué)習(xí)結(jié)果處于同一水平。
資源分享：
論文還提供了代碼和預(yù)訓(xùn)練模型的鏈接，方便其他研究者使用和參考。
綜上所述，這項(xiàng)工作提出了在對(duì)比學(xué)習(xí)中引入不同級(jí)別的數(shù)據(jù)增強(qiáng)技術(shù)的新框架，尤其強(qiáng)調(diào)了強(qiáng)增強(qiáng)帶來(lái)的好處。通過(guò)在實(shí)驗(yàn)中表明這種方法有助于改善模型性能，研究者們?yōu)樯疃葘W(xué)習(xí)社區(qū)貢獻(xiàn)了一個(gè)有價(jià)值的工具，尤其對(duì)于那些需要提高圖像相關(guān)任務(wù)性能的研究者來(lái)說(shuō)尤為重要。

Introduction

本段文本繼續(xù)探討了對(duì)比學(xué)習(xí)（contrastive learning）在無(wú)監(jiān)督視覺(jué)表征學(xué)習(xí)領(lǐng)域的角色和發(fā)展。以下是對(duì)文本內(nèi)容的詳細(xì)解析：
深度學(xué)習(xí)成功的基礎(chǔ)：
- 深度神經(jīng)網(wǎng)絡(luò)在從像ImageNet這樣的大型標(biāo)注數(shù)據(jù)集中學(xué)習(xí)方面取得了巨大成功。
- 這些成功建立在有大量昂貴的標(biāo)注樣本可供訓(xùn)練的基礎(chǔ)上。
挑戰(zhàn)和應(yīng)對(duì)策略：
- 這種依賴大量標(biāo)注樣本的方式使數(shù)據(jù)收集變得昂貴且困難，因此研究者們開(kāi)始轉(zhuǎn)向無(wú)監(jiān)督的視覺(jué)表征學(xué)習(xí)和自監(jiān)督學(xué)習(xí)，以擺脫對(duì)大量標(biāo)簽的依賴，并學(xué)習(xí)到健壯和通用的特征表征。
對(duì)比學(xué)習(xí)的作用：
- 在這些方法中，對(duì)比學(xué)習(xí)脫穎而出，顯示出縮小與監(jiān)督學(xué)習(xí)性能差距的潛力。對(duì)比學(xué)習(xí)是實(shí)例學(xué)習(xí)的一種形式，在實(shí)例學(xué)習(xí)中，將每張圖像視為一個(gè)獨(dú)立的實(shí)例。
實(shí)例學(xué)習(xí)目標(biāo)：
- 實(shí)例學(xué)習(xí)的目標(biāo)是訓(xùn)練網(wǎng)絡(luò)使得同一個(gè)實(shí)例的不同增強(qiáng)視圖的表征盡可能接近，同時(shí)保證來(lái)自不同實(shí)例的不同視圖的表征彼此有區(qū)別。
對(duì)比學(xué)習(xí)方法：
- 對(duì)比學(xué)習(xí)通過(guò)最小化同一實(shí)例不同視圖之間的相似度，同時(shí)最大化不同實(shí)例的視圖之間的相似度來(lái)實(shí)現(xiàn)這一目標(biāo)。
對(duì)比學(xué)習(xí)的發(fā)展：
- 為了提高對(duì)比學(xué)習(xí)的效果，提出了各種方法來(lái)探索不同的方向，包括增加負(fù)例的數(shù)量、改善負(fù)例的質(zhì)量、數(shù)據(jù)增強(qiáng)等。
總結(jié)而言，這段文本強(qiáng)調(diào)了對(duì)比學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域中的重要性，并概述了學(xué)者們?cè)诮Y(jié)合實(shí)例學(xué)習(xí)和對(duì)比學(xué)習(xí)原則以學(xué)習(xí)強(qiáng)大的特征表征方面的研究和進(jìn)展。這些無(wú)監(jiān)督的學(xué)習(xí)策略在減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)集的依賴上發(fā)揮了關(guān)鍵作用，并在視覺(jué)表征的學(xué)習(xí)方法上提供了新的突破。
這段文字繼續(xù)討論了數(shù)據(jù)增強(qiáng)在無(wú)監(jiān)督學(xué)習(xí)特別是對(duì)比學(xué)習(xí)中的重要性，以及強(qiáng)數(shù)據(jù)增強(qiáng)對(duì)模型性能的潛在正面影響。以下是對(duì)文本內(nèi)容的詳盡解釋：
數(shù)據(jù)增強(qiáng)方法的普遍依賴：
- 通常，無(wú)監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)方法依賴于精心設(shè)計(jì)的圖像增強(qiáng)（image augmentations），目的是維護(hù)實(shí)例的身份，允許圖像增強(qiáng)后的實(shí)例能從實(shí)例池中準(zhǔn)確檢索到。
數(shù)據(jù)增強(qiáng)設(shè)計(jì)的重要性：
- 研究如InfoMin強(qiáng)調(diào)了精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)對(duì)模型性能的重要影響，并指出了使用強(qiáng)數(shù)據(jù)增強(qiáng)的潛在功效。
強(qiáng)數(shù)據(jù)增強(qiáng)的應(yīng)用：
- 一些新的工作，如SwAV和PIRL，相較于早期的方法如MoCo和SimCLR，采用了更強(qiáng)的數(shù)據(jù)增強(qiáng)策略。
- 但是，現(xiàn)有研究沒(méi)有嘗試應(yīng)用像RandAugment那樣的隨機(jī)組合不同增強(qiáng)來(lái)實(shí)現(xiàn)更強(qiáng)的數(shù)據(jù)增強(qiáng)效果。
強(qiáng)數(shù)據(jù)增強(qiáng)揭示新模式：
- 強(qiáng)數(shù)據(jù)增強(qiáng)能夠揭示新的模式，從而提升模型在監(jiān)督和半監(jiān)督任務(wù)中的性能。
強(qiáng)數(shù)據(jù)增強(qiáng)與自監(jiān)督學(xué)習(xí)：
- 作者認(rèn)為，強(qiáng)數(shù)據(jù)增強(qiáng)中隱藏的模式也能為自監(jiān)督學(xué)習(xí)做出貢獻(xiàn)，通過(guò)提升學(xué)習(xí)到的表征的泛化性，最終縮小與完全監(jiān)督模型之間的差距。
強(qiáng)數(shù)據(jù)增強(qiáng)的挑戰(zhàn)：
- 直接在對(duì)比學(xué)習(xí)中應(yīng)用強(qiáng)數(shù)據(jù)增強(qiáng)可能會(huì)損害性能，因?yàn)橐氲呐で赡軙?huì)嚴(yán)重改變圖像結(jié)構(gòu)，使變換后的圖像無(wú)法保持原始實(shí)例的身份。
未來(lái)的研究方向：
- 為了進(jìn)一步提升自監(jiān)督學(xué)習(xí)，需要額外的努力去探索強(qiáng)數(shù)據(jù)增強(qiáng)的作用并克服相關(guān)的挑戰(zhàn)。
總的來(lái)說(shuō)，這段文字表明，盡管強(qiáng)數(shù)據(jù)增強(qiáng)被認(rèn)為在提高模型性能方面具有潛力，但是它們也帶來(lái)了新的挑戰(zhàn)，例如可能改變圖像結(jié)構(gòu)并丟失實(shí)例標(biāo)識(shí)。因此，為了充分利用強(qiáng)數(shù)據(jù)增強(qiáng)的潛力，需要針對(duì)性地研究和開(kāi)發(fā)新方法以適應(yīng)這類增強(qiáng)手段。
提出的CLSA（使用更強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí)）框架旨在解決強(qiáng)數(shù)據(jù)增強(qiáng)可能導(dǎo)致的問(wèn)題。以下是對(duì)該方法的關(guān)鍵點(diǎn)詳細(xì)解讀：
更強(qiáng)數(shù)據(jù)增強(qiáng)：
- 該框架引入了一個(gè)被稱為“強(qiáng)化增強(qiáng)”的新的數(shù)據(jù)增強(qiáng)方案，它是14種增強(qiáng)類型（如剪切、平移、旋轉(zhuǎn)、自動(dòng)對(duì)比、反相、均衡化、曬化、海報(bào)化、對(duì)比度、顏色、亮度、銳度等）的隨機(jī)組合。
分布差異最小化：
- CLSA不是將強(qiáng)化增強(qiáng)視圖應(yīng)用到對(duì)比損失中，而是提出最小化弱增強(qiáng)圖像與強(qiáng)增強(qiáng)圖像在表征庫(kù)上的分布差異，以此來(lái)指導(dǎo)強(qiáng)查詢的檢索。
- 這種設(shè)計(jì)避免了過(guò)于樂(lè)觀的假設(shè)，即認(rèn)為強(qiáng)化增強(qiáng)視圖的嵌入應(yīng)與弱增強(qiáng)視圖的嵌入完全相同。
- 同時(shí)，利用弱增強(qiáng)視圖的分布，該框架能夠探索強(qiáng)增強(qiáng)視圖所攜帶的新模式。
與對(duì)比損失的結(jié)合：
- 由于CLSA獨(dú)立于對(duì)比損失，因此它可以與任何基于對(duì)比損失的方法相結(jié)合，如MoCo、SimCLR、BYOL等。
實(shí)驗(yàn)結(jié)果：
- 實(shí)驗(yàn)表明，該框架通過(guò)引入分布損失，可以顯著提高性能。
- 實(shí)驗(yàn)也驗(yàn)證了CLSA不僅改善了弱增強(qiáng)視圖的特征表征質(zhì)量，還同時(shí)進(jìn)一步增強(qiáng)了強(qiáng)增強(qiáng)視圖的表征。
在多種數(shù)據(jù)集上的表現(xiàn)：
- 在不同數(shù)據(jù)集上的實(shí)驗(yàn)表明，所提框架能夠通過(guò)學(xué)習(xí)更強(qiáng)的數(shù)據(jù)增強(qiáng)顯著提升性能。
- 在ImageNet線性評(píng)估協(xié)議下，使用標(biāo)準(zhǔn)的ResNet-50網(wǎng)絡(luò)背景，達(dá)到了76.2%的top-1準(zhǔn)確率，幾乎達(dá)到了完全監(jiān)督模型的76.5%的top-1準(zhǔn)確率。
- 同時(shí)，在若干下游任務(wù)上也取得了有競(jìng)爭(zhēng)力的表現(xiàn)，包括在VOC07上使用預(yù)訓(xùn)練的ResNet-50線性分類器達(dá)到93.6%的top-1準(zhǔn)確率，以及在COCO小目標(biāo)檢測(cè)任務(wù)上將APS提高到24.4%。
對(duì)強(qiáng)化增強(qiáng)的討論：還有關(guān)于在對(duì)比學(xué)習(xí)中簡(jiǎn)單應(yīng)用更強(qiáng)數(shù)據(jù)增強(qiáng)可能會(huì)降低性能的消融研究。
綜上所述，CLSA框架通過(guò)在對(duì)比學(xué)習(xí)中引入了更強(qiáng)的數(shù)據(jù)增強(qiáng)并最小化弱增強(qiáng)和強(qiáng)增強(qiáng)圖像的分布差異，顯示了在自監(jiān)督學(xué)習(xí)中使用強(qiáng)數(shù)據(jù)增強(qiáng)提升學(xué)習(xí)性能的可能性。在實(shí)驗(yàn)結(jié)果的支持下，CLSA證明了其在多種視覺(jué)任務(wù)上提升表征學(xué)習(xí)性能的有效性。
首次探索強(qiáng)數(shù)據(jù)增強(qiáng)對(duì)自監(jiān)督學(xué)習(xí)的貢獻(xiàn)：
我們是第一個(gè)研究如何利用更強(qiáng)的數(shù)據(jù)增強(qiáng)手段來(lái)促進(jìn)自監(jiān)督學(xué)習(xí)的團(tuán)隊(duì)。
提出分布損失：
我們提出了一種分布損失機(jī)制，用于從弱增強(qiáng)視圖向強(qiáng)增強(qiáng)視圖遷移知識(shí)。
- CLSA能和其他對(duì)比學(xué)習(xí)方法集成，并大幅提升性能：
- CLSA框架可以輕松地與現(xiàn)有的基于對(duì)比損失的方法集成，并顯著提高它們的性能。
詳盡的消融研究：
- 我們細(xì)致地開(kāi)展了消融研究以驗(yàn)證分布損失的影響。
- CLSA框架能同時(shí)提升弱增強(qiáng)和強(qiáng)增強(qiáng)圖像的表征能力：
- CLSA能夠自主訓(xùn)練神經(jīng)網(wǎng)絡(luò)，同時(shí)改善對(duì)弱增強(qiáng)圖像和強(qiáng)增強(qiáng)圖像的表征。
總的來(lái)說(shuō)，這些貢獻(xiàn)表示該研究的CLSA框架不僅突破了以往自監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)增強(qiáng)方法的應(yīng)用局限，而且提出了一個(gè)新的分布損失概念，有助于更有效地利用數(shù)據(jù)增強(qiáng)來(lái)提升模型性能。此外，CLSA的通用化設(shè)計(jì)意味著它可以與其他對(duì)比學(xué)習(xí)算法結(jié)合使用，從而提高了對(duì)這類算法的廣泛適用性和實(shí)用性。通過(guò)詳細(xì)的消融研究，該框架的有效性得到了進(jìn)一步證實(shí)。

2 RELATED WORK

2.1 Self-Supervised Learning

自監(jiān)督學(xué)習(xí)方法被廣泛研究，用以縮小與監(jiān)督學(xué)習(xí)之間的差距，并減少標(biāo)記大量數(shù)據(jù)所需的時(shí)間和成本。這些方法可以從五個(gè)不同的方面進(jìn)行分類：
生成模型: 這些模型通過(guò)構(gòu)建數(shù)據(jù)的潛在空間表示來(lái)生成新的數(shù)據(jù)樣本。例如，* 變分自編碼器(VAEs)和生成式對(duì)抗網(wǎng)絡(luò)(GANs)。
上下文預(yù)測(cè): 通過(guò)預(yù)測(cè)數(shù)據(jù)中缺失的部分或預(yù)測(cè)數(shù)據(jù)的未來(lái)狀態(tài)來(lái)學(xué)習(xí)有用的特征。例如，在自然語(yǔ)言處理中的BERT，它通過(guò)上下文來(lái)預(yù)測(cè)句子中缺失的單詞。
排列順序預(yù)測(cè): 這些模型通過(guò)重建輸入數(shù)據(jù)的正確順序來(lái)學(xué)習(xí)特征，如顛倒圖像塊或文本片段的順序，并訓(xùn)練模型將它們恢復(fù)到原來(lái)的順序。
對(duì)比學(xué)習(xí): 這些方法包括訓(xùn)練模型區(qū)分正負(fù)樣本對(duì)。如SimCLR和MoCo，它們通過(guò)學(xué)習(xí)將增強(qiáng)的數(shù)據(jù)對(duì)拉近而將未匹配的示例推遠(yuǎn)，從而學(xué)習(xí)表示。
基于探索的方法: 主要通過(guò)交互式環(huán)境中的探索來(lái)學(xué)習(xí)特征，如強(qiáng)化學(xué)習(xí)或在游戲中自動(dòng)生成訓(xùn)練樣本。
這些類別中的方法通過(guò)不同的學(xué)習(xí)范式允許模型學(xué)習(xí)到豐富的特征表征，而這些特征通常在沒(méi)有顯式標(biāo)簽的情況下被學(xué)習(xí)。自監(jiān)督學(xué)習(xí)有助于提高數(shù)據(jù)效率和可擴(kuò)展性，特別是在不可能或不實(shí)際手動(dòng)標(biāo)注大量數(shù)據(jù)的領(lǐng)域。
自監(jiān)督學(xué)習(xí)方法中的生成式方法通常采用自編碼器和對(duì)抗學(xué)習(xí)算法來(lái)訓(xùn)練無(wú)監(jiān)督的表征。這些方法主要關(guān)注圖像的像素級(jí)信息來(lái)區(qū)分不同類別的圖像。以下是對(duì)這些方法的進(jìn)一步詳細(xì)解釋：
生成式方法：
- 自編碼器：通常被用來(lái)在訓(xùn)練階段通過(guò)重構(gòu)輸入來(lái)學(xué)習(xí)隱含的數(shù)據(jù)表示。自編碼器的目標(biāo)是學(xué)習(xí)一個(gè)壓縮的、丟失盡可能少信息的數(shù)據(jù)表示。
- 對(duì)抗學(xué)習(xí)：例如雙向生成式對(duì)抗網(wǎng)絡(luò)（BiGAN），用來(lái)捕捉潛在語(yǔ)義表征與輸入圖像之間的關(guān)系。
聚類：
- 深度聚類（DeepCluster）：將 k-means 概括為通過(guò)交替地分配偽標(biāo)簽和更新網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，從而學(xué)習(xí)視覺(jué)表征。
- SWAV（Swapping Assignments between Views）：最近提出的方法通過(guò)在不同視圖之間強(qiáng)制一致性的聚類原型分配，已在ImageNet上取得了最先進(jìn)的性能。
一致性表征學(xué)習(xí)：
- BYOL（Bootstrap Your Own Latent）：研究人員首次發(fā)現(xiàn)可以不使用負(fù)樣本自我訓(xùn)練編碼器。它利用了孿生架構(gòu)，在編碼器和投影器之上的查詢分支中添加了預(yù)測(cè)器結(jié)構(gòu)。編碼器可以通過(guò)簡(jiǎn)單地最小化查詢嵌入和關(guān)鍵嵌入之間的余弦相似性來(lái)學(xué)習(xí)良好的表征。
- Simsiam：進(jìn)一步移除了動(dòng)量關(guān)鍵編碼器，并使用了停止梯度策略來(lái)避免模型崩潰問(wèn)題。
- SCRL（Spatial Consistency Representation Learning）：進(jìn)一步將一致性損失應(yīng)用于兩個(gè)視圖的交集區(qū)域的感興趣區(qū)域，以改善下游檢測(cè)任務(wù)的編碼器表征。
  此外，用于一致性學(xué)習(xí)的KL損失也被廣泛用于幫助表征學(xué)習(xí)，例如CO2和RELIC，在這些方法中添加了正則化以強(qiáng)制不同數(shù)據(jù)增強(qiáng)下嵌入間的一致性。

2.2 Augmentation in Representation Learning

數(shù)據(jù)增強(qiáng)在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中發(fā)揮著核心作用。一方面，它幫助學(xué)習(xí)到的表征在不同的數(shù)據(jù)增強(qiáng)下更加魯棒，這有助于模型學(xué)習(xí)到變換不變的表征。另一方面，增強(qiáng)手段也為訓(xùn)練引入了更豐富的數(shù)據(jù)。
在監(jiān)督學(xué)習(xí)中，位置和方向調(diào)整首先在MNIST數(shù)據(jù)集中被引入，并取得了有希望的提升。之后，對(duì)于自然圖像數(shù)據(jù)集，例如CIFAR-10、ImageNet，隨機(jī)裁剪、圖像鏡像和顏色變換/美白等技術(shù)被引入來(lái)訓(xùn)練更好的神經(jīng)網(wǎng)絡(luò)。這些早期工作都是手動(dòng)設(shè)計(jì)的，需要時(shí)間和專業(yè)知識(shí)。當(dāng)我們想要結(jié)合數(shù)據(jù)增強(qiáng)以實(shí)現(xiàn)更強(qiáng)的增強(qiáng)時(shí)，手動(dòng)設(shè)計(jì)既不可行也不是最優(yōu)的。為了解決這個(gè)問(wèn)題，研究人員通過(guò)兩種不同的方法探索了組合。
首先，**生成對(duì)抗網(wǎng)絡(luò)（GANs）**被用來(lái)通過(guò)生成器直接生成具有不同變換的更多數(shù)據(jù)。然而，后來(lái)發(fā)現(xiàn)通過(guò)條件性GAN重新定義增強(qiáng)池，來(lái)學(xué)習(xí)數(shù)據(jù)增強(qiáng)的最佳序列更有益。受此啟發(fā)，提出了其他方法來(lái)仔細(xì)研究如何自動(dòng)找到好的數(shù)據(jù)增強(qiáng)組合。AutoAugment首先采用強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)帶有應(yīng)用概率和幅度的增強(qiáng)操作序列。繼此工作之后，提出了基于人口的增強(qiáng)（PBA）、快速AutoAugment、更快速AutoAugment，以加速數(shù)據(jù)增強(qiáng)策略搜索并改進(jìn)它。RandAugment進(jìn)一步發(fā)現(xiàn)，通過(guò)均勻采樣不同數(shù)據(jù)增強(qiáng)和均勻采樣幅度可以構(gòu)建強(qiáng)大的數(shù)據(jù)增加，而無(wú)需廣泛搜索。這些通過(guò)不同變換的組合創(chuàng)建的更強(qiáng)的增強(qiáng)在分類和檢測(cè)的監(jiān)督學(xué)習(xí)中做出了巨大貢獻(xiàn)。
在半監(jiān)督學(xué)習(xí)中，MixMatch引入了MixUp增強(qiáng)，以幫助半監(jiān)督學(xué)習(xí)，其中模型通過(guò)混合視圖和使用MixUp的凸組合混合標(biāo)簽進(jìn)行訓(xùn)練。EnAET利用具有仿射和投影變換的視圖來(lái)進(jìn)一步改進(jìn)半監(jiān)督學(xué)習(xí)。FixMatch發(fā)現(xiàn)，通過(guò)RandAugment產(chǎn)生的高度扭曲圖像對(duì)于從少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)中進(jìn)行學(xué)習(xí)起著關(guān)鍵作用。
這表明數(shù)據(jù)增強(qiáng)不僅對(duì)于提高模型的魯棒性至關(guān)重要，而且在各種學(xué)習(xí)范式中發(fā)揮作用，包括監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。通過(guò)數(shù)據(jù)增強(qiáng)，模型可以從多樣化的樣本中學(xué)習(xí)，提高其泛化能力并提升對(duì)未見(jiàn)數(shù)據(jù)的預(yù)測(cè)精度。
在自監(jiān)督學(xué)習(xí)中，InstDisc和MoCo等研究將顏色抖動(dòng)操作加入到數(shù)據(jù)增強(qiáng)管道中，并在對(duì)比學(xué)習(xí)方面取得了明顯的增益。SimCLR進(jìn)一步在其數(shù)據(jù)增強(qiáng)管道中加入了高斯模糊，這一改進(jìn)在MoCo v2以及后續(xù)的工作中得到了進(jìn)一步的驗(yàn)證?；谶@些觀察，InfoMin探究了不同數(shù)據(jù)增強(qiáng)組合在對(duì)比預(yù)訓(xùn)練中的效果，發(fā)現(xiàn)某些數(shù)據(jù)增強(qiáng)組合能夠帶來(lái)額外的改進(jìn)。同時(shí)，SwAV進(jìn)一步引入了多重裁剪（multi-crop），包含額外的更小尺寸96x96裁剪，以幫助模型學(xué)習(xí)更強(qiáng)大的特征表征。此外，BoWNet甚至將CutMix作為更強(qiáng)大的增強(qiáng)方法引入到表征學(xué)習(xí)中。
前述工作探索了如何通過(guò)引入越來(lái)越多的變換設(shè)計(jì)和構(gòu)建更合適的數(shù)據(jù)增強(qiáng)管道。然而，這些方法都需要時(shí)間、精力和專業(yè)知識(shí)來(lái)手動(dòng)設(shè)計(jì)增強(qiáng)，并且這些設(shè)計(jì)的數(shù)據(jù)增強(qiáng)可能只適用于某些數(shù)據(jù)集。為了克服這個(gè)問(wèn)題，我們提出了由14種不同增強(qiáng)類型的隨機(jī)組合以及MoCo v2中的基線增強(qiáng)來(lái)構(gòu)建更強(qiáng)大的增強(qiáng)方法，應(yīng)用概率和強(qiáng)度同樣隨機(jī)，詳細(xì)內(nèi)容在第3.3節(jié)進(jìn)行了說(shuō)明。
首先，通過(guò)重復(fù)5次采樣增強(qiáng)操作，不同增強(qiáng)方法的完全隨機(jī)組合構(gòu)成了更強(qiáng)大的增強(qiáng)手段。其次，與以前的方法相比，我們的數(shù)據(jù)增強(qiáng)完全是自動(dòng)隨機(jī)采樣的，無(wú)需人工干預(yù)。此外，如同在監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)中指出的那樣，我們同樣展示了這種更強(qiáng)大的增強(qiáng)有助于模型在扭曲圖像下學(xué)習(xí)到強(qiáng)大的特征表征。

3 CLSA: CONTRASTIVE LEARNING WITH STRONGER AUGMENTATIONS

在本節(jié)中，我們首先將回顧對(duì)比學(xué)習(xí)的初步工作，并在第3.1節(jié)中討論它們的優(yōu)勢(shì)和局限性。然后，在第3.2節(jié)中，我們將介紹一種新的分布式發(fā)散損失，該損失在弱增強(qiáng)和強(qiáng)增強(qiáng)圖像之間進(jìn)行，通過(guò)利用來(lái)自強(qiáng)增強(qiáng)視角的底層視覺(jué)語(yǔ)義信息來(lái)自訓(xùn)練表征。在那之后，實(shí)施細(xì)節(jié)將在第3.3節(jié)中解釋。

3.1 Contrastive Learning

對(duì)比學(xué)習(xí)是一種流行的自監(jiān)督學(xué)習(xí)思想，并且在近年來(lái)由于計(jì)算能力的提高和各種圖像增強(qiáng)技術(shù)的應(yīng)用而取得了巨大的成功。它的目標(biāo)是找出一個(gè)參數(shù)函數(shù)fθ，它可以將輸入圖像x ∈ R^D映射到特征表示z = fθ(x) ∈ R^d，使得在特征空間中的特征表示z能夠反映輸入空間中的語(yǔ)義相似性。為了實(shí)現(xiàn)這一目標(biāo)，提出了對(duì)比損失函數(shù)以優(yōu)化網(wǎng)絡(luò)fθ，該損失函數(shù)鼓勵(lì)z及其正樣本z?在特征空間中緊密相連，并將所有其他負(fù)樣本的表示推開(kāi)。在SimCLR之后，還引入了投影器g以進(jìn)一步將表示映射為z = gθ(fθ(x))用于對(duì)比預(yù)訓(xùn)練，盡管在下游任務(wù)中（例如分類/檢測(cè)），我們依舊只使用fθ(x)。這種設(shè)計(jì)被證實(shí)是提升對(duì)比學(xué)習(xí)性能的關(guān)鍵
圖1展示了對(duì)比學(xué)習(xí)方法的最新通用框架。在有監(jiān)督的設(shè)置中，通過(guò)將同一類別的圖像定義為正樣本對(duì)，而其余的圖像作為負(fù)樣本對(duì)，就可以實(shí)現(xiàn)對(duì)比損失。類似的，在對(duì)比損失中正樣本對(duì)的定義也是受到了實(shí)例識(shí)別任務(wù)的啟發(fā)。在實(shí)例識(shí)別中，正樣本對(duì)通常是由同一個(gè)實(shí)例的不同變換得到的圖像組成的，而負(fù)樣本對(duì)則是由不同實(shí)例的圖像組成。在對(duì)比學(xué)習(xí)框架中，正樣本和負(fù)樣本是通過(guò)特定的數(shù)據(jù)增強(qiáng)策略來(lái)生成的，以確保正樣本對(duì)保持有相同的底層語(yǔ)義信息，同時(shí)負(fù)樣本之間具有足夠的區(qū)別。這種方法通過(guò)最小化正樣本對(duì)的距離以及最大化負(fù)樣本對(duì)的距離，從而使得模型能夠?qū)W習(xí)到有意義的特征表示。
在對(duì)比學(xué)習(xí)中，通常會(huì)采用隨機(jī)增強(qiáng)的同一圖像的裁剪版本作為正樣本對(duì)，而其他圖像的裁剪則作為負(fù)樣本。因此，在自監(jiān)督學(xué)習(xí)中的對(duì)比損失是用來(lái)最大化同一實(shí)例不同視圖（增強(qiáng)的裁剪）之間表示的一致性，同時(shí)最小化與其他負(fù)樣本表示之間的一致性。通過(guò)這種方式，模型被訓(xùn)練去識(shí)別哪些特征對(duì)區(qū)分圖像是否為同一實(shí)例更為重要，從而在沒(méi)有標(biāo)簽的情況下學(xué)習(xí)有意義的特征表示。這對(duì)于提高模型對(duì)未標(biāo)記數(shù)據(jù)的理解和泛化能力至關(guān)重要。
具體來(lái)說(shuō)，對(duì)于每個(gè)批次B中的圖像x，我們應(yīng)用兩種不同的變換T?和T來(lái)獲取同一個(gè)實(shí)例x的兩個(gè)不同視圖V?和V。然后，這兩個(gè)視圖分別通過(guò)一個(gè)查詢編碼器fθ和一個(gè)鍵編碼器fφ，接著通過(guò)MLP投影層（gθ/gφ），產(chǎn)生兩個(gè)嵌入表示z?和z來(lái)計(jì)算等式(1)中的對(duì)比損失。這種方法允許網(wǎng)絡(luò)學(xué)習(xí)如何把語(yǔ)義相似的圖像映射到特征空間中的靠近點(diǎn)，并將不相似的圖像映射到距離較遠(yuǎn)的點(diǎn)，通過(guò)這種訓(xùn)練，網(wǎng)絡(luò)能夠捕獲輸入圖像的關(guān)鍵特征，改善其特征表示的質(zhì)量。

外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳

正樣本對(duì)的設(shè)計(jì)：在設(shè)計(jì)正樣本對(duì)時(shí)，數(shù)據(jù)增強(qiáng)是經(jīng)過(guò)仔細(xì)設(shè)計(jì)的。例如，在SimCLR [8] 中，研究者們小心翼翼地設(shè)計(jì)了顏色偏移和高斯模糊轉(zhuǎn)換來(lái)進(jìn)一步增強(qiáng)隨機(jī)裁剪視圖的效果。InfoMin [17] 探討了對(duì)比預(yù)訓(xùn)練中不同數(shù)據(jù)增強(qiáng)效果，并展示了某些數(shù)據(jù)增強(qiáng)組合相比于MoCo [4] 或SimCLR [8] 能夠進(jìn)一步改善性能。
負(fù)樣本對(duì)的設(shè)計(jì)：對(duì)于負(fù)樣本對(duì)，研究者們探索了大量方法來(lái)提高負(fù)樣本對(duì)的數(shù)量和質(zhì)量。例如，InstDisc [9] 首次使用了內(nèi)存銀行（負(fù)樣本池）來(lái)追蹤前面批次的特征嵌入，作為負(fù)樣本對(duì)，這大大提高了性能，通過(guò)大量的負(fù)樣本。MoCo [4], [5] 通過(guò)使用動(dòng)量編碼器作為鍵編碼器 gφ 來(lái)進(jìn)一步提高負(fù)樣本的質(zhì)量。SimCLR [8] 通過(guò)使用大批量在線訓(xùn)練，并使用同一個(gè)批次中的其他實(shí)例作為負(fù)樣本來(lái)平衡負(fù)樣本的質(zhì)量和數(shù)量，以優(yōu)化對(duì)比損失。AdCo [16] 最近甚至利用了一個(gè)對(duì)抗性內(nèi)存銀行作為負(fù)樣本對(duì)，其中內(nèi)存銀行可以通過(guò)端到端訓(xùn)練來(lái)生成負(fù)特征。簡(jiǎn)而言之，負(fù)樣本的潛力已經(jīng)從各種角度被充分探索并大大提升了表征學(xué)習(xí)。
然而，如果直接在對(duì)比學(xué)習(xí)中采用更強(qiáng)烈的變換（例如，使用更大的旋轉(zhuǎn)角度、更激進(jìn)的顏色抖動(dòng)和切割），并不能進(jìn)一步提高性能，甚至可能會(huì)導(dǎo)致下游任務(wù)的性能惡化，這并不令人意外。較強(qiáng)烈的變換可能扭曲圖像結(jié)構(gòu)和它們?cè)趯W(xué)習(xí)到的表示中的感知模式，以至于強(qiáng)烈的增強(qiáng)視圖無(wú)法在訓(xùn)練底層網(wǎng)絡(luò)時(shí)被視為同一實(shí)例。在InfoMin [17] 中，他們也只是探索了弱增強(qiáng)的組合，而沒(méi)有探索可能包含更多信息、有助于模型學(xué)習(xí)到健壯特征的強(qiáng)增強(qiáng)。不同的弱增強(qiáng)組合可能提供了不同的信息，以獲得獨(dú)特的特征表示，因此完全有可能某些有用的信息只能通過(guò)更強(qiáng)的增強(qiáng)來(lái)學(xué)習(xí)。在監(jiān)督學(xué)習(xí) [18], [46], [54] 和半監(jiān)督學(xué)習(xí) [20] 中，不同的更強(qiáng)數(shù)據(jù)增強(qiáng)方法已經(jīng)被廣泛研究，并通過(guò)由強(qiáng)烈增強(qiáng)圖像所展示的新穎模式大大提升了性能。RandAugment [18] 中的發(fā)現(xiàn)驗(yàn)證了即使沒(méi)有明確的增強(qiáng)策略，強(qiáng)烈增強(qiáng)的視圖也能提供更多線索。因此，我們相信從這些新穎模式中學(xué)習(xí)表示將鋪平最后一英里，以縮小與完全監(jiān)督表示之間的差距。這進(jìn)一步激發(fā)了我們探索在自監(jiān)督學(xué)習(xí)中利用更強(qiáng)變換的新方法，同時(shí)避免通過(guò)在對(duì)比模型 [4] 中直接使用它們而導(dǎo)致性能下降。
通過(guò)探索先前的方法和我們的廣泛實(shí)驗(yàn)，我們發(fā)現(xiàn)學(xué)習(xí)強(qiáng)增強(qiáng)圖像中嵌入的模式并不是一個(gè)直截了當(dāng)?shù)娜蝿?wù)。如圖 2 所示，強(qiáng)增強(qiáng)圖像在感知上可能與原始圖像看起來(lái)不同。因此，強(qiáng)增強(qiáng)圖像的表示可能與弱增強(qiáng)圖像的表示相差甚遠(yuǎn)。因此，在對(duì)比學(xué)習(xí)中天真地使用強(qiáng)增強(qiáng)圖像可能過(guò)于樂(lè)觀，因?yàn)橐氲呐で赡軙?huì)顯著改變它們的圖像結(jié)構(gòu)。
為此，在第3.2節(jié)中，我們提出了一種分布發(fā)散最小化（DDM）方法，該方法在弱增強(qiáng)圖像和強(qiáng)增強(qiáng)圖像的表示庫(kù)上應(yīng)用，以避免對(duì)強(qiáng)增強(qiáng)圖像的表示進(jìn)行過(guò)擬合，以匹配相應(yīng)的正目標(biāo)。具體來(lái)說(shuō)，DDM方法致力于最小化在表示空間中由于深度學(xué)習(xí)模型學(xué)習(xí)到的特征表示而產(chǎn)生的分布差異，達(dá)到平衡強(qiáng)增強(qiáng)圖像與弱增強(qiáng)圖像的表示，促使模型能夠更好地泛化至新的、未見(jiàn)過(guò)的數(shù)據(jù)變換。這樣的策略有助于保持對(duì)比學(xué)習(xí)中正樣本對(duì)的一致性，同時(shí)又不喪失通過(guò)更多樣化的數(shù)據(jù)增強(qiáng)帶來(lái)的額外信息。

Distributional Divergence Minimization between Weakly and Strongly Augmented Images

由于上述所提到的限制，從對(duì)強(qiáng)烈增強(qiáng)查詢的檢索中學(xué)習(xí)對(duì)于自我訓(xùn)練深度網(wǎng)絡(luò)來(lái)說(shuō)是不可行的。然而，相對(duì)相似性的分布可以幫助我們從不同的角度理解對(duì)比學(xué)習(xí)，這激發(fā)了我們提出分布發(fā)散最小化（DDM）來(lái)從更強(qiáng)烈的增強(qiáng)中學(xué)習(xí)。
DDM的概念基于這樣的觀察：盡管強(qiáng)增強(qiáng)圖像的表示可能與其對(duì)應(yīng)的弱增強(qiáng)圖像的表示有較大差異，但這些表示之間的相對(duì)相似性分布仍然可以為網(wǎng)絡(luò)訓(xùn)練提供有用的指導(dǎo)。通過(guò)最小化強(qiáng)增強(qiáng)圖像與弱增強(qiáng)圖像在表示空間中相對(duì)于其他隨機(jī)圖像的相似性分布之間的距離，模型可以更有效地利用從強(qiáng)增強(qiáng)圖像中學(xué)到的有價(jià)值的信息，同時(shí)避免因增強(qiáng)過(guò)度導(dǎo)致的性能退化。
然而，我們無(wú)法從語(yǔ)義視角獲得理想的可能性分布。測(cè)量查詢圖像與鍵圖像（正/負(fù)）之間的最優(yōu)可能性是很困難的。為了避免這種未知分布的探索，對(duì)比損失將q視為一個(gè)one-hot分布，其中正對(duì)滿足 q(zi|z?i) = 1 ，而負(fù)對(duì)則滿足 q(zk|z?i) = 0 (k ∈ [1, K])。這意味著對(duì)比損失僅僅最大化同一實(shí)例不同視圖表示之間的一致性，同時(shí)最小化與其他負(fù)樣本的一致性。查詢圖像與鍵圖像之間所有其他復(fù)雜的關(guān)系都完全被忽略了。
對(duì)比損失的優(yōu)勢(shì)在于它可以極大地加速表示學(xué)習(xí)的收斂，并顯著改善分類和檢測(cè)任務(wù)的表示特征。然而，查詢圖像與負(fù)圖像之間的信息并沒(méi)有被充分利用，這些信息可能包含有助于進(jìn)一步提升表示學(xué)習(xí)的有用線索。
這說(shuō)明當(dāng)代對(duì)比學(xué)習(xí)框架主要集中在區(qū)分正負(fù)樣本對(duì)上，并沒(méi)有利用負(fù)樣本之間的相互關(guān)系或結(jié)構(gòu)。正是這種對(duì)簡(jiǎn)單one-hot分布的依賴，可能會(huì)導(dǎo)致在某些情況下的表現(xiàn)受限。舉例來(lái)說(shuō)，如果能夠挖掘查詢圖像與負(fù)樣本之間的細(xì)微和有意義的關(guān)聯(lián)，可能有助于進(jìn)一步提煉和豐富表示空間，從而提供更為強(qiáng)大和泛化的模型性能。在實(shí)踐中，開(kāi)發(fā)新的損失函數(shù)或方法，能夠合理地利用這些額外的信息，是當(dāng)前對(duì)比學(xué)習(xí)領(lǐng)域的一個(gè)有趣和重要的研究方向。
與弱增強(qiáng)視圖的表示類似，探索強(qiáng)增強(qiáng)模式的一個(gè)直接解決方案是直接使用強(qiáng)增強(qiáng)圖像作為查詢（query），并使用弱增強(qiáng)圖像作為鍵（key）在對(duì)比損失中。然而，這種過(guò)于樂(lè)觀的設(shè)計(jì)假設(shè)強(qiáng)增強(qiáng)視圖的表示應(yīng)該與其弱增強(qiáng)對(duì)（pair）非常接近，而且遠(yuǎn)離其他實(shí)例的弱增強(qiáng)視圖。一種one-hot分布不能模擬甚至接近最優(yōu)可能性分布，因此不能再幫助表示學(xué)習(xí)。
因此，應(yīng)該提出另一種分布q來(lái)解決一種one-hot分布的這些限制。新的分布q需要能夠更好地反映強(qiáng)增強(qiáng)圖像和其它圖像之間實(shí)際的相似度，而不僅僅是簡(jiǎn)單地將正樣本的相似度最大化和負(fù)樣本的相似度最小化。新的分布可以更細(xì)致地學(xué)習(xí)不同實(shí)例之間的差異性，包括查詢圖像與自身弱增強(qiáng)版本的細(xì)微差異以及與其他實(shí)例的不同弱增強(qiáng)版本之間的差異。
這樣的分布可以采用一種軟分配（soft assignment）或者分布對(duì)齊策略，允許模型學(xué)習(xí)到更豐富的、不只是基于一對(duì)一正負(fù)對(duì)關(guān)系的表示。例如，可以采用溫度調(diào)整的softmax函數(shù)或者其他權(quán)衡正負(fù)樣本影響的技術(shù)來(lái)更好地適應(yīng)強(qiáng)增強(qiáng)查詢的特性。通過(guò)這種方式，表示學(xué)習(xí)可以從不僅僅是弱增強(qiáng)的視圖中受益，同樣也可以從強(qiáng)增強(qiáng)圖像中發(fā)現(xiàn)更多的模式和特征，從而提升學(xué)習(xí)到的表示的泛化能力和效用。
盡管幾乎不可能完美地獲得實(shí)際可能性分布來(lái)自我訓(xùn)練網(wǎng)絡(luò)，幸運(yùn)的是，我們發(fā)現(xiàn)使用來(lái)自同一實(shí)例的弱增強(qiáng)圖像在表示庫(kù)中的相對(duì)相似度分布可以為強(qiáng)增強(qiáng)學(xué)習(xí)提供有用的線索。在圖3中，我們比較了弱（強(qiáng)）增強(qiáng)查詢的正對(duì)概率分布 p(zi|z?i)（p(zi|zi’‘)）和負(fù)對(duì)概率分布的方差 p(zk|z?i)（p(zk|zi’')），其中k ∈ [1, K]。在圖3A中，強(qiáng)增強(qiáng)查詢的初始相似度分布與弱增強(qiáng)查詢的相同，這表明預(yù)訓(xùn)練網(wǎng)絡(luò)的強(qiáng)視圖或弱視圖嵌入之間不存在差異。然而，經(jīng)過(guò)使用最具代表性的基于對(duì)比的方法MoCo[4],[5]訓(xùn)練后，正如圖3B所示，強(qiáng)增強(qiáng)視圖和弱增強(qiáng)視圖之間的相似度分布差異變得明顯。換句話說(shuō)，分布差異表明，現(xiàn)有對(duì)比方法未能學(xué)習(xí)到對(duì)較強(qiáng)圖像扭曲魯棒的表示。這激發(fā)了我們提出一種可以在更強(qiáng)增強(qiáng)下穩(wěn)定學(xué)習(xí)表示的方法。同時(shí)，我們不能直接將強(qiáng)增強(qiáng)視圖的表示拉到弱增強(qiáng)視圖的表示上，因?yàn)槲覀冊(cè)趯?shí)驗(yàn)中發(fā)現(xiàn)這會(huì)破壞表示學(xué)習(xí)。作為一種替代方案，我們采用了一種寬松的協(xié)議，利用查詢和鍵之間相對(duì)相似度的分布來(lái)預(yù)先訓(xùn)練模型。這個(gè)特性啟發(fā)了我們，弱增強(qiáng)查詢的相對(duì)相似度分布可以用來(lái)監(jiān)督強(qiáng)增強(qiáng)查詢的分布。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-825326.html

3.3 Implementation Details

在之前的研究中（如文獻(xiàn) [19], [20], [31] 所示），強(qiáng)增強(qiáng)通常有兩種類型：幾何和非幾何增強(qiáng)。具體而言，我們考慮了 14 種類型的增強(qiáng)：ShearX/Y（剪切），TranslateX/Y（平移），Rotate（旋轉(zhuǎn)），AutoContrast（自動(dòng)對(duì)比度），Invert（反轉(zhuǎn)），Equalize（均衡化），Solarize（曝光），Posterize（色彩簡(jiǎn)化），Contrast（對(duì)比度），Color（顏色調(diào)整），Brightness（亮度），Sharpness（銳度）。每種增強(qiáng)的幅度都足夠大，盡可能地生成強(qiáng)增強(qiáng)效果。不同變換的更多細(xì)節(jié)展示在表 1 中。例如，剪切操作是從 [-0.3,0.3] 范圍內(nèi)抽取，導(dǎo)致強(qiáng)烈變形的圖像，如果給定一個(gè)對(duì)應(yīng)目標(biāo)，這些圖像可能很難檢索。特別地，為了變換一張圖像，我們隨機(jī)從上述 14 類變換中選擇一種，并以 0.5 的概率應(yīng)用于圖像。這個(gè)過(guò)程重復(fù)五次，這將強(qiáng)烈增強(qiáng)圖像，如圖 2 的右側(cè)面板中所示的例子。與中間面板中的弱增強(qiáng)圖像相比，可以清楚地看到強(qiáng)增強(qiáng)視圖的圖像結(jié)構(gòu)完全變了。
弱增強(qiáng) T 是根據(jù)文獻(xiàn)中大多數(shù)現(xiàn)有對(duì)比學(xué)習(xí)方法（如文獻(xiàn) [4], [5], [6], [8]）所做的：首先從輸入圖像中裁剪圖像并調(diào)整大小至 224×224 像素。然后依次應(yīng)用隨機(jī)顏色抖動(dòng)、高斯模糊、灰度轉(zhuǎn)換、水平翻轉(zhuǎn)、通道顏色歸一化等，以生成弱增強(qiáng)圖像，圖 2 中間的示例展示了這種情況。
技術(shù)細(xì)節(jié) 與之前工作（如文獻(xiàn) [5], [6], [8]）類似，我們使用 ResNet-50（文獻(xiàn) [57]）作為我們的編碼器骨干 fθ 和 fφ，以及一個(gè) 2 層 MLP（隱藏層為 2048-d，ReLU 激活，輸出 FC 無(wú) ReLU）作為投影頭 gθ 和 gφ。我們?cè)趯?duì)比損失和 DDM 損失中使用余弦相似度。溫度 τ 設(shè)為 0.2。跟隨 MoCo [5]，動(dòng)量平滑因子 α 設(shè)為 0.999 用于更新關(guān)鍵編碼器 fφ = α*fφ + (1?α)fθ 以及關(guān)鍵 MLP gφ = αgφ + (1?α)*gθ。損失平衡系數(shù) β 設(shè)為 1.0。我們將隊(duì)列 M 的大小 K 設(shè)為 65536，以存儲(chǔ)用于計(jì)算弱增強(qiáng)和強(qiáng)增強(qiáng)查詢的條件分布的負(fù)樣本，并最小化它們之間的差異。我們使用了相同的溫度用于 DDM 損失和對(duì)比損失，以簡(jiǎn)化公式。我們相信，通過(guò)為 LC 和 LD 調(diào)整不同的溫度，性能可以進(jìn)一步提高。

到了這里，關(guān)于【論文閱讀筆記】Contrastive Learning with Stronger Augmentations的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【論文閱讀】Equivariant Contrastive Learning for Sequential Recommendation
2023-RecSys https://github.com/Tokkiu/ECL 對(duì)比學(xué)習(xí)（CL）有利于對(duì)具有信息性自我監(jiān)督信號(hào)的順序推薦模型的訓(xùn)練。現(xiàn)有的解決方案應(yīng)用一般的順序數(shù)據(jù)增強(qiáng)策略來(lái)生成正對(duì)，并鼓勵(lì)它們的表示是不變的。然而，由于用戶行為序列的固有屬性，一些增強(qiáng)策略，如項(xiàng)目替代，可能會(huì)導(dǎo)致
2024年01月18日
瀏覽(25)
【論文閱讀】Self-supervised Learning: Generative or Contrastive
研究了在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和圖形學(xué)習(xí)中用于表示的新的自監(jiān)督學(xué)習(xí)方法。全面回顧了現(xiàn)有的實(shí)證方法，并根據(jù)其目的將其歸納為三大類：生成性、對(duì)比性和生成性對(duì)比（對(duì)抗性）。進(jìn)一步收集了關(guān)于自我監(jiān)督學(xué)習(xí)的相關(guān)理論分析，以對(duì)自我監(jiān)督學(xué)習(xí)為什么有效提供
2024年01月18日
瀏覽(20)
論文閱讀：Heterogeneous Graph Contrastive Learning for Recommendation（WSDM ’23）
論文鏈接在推薦系統(tǒng)中，圖神經(jīng)網(wǎng)絡(luò)在建模圖結(jié)構(gòu)數(shù)據(jù)上已經(jīng)變成一個(gè)強(qiáng)有力的工具。但是現(xiàn)實(shí)生活的推薦語(yǔ)義通常涉及異質(zhì)關(guān)系（像用戶的社交關(guān)系，物品知識(shí)關(guān)系的依賴），這些都包含豐富的語(yǔ)義信息去提升表征能力的學(xué)習(xí)。同時(shí)，對(duì)比自監(jiān)督學(xué)習(xí)在推薦系統(tǒng)中也取得了
2024年02月08日
瀏覽(20)
論文閱讀-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)
????????人為設(shè)計(jì)的圖增強(qiáng)，可能會(huì)破壞原始圖的拓?fù)浣Y(jié)構(gòu)，同時(shí)相鄰節(jié)點(diǎn)被視為負(fù)節(jié)點(diǎn)，因此被推離錨點(diǎn)很遠(yuǎn)。然而，這與網(wǎng)絡(luò)的同質(zhì)性假設(shè)是矛盾的，即連接的節(jié)點(diǎn)通常屬于同一類，并且應(yīng)該彼此接近。本文提出了一種端到端的自動(dòng)GCL方法，稱為NCLA，將鄰居對(duì)比學(xué)習(xí)
2024年02月14日
瀏覽(24)
論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning
目錄 ?摘要： ?引言 3 問(wèn)題定義 4 CBD 4.1 框架概述 4.2 Model Learning 4.2.1 通過(guò) GCL 進(jìn)行模型預(yù)訓(xùn)練 ?4.2.2 通過(guò)一致性損失進(jìn)行模型微調(diào) ?4.3 在線檢測(cè) 5 實(shí)驗(yàn) 5.1 實(shí)驗(yàn)設(shè)置 5.2 性能比較 5.5 少量檢測(cè)研究 ?6 結(jié)論 https://dl.acm.org/doi/pdf/10.1145/3583780.3615468 ? ????????社交機(jī)器人檢測(cè)正
2024年02月06日
瀏覽(25)
【論文閱讀筆記】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING
?本文提出了一種自監(jiān)督框架，名為“時(shí)間鄰域編碼”（Temporal Neighborhood Coding，TNC），用于學(xué)習(xí)非平穩(wěn)時(shí)間序列的可泛化表示。該方法利用信號(hào)生成過(guò)程的局部平滑性來(lái)定義具有平穩(wěn)性質(zhì)的時(shí)間鄰域。通過(guò)使用去偏差對(duì)比目標(biāo)，該框架通過(guò)確保在編碼空間中，來(lái)自鄰域內(nèi)的信
2024年02月21日
瀏覽(21)
【論文閱讀筆記】Attack-Resistant Federated Learning with Residual-based Reweighting
個(gè)人閱讀筆記，如有錯(cuò)誤歡迎指出 Arxiv 2019????????[1912.11464] Attack-Resistant Federated Learning with Residual-based Reweighting (arxiv.org) 問(wèn)題： ????????聯(lián)邦學(xué)習(xí)容易受到后門(mén)攻擊創(chuàng)新： ????????提出一種基于殘差的重新加權(quán)聚合算法 ????????聚合算法將重復(fù)中值回歸和加權(quán)
2024年02月15日
瀏覽(31)
論文閱讀＜Contrastive Learning-based Robust Object Detection under Smoky Conditions＞
論文鏈接：https://openaccess.thecvf.com/content/CVPR2022W/UG2/papers/Wu_Contrastive_Learning-Based_Robust_Object_Detection_Under_Smoky_Conditions_CVPRW_2022_paper.pdf ????????目標(biāo)檢測(cè)是指有效地找出圖像中感興趣的目標(biāo)，然后準(zhǔn)確地確定它們的類別和位置。近年來(lái)，許多優(yōu)秀的方法被開(kāi)發(fā)出來(lái)，以提供強(qiáng)
2024年02月04日
瀏覽(30)
【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data
本文介紹了一種名為“M3Care”的模型，旨在處理多模態(tài)醫(yī)療保健數(shù)據(jù)中的缺失模態(tài)問(wèn)題。這個(gè)模型是端到端的，能夠補(bǔ)償病人缺失模態(tài)的信息，以執(zhí)行臨床分析。M3Care不是生成原始缺失數(shù)據(jù)，而是在潛在空間中估計(jì)缺失模態(tài)的任務(wù)相關(guān)信息，利用來(lái)自具有相似未缺失模態(tài)的
2024年02月04日
瀏覽(49)
DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀
原文鏈接： https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 該論文設(shè)計(jì)了一種新的零樣本學(xué)習(xí)范式，通過(guò)遷移語(yǔ)言模型中的先驗(yàn)語(yǔ)義知識(shí)，與視覺(jué)模型的特征感知能力進(jìn)行對(duì)齊，以增強(qiáng)后者對(duì)于未見(jiàn)過(guò)圖像的識(shí)別能力。零樣本學(xué)習(xí)（ZSL）旨在預(yù)測(cè)在訓(xùn)練期間從未出現(xiàn)樣本的未
2024年01月17日
瀏覽(33)

<noscript id="xsjl2"></noscript>