Contrastive Learning with Stronger Augmentations
摘要
基于提供的摘要,該論文的核心焦點(diǎn)是在對(duì)比學(xué)習(xí)領(lǐng)域提出的一個(gè)新框架——利用強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí)(Contrastive Learning with Stronger Augmentations,簡(jiǎn)稱CLSA)。以下是對(duì)摘要的解析:
- 問(wèn)題陳述:
- 表征學(xué)習(xí)(representation learning)已在對(duì)比學(xué)習(xí)方法的推動(dòng)下得到了顯著發(fā)展。
- 當(dāng)前對(duì)比學(xué)習(xí)方法廣泛使用數(shù)據(jù)增強(qiáng)技術(shù),這些技術(shù)被仔細(xì)設(shè)計(jì)以維持圖像身份,從而使得從同一實(shí)例變換而來(lái)的圖像依舊可以檢索到。
- 然而,這些精心設(shè)計(jì)的轉(zhuǎn)換限制了探索其他轉(zhuǎn)換可能揭示的新模式的能力。
- 研究發(fā)現(xiàn):
- 強(qiáng)數(shù)據(jù)增強(qiáng)扭曲了圖像的結(jié)構(gòu),這使得檢索過(guò)程變得困難。
- 研究貢獻(xiàn):
- 為了解決上述問(wèn)題,論文提出了一種名為CLSA的通用框架來(lái)補(bǔ)充當(dāng)前的對(duì)比學(xué)習(xí)方法。
- CLSA通過(guò)采用弱增強(qiáng)和強(qiáng)增強(qiáng)圖像在表征庫(kù)上的分布差異來(lái)指導(dǎo)從實(shí)例池中檢索強(qiáng)增強(qiáng)查詢的過(guò)程。
- 實(shí)驗(yàn)結(jié)果:
- 在ImageNet數(shù)據(jù)集和下游數(shù)據(jù)集上的實(shí)驗(yàn)表明,弱增強(qiáng)和強(qiáng)增強(qiáng)圖像所提供的信息可以顯著提升性能。
- 具體來(lái)說(shuō),使用標(biāo)準(zhǔn)ResNet-50架構(gòu)并通過(guò)單層分類器微調(diào)的CLSA在ImageNet上達(dá)到了76.2%的top-1準(zhǔn)確率,這幾乎與76.5%的監(jiān)督學(xué)習(xí)結(jié)果處于同一水平。
- 資源分享:
- 論文還提供了代碼和預(yù)訓(xùn)練模型的鏈接,方便其他研究者使用和參考。
綜上所述,這項(xiàng)工作提出了在對(duì)比學(xué)習(xí)中引入不同級(jí)別的數(shù)據(jù)增強(qiáng)技術(shù)的新框架,尤其強(qiáng)調(diào)了強(qiáng)增強(qiáng)帶來(lái)的好處。通過(guò)在實(shí)驗(yàn)中表明這種方法有助于改善模型性能,研究者們?yōu)樯疃葘W(xué)習(xí)社區(qū)貢獻(xiàn)了一個(gè)有價(jià)值的工具,尤其對(duì)于那些需要提高圖像相關(guān)任務(wù)性能的研究者來(lái)說(shuō)尤為重要。
Introduction
-
本段文本繼續(xù)探討了對(duì)比學(xué)習(xí)(contrastive learning)在無(wú)監(jiān)督視覺(jué)表征學(xué)習(xí)領(lǐng)域的角色和發(fā)展。以下是對(duì)文本內(nèi)容的詳細(xì)解析:
-
深度學(xué)習(xí)成功的基礎(chǔ):
- 深度神經(jīng)網(wǎng)絡(luò)在從像ImageNet這樣的大型標(biāo)注數(shù)據(jù)集中學(xué)習(xí)方面取得了巨大成功。
- 這些成功建立在有大量昂貴的標(biāo)注樣本可供訓(xùn)練的基礎(chǔ)上。
-
挑戰(zhàn)和應(yīng)對(duì)策略:
- 這種依賴大量標(biāo)注樣本的方式使數(shù)據(jù)收集變得昂貴且困難,因此研究者們開(kāi)始轉(zhuǎn)向無(wú)監(jiān)督的視覺(jué)表征學(xué)習(xí)和自監(jiān)督學(xué)習(xí),以擺脫對(duì)大量標(biāo)簽的依賴,并學(xué)習(xí)到健壯和通用的特征表征。
-
對(duì)比學(xué)習(xí)的作用:
- 在這些方法中,對(duì)比學(xué)習(xí)脫穎而出,顯示出縮小與監(jiān)督學(xué)習(xí)性能差距的潛力。對(duì)比學(xué)習(xí)是實(shí)例學(xué)習(xí)的一種形式,在實(shí)例學(xué)習(xí)中,將每張圖像視為一個(gè)獨(dú)立的實(shí)例。
-
實(shí)例學(xué)習(xí)目標(biāo):
- 實(shí)例學(xué)習(xí)的目標(biāo)是訓(xùn)練網(wǎng)絡(luò)使得同一個(gè)實(shí)例的不同增強(qiáng)視圖的表征盡可能接近,同時(shí)保證來(lái)自不同實(shí)例的不同視圖的表征彼此有區(qū)別。
-
對(duì)比學(xué)習(xí)方法:
- 對(duì)比學(xué)習(xí)通過(guò)最小化同一實(shí)例不同視圖之間的相似度,同時(shí)最大化不同實(shí)例的視圖之間的相似度來(lái)實(shí)現(xiàn)這一目標(biāo)。
-
對(duì)比學(xué)習(xí)的發(fā)展:
- 為了提高對(duì)比學(xué)習(xí)的效果,提出了各種方法來(lái)探索不同的方向,包括增加負(fù)例的數(shù)量、改善負(fù)例的質(zhì)量、數(shù)據(jù)增強(qiáng)等。
-
總結(jié)而言,這段文本強(qiáng)調(diào)了對(duì)比學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域中的重要性,并概述了學(xué)者們?cè)诮Y(jié)合實(shí)例學(xué)習(xí)和對(duì)比學(xué)習(xí)原則以學(xué)習(xí)強(qiáng)大的特征表征方面的研究和進(jìn)展。這些無(wú)監(jiān)督的學(xué)習(xí)策略在減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)集的依賴上發(fā)揮了關(guān)鍵作用,并在視覺(jué)表征的學(xué)習(xí)方法上提供了新的突破。
-
這段文字繼續(xù)討論了數(shù)據(jù)增強(qiáng)在無(wú)監(jiān)督學(xué)習(xí)特別是對(duì)比學(xué)習(xí)中的重要性,以及強(qiáng)數(shù)據(jù)增強(qiáng)對(duì)模型性能的潛在正面影響。以下是對(duì)文本內(nèi)容的詳盡解釋:
-
數(shù)據(jù)增強(qiáng)方法的普遍依賴:
- 通常,無(wú)監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)方法依賴于精心設(shè)計(jì)的圖像增強(qiáng)(image augmentations),目的是維護(hù)實(shí)例的身份,允許圖像增強(qiáng)后的實(shí)例能從實(shí)例池中準(zhǔn)確檢索到。
-
數(shù)據(jù)增強(qiáng)設(shè)計(jì)的重要性:
- 研究如InfoMin強(qiáng)調(diào)了精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)對(duì)模型性能的重要影響,并指出了使用強(qiáng)數(shù)據(jù)增強(qiáng)的潛在功效。
-
強(qiáng)數(shù)據(jù)增強(qiáng)的應(yīng)用:
- 一些新的工作,如SwAV和PIRL,相較于早期的方法如MoCo和SimCLR,采用了更強(qiáng)的數(shù)據(jù)增強(qiáng)策略。
- 但是,現(xiàn)有研究沒(méi)有嘗試應(yīng)用像RandAugment那樣的隨機(jī)組合不同增強(qiáng)來(lái)實(shí)現(xiàn)更強(qiáng)的數(shù)據(jù)增強(qiáng)效果。
-
強(qiáng)數(shù)據(jù)增強(qiáng)揭示新模式:
- 強(qiáng)數(shù)據(jù)增強(qiáng)能夠揭示新的模式,從而提升模型在監(jiān)督和半監(jiān)督任務(wù)中的性能。
-
強(qiáng)數(shù)據(jù)增強(qiáng)與自監(jiān)督學(xué)習(xí):
- 作者認(rèn)為,強(qiáng)數(shù)據(jù)增強(qiáng)中隱藏的模式也能為自監(jiān)督學(xué)習(xí)做出貢獻(xiàn),通過(guò)提升學(xué)習(xí)到的表征的泛化性,最終縮小與完全監(jiān)督模型之間的差距。
-
強(qiáng)數(shù)據(jù)增強(qiáng)的挑戰(zhàn):
- 直接在對(duì)比學(xué)習(xí)中應(yīng)用強(qiáng)數(shù)據(jù)增強(qiáng)可能會(huì)損害性能,因?yàn)橐氲呐で赡軙?huì)嚴(yán)重改變圖像結(jié)構(gòu),使變換后的圖像無(wú)法保持原始實(shí)例的身份。
-
未來(lái)的研究方向:
- 為了進(jìn)一步提升自監(jiān)督學(xué)習(xí),需要額外的努力去探索強(qiáng)數(shù)據(jù)增強(qiáng)的作用并克服相關(guān)的挑戰(zhàn)。
-
總的來(lái)說(shuō),這段文字表明,盡管強(qiáng)數(shù)據(jù)增強(qiáng)被認(rèn)為在提高模型性能方面具有潛力,但是它們也帶來(lái)了新的挑戰(zhàn),例如可能改變圖像結(jié)構(gòu)并丟失實(shí)例標(biāo)識(shí)。因此,為了充分利用強(qiáng)數(shù)據(jù)增強(qiáng)的潛力,需要針對(duì)性地研究和開(kāi)發(fā)新方法以適應(yīng)這類增強(qiáng)手段。
-
提出的CLSA(使用更強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí))框架旨在解決強(qiáng)數(shù)據(jù)增強(qiáng)可能導(dǎo)致的問(wèn)題。以下是對(duì)該方法的關(guān)鍵點(diǎn)詳細(xì)解讀:
-
更強(qiáng)數(shù)據(jù)增強(qiáng):
- 該框架引入了一個(gè)被稱為“強(qiáng)化增強(qiáng)”的新的數(shù)據(jù)增強(qiáng)方案,它是14種增強(qiáng)類型(如剪切、平移、旋轉(zhuǎn)、自動(dòng)對(duì)比、反相、均衡化、曬化、海報(bào)化、對(duì)比度、顏色、亮度、銳度等)的隨機(jī)組合。
-
分布差異最小化:
- CLSA不是將強(qiáng)化增強(qiáng)視圖應(yīng)用到對(duì)比損失中,而是提出最小化弱增強(qiáng)圖像與強(qiáng)增強(qiáng)圖像在表征庫(kù)上的分布差異,以此來(lái)指導(dǎo)強(qiáng)查詢的檢索。
- 這種設(shè)計(jì)避免了過(guò)于樂(lè)觀的假設(shè),即認(rèn)為強(qiáng)化增強(qiáng)視圖的嵌入應(yīng)與弱增強(qiáng)視圖的嵌入完全相同。
- 同時(shí),利用弱增強(qiáng)視圖的分布,該框架能夠探索強(qiáng)增強(qiáng)視圖所攜帶的新模式。
-
與對(duì)比損失的結(jié)合:
- 由于CLSA獨(dú)立于對(duì)比損失,因此它可以與任何基于對(duì)比損失的方法相結(jié)合,如MoCo、SimCLR、BYOL等。
-
實(shí)驗(yàn)結(jié)果:
- 實(shí)驗(yàn)表明,該框架通過(guò)引入分布損失,可以顯著提高性能。
- 實(shí)驗(yàn)也驗(yàn)證了CLSA不僅改善了弱增強(qiáng)視圖的特征表征質(zhì)量,還同時(shí)進(jìn)一步增強(qiáng)了強(qiáng)增強(qiáng)視圖的表征。
-
在多種數(shù)據(jù)集上的表現(xiàn):
- 在不同數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提框架能夠通過(guò)學(xué)習(xí)更強(qiáng)的數(shù)據(jù)增強(qiáng)顯著提升性能。
- 在ImageNet線性評(píng)估協(xié)議下,使用標(biāo)準(zhǔn)的ResNet-50網(wǎng)絡(luò)背景,達(dá)到了76.2%的top-1準(zhǔn)確率,幾乎達(dá)到了完全監(jiān)督模型的76.5%的top-1準(zhǔn)確率。
- 同時(shí),在若干下游任務(wù)上也取得了有競(jìng)爭(zhēng)力的表現(xiàn),包括在VOC07上使用預(yù)訓(xùn)練的ResNet-50線性分類器達(dá)到93.6%的top-1準(zhǔn)確率,以及在COCO小目標(biāo)檢測(cè)任務(wù)上將APS提高到24.4%。
-
對(duì)強(qiáng)化增強(qiáng)的討論:還有關(guān)于在對(duì)比學(xué)習(xí)中簡(jiǎn)單應(yīng)用更強(qiáng)數(shù)據(jù)增強(qiáng)可能會(huì)降低性能的消融研究。
-
綜上所述,CLSA框架通過(guò)在對(duì)比學(xué)習(xí)中引入了更強(qiáng)的數(shù)據(jù)增強(qiáng)并最小化弱增強(qiáng)和強(qiáng)增強(qiáng)圖像的分布差異,顯示了在自監(jiān)督學(xué)習(xí)中使用強(qiáng)數(shù)據(jù)增強(qiáng)提升學(xué)習(xí)性能的可能性。在實(shí)驗(yàn)結(jié)果的支持下,CLSA證明了其在多種視覺(jué)任務(wù)上提升表征學(xué)習(xí)性能的有效性。
-
首次探索強(qiáng)數(shù)據(jù)增強(qiáng)對(duì)自監(jiān)督學(xué)習(xí)的貢獻(xiàn):
-
我們是第一個(gè)研究如何利用更強(qiáng)的數(shù)據(jù)增強(qiáng)手段來(lái)促進(jìn)自監(jiān)督學(xué)習(xí)的團(tuán)隊(duì)。
提出分布損失: -
我們提出了一種分布損失機(jī)制,用于從弱增強(qiáng)視圖向強(qiáng)增強(qiáng)視圖遷移知識(shí)。
- CLSA能和其他對(duì)比學(xué)習(xí)方法集成,并大幅提升性能:
- CLSA框架可以輕松地與現(xiàn)有的基于對(duì)比損失的方法集成,并顯著提高它們的性能。
-
詳盡的消融研究:
- 我們細(xì)致地開(kāi)展了消融研究以驗(yàn)證分布損失的影響。
- CLSA框架能同時(shí)提升弱增強(qiáng)和強(qiáng)增強(qiáng)圖像的表征能力:
- CLSA能夠自主訓(xùn)練神經(jīng)網(wǎng)絡(luò),同時(shí)改善對(duì)弱增強(qiáng)圖像和強(qiáng)增強(qiáng)圖像的表征。
-
總的來(lái)說(shuō),這些貢獻(xiàn)表示該研究的CLSA框架不僅突破了以往自監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)增強(qiáng)方法的應(yīng)用局限,而且提出了一個(gè)新的分布損失概念,有助于更有效地利用數(shù)據(jù)增強(qiáng)來(lái)提升模型性能。此外,CLSA的通用化設(shè)計(jì)意味著它可以與其他對(duì)比學(xué)習(xí)算法結(jié)合使用,從而提高了對(duì)這類算法的廣泛適用性和實(shí)用性。通過(guò)詳細(xì)的消融研究,該框架的有效性得到了進(jìn)一步證實(shí)。
2 RELATED WORK
2.1 Self-Supervised Learning
-
自監(jiān)督學(xué)習(xí)方法被廣泛研究,用以縮小與監(jiān)督學(xué)習(xí)之間的差距,并減少標(biāo)記大量數(shù)據(jù)所需的時(shí)間和成本。這些方法可以從五個(gè)不同的方面進(jìn)行分類:
-
生成模型: 這些模型通過(guò)構(gòu)建數(shù)據(jù)的潛在空間表示來(lái)生成新的數(shù)據(jù)樣本。例如,* 變分自編碼器(VAEs)和生成式對(duì)抗網(wǎng)絡(luò)(GANs)。
-
上下文預(yù)測(cè): 通過(guò)預(yù)測(cè)數(shù)據(jù)中缺失的部分或預(yù)測(cè)數(shù)據(jù)的未來(lái)狀態(tài)來(lái)學(xué)習(xí)有用的特征。例如,在自然語(yǔ)言處理中的BERT,它通過(guò)上下文來(lái)預(yù)測(cè)句子中缺失的單詞。
排列順序預(yù)測(cè): 這些模型通過(guò)重建輸入數(shù)據(jù)的正確順序來(lái)學(xué)習(xí)特征,如顛倒圖像塊或文本片段的順序,并訓(xùn)練模型將它們恢復(fù)到原來(lái)的順序。 -
對(duì)比學(xué)習(xí): 這些方法包括訓(xùn)練模型區(qū)分正負(fù)樣本對(duì)。如SimCLR和MoCo,它們通過(guò)學(xué)習(xí)將增強(qiáng)的數(shù)據(jù)對(duì)拉近而將未匹配的示例推遠(yuǎn),從而學(xué)習(xí)表示。
基于探索的方法: 主要通過(guò)交互式環(huán)境中的探索來(lái)學(xué)習(xí)特征,如強(qiáng)化學(xué)習(xí)或在游戲中自動(dòng)生成訓(xùn)練樣本。 -
這些類別中的方法通過(guò)不同的學(xué)習(xí)范式允許模型學(xué)習(xí)到豐富的特征表征,而這些特征通常在沒(méi)有顯式標(biāo)簽的情況下被學(xué)習(xí)。自監(jiān)督學(xué)習(xí)有助于提高數(shù)據(jù)效率和可擴(kuò)展性,特別是在不可能或不實(shí)際手動(dòng)標(biāo)注大量數(shù)據(jù)的領(lǐng)域。
-
自監(jiān)督學(xué)習(xí)方法中的生成式方法通常采用自編碼器和對(duì)抗學(xué)習(xí)算法來(lái)訓(xùn)練無(wú)監(jiān)督的表征。這些方法主要關(guān)注圖像的像素級(jí)信息來(lái)區(qū)分不同類別的圖像。以下是對(duì)這些方法的進(jìn)一步詳細(xì)解釋:
-
生成式方法:
- 自編碼器:通常被用來(lái)在訓(xùn)練階段通過(guò)重構(gòu)輸入來(lái)學(xué)習(xí)隱含的數(shù)據(jù)表示。自編碼器的目標(biāo)是學(xué)習(xí)一個(gè)壓縮的、丟失盡可能少信息的數(shù)據(jù)表示。
- 對(duì)抗學(xué)習(xí):例如雙向生成式對(duì)抗網(wǎng)絡(luò)(BiGAN),用來(lái)捕捉潛在語(yǔ)義表征與輸入圖像之間的關(guān)系。
-
聚類:
- 深度聚類(DeepCluster):將 k-means 概括為通過(guò)交替地分配偽標(biāo)簽和更新網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),從而學(xué)習(xí)視覺(jué)表征。
- SWAV(Swapping Assignments between Views):最近提出的方法通過(guò)在不同視圖之間強(qiáng)制一致性的聚類原型分配,已在ImageNet上取得了最先進(jìn)的性能。
-
一致性表征學(xué)習(xí):
- BYOL(Bootstrap Your Own Latent):研究人員首次發(fā)現(xiàn)可以不使用負(fù)樣本自我訓(xùn)練編碼器。它利用了孿生架構(gòu),在編碼器和投影器之上的查詢分支中添加了預(yù)測(cè)器結(jié)構(gòu)。編碼器可以通過(guò)簡(jiǎn)單地最小化查詢嵌入和關(guān)鍵嵌入之間的余弦相似性來(lái)學(xué)習(xí)良好的表征。
- Simsiam:進(jìn)一步移除了動(dòng)量關(guān)鍵編碼器,并使用了停止梯度策略來(lái)避免模型崩潰問(wèn)題。
- SCRL(Spatial Consistency Representation Learning):進(jìn)一步將一致性損失應(yīng)用于兩個(gè)視圖的交集區(qū)域的感興趣區(qū)域,以改善下游檢測(cè)任務(wù)的編碼器表征。
此外,用于一致性學(xué)習(xí)的KL損失也被廣泛用于幫助表征學(xué)習(xí),例如CO2和RELIC,在這些方法中添加了正則化以強(qiáng)制不同數(shù)據(jù)增強(qiáng)下嵌入間的一致性。
2.2 Augmentation in Representation Learning
-
數(shù)據(jù)增強(qiáng)在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中發(fā)揮著核心作用。一方面,它幫助學(xué)習(xí)到的表征在不同的數(shù)據(jù)增強(qiáng)下更加魯棒,這有助于模型學(xué)習(xí)到變換不變的表征。另一方面,增強(qiáng)手段也為訓(xùn)練引入了更豐富的數(shù)據(jù)。
-
在監(jiān)督學(xué)習(xí)中,位置和方向調(diào)整首先在MNIST數(shù)據(jù)集中被引入,并取得了有希望的提升。之后,對(duì)于自然圖像數(shù)據(jù)集,例如CIFAR-10、ImageNet,隨機(jī)裁剪、圖像鏡像和顏色變換/美白等技術(shù)被引入來(lái)訓(xùn)練更好的神經(jīng)網(wǎng)絡(luò)。這些早期工作都是手動(dòng)設(shè)計(jì)的,需要時(shí)間和專業(yè)知識(shí)。當(dāng)我們想要結(jié)合數(shù)據(jù)增強(qiáng)以實(shí)現(xiàn)更強(qiáng)的增強(qiáng)時(shí),手動(dòng)設(shè)計(jì)既不可行也不是最優(yōu)的。為了解決這個(gè)問(wèn)題,研究人員通過(guò)兩種不同的方法探索了組合。
-
首先,**生成對(duì)抗網(wǎng)絡(luò)(GANs)**被用來(lái)通過(guò)生成器直接生成具有不同變換的更多數(shù)據(jù)。然而,后來(lái)發(fā)現(xiàn)通過(guò)條件性GAN重新定義增強(qiáng)池,來(lái)學(xué)習(xí)數(shù)據(jù)增強(qiáng)的最佳序列更有益。受此啟發(fā),提出了其他方法來(lái)仔細(xì)研究如何自動(dòng)找到好的數(shù)據(jù)增強(qiáng)組合。AutoAugment首先采用強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)帶有應(yīng)用概率和幅度的增強(qiáng)操作序列。繼此工作之后,提出了基于人口的增強(qiáng)(PBA)、快速AutoAugment、更快速AutoAugment,以加速數(shù)據(jù)增強(qiáng)策略搜索并改進(jìn)它。RandAugment進(jìn)一步發(fā)現(xiàn),通過(guò)均勻采樣不同數(shù)據(jù)增強(qiáng)和均勻采樣幅度可以構(gòu)建強(qiáng)大的數(shù)據(jù)增加,而無(wú)需廣泛搜索。這些通過(guò)不同變換的組合創(chuàng)建的更強(qiáng)的增強(qiáng)在分類和檢測(cè)的監(jiān)督學(xué)習(xí)中做出了巨大貢獻(xiàn)。
-
在半監(jiān)督學(xué)習(xí)中,MixMatch引入了MixUp增強(qiáng),以幫助半監(jiān)督學(xué)習(xí),其中模型通過(guò)混合視圖和使用MixUp的凸組合混合標(biāo)簽進(jìn)行訓(xùn)練。EnAET利用具有仿射和投影變換的視圖來(lái)進(jìn)一步改進(jìn)半監(jiān)督學(xué)習(xí)。FixMatch發(fā)現(xiàn),通過(guò)RandAugment產(chǎn)生的高度扭曲圖像對(duì)于從少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)中進(jìn)行學(xué)習(xí)起著關(guān)鍵作用。
這表明數(shù)據(jù)增強(qiáng)不僅對(duì)于提高模型的魯棒性至關(guān)重要,而且在各種學(xué)習(xí)范式中發(fā)揮作用,包括監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。通過(guò)數(shù)據(jù)增強(qiáng),模型可以從多樣化的樣本中學(xué)習(xí),提高其泛化能力并提升對(duì)未見(jiàn)數(shù)據(jù)的預(yù)測(cè)精度。 -
在自監(jiān)督學(xué)習(xí)中,InstDisc和MoCo等研究將顏色抖動(dòng)操作加入到數(shù)據(jù)增強(qiáng)管道中,并在對(duì)比學(xué)習(xí)方面取得了明顯的增益。SimCLR進(jìn)一步在其數(shù)據(jù)增強(qiáng)管道中加入了高斯模糊,這一改進(jìn)在MoCo v2以及后續(xù)的工作中得到了進(jìn)一步的驗(yàn)證?;谶@些觀察,InfoMin探究了不同數(shù)據(jù)增強(qiáng)組合在對(duì)比預(yù)訓(xùn)練中的效果,發(fā)現(xiàn)某些數(shù)據(jù)增強(qiáng)組合能夠帶來(lái)額外的改進(jìn)。同時(shí),SwAV進(jìn)一步引入了多重裁剪(multi-crop),包含額外的更小尺寸96x96裁剪,以幫助模型學(xué)習(xí)更強(qiáng)大的特征表征。此外,BoWNet甚至將CutMix作為更強(qiáng)大的增強(qiáng)方法引入到表征學(xué)習(xí)中。
-
前述工作探索了如何通過(guò)引入越來(lái)越多的變換設(shè)計(jì)和構(gòu)建更合適的數(shù)據(jù)增強(qiáng)管道。然而,這些方法都需要時(shí)間、精力和專業(yè)知識(shí)來(lái)手動(dòng)設(shè)計(jì)增強(qiáng),并且這些設(shè)計(jì)的數(shù)據(jù)增強(qiáng)可能只適用于某些數(shù)據(jù)集。為了克服這個(gè)問(wèn)題,我們提出了由14種不同增強(qiáng)類型的隨機(jī)組合以及MoCo v2中的基線增強(qiáng)來(lái)構(gòu)建更強(qiáng)大的增強(qiáng)方法,應(yīng)用概率和強(qiáng)度同樣隨機(jī),詳細(xì)內(nèi)容在第3.3節(jié)進(jìn)行了說(shuō)明。
首先,通過(guò)重復(fù)5次采樣增強(qiáng)操作,不同增強(qiáng)方法的完全隨機(jī)組合構(gòu)成了更強(qiáng)大的增強(qiáng)手段。其次,與以前的方法相比,我們的數(shù)據(jù)增強(qiáng)完全是自動(dòng)隨機(jī)采樣的,無(wú)需人工干預(yù)。此外,如同在監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)中指出的那樣,我們同樣展示了這種更強(qiáng)大的增強(qiáng)有助于模型在扭曲圖像下學(xué)習(xí)到強(qiáng)大的特征表征。
3 CLSA: CONTRASTIVE LEARNING WITH STRONGER AUGMENTATIONS
- 在本節(jié)中,我們首先將回顧對(duì)比學(xué)習(xí)的初步工作,并在第3.1節(jié)中討論它們的優(yōu)勢(shì)和局限性。然后,在第3.2節(jié)中,我們將介紹一種新的分布式發(fā)散損失,該損失在弱增強(qiáng)和強(qiáng)增強(qiáng)圖像之間進(jìn)行,通過(guò)利用來(lái)自強(qiáng)增強(qiáng)視角的底層視覺(jué)語(yǔ)義信息來(lái)自訓(xùn)練表征。在那之后,實(shí)施細(xì)節(jié)將在第3.3節(jié)中解釋。
3.1 Contrastive Learning
-
對(duì)比學(xué)習(xí)是一種流行的自監(jiān)督學(xué)習(xí)思想,并且在近年來(lái)由于計(jì)算能力的提高和各種圖像增強(qiáng)技術(shù)的應(yīng)用而取得了巨大的成功。它的目標(biāo)是找出一個(gè)參數(shù)函數(shù)fθ,它可以將輸入圖像x ∈ R^D映射到特征表示z = fθ(x) ∈ R^d,使得在特征空間中的特征表示z能夠反映輸入空間中的語(yǔ)義相似性。為了實(shí)現(xiàn)這一目標(biāo),提出了對(duì)比損失函數(shù)以優(yōu)化網(wǎng)絡(luò)fθ,該損失函數(shù)鼓勵(lì)z及其正樣本z?在特征空間中緊密相連,并將所有其他負(fù)樣本的表示推開(kāi)。在SimCLR之后,還引入了投影器g以進(jìn)一步將表示映射為z = gθ(fθ(x))用于對(duì)比預(yù)訓(xùn)練,盡管在下游任務(wù)中(例如分類/檢測(cè)),我們依舊只使用fθ(x)。這種設(shè)計(jì)被證實(shí)是提升對(duì)比學(xué)習(xí)性能的關(guān)鍵
-
圖1展示了對(duì)比學(xué)習(xí)方法的最新通用框架。在有監(jiān)督的設(shè)置中,通過(guò)將同一類別的圖像定義為正樣本對(duì),而其余的圖像作為負(fù)樣本對(duì),就可以實(shí)現(xiàn)對(duì)比損失。類似的,在對(duì)比損失中正樣本對(duì)的定義也是受到了實(shí)例識(shí)別任務(wù)的啟發(fā)。在實(shí)例識(shí)別中,正樣本對(duì)通常是由同一個(gè)實(shí)例的不同變換得到的圖像組成的,而負(fù)樣本對(duì)則是由不同實(shí)例的圖像組成。在對(duì)比學(xué)習(xí)框架中,正樣本和負(fù)樣本是通過(guò)特定的數(shù)據(jù)增強(qiáng)策略來(lái)生成的,以確保正樣本對(duì)保持有相同的底層語(yǔ)義信息,同時(shí)負(fù)樣本之間具有足夠的區(qū)別。這種方法通過(guò)最小化正樣本對(duì)的距離以及最大化負(fù)樣本對(duì)的距離,從而使得模型能夠?qū)W習(xí)到有意義的特征表示。
-
在對(duì)比學(xué)習(xí)中,通常會(huì)采用隨機(jī)增強(qiáng)的同一圖像的裁剪版本作為正樣本對(duì),而其他圖像的裁剪則作為負(fù)樣本。因此,在自監(jiān)督學(xué)習(xí)中的對(duì)比損失是用來(lái)最大化同一實(shí)例不同視圖(增強(qiáng)的裁剪)之間表示的一致性,同時(shí)最小化與其他負(fù)樣本表示之間的一致性。通過(guò)這種方式,模型被訓(xùn)練去識(shí)別哪些特征對(duì)區(qū)分圖像是否為同一實(shí)例更為重要,從而在沒(méi)有標(biāo)簽的情況下學(xué)習(xí)有意義的特征表示。這對(duì)于提高模型對(duì)未標(biāo)記數(shù)據(jù)的理解和泛化能力至關(guān)重要。
-
具體來(lái)說(shuō),對(duì)于每個(gè)批次B中的圖像x,我們應(yīng)用兩種不同的變換T?和T來(lái)獲取同一個(gè)實(shí)例x的兩個(gè)不同視圖V?和V。然后,這兩個(gè)視圖分別通過(guò)一個(gè)查詢編碼器fθ和一個(gè)鍵編碼器fφ,接著通過(guò)MLP投影層(gθ/gφ),產(chǎn)生兩個(gè)嵌入表示z?和z來(lái)計(jì)算等式(1)中的對(duì)比損失。這種方法允許網(wǎng)絡(luò)學(xué)習(xí)如何把語(yǔ)義相似的圖像映射到特征空間中的靠近點(diǎn),并將不相似的圖像映射到距離較遠(yuǎn)的點(diǎn),通過(guò)這種訓(xùn)練,網(wǎng)絡(luò)能夠捕獲輸入圖像的關(guān)鍵特征,改善其特征表示的質(zhì)量。
-
正樣本對(duì)的設(shè)計(jì):在設(shè)計(jì)正樣本對(duì)時(shí),數(shù)據(jù)增強(qiáng)是經(jīng)過(guò)仔細(xì)設(shè)計(jì)的。例如,在SimCLR [8] 中,研究者們小心翼翼地設(shè)計(jì)了顏色偏移和高斯模糊轉(zhuǎn)換來(lái)進(jìn)一步增強(qiáng)隨機(jī)裁剪視圖的效果。InfoMin [17] 探討了對(duì)比預(yù)訓(xùn)練中不同數(shù)據(jù)增強(qiáng)效果,并展示了某些數(shù)據(jù)增強(qiáng)組合相比于MoCo [4] 或SimCLR [8] 能夠進(jìn)一步改善性能。
-
負(fù)樣本對(duì)的設(shè)計(jì):對(duì)于負(fù)樣本對(duì),研究者們探索了大量方法來(lái)提高負(fù)樣本對(duì)的數(shù)量和質(zhì)量。例如,InstDisc [9] 首次使用了內(nèi)存銀行(負(fù)樣本池)來(lái)追蹤前面批次的特征嵌入,作為負(fù)樣本對(duì),這大大提高了性能,通過(guò)大量的負(fù)樣本。MoCo [4], [5] 通過(guò)使用動(dòng)量編碼器作為鍵編碼器 gφ 來(lái)進(jìn)一步提高負(fù)樣本的質(zhì)量。SimCLR [8] 通過(guò)使用大批量在線訓(xùn)練,并使用同一個(gè)批次中的其他實(shí)例作為負(fù)樣本來(lái)平衡負(fù)樣本的質(zhì)量和數(shù)量,以優(yōu)化對(duì)比損失。AdCo [16] 最近甚至利用了一個(gè)對(duì)抗性內(nèi)存銀行作為負(fù)樣本對(duì),其中內(nèi)存銀行可以通過(guò)端到端訓(xùn)練來(lái)生成負(fù)特征。簡(jiǎn)而言之,負(fù)樣本的潛力已經(jīng)從各種角度被充分探索并大大提升了表征學(xué)習(xí)。
-
然而,如果直接在對(duì)比學(xué)習(xí)中采用更強(qiáng)烈的變換(例如,使用更大的旋轉(zhuǎn)角度、更激進(jìn)的顏色抖動(dòng)和切割),并不能進(jìn)一步提高性能,甚至可能會(huì)導(dǎo)致下游任務(wù)的性能惡化,這并不令人意外。較強(qiáng)烈的變換可能扭曲圖像結(jié)構(gòu)和它們?cè)趯W(xué)習(xí)到的表示中的感知模式,以至于強(qiáng)烈的增強(qiáng)視圖無(wú)法在訓(xùn)練底層網(wǎng)絡(luò)時(shí)被視為同一實(shí)例。在InfoMin [17] 中,他們也只是探索了弱增強(qiáng)的組合,而沒(méi)有探索可能包含更多信息、有助于模型學(xué)習(xí)到健壯特征的強(qiáng)增強(qiáng)。不同的弱增強(qiáng)組合可能提供了不同的信息,以獲得獨(dú)特的特征表示,因此完全有可能某些有用的信息只能通過(guò)更強(qiáng)的增強(qiáng)來(lái)學(xué)習(xí)。在監(jiān)督學(xué)習(xí) [18], [46], [54] 和半監(jiān)督學(xué)習(xí) [20] 中,不同的更強(qiáng)數(shù)據(jù)增強(qiáng)方法已經(jīng)被廣泛研究,并通過(guò)由強(qiáng)烈增強(qiáng)圖像所展示的新穎模式大大提升了性能。RandAugment [18] 中的發(fā)現(xiàn)驗(yàn)證了即使沒(méi)有明確的增強(qiáng)策略,強(qiáng)烈增強(qiáng)的視圖也能提供更多線索。因此,我們相信從這些新穎模式中學(xué)習(xí)表示將鋪平最后一英里,以縮小與完全監(jiān)督表示之間的差距。這進(jìn)一步激發(fā)了我們探索在自監(jiān)督學(xué)習(xí)中利用更強(qiáng)變換的新方法,同時(shí)避免通過(guò)在對(duì)比模型 [4] 中直接使用它們而導(dǎo)致性能下降。
-
通過(guò)探索先前的方法和我們的廣泛實(shí)驗(yàn),我們發(fā)現(xiàn)學(xué)習(xí)強(qiáng)增強(qiáng)圖像中嵌入的模式并不是一個(gè)直截了當(dāng)?shù)娜蝿?wù)。如圖 2 所示,強(qiáng)增強(qiáng)圖像在感知上可能與原始圖像看起來(lái)不同。因此,強(qiáng)增強(qiáng)圖像的表示可能與弱增強(qiáng)圖像的表示相差甚遠(yuǎn)。因此,在對(duì)比學(xué)習(xí)中天真地使用強(qiáng)增強(qiáng)圖像可能過(guò)于樂(lè)觀,因?yàn)橐氲呐で赡軙?huì)顯著改變它們的圖像結(jié)構(gòu)。
-
為此,在第3.2節(jié)中,我們提出了一種分布發(fā)散最小化(DDM)方法,該方法在弱增強(qiáng)圖像和強(qiáng)增強(qiáng)圖像的表示庫(kù)上應(yīng)用,以避免對(duì)強(qiáng)增強(qiáng)圖像的表示進(jìn)行過(guò)擬合,以匹配相應(yīng)的正目標(biāo)。具體來(lái)說(shuō),DDM方法致力于最小化在表示空間中由于深度學(xué)習(xí)模型學(xué)習(xí)到的特征表示而產(chǎn)生的分布差異,達(dá)到平衡強(qiáng)增強(qiáng)圖像與弱增強(qiáng)圖像的表示,促使模型能夠更好地泛化至新的、未見(jiàn)過(guò)的數(shù)據(jù)變換。這樣的策略有助于保持對(duì)比學(xué)習(xí)中正樣本對(duì)的一致性,同時(shí)又不喪失通過(guò)更多樣化的數(shù)據(jù)增強(qiáng)帶來(lái)的額外信息。
Distributional Divergence Minimization between Weakly and Strongly Augmented Images
-
由于上述所提到的限制,從對(duì)強(qiáng)烈增強(qiáng)查詢的檢索中學(xué)習(xí)對(duì)于自我訓(xùn)練深度網(wǎng)絡(luò)來(lái)說(shuō)是不可行的。然而,相對(duì)相似性的分布可以幫助我們從不同的角度理解對(duì)比學(xué)習(xí),這激發(fā)了我們提出分布發(fā)散最小化(DDM)來(lái)從更強(qiáng)烈的增強(qiáng)中學(xué)習(xí)。
-
DDM的概念基于這樣的觀察:盡管強(qiáng)增強(qiáng)圖像的表示可能與其對(duì)應(yīng)的弱增強(qiáng)圖像的表示有較大差異,但這些表示之間的相對(duì)相似性分布仍然可以為網(wǎng)絡(luò)訓(xùn)練提供有用的指導(dǎo)。通過(guò)最小化強(qiáng)增強(qiáng)圖像與弱增強(qiáng)圖像在表示空間中相對(duì)于其他隨機(jī)圖像的相似性分布之間的距離,模型可以更有效地利用從強(qiáng)增強(qiáng)圖像中學(xué)到的有價(jià)值的信息,同時(shí)避免因增強(qiáng)過(guò)度導(dǎo)致的性能退化。
-
然而,我們無(wú)法從語(yǔ)義視角獲得理想的可能性分布。測(cè)量查詢圖像與鍵圖像(正/負(fù))之間的最優(yōu)可能性是很困難的。為了避免這種未知分布的探索,對(duì)比損失將q視為一個(gè)one-hot分布,其中正對(duì)滿足 q(zi|z?i) = 1 ,而負(fù)對(duì)則滿足 q(zk|z?i) = 0 (k ∈ [1, K])。這意味著對(duì)比損失僅僅最大化同一實(shí)例不同視圖表示之間的一致性,同時(shí)最小化與其他負(fù)樣本的一致性。查詢圖像與鍵圖像之間所有其他復(fù)雜的關(guān)系都完全被忽略了。
-
對(duì)比損失的優(yōu)勢(shì)在于它可以極大地加速表示學(xué)習(xí)的收斂,并顯著改善分類和檢測(cè)任務(wù)的表示特征。然而,查詢圖像與負(fù)圖像之間的信息并沒(méi)有被充分利用,這些信息可能包含有助于進(jìn)一步提升表示學(xué)習(xí)的有用線索。
-
這說(shuō)明當(dāng)代對(duì)比學(xué)習(xí)框架主要集中在區(qū)分正負(fù)樣本對(duì)上,并沒(méi)有利用負(fù)樣本之間的相互關(guān)系或結(jié)構(gòu)。正是這種對(duì)簡(jiǎn)單one-hot分布的依賴,可能會(huì)導(dǎo)致在某些情況下的表現(xiàn)受限。舉例來(lái)說(shuō),如果能夠挖掘查詢圖像與負(fù)樣本之間的細(xì)微和有意義的關(guān)聯(lián),可能有助于進(jìn)一步提煉和豐富表示空間,從而提供更為強(qiáng)大和泛化的模型性能。在實(shí)踐中,開(kāi)發(fā)新的損失函數(shù)或方法,能夠合理地利用這些額外的信息,是當(dāng)前對(duì)比學(xué)習(xí)領(lǐng)域的一個(gè)有趣和重要的研究方向。
-
與弱增強(qiáng)視圖的表示類似,探索強(qiáng)增強(qiáng)模式的一個(gè)直接解決方案是直接使用強(qiáng)增強(qiáng)圖像作為查詢(query),并使用弱增強(qiáng)圖像作為鍵(key)在對(duì)比損失中。然而,這種過(guò)于樂(lè)觀的設(shè)計(jì)假設(shè)強(qiáng)增強(qiáng)視圖的表示應(yīng)該與其弱增強(qiáng)對(duì)(pair)非常接近,而且遠(yuǎn)離其他實(shí)例的弱增強(qiáng)視圖。一種one-hot分布不能模擬甚至接近最優(yōu)可能性分布,因此不能再幫助表示學(xué)習(xí)。
-
因此,應(yīng)該提出另一種分布q來(lái)解決一種one-hot分布的這些限制。新的分布q需要能夠更好地反映強(qiáng)增強(qiáng)圖像和其它圖像之間實(shí)際的相似度,而不僅僅是簡(jiǎn)單地將正樣本的相似度最大化和負(fù)樣本的相似度最小化。新的分布可以更細(xì)致地學(xué)習(xí)不同實(shí)例之間的差異性,包括查詢圖像與自身弱增強(qiáng)版本的細(xì)微差異以及與其他實(shí)例的不同弱增強(qiáng)版本之間的差異。
-
這樣的分布可以采用一種軟分配(soft assignment)或者分布對(duì)齊策略,允許模型學(xué)習(xí)到更豐富的、不只是基于一對(duì)一正負(fù)對(duì)關(guān)系的表示。例如,可以采用溫度調(diào)整的softmax函數(shù)或者其他權(quán)衡正負(fù)樣本影響的技術(shù)來(lái)更好地適應(yīng)強(qiáng)增強(qiáng)查詢的特性。通過(guò)這種方式,表示學(xué)習(xí)可以從不僅僅是弱增強(qiáng)的視圖中受益,同樣也可以從強(qiáng)增強(qiáng)圖像中發(fā)現(xiàn)更多的模式和特征,從而提升學(xué)習(xí)到的表示的泛化能力和效用。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-825326.html
-
盡管幾乎不可能完美地獲得實(shí)際可能性分布來(lái)自我訓(xùn)練網(wǎng)絡(luò),幸運(yùn)的是,我們發(fā)現(xiàn)使用來(lái)自同一實(shí)例的弱增強(qiáng)圖像在表示庫(kù)中的相對(duì)相似度分布可以為強(qiáng)增強(qiáng)學(xué)習(xí)提供有用的線索。在圖3中,我們比較了弱(強(qiáng))增強(qiáng)查詢的正對(duì)概率分布 p(zi|z?i)(p(zi|zi’‘))和負(fù)對(duì)概率分布的方差 p(zk|z?i)(p(zk|zi’')),其中k ∈ [1, K]。在圖3A中,強(qiáng)增強(qiáng)查詢的初始相似度分布與弱增強(qiáng)查詢的相同,這表明預(yù)訓(xùn)練網(wǎng)絡(luò)的強(qiáng)視圖或弱視圖嵌入之間不存在差異。然而,經(jīng)過(guò)使用最具代表性的基于對(duì)比的方法MoCo[4],[5]訓(xùn)練后,正如圖3B所示,強(qiáng)增強(qiáng)視圖和弱增強(qiáng)視圖之間的相似度分布差異變得明顯。換句話說(shuō),分布差異表明,現(xiàn)有對(duì)比方法未能學(xué)習(xí)到對(duì)較強(qiáng)圖像扭曲魯棒的表示。這激發(fā)了我們提出一種可以在更強(qiáng)增強(qiáng)下穩(wěn)定學(xué)習(xí)表示的方法。同時(shí),我們不能直接將強(qiáng)增強(qiáng)視圖的表示拉到弱增強(qiáng)視圖的表示上,因?yàn)槲覀冊(cè)趯?shí)驗(yàn)中發(fā)現(xiàn)這會(huì)破壞表示學(xué)習(xí)。作為一種替代方案,我們采用了一種寬松的協(xié)議,利用查詢和鍵之間相對(duì)相似度的分布來(lái)預(yù)先訓(xùn)練模型。這個(gè)特性啟發(fā)了我們,弱增強(qiáng)查詢的相對(duì)相似度分布可以用來(lái)監(jiān)督強(qiáng)增強(qiáng)查詢的分布。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-825326.html
3.3 Implementation Details
- 在之前的研究中(如文獻(xiàn) [19], [20], [31] 所示),強(qiáng)增強(qiáng)通常有兩種類型:幾何和非幾何增強(qiáng)。具體而言,我們考慮了 14 種類型的增強(qiáng):ShearX/Y(剪切),TranslateX/Y(平移),Rotate(旋轉(zhuǎn)),AutoContrast(自動(dòng)對(duì)比度),Invert(反轉(zhuǎn)),Equalize(均衡化),Solarize(曝光),Posterize(色彩簡(jiǎn)化),Contrast(對(duì)比度),Color(顏色調(diào)整),Brightness(亮度),Sharpness(銳度)。每種增強(qiáng)的幅度都足夠大,盡可能地生成強(qiáng)增強(qiáng)效果。不同變換的更多細(xì)節(jié)展示在表 1 中。例如,剪切操作是從 [-0.3,0.3] 范圍內(nèi)抽取,導(dǎo)致強(qiáng)烈變形的圖像,如果給定一個(gè)對(duì)應(yīng)目標(biāo),這些圖像可能很難檢索。特別地,為了變換一張圖像,我們隨機(jī)從上述 14 類變換中選擇一種,并以 0.5 的概率應(yīng)用于圖像。這個(gè)過(guò)程重復(fù)五次,這將強(qiáng)烈增強(qiáng)圖像,如圖 2 的右側(cè)面板中所示的例子。與中間面板中的弱增強(qiáng)圖像相比,可以清楚地看到強(qiáng)增強(qiáng)視圖的圖像結(jié)構(gòu)完全變了。
- 弱增強(qiáng) T 是根據(jù)文獻(xiàn)中大多數(shù)現(xiàn)有對(duì)比學(xué)習(xí)方法(如文獻(xiàn) [4], [5], [6], [8])所做的:首先從輸入圖像中裁剪圖像并調(diào)整大小至 224×224 像素。然后依次應(yīng)用隨機(jī)顏色抖動(dòng)、高斯模糊、灰度轉(zhuǎn)換、水平翻轉(zhuǎn)、通道顏色歸一化等,以生成弱增強(qiáng)圖像,圖 2 中間的示例展示了這種情況。
- 技術(shù)細(xì)節(jié) 與之前工作(如文獻(xiàn) [5], [6], [8])類似,我們使用 ResNet-50(文獻(xiàn) [57])作為我們的編碼器骨干 fθ 和 fφ,以及一個(gè) 2 層 MLP(隱藏層為 2048-d,ReLU 激活,輸出 FC 無(wú) ReLU)作為投影頭 gθ 和 gφ。我們?cè)趯?duì)比損失和 DDM 損失中使用余弦相似度。溫度 τ 設(shè)為 0.2。跟隨 MoCo [5],動(dòng)量平滑因子 α 設(shè)為 0.999 用于更新關(guān)鍵編碼器 fφ = α*fφ + (1?α)fθ 以及關(guān)鍵 MLP gφ = αgφ + (1?α)*gθ。損失平衡系數(shù) β 設(shè)為 1.0。我們將隊(duì)列 M 的大小 K 設(shè)為 65536,以存儲(chǔ)用于計(jì)算弱增強(qiáng)和強(qiáng)增強(qiáng)查詢的條件分布的負(fù)樣本,并最小化它們之間的差異。我們使用了相同的溫度用于 DDM 損失和對(duì)比損失,以簡(jiǎn)化公式。我們相信,通過(guò)為 LC 和 LD 調(diào)整不同的溫度,性能可以進(jìn)一步提高。
到了這里,關(guān)于【論文閱讀筆記】Contrastive Learning with Stronger Augmentations的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!