用困難負樣本進行對比性學(xué)習(xí)
摘要
如何才能為對比性學(xué)習(xí)提供好的負面例子?我們認為,就像度量學(xué)習(xí)一樣,表征的對比性學(xué)習(xí)得益于硬性負面樣本(即難以與錨點區(qū)分的點)。使用硬陰性樣本的關(guān)鍵挑戰(zhàn)是,對比性方法必須保持無監(jiān)督狀態(tài),這使得采用現(xiàn)有的使用真實相似性信息的陰性采樣策略變得不可行。作為回應(yīng),我們開發(fā)了一個新的無監(jiān)督抽樣方法系列,用于選擇用戶可以控制硬度的困難負樣本。這種抽樣的一個限制性案例導(dǎo)致了對每個類的緊密聚類,并將不同的類盡可能地推開的表現(xiàn)。所提出的方法改善了多種模式下的下游性能,只需要幾行額外的代碼來實現(xiàn),并且沒有引入計算開銷。
1.介紹
由于他們在經(jīng)驗上的成功,對比學(xué)習(xí)方法(Chopra等人,2005;Hadsell等人,2006)已經(jīng)成為學(xué)習(xí)表征的最流行的自我監(jiān)督方法之一(Oord等人,2018;田等,2019;陳等,2020a)。在計算機視覺中,對于對象檢測和分割任務(wù),無監(jiān)督的對比學(xué)習(xí)方法甚至優(yōu)于有監(jiān)督的預(yù)訓(xùn)練(Misra & Maaten,2020;何等,2020)。
對比學(xué)習(xí)依賴于兩個關(guān)鍵因素:相似(正)(x,x+)和不相似(負)(x,x-)數(shù)據(jù)點對的概念。訓(xùn)練目標(biāo),通常是噪聲對比估計(Gutmann & Hyv? rinen,2010年),指導(dǎo)學(xué)習(xí)到的表示f將正對映射到附近的位置,將負對映射到較遠的位置;還考慮了其他目標(biāo)(Chen等人,2020a)。相關(guān)方法的成功依賴于正對和負對信息的設(shè)計,由于沒有監(jiān)督,它們不能利用真實的相似性信息。
許多研究致力于解決積極配對的抽樣策略,并已成為多視角和對比學(xué)習(xí)的最新進展的關(guān)鍵驅(qū)動力(Blum & Mitchell,1998;徐等,2013;巴赫曼等人,2019;陳等,2020a田等,2020)。對于圖像數(shù)據(jù),正采樣策略通常應(yīng)用保留語義內(nèi)容的變換,例如抖動、隨機裁剪、分離顏色通道等。(陳等,2020ac;田等,2019)。這種變換在從原始像素數(shù)據(jù)中學(xué)習(xí)控制策略方面也是有效的(Srinivas等人,2020)。還提出了針對句子、音頻和視頻數(shù)據(jù)的積極采樣技術(shù)(Logeswaran & Lee,2018;Oord等人,2018;Purushwalkam & Gupta,2020;Sermanet等人,2018)。
令人驚訝的是,在對比學(xué)習(xí)中,否定配對的選擇很少受到關(guān)注。通常,給定一個“錨”點x,一個“負”x只是從訓(xùn)練數(shù)據(jù)中統(tǒng)一采樣,而不管它對學(xué)習(xí)的表示有多有用。在監(jiān)督和度量學(xué)習(xí)設(shè)置中,“硬”(真負)例子可以幫助指導(dǎo)學(xué)習(xí)方法更快地糾正其錯誤(Schroff等人,2015;宋等,2016)。對于表征學(xué)習(xí)來說,信息性的反面例子直觀上是那些映射在附近但應(yīng)該相距很遠的對。這一思想被成功地應(yīng)用于度量學(xué)習(xí)中,在度量學(xué)習(xí)中,不同點的真實對是可用的,這與無監(jiān)督的對比學(xué)習(xí)相反。
有了這個動機,我們解決了為對比表征學(xué)習(xí)選擇信息性否定的挑戰(zhàn)。作為回應(yīng),我們提出了一個解決方案,它構(gòu)建了一個可調(diào)的采樣分布,該分布優(yōu)先選擇當(dāng)前表示非常相似的負對。這種解決方案面臨兩個挑戰(zhàn):(1)我們無法獲得任何真實的相似性或不相似性信息;(2)對于這種可調(diào)分布,我們需要一種有效的采樣策略。我們克服了(1)建立在積極的無標(biāo)簽學(xué)習(xí)的想法上(Elkan & Noto,2008;杜普萊西等人,2014年),以及(2)通過設(shè)計一個有效的,易于實施的重要性采樣技術(shù),不招致任何計算開銷。
我們的理論分析表明,作為調(diào)諧參數(shù)的函數(shù),我們的新方法的最佳表示將相似的輸入放置在緊密的簇中,同時將簇盡可能地分開。從經(jīng)驗上看,我們的硬負采樣策略提高了圖像、圖形和文本數(shù)據(jù)的下游任務(wù)性能,支持了這一點,事實上,我們的負樣本提供了更多的信息。
總之,我們做出了以下貢獻:
1.我們提出了一個簡單的困難負對分布用于對比表征學(xué)習(xí),并推導(dǎo)了一個實用的零計算開銷的重要性抽樣策略,該策略考慮了真實相異信息的缺乏;
2.我們從理論上分析了困難負樣本和最優(yōu)表示,表明它們獲得了理想的推廣性質(zhì);
3.我們根據(jù)經(jīng)驗觀察到,所提出的采樣方法提高了圖像、圖形和文本數(shù)據(jù)上的下游任務(wù)性能。
1.1相關(guān)工作
對比表征學(xué)習(xí)。人們提出了許多視覺表征對比學(xué)習(xí)的框架,包括SimCLR (Chen et al .,2020ab),使用迷你批次中其他項目的增強視圖作為負面樣本,以及(何等人,2020;Chen等人,2020c),其使用舊陰性表示的動量更新記憶庫,以使得能夠使用非常大批量的陰性樣本。大多數(shù)對比方法是無監(jiān)督的,但是存在一些使用標(biāo)簽信息的方法(Sylvain等人,2020;科斯拉等人,2020年)。許多作品研究了正對的作用,例如,提出對圖像應(yīng)用大的擾動陳等人(2020ac),或者主張除了最終預(yù)測任務(wù)的相關(guān)信息之外,最小化正對中的互信息(田等人,2020)。除了視覺數(shù)據(jù),對比方法還被用于句子嵌入(Logeswaran & Lee,2018年),順序數(shù)據(jù)(Oord等人,2018年;海納夫等,2020),圖(孫等,2020;哈薩尼&哈薩馬迪,2020;李等人,2019年)和節(jié)點表示學(xué)習(xí)(V elickovic等人,2019年),以及從原始圖像中學(xué)習(xí)表示以進行非策略控制(Srinivas等人,2020年)。負對的作用研究得很少。Chuang等人(2020)提出了一種“去偏置”的方法,即校正并非所有的否定對都是真否定的事實。它通過采用正的無標(biāo)簽學(xué)習(xí)的觀點來做到這一點,并利用了真正的負分布的分解。Kalantidis等(2020)考慮應(yīng)用Mixup(張等,2018)生成潛在空間的硬底片,Jin等(2018)利用視頻特定的時間結(jié)構(gòu)生成底片用于物體檢測。
深度度量學(xué)習(xí)中的負挖掘。與對比表征學(xué)習(xí)文獻相反,負面樣本的選擇策略已經(jīng)在(深度)度量學(xué)習(xí)中進行了徹底的研究(Schroff等人,2015;宋等,2016;哈伍德等人,2017;吳等,2017;葛,2018;Suh等人,2019)。這些工作中的大多數(shù)觀察到,使用當(dāng)前嵌入難以辨別的負樣本是有幫助的。Schroff等人(2015)對此進行了限定,觀察到一些例子太硬,并建議選擇“半硬”陰性樣本。負樣本在度量學(xué)習(xí)中的重要性是眾所周知的,在度量學(xué)習(xí)中(部分)真實相異度信息是可用的,這提出了對比學(xué)習(xí)中的負樣本問題,這是本文的主題。
2.對比學(xué)習(xí)設(shè)置
我們從對比表征學(xué)習(xí)的設(shè)置和概念開始。我們希望學(xué)習(xí)一個嵌入f:X→sd-1/t,它將觀測值X映射到半徑為1/t的Rd中的超球面sd-1/t上的一個點,其中t是“溫度”標(biāo)度超參數(shù)。根據(jù)Arora等人(2019)的設(shè)置,我們假設(shè)一組表示語義內(nèi)容的離散潛在類C,因此相似的對(x,x+)具有相同的潛在類。
對于c ∈ C的ρ?在潛類上的分布,我們定義了聯(lián)合分布px,c(x,c) = p(x|c)ρ(c ),其邊際p(x)我們簡稱為p,并假設(shè)supp§ = X,為簡單起見,我們假設(shè)ρ? = τ +是一致的,并假設(shè)τ-= 1-τ+是另一個類的概率。由于類先驗τ+在實踐中是未知的,因此它必須被視為超參數(shù),或者被估計(克里斯托費爾等人,2016;Jain等人,2016)。
設(shè)h : X → C是將類別標(biāo)簽分配給輸入的真實潛在假設(shè)。我們寫x~x’來表示標(biāo)簽等價關(guān)系h(x) = h(x’)。我們用p+x (x’) = p(x’|h(x’) = h(x))表示與x具有相同標(biāo)號的點上的分布,用p-x(x’)= p(x’ | h(x’)≠ h(x))表示與x具有不同標(biāo)號的點上的分布。當(dāng)上下文清楚時,我們?nèi)サ粝聵?biāo)x。按照通常的約定,我們重載’波浪線’并且也寫x波浪線p來表示從p采樣的點。
對于每個數(shù)據(jù)點x波浪線p,用于學(xué)習(xí)表示式f的噪聲對比估計(NCE)目標(biāo)(Gutmann & Hyv? rinen,2010年)使用正例x+和負例{ Xi -} N~i = 1~,正例x+具有與x相同的標(biāo)簽,負例{ Xi- } N i = 1具有(假定)不同的標(biāo)簽,h(Xi)≠ h(x ),從q:
為了分析的目的,引入了加權(quán)參數(shù)Q。當(dāng)N是有限的時,我們?nèi) = N,產(chǎn)生對比賓語的通常形式。負樣本分布q經(jīng)常被選擇為邊際分布p,或者在實踐中,它的經(jīng)驗近似(田等,2019;陳等,2020ac;何等,2020;陳等,2020cOord等人,2018;海納夫等人,2020年)。在本文中,我們問:是否有更好的方法來選擇q?
3.困難負樣本采樣
在這一節(jié)中,我們將描述硬負采樣的方法。我們首先問什么是好的負樣本?為了回答這個問題,我們采用以下兩個指導(dǎo)原則:
原則1。q應(yīng)只對標(biāo)簽不同于錨x的“真負”Xi-進行采樣。
原則2.最有用的負樣本是當(dāng)前的嵌入表示認為與錨最相似的樣本。
簡而言之,具有與錨不同的標(biāo)簽,但是嵌入在附近的負樣本可能是最有用的,并且在訓(xùn)練期間提供重要的梯度信息。在度量學(xué)習(xí)中,可以獲得真正的否定對,自動實現(xiàn)第一個原則。在無監(jiān)督的對比學(xué)習(xí)中沒有監(jiān)督,所以堅持原則1是不可能的。在本文中,我們提出了一種方法,該方法大致支持原則1,同時將這一思想與“硬度”這一關(guān)鍵的附加概念成分(封裝在原則2中)相結(jié)合。我們的方法中的“硬度”水平可以被平滑地調(diào)整,允許用戶選擇硬度,該硬度在來自硬否定的改進的學(xué)習(xí)信號和由于錯誤否定的校正而導(dǎo)致的損害之間進行最佳權(quán)衡,該損害僅僅是近似的。這一點很重要,因為最難的點是那些最接近錨的點,并且被認為具有相同標(biāo)簽的高傾向。因此,對于較硬的樣品,近似法不能消除所有假陰性的損害變得更大,從而產(chǎn)生折衷。作為我們的方法的一個特例,當(dāng)硬度水平完全下調(diào)時,我們獲得(Chuang等人,2020)中提出的方法,該方法僅(近似地)支持原則1,而不支持原則2。最后,在原則1和2之外,我們希望設(shè)計一種有效的采樣方法,在訓(xùn)練期間不增加額外的計算開銷。
3.1提議的硬采樣方法
我們的第一個目標(biāo)是在X上設(shè)計一個分布q,它可以依賴于嵌入f和錨X。根據(jù)上述原則,我們從q中抽取一批負值{ Xi -} N i =1。我們建議對分布qβ-進行負采樣,定義如下:
對于β ≥ 0。注意,qβ-和qβ都依賴于x,但我們從符號中取消了相關(guān)性。qβ中的指數(shù)項是具有平均方向f(x)和“濃度參數(shù)”β的非標(biāo)準(zhǔn)化von Mises–Fisher分布(馬迪亞和尤普,2000)。qβ有兩個關(guān)鍵部分,對應(yīng)于每個原則:1)以事件{ h(x)≠h(??}為條件,保證(x,x-)對應(yīng)于不同的潛在類別(原則1);2)濃度參數(shù)β項控制qβ對與錨點x具有大內(nèi)積(相似性)的點x進行加權(quán)的程度(原則2)。因為f位于半徑為1/t的超球面的表面上,所以我們有||f(x)-f(x’)||2 = 2/t2-2f(x)Tf(x‘),所以偏好具有大內(nèi)積的點等價于偏好具有小平方歐幾里得距離的點。
雖然我們設(shè)計的qβ-具有所有所需的元件,但不清楚如何有效地從中采樣。為了找到一種實用的方法,請注意,我們可以通過采用PU學(xué)習(xí)的觀點來重寫這種分布(Elkan & Noto,2008;杜等,2014;莊等,2020)。也就是說,通過以事件{ h(x)= h(??}為條件,我們可以將qβ(x-)分解為:。重新排列公式2,得出公式
對于負采樣分布qβ-,根據(jù)兩個易于處理的分布,因為我們有來自p的樣本,并且可以使用一組語義保持變換來近似來自p+的樣本,這在對比學(xué)習(xí)方法中是典型的。
利用抑制采樣,可以從qβ和(近似)qβ+產(chǎn)生樣本。然而,拒絕抽樣涉及算法的復(fù)雜性,因為抽樣批次的程序必須修改。為了避免這種情況,我們采用重要性抽樣方法。為了獲得這一點,首先注意固定數(shù)量Q并在目標(biāo)(1)中取極限N → ∞,得到:
…推理
強調(diào)我們提出的方法的實現(xiàn)的簡單性是很重要的。因為我們建議重新加權(quán)目標(biāo)而不是修改采樣過程,所以只需要兩行額外的代碼來實現(xiàn)我們的方法,而沒有額外的計算開銷。附錄d中的圖13給出了該目標(biāo)的PyTorch式偽代碼。
4.硬負采樣分析
4.1硬采樣在邊際和最壞情況負值之間插值
直觀地說,我們提出的負樣本分布qβ中的濃度參數(shù)β控制著負樣本的“硬度”水平。如前所述,Chuang等人(2020)的去偏置方法可以恢復(fù)為一種特殊情況:取β = 0以獲得分布q0-。這種情況相當(dāng)于對從p采樣的負批次中的一些樣本將具有與錨相同的標(biāo)簽的事實進行校正。但是大β承認什么解釋呢?具體來說,分布qβ在極限β → ∞時收斂到什么程度,如果有的話?我們證明,在極限qβ近似于下面零總和的兩人對策的內(nèi)部解。
…
4.2最壞負樣本下超球面上的最優(yōu)嵌入
一個最優(yōu)對比嵌入(L的全局極小值)具有什么期望的性質(zhì)使表示可推廣?為了研究這個問題,我們首先分析了當(dāng)負樣本來自敵對的最壞情況分布時,最優(yōu)嵌入f *在超球面上的分布。我們考慮目標(biāo)(1)的不同極限觀點,即負樣本數(shù)N → ∞。根據(jù)Wang & Isola (2020)的公式,我們在(1)中取Q = N,并減去log N。這既不改變極小值集,也不改變損失面的幾何形狀。取負樣本的數(shù)量N → ∞產(chǎn)生極限目標(biāo),
…
5.實證結(jié)果
接下來,我們根據(jù)經(jīng)驗評估我們的硬負采樣方法,并將其作為對圖像、圖形和文本數(shù)據(jù)的最新對比方法的修改。對于所有實驗,β被視為超參數(shù)(參見圖2中的消融,了解如何選擇β)。還必須確定M和τ +的值。對于所有實驗,我們固定M = 1,因為取M > 1將增加向前-向后傳遞的輸入數(shù)量。附錄中的引理11給出了選擇M = 1的理論依據(jù)。選擇類先驗τ +可以通過兩種方式完成:從數(shù)據(jù)中估計(克里斯托費爾等人,2016;Jain等人,2016),或者將其視為超參數(shù)。第一種選擇要求在對比訓(xùn)練之前擁有標(biāo)記數(shù)據(jù)。
…
6.近距離觀察硬采樣
…文章來源:http://www.zghlxwxcb.cn/news/detail-401634.html
7.結(jié)論
我們論證了硬否定在無監(jiān)督對比表征學(xué)習(xí)中的價值,并介紹了一種簡單的硬否定采樣方法。我們的工作連接了兩條主線:對比學(xué)習(xí)和度量學(xué)習(xí)中的負挖掘。這樣做需要克服一個明顯的障礙:度量學(xué)習(xí)中的負挖掘使用成對相似性信息作為核心組件,而對比學(xué)習(xí)是無監(jiān)督的。我們的方法有幾個很好的方面:具有理想的理論性質(zhì),實現(xiàn)非常簡單,只需要修改幾行代碼,不改變數(shù)據(jù)采樣管道的任何內(nèi)容,引入零額外計算開銷,以及以有原則的方式處理假負樣本。文章來源地址http://www.zghlxwxcb.cn/news/detail-401634.html
到了這里,關(guān)于【論文筆記_對比學(xué)習(xí)_2021】CONTRASTIVE LEARNING WITH HARD NEGATIVE SAMPLES的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!