Abstract
研究了在計(jì)算機(jī)視覺、自然語言處理和圖形學(xué)習(xí)中用于表示的新的自監(jiān)督學(xué)習(xí)方法。全面回顧了現(xiàn)有的實(shí)證方法,并根據(jù)其目的將其歸納為三大類:生成性、對(duì)比性和生成性對(duì)比(對(duì)抗性)。進(jìn)一步收集了關(guān)于自我監(jiān)督學(xué)習(xí)的相關(guān)理論分析,以對(duì)自我監(jiān)督學(xué)習(xí)為什么有效提供更深入的思考。最后,簡要討論了自我監(jiān)督學(xué)習(xí)的開放問題和未來方向。
Introduction
自監(jiān)督學(xué)習(xí)可以看作無監(jiān)督學(xué)習(xí)的一個(gè)分支,因?yàn)椴簧婕笆止abel,狹義地說,無監(jiān)督學(xué)習(xí)專注于檢測特定的數(shù)據(jù)模式,如聚類、社區(qū)發(fā)現(xiàn)或異常檢測,而自監(jiān)督學(xué)習(xí)旨在恢復(fù),這仍然處于監(jiān)督環(huán)境的范式中。
有監(jiān)督學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)型的,嚴(yán)重依賴昂貴的手工標(biāo)記、虛假相關(guān)性和對(duì)抗性攻擊。我們希望神經(jīng)網(wǎng)絡(luò)能用更少的標(biāo)簽、更少的樣本和更少的試驗(yàn)來學(xué)習(xí)更多。自注意力話大量的注意力在數(shù)據(jù)有效性和生成能力。在2020年AAAI的受邀演講中,圖靈獎(jiǎng)得主Yann LeCun將自我監(jiān)督學(xué)習(xí)描述為“機(jī)器為任何觀察到的部分預(yù)測其輸入的任何部分”。
自監(jiān)督學(xué)習(xí)的特征可以概括為:
- 通過使用半自動(dòng)的過程從數(shù)據(jù)本身獲得label
- 從數(shù)據(jù)的其他部分預(yù)測這一部分
上圖是這個(gè)綜述文章的分類,生成性、對(duì)比性和生成性對(duì)比(對(duì)抗性);以及每一個(gè)類別下的典型的方法。
自監(jiān)督學(xué)習(xí)的動(dòng)機(jī)
為了解決基本的OOD(泛化能力差,簡單的多層感知器泛化能力非常差(總是假設(shè)分布外(OOD)樣本呈線性關(guān)系))和生成的問題。
自我監(jiān)督學(xué)習(xí)的成功最關(guān)鍵的一點(diǎn)是,它找到了一種方法來利用大數(shù)據(jù)時(shí)代可用的大量未標(biāo)記數(shù)據(jù)。
自監(jiān)督學(xué)習(xí)可以分為三大類:
- 生成式:訓(xùn)練一個(gè)encoder去編碼輸入x到明確的向量z,和一個(gè)解碼器去從z重建x。(eg:the cloze test, graph generation)
- 對(duì)比式:訓(xùn)練一個(gè)encoder去編碼輸入到一個(gè)明確的向量z,去衡量相似性。(eg:mutual information maximizetion.instance discrimination)
- 生成對(duì)比式(對(duì)抗式):訓(xùn)練一個(gè)encoder-decoder去省城fakesamples 和一個(gè)鑒別器去區(qū)分真實(shí)樣本和生成樣本。(eg:GAN)
這三個(gè)類別不同在于架構(gòu)和目標(biāo)函數(shù)的不同。
不同點(diǎn):
- 對(duì)于潛在分布z,在聲稱是和對(duì)比式方法中,z是明確的經(jīng)常被應(yīng)用于下游任務(wù),而GAN中,z是隱式建模的。
- 對(duì)于鑒別器。這個(gè)生成的方式?jīng)]有鑒別器,然而GAN和對(duì)比網(wǎng)絡(luò)有。對(duì)比式的網(wǎng)絡(luò)相對(duì)來說鑒別器有更少的參數(shù)。 (e.g., a multi-layer perceptron with 2-3 layers) than GAN (e.g., a standard ResNet [53])
一張自監(jiān)督學(xué)習(xí)綜述的圖
生成式的自監(jiān)督學(xué)習(xí)
AR
在計(jì)算機(jī)視覺中,PixelRNN和PixelCNN,總體思路是利用自回歸訪華逐像素的對(duì)圖像進(jìn)行建模。對(duì)于2D圖像,自回歸模型只能更具特定方向來分解改了,所以在CNN架構(gòu)中采用了掩模濾波器?;赑ixelCNN, WaveNet[130]——一種原始音頻生成模型被提出。為了處理長期的時(shí)間依賴性,作者開發(fā)了擴(kuò)展的因果卷積來改善接受野。此外,門控殘差塊和跳過連接被用來增強(qiáng)更好的表達(dá)能力。
自回歸模型的優(yōu)點(diǎn)是可以很好地對(duì)上下文依賴性進(jìn)行建模。然而,AR模型的一個(gè)缺點(diǎn)是,每個(gè)位置的令牌只能從一個(gè)方向訪問其上下文。
Flow-based Model
基于流的模型的目標(biāo)是從數(shù)據(jù)中估計(jì)復(fù)雜的高維密度函數(shù)p(x)。
AE
靈活。AE由一個(gè)編碼器網(wǎng)絡(luò)h =
f
e
n
c
(
x
)
f_{enc}(x)
fenc?(x)和一個(gè)解碼器網(wǎng)絡(luò)x’ =
f
d
e
c
(
x
)
f_{dec}(x)
fdec?(x)(h)組成。AE的目標(biāo)是使x和x’盡可能相似(如通過均方誤差)??梢宰C明線性自編碼器與PCA方法相對(duì)應(yīng)。
除了基礎(chǔ)的AE,還有CPM,Denoising AE Model,Variational AE Model。
VQ-VAE的體系結(jié)構(gòu)。與VAE相比,原始的隱藏分布被量化的矢量字典所取代。此外,先前的分布被預(yù)先訓(xùn)練的PixelCNN取代,該P(yáng)ixelCNN對(duì)圖像的分層特征進(jìn)行建模。
Hybird Fenerative Models
包括結(jié)合AR和AE的模型、結(jié)合AE和Flow-based Model。
Pros and Cons
優(yōu)點(diǎn):不假設(shè)下游任務(wù)的情況下,重建原始圖像分布的能力。現(xiàn)有的生成任務(wù)嚴(yán)重依賴生成式自監(jiān)督學(xué)習(xí)。
缺點(diǎn):
- 生成子監(jiān)督學(xué)習(xí)在一些分類情境下,相比于對(duì)比學(xué)習(xí)有很少的競爭力。因?yàn)閷?duì)比學(xué)習(xí)的目標(biāo)函數(shù)天然地符合分類學(xué)習(xí)的目標(biāo)。
- 生成式模型逐點(diǎn)的特性使它有一些內(nèi)在的缺點(diǎn):敏感性和保守性分布,低級(jí)抽象的目標(biāo)不適合一高級(jí)抽象目標(biāo)的分類任務(wù)。
作為一種相反的方法,生成對(duì)比式自我監(jiān)督學(xué)習(xí)放棄了逐點(diǎn)目標(biāo)。它轉(zhuǎn)向更健壯的分布式匹配目標(biāo),并更好地處理數(shù)據(jù)流形中的高級(jí)抽象挑戰(zhàn)。
對(duì)比自監(jiān)督學(xué)習(xí)
分為兩類:上下文-實(shí)例對(duì)比、實(shí)例-實(shí)例對(duì)比。
上下文-實(shí)例對(duì)比
注重于對(duì)局部特征和全局上下文語義的對(duì)比。
例如:Predict Relative Position
注重于學(xué)習(xí)局部部分之間的相對(duì)位置。全局的上下位作為一個(gè)隱式的需求。
Maximize Mutual Information
MI專注于學(xué)習(xí)局部部分和全局鄉(xiāng)下問之間的直接的歸屬關(guān)系,局部位置之間的關(guān)系被忽略了。
實(shí)例-實(shí)例之間的對(duì)比
度量學(xué)習(xí)的一個(gè)重要重點(diǎn)是在提高負(fù)采樣效率的同時(shí)執(zhí)行硬正采樣。它們可能在基于MI的模型的成功中發(fā)揮著更關(guān)鍵的作用。
作為替代,實(shí)例-實(shí)例對(duì)比學(xué)習(xí)拋棄了MI,直接研究不同樣本的實(shí)例級(jí)局部表示之間的關(guān)系。對(duì)于廣泛的分類任務(wù),實(shí)例級(jí)表示比上下文級(jí)表示更為重要。
例如:Cluster Discrimination
Instance Discrimination(實(shí)例判別)
第一種是端到端的范式,有兩個(gè)編碼器,兩個(gè)編碼器都進(jìn)行梯度更新,依賴于大的batchsize提供更多的負(fù)樣本。第二個(gè)是有memory bank的方式,有一個(gè)編碼器,只對(duì)這一個(gè)編碼器進(jìn)行梯度更新,負(fù)樣本從memory bank中提取,每次都更新memory bank中隨機(jī)位置的特征,特征一致性不好,每一個(gè)batchsize,模型都會(huì)更新,但是memory bank只更新一部分。正樣本和負(fù)樣本進(jìn)行對(duì)比的時(shí)候,正樣本是當(dāng)前的encoder產(chǎn)生的,負(fù)樣本不知道是什么時(shí)候的encoder產(chǎn)生的。第三個(gè)Moco使用動(dòng)量編碼器,在第一個(gè)基礎(chǔ)上把右邊的編碼器改成動(dòng)量編碼器,并且采用隊(duì)列形式的字典。把對(duì)比學(xué)習(xí)當(dāng)作動(dòng)態(tài)的字典查詢問題。
SIMLR采用了多種數(shù)據(jù)增強(qiáng)和一個(gè)proj在最后加一個(gè)非線性層,獲得了比Moco高的效果。
BYOL不用負(fù)樣本,獲得了很好的效果。
半監(jiān)督自我訓(xùn)練的自我監(jiān)督對(duì)比預(yù)訓(xùn)練
Chen等人[20]的SimCLR v2支持了上述結(jié)論,表明只有10%的原始ImageNet標(biāo)簽,通過聯(lián)合預(yù)訓(xùn)練和自我訓(xùn)練,ResNet-50可以超過監(jiān)督的。他們提出了一個(gè)三步框架:
- 像SimCLR v1一樣進(jìn)行自我監(jiān)督的預(yù)訓(xùn)練,并進(jìn)行一些小的架構(gòu)修改和更深的ResNet.
- 僅使用1%或10%的原始ImageNet標(biāo)簽微調(diào)最后幾層。
- 使用微調(diào)后的網(wǎng)絡(luò)作為教師模型,在未標(biāo)記的數(shù)據(jù)上產(chǎn)生標(biāo)簽,以訓(xùn)練較小的學(xué)生ResNet-50。知識(shí)蒸餾
優(yōu)點(diǎn)和缺點(diǎn)
優(yōu)點(diǎn):對(duì)比學(xué)習(xí)沒有解碼器,因此對(duì)比學(xué)習(xí)是輕量級(jí)的,在下游鑒別任務(wù)中表現(xiàn)很好。
存在的問題:
- 對(duì)比學(xué)習(xí)在NLP領(lǐng)域沒有取得令人信服的結(jié)果。現(xiàn)在大多數(shù)在BERT上進(jìn)行微調(diào)。。很少有算法被提出在預(yù)訓(xùn)練階段應(yīng)用對(duì)比學(xué)習(xí)。由于大多數(shù)語言理解任務(wù)都是分類的,因此對(duì)比語言預(yù)訓(xùn)練方法應(yīng)該比目前的生成語言模型更好。
- 采樣有效性。負(fù)抽樣對(duì)于大多數(shù)對(duì)比學(xué)習(xí)是必須的,但這個(gè)過程通常是棘手的,有偏見的,耗時(shí)的。不清楚負(fù)樣本在對(duì)比學(xué)習(xí)中的作用。
- 數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)能提高對(duì)比學(xué)習(xí)的性能。但它為什么以及如何起作用的理論仍然相當(dāng)模糊。這阻礙了它在其他領(lǐng)域的應(yīng)用,比如NLP和圖學(xué)習(xí),這些領(lǐng)域的數(shù)據(jù)是離散和抽象的。
生成對(duì)比學(xué)習(xí)
總之,對(duì)抗性方法吸收了生成法和對(duì)比法的優(yōu)點(diǎn),同時(shí)也存在一些缺點(diǎn)。在我們需要適應(yīng)隱式分布的情況下,這是一個(gè)更好的選擇。
使用完整輸入
通過部分輸入恢復(fù)
圖像著色、圖像修復(fù)、超分辨率文章來源:http://www.zghlxwxcb.cn/news/detail-802327.html
預(yù)訓(xùn)練語言模型
圖學(xué)習(xí)
領(lǐng)域適應(yīng)和多模態(tài)表示
優(yōu)點(diǎn)和缺點(diǎn)
優(yōu)點(diǎn):生成-對(duì)比(對(duì)抗性)自監(jiān)督學(xué)習(xí)在圖像生成、轉(zhuǎn)換和處理方面特別成功
缺點(diǎn):文章來源地址http://www.zghlxwxcb.cn/news/detail-802327.html
- 在NLP和圖領(lǐng)域應(yīng)用受限。
- 容易坍塌
- 不是用于特征提取
到了這里,關(guān)于【論文閱讀】Self-supervised Learning: Generative or Contrastive的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!