本文分享自華為云社區(qū)《基于卷積神經(jīng)網(wǎng)絡(luò)的MAE自監(jiān)督方法》,作者: Hint 。
圖像自監(jiān)督預(yù)訓(xùn)練算法是近年來的重要研究方向,MAE是其中基于ViT實(shí)現(xiàn)的代表性方法,學(xué)習(xí)到了魯棒的視覺特征。MAE全稱是Masked Autoencoders,是由何凱明提出的自監(jiān)督預(yù)訓(xùn)練方法,借鑒了BERT的預(yù)訓(xùn)練任務(wù),將輸入圖片的patch以較大的比例進(jìn)行mask,并通過非對(duì)稱的ViT編碼解碼器結(jié)構(gòu),進(jìn)行masked patches的重建任務(wù)。該方法在性能上超過了以往的對(duì)比學(xué)習(xí)方法,如MoCo系列等。然而ViT的結(jié)構(gòu)復(fù)雜,計(jì)算量龐大,基于CNN的類MAE方法具有極高研究?jī)r(jià)值,但受限于CNN的結(jié)構(gòu)特性,常規(guī)的MAE方式無法直接在CNN上應(yīng)用。本文介紹ICLR2023的方法Spark[1],實(shí)現(xiàn)了基于CNN的MAE。
如上圖所示,對(duì)于一個(gè)masked的輸入圖片,對(duì)ViT輸入和CNN的輸入計(jì)算統(tǒng)計(jì)直方圖,ViT的直方圖是和未mask的圖片分布一致的,而CNN的直方圖發(fā)生了很大變化。這是由于ViT結(jié)構(gòu)天然適合處理變長(zhǎng)、不規(guī)則的輸入,且不同的輸入之間不會(huì)重疊計(jì)算。CNN的滑窗操作和規(guī)則的卷積核形狀,導(dǎo)致模型會(huì)嚴(yán)重受到mask部分的影響。
因此作者借鑒了3D點(diǎn)云領(lǐng)域的稀疏卷積,該卷積只對(duì)未mask的像素進(jìn)行計(jì)算,忽略masked的像素,可以處理不規(guī)則的輸入,實(shí)現(xiàn)了和ViT類似的效果。另外,為了學(xué)習(xí)到多尺度的特征,作者設(shè)計(jì)了分層次的解碼器,參考了UNet的結(jié)構(gòu)設(shè)計(jì),使模型學(xué)習(xí)到多尺度的特征,適應(yīng)CNN的多層級(jí)結(jié)構(gòu)。
從以下的實(shí)驗(yàn)結(jié)果來看,該方法的性能媲美原始的MAE方法,并在各種下游任務(wù)中取得了SOTA的結(jié)果,作者也證明了各個(gè)設(shè)計(jì)模塊的有效性以及該方法的通用性。
[1]Tian K, Jiang Y, Diao Q, et al. Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling[J]. arXiv preprint arXiv:2301.03580, 2023.
?文章來源地址http://www.zghlxwxcb.cn/news/detail-640326.html
點(diǎn)擊關(guān)注,第一時(shí)間了解華為云新鮮技術(shù)~文章來源:http://www.zghlxwxcb.cn/news/detail-640326.html
?
到了這里,關(guān)于基于卷積神經(jīng)網(wǎng)絡(luò)的MAE自監(jiān)督方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!