[論文地址] [代碼] [CVPR 23]
Abstract
我們考慮了檢測(cè)圖像中低層次結(jié)構(gòu)的通用問(wèn)題,其中包括分割被操縱的部分,識(shí)別失焦像素,分離陰影區(qū)域,以及檢測(cè)隱藏的物體。每個(gè)問(wèn)題通常都有一個(gè)特定領(lǐng)域的解決方案,我們表明,一個(gè)統(tǒng)一的方法在所有這些問(wèn)題上都表現(xiàn)良好。我們從NLP中廣泛使用的預(yù)訓(xùn)練和提示調(diào)整協(xié)議中得到啟發(fā),并提出了一個(gè)新的視覺(jué)提示模型,即顯式視覺(jué)提示(EVP)。與以往的視覺(jué)提示不同的是,我們的視覺(jué)提示是典型的數(shù)據(jù)集級(jí)別的隱性嵌入,我們的關(guān)鍵見解是強(qiáng)制執(zhí)行可調(diào)整的參數(shù),專注于每個(gè)單獨(dú)圖像的顯性視覺(jué)內(nèi)容,即來(lái)自凍結(jié)補(bǔ)丁嵌入和輸入的高頻成分的特征。在相同數(shù)量的可調(diào)整參數(shù)(每個(gè)任務(wù)5.7%的額外可調(diào)諧參數(shù))下,提議的EVP明顯優(yōu)于其他參數(shù)高效的微調(diào)協(xié)議。與特定任務(wù)的解決方案相比,EVP在不同的低層次結(jié)構(gòu)分割任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。
Overview
本文是做什么的: 做的是參數(shù)高效微調(diào)(Parameter-Efficient Tuning)。例如對(duì)一個(gè)參數(shù)量巨大的模型,調(diào)整其所有參數(shù)是十分低效的,可以設(shè)計(jì)算法以只調(diào)整網(wǎng)絡(luò)的一小部分(額外的)參數(shù)來(lái)取得與完全調(diào)整相當(dāng)?shù)男阅堋?/p>
何為顯式(Explicit) 現(xiàn)有的方法(例如Visual Prompt Tuning)其所利用的提示(Prompt)是隱式的,也就是直接加網(wǎng)絡(luò)層進(jìn)去讓模型自己學(xué),具體學(xué)的東西是什么不知道,但最后模型性能有提升;本文的Prompt則是強(qiáng)制學(xué)習(xí)了模型的一些底層的結(jié)構(gòu)信息(FFT+IFFT取得的模型高頻成分),這些底層結(jié)構(gòu)信息所構(gòu)成的"手工特征"能夠大大提升Prompt的效果。
本文的核心思想其實(shí)比較類似于傳統(tǒng)分割網(wǎng)絡(luò)里面的boundary aware之類的方法,加額外的與圖片相關(guān)的信息進(jìn)去給網(wǎng)絡(luò)學(xué)。
Method
本文的網(wǎng)絡(luò)結(jié)構(gòu)如下所示:
虛線左邊為Adapter的結(jié)構(gòu),虛線右邊為整體結(jié)構(gòu)。以SegFormer的Transformer backbone為例,本文主要加了以下幾個(gè)東西,一個(gè)個(gè)來(lái)看:
-
Embedding Tune: 本文將Patch Embedding所得到的特征送入了一個(gè)Embedding Tune層。這么做的目的是輔助原始訓(xùn)練數(shù)據(jù)分布遷移到現(xiàn)在finetune的新數(shù)據(jù)上,思想類似于現(xiàn)有的VPT-Shallow。具體的網(wǎng)絡(luò)實(shí)現(xiàn)則是一個(gè)線性層就可以搞定。需要注意的是,這個(gè)線性層對(duì)輸入的Patch Embedding Feature進(jìn)行了降維,具體降多少算是本文的一個(gè)超參。
-
HTC Tune 直接從原始圖像中提取高頻分量,作為手工特征以輔助finetune。具體的網(wǎng)絡(luò)實(shí)現(xiàn)同樣是使用一個(gè)線性層將提取的frequency map轉(zhuǎn)化為特征。
-
Adapter 負(fù)責(zé)整合Embedding與HTC Tune獲得的信息,并將其送入到Transformer backbone的每一層中去。其網(wǎng)絡(luò)實(shí)現(xiàn)由三部分組成,分別為 M L P t u n e MLP_tune MLPt?une, G E L U GELU GELU, M L P u p MLP_up MLPu?p,也就是兩個(gè)線性層以及中間的GELU。將第二個(gè)MLP共享可以認(rèn)為單純是為了節(jié)省參數(shù)量(見消融實(shí)驗(yàn))。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-608289.html
Ablation Study
本文主要所提出來(lái)的東西也就是這個(gè)高頻分量Adapter
F
h
f
c
F_{hfc}
Fhfc?。可以看到該組件在Shadow和Forgery上的貢獻(xiàn)較大,而在Defocus以及Camouflaged上的貢獻(xiàn)有限。事實(shí)上,對(duì)于Defocus以及Camouflaged這兩個(gè)任務(wù),修改單一的設(shè)計(jì)幾乎都不會(huì)對(duì)最終結(jié)果有較大的影響。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-608289.html
到了這里,關(guān)于[論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!