国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

這篇具有很好參考價(jià)值的文章主要介紹了論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原論文于2023.11.6撤稿,原因:缺乏合法的授權(quán),詳見此處

Abstract

在小樣本學(xué)習(xí)中(Few-shot Learning, FSL)中,有通過利用額外的語義信息,如類名的文本Embedding,通過將語義原型與視覺原型相結(jié)合來解決樣本稀少的問題。但這種方法可能會(huì)遇到稀有樣本中學(xué)到噪聲特征導(dǎo)致收益有限。在這篇論文,作者提出了一種用于少樣本學(xué)習(xí)的語義提示(Semantic Prompt, SP)方法,不同于簡(jiǎn)單地利用語義信息糾正分類器,而是選擇用語義信息作為提示(prompt)去自適應(yīng)調(diào)整視覺特征提取網(wǎng)絡(luò)。

具體來說,作者設(shè)計(jì)了兩種互補(bǔ)機(jī)制,將語義提示插入特征提取器:1、在空間維度上,通過自注意力機(jī)制使語義提示和局部圖塊(patch)embedding相互作用;2、在通道維度上,用變換后的語義提示補(bǔ)充視覺特征。通過結(jié)合這兩種機(jī)制,特征提取器能更好地關(guān)注特定類的特征,并僅用了較少的支持樣本就能得到通用的圖像表示。

1. 引言

在解決小樣本問題時(shí),最有效的FSL方法是利用從大量標(biāo)記基礎(chǔ)數(shù)據(jù)集學(xué)習(xí)而來的先驗(yàn)知識(shí),并將先驗(yàn)知識(shí)編碼為一組初始網(wǎng)絡(luò)參數(shù),或者在所有的類中共享固定的嵌入函數(shù)。

由于缺少新的類的帶標(biāo)簽圖像,一種直接替代方式是使用其他模式的輔助信息,例如語言模型,來幫助學(xué)習(xí)新的類,這在zero-shot中已經(jīng)被廣泛使用了。這些方法通常直接使用文本embeddings用于新的類的圖像分類器?;诖?,一些FSL研究提出了從類名推斷文本原型,并將其與從罕見的支持圖像中提取的視覺原型結(jié)合。另一些方法通過引入更復(fù)雜的文本預(yù)測(cè)器,或者利用大規(guī)模預(yù)訓(xùn)練模型產(chǎn)出更準(zhǔn)確的文本原型。

這些方法大多直接從文本特征中得到類的原型,忽視了文本特征與視覺特征的信息差。確切來說,文本特征可能包含了新的類與已知的類之間的語義聯(lián)系,但由于缺少與底層視覺表示的交互,這些方法不能提供能確切區(qū)分新類的視覺特征。此外,由于有限的支持圖像,學(xué)習(xí)到的視覺特征仍然遭受噪聲特征的影響,例如背景的干擾。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

在圖一中,對(duì)于一個(gè)新類“unicycle”,特征提取器可能會(huì)將unicycle圖像和其他干擾因素作為圖像特征,干擾因素可能包含騎手和房屋,并在其他場(chǎng)景下不能識(shí)別unicycle。本文中,作者選擇使用文本特征作為語義提示去自適應(yīng)調(diào)整特征提取網(wǎng)絡(luò),如圖一所示,在語義提示的指導(dǎo)下,特征提取器注重捕獲新類的固有特征而不是雜亂的背景。

此外,在大規(guī)模訓(xùn)練的自然語言模型(Natural Language Process, NLP)如BERT和GPT能從類名挖掘豐富的文本信息。通過語義提示和視覺特征相互作用,可以幫助特征提取器判斷視覺特征時(shí)提供附加信息,并產(chǎn)生更通用的類原型。

語義提示與視覺特征的相互作用發(fā)生在空間維度與通道維度。

  • 空間維度上,用語義提示擴(kuò)展圖像塊序列,并輸入到Transformer的Encoder中,通過自注意力層,語義提示可以使特征提取器關(guān)注類的特定特征并一直其他干擾因素;
  • 通道維度上,首先將語義提示與從所有圖像塊中提取的視覺上下文連接,然后投喂進(jìn)多層感知機(jī)(Multilayer Perceptron, MLP)模塊。提取的特征向量會(huì)被添加到每個(gè)圖像塊中,在逐個(gè)通道中調(diào)整與增強(qiáng)視覺特征。

2. 問題設(shè)置

FSL問題中通常被定義為N-way、K-shot分類任務(wù),對(duì)于查詢集\(Q\)的樣本\(x^q\),模型能將其分類在\(C_{novel}\)\(N\)個(gè)類中的某一個(gè)。訓(xùn)練數(shù)據(jù)為支持集\(S\)的少量帶標(biāo)簽樣本\((x^s_i,y^s_i)^{N\times K}_{i=1}\)。由于支持集較少,在FSL訓(xùn)練之前,會(huì)在大量標(biāo)記的數(shù)據(jù)集\(D_{base}\)預(yù)訓(xùn)練模型。注意,\(C_{base}\cap C_{novel}=\varnothing\),這表示訓(xùn)練的類與測(cè)試的類完全不同,模型學(xué)習(xí)到的僅是泛化未知的類的能力。

在之前的工作中,圖像的標(biāo)簽\(y\)通常使用one-hot編碼表示,如\(y=[0,1,0,0,\dots]\),這種表示會(huì)導(dǎo)致物體概念和文本標(biāo)簽中的語義信息被抹去。本文中,為了使語義能被提取,作者保留了文本標(biāo)簽如\('cat', 'dog'\)。并把這種label表示為\(y^{text}\)與one-hot表示的\(y\)相區(qū)分。

3. 方法

3.1 預(yù)訓(xùn)練

在FSL中,學(xué)習(xí)通用特征提取器是將知識(shí)轉(zhuǎn)移到下游學(xué)習(xí)任務(wù)的關(guān)鍵。在給定的標(biāo)簽數(shù)據(jù)集\(D_{base}\)中,采用簡(jiǎn)單的監(jiān)督學(xué)習(xí)范式來學(xué)習(xí)特征提取器。線性分類的權(quán)重矩陣和偏置向量與輸入特征向量\(f(x)\)運(yùn)算并映射到其中一個(gè)基礎(chǔ)類,并通過最小化標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練:

\[\mathcal{L}_{pre}=\frac{1}{|D_{base}|}\sum_{(x,y)\in D_{base}}-\log\frac{\exp(W^T_yf(x)+b_y)}{\sum_i\exp(W^T_if(x)+b_i)} \tag{1} \]

其中,\(W_i,b_i\)表示分類器對(duì)于\(i\)類的權(quán)重與偏置。

對(duì)于骨干網(wǎng)絡(luò)的選擇,為了促進(jìn)視覺特征與語義提示相互作用,采用Vision Transformer作為圖像特征提取器\(f\)。對(duì)于輸入圖像\(x\in\mathbb{R}^{H\times W\times C}\)首先被分為\(M\)個(gè)圖像塊序列\(X=\{x^1_p,x^2_p,\dots,x^M_p\}\),其中\(x^i_p\in\mathbb{R}^{P\times P\times C}\)\(P\)表示圖像塊的大小。然后每一個(gè)圖像塊將被轉(zhuǎn)為embedding向量并加入位置embedding,此時(shí)作為Transformer輸入的圖像塊可以寫為\(Z_0=[z_0^1,z_0^2,\dots,z_0^M]\),其中\(z^i_0\in\mathbb{R}^{C_z}\)是位于位置\(i\)的圖像塊token,\(C_z\)為每個(gè)token的通道數(shù)。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

每一個(gè)圖像塊token都會(huì)被投入Transformer層L,提取視覺特征。每一個(gè)特征由多頭自注意力(Multihead Self-Attention, MSA)、MLP塊、歸一化層和殘差連接組成(各個(gè)層的結(jié)構(gòu)順序如下圖所示)。在L的頂層,將所有token序列中的embedding向量求平均作為提取的圖像特征:

\[f(x)=\frac{1}{M}\sum^M_{i=1}z_L^i \tag{2} \]

其中\(z_L^i\)是在L層的第\(i\)個(gè)token的embedding向量。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

圖片來源:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale。文中改進(jìn)了Transformer并應(yīng)用于計(jì)算機(jī)視覺,作者將其命名為Vision Transformer(ViT)。

自注意力的計(jì)算量為序列長度的平方,為了降低計(jì)算成本,采用ViT的變體Visformer作為Transformer層的實(shí)現(xiàn)。

3.2 語義提示

在基礎(chǔ)訓(xùn)練進(jìn)行預(yù)訓(xùn)練后的特征提取器\(f\)可以從輸入圖像提取大量的視覺特征,為了準(zhǔn)確識(shí)別,我們還需要語義信息作為提示指導(dǎo)網(wǎng)絡(luò),在樣本數(shù)量少的情況獲得更好的泛化能力。具體來說,類名就是終于的語義信息,文中使用大規(guī)模預(yù)訓(xùn)練的NLP模型從類名中提取語義特征。

在一次訓(xùn)練的episode,對(duì)于支持集的圖像\(x^s\)的類名\(y^{text}\)投喂進(jìn)預(yù)訓(xùn)練的語言模型\(g(\cdot)\),得到語義特征\(g(y^{text})\)。語義特征被用于調(diào)整樣本較少的類的調(diào)整,這個(gè)過程記為:\(f_g(x^s)=f(x^s|g(y^{text}))\)。每個(gè)類中,對(duì)這些特征求平均計(jì)算類的原型,\(p_i\)表示第\(i\)個(gè)類的原型。

\[p_i=\frac{1}{K}\sum^K_{j=1}f_g(x^s_j)\tag{3} \]

其中\(x_j^s\)\(i\)的第\(j\)個(gè)支持圖像。

episode: episode指一次訓(xùn)練的子任務(wù)。舉例來說,假設(shè)正在使用元學(xué)習(xí)來訓(xùn)練一個(gè)模型來識(shí)別不同的動(dòng)物。每個(gè)episode可能代表一個(gè)特定的識(shí)別任務(wù),比如在一個(gè)episode中,模型需要學(xué)會(huì)識(shí)別貓和狗,而在另一個(gè)episode中,模型需要學(xué)會(huì)識(shí)別鳥類和魚類。每個(gè)episode都會(huì)提供一組訓(xùn)練樣本,以及模型需要盡快學(xué)會(huì)正確分類這些樣本的機(jī)會(huì)。

在元訓(xùn)練中,會(huì)凍結(jié)文本編碼器\(g(\cdot)\)并使用交叉熵?fù)p失函數(shù)最大化查詢樣本與原型的特征相似度來微調(diào)其他參數(shù):

\[\mathcal{L}_{meta}=-\mathbb{E}_{S,Q}\mathbb{E}_{x^q}\log\frac{\exp(s(f(x^q),p_{y^q})/\tau)}{\sum^N_{i=1}\exp(s(f(x^q),p_i)/\tau)}\tag{4} \]

其中\(s\)是余弦相似度,\(p_{y^q}\)是類\(y^q\)的原型,\(\tau\)是溫度參數(shù)。

3.2.1 空間維度的相互作用

對(duì)于給定的語義特征\(g(y^{text})\)\(l\)層的輸入圖像序列embedding\(Z_{l-1}=[z_{l-1}^1,z_{l-1}^2,\dots,z_{l-1}^M]\in\mathbb{R}^{M\times C_z}\),之后通過投影的(projected)語義特征擴(kuò)展\(Z_{l-1}\)得到\(\hat{Z}_{l-1}\in\mathbb{R}^{(M+1)\times C_z}\)

\[\hat{Z}_{l-1}=[z^0,z_{l-1}^1,\dots,z_{l-1}^M] \tag{5} \]

其中,\(z^0=h_s(g(y^{text}))\in\mathbb{R}^{C_z}\)是投影的語義embedding用于空間交互,\(h_s\)是保持語義embedding和圖像塊embedding維度相同的投影器(projector)。之后,\(\hat{Z}_{l-1}\)被投喂進(jìn)Transformer的\(l\)層的MSA模塊,MSA模塊首先將每個(gè)token映射為三個(gè)向量\(q,k,v\in\mathbb{R}^{N_h\times(M+1)\times C_h}\),映射的投影參數(shù)為\(W_{qkv}\),即:

\[[q,k,v]=\hat{Z}_{l-1}W_{qkv}\tag{6} \]

其中,\(N_h\)是MSA中頭的數(shù)量,\(C_h\)是每個(gè)頭的通道數(shù)。之后計(jì)算注意力權(quán)重\(A\in\mathbb{R}^{N_h\times(M+1)\times(M+1)}\)。

\[A=softmax(qk^T/C_h^{\frac{1}{4}})\tag{7} \]

注意力權(quán)重可以聚合不同位置的信息,最終輸出通過連接所有頭的輸出并由參數(shù)\(W_{out}\)投影獲得:

\[MSA(\hat{Z}_{l-1})=(Av)W_{out}\tag{8} \]

公式(6)-(8)可參考Transformer原論文

3.2.2 通道維度的相互作用

除了通過MSA進(jìn)行空間上的相互作用外,還提出了另一種交互機(jī)制:可以根據(jù)輸入的語義提示逐個(gè)通道得調(diào)節(jié)和增強(qiáng)視覺特征。對(duì)于\(l\)層的輸入圖像塊embedding序列\(Z_{l-1}=[z^2_{l-1},z^1_{l-1},\dots,z^M_{l-1}]\in\mathbb{R}^{R_z}\),首先所有圖像塊token取平均得到全局視覺上下文向量\(z^c_{l-1}\in\mathbb{R}^{C_z}\)

\[z^c_{l-1}=\frac{1}{M}\sum^M_{i=1}z^i_{l-1}\tag{9} \]

將視覺特征\(z^c_{l-1}\)與投影的語義向量\(z^0=h_c(g(h_{text}))\in\mathbb{R}^{R_c}\)連接,并投喂進(jìn)2層MLP模塊,得到調(diào)節(jié)后的向量

\[\beta_{l-1}=\sigma(W_2\sigma(W_1[z^0;z^c_{l-1}]+b_1)+b_2)\tag{10} \]

其中,\(W_1,b_1,W_2,b_2\)是MLP模塊的參數(shù),\(\sigma\)是激活函數(shù),\(h_c\)是通道交互的投影器。

最后,將圖像塊token與上面得到的調(diào)節(jié)向量相加以調(diào)整每個(gè)通道上的視覺特征,調(diào)整的序列為\(\hat{Z}_{l-1}\in\mathbb{R}^{M\times C_z}\)

\[\hat{Z}_{l-1}=[z^i_{l-1}+\beta_{l-1},]\space i=1,2,\dots,M\tag{11} \]

4. 實(shí)驗(yàn)

4.1 數(shù)據(jù)集測(cè)試

作者在四個(gè)數(shù)據(jù)集上與其他SOTA方法進(jìn)行對(duì)比試驗(yàn)如表1、表2所示。對(duì)于預(yù)訓(xùn)練的文本編碼器,一共試驗(yàn)了三種:CLIP、SBERT、GloVe。對(duì)于CLIP的使用輸入采用模板:A photo of a {class name}。而其他兩種文本編碼器的輸入為類名。如果名稱中有多個(gè)單詞,則對(duì)輸出單詞向量求平均。文中默認(rèn)使用的文本編碼器為ClIP。

可以看到之前的方法通常采用CNN作為骨干網(wǎng)絡(luò),對(duì)比同樣以Visformer-S的SUN,準(zhǔn)確率提升了2.46%

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

4.2 模型分析

4.2.1 消融研究

文中進(jìn)行了消融研究,結(jié)果如表3所示,證明圖像增強(qiáng)與兩種交互機(jī)制的有效性。

4.2.2 層的選擇

特征提取器有三個(gè)階段,每個(gè)階段含有多個(gè)Transformer層。理論上語義提示可以在任意層插入,實(shí)驗(yàn)研究了二、三階段不同層插入語義提示的實(shí)驗(yàn)結(jié)果。可以發(fā)現(xiàn),插入高層時(shí)模型的表現(xiàn)較好,插入低層時(shí)模型的表現(xiàn)下降。文中認(rèn)為語義提示向量特定于類,而更高層的網(wǎng)絡(luò)層提取的特征特定于類,而在低層提取的特征會(huì)在類間共享。在圖3中,可以看到語義提示插入三階段的整體表現(xiàn)較好,語義提示默認(rèn)插入位置為layer3-2(三階段的第二層)。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

4.2.3 骨干網(wǎng)絡(luò)和分類器架構(gòu)

表4中用兩種骨干網(wǎng)絡(luò)測(cè)試了3種baseline方法,可見骨干網(wǎng)絡(luò)的替換并不能明顯提高精度,而使用了語義提示后精度得到了明顯提高。表5中比較兩種分類器余弦距離分類器和線性邏輯回歸分類器,兩者的精度差距不大。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

4.2.4 投影器和池化策略

表6可以看到,投影器的選擇對(duì)精度影響不大,不管是線性還是多層感知機(jī)都表現(xiàn)良好。但池化的策略選擇對(duì)精度影響較大,當(dāng)選擇Head策略時(shí),模型精度較差,這表明僅通過語義特征無法獲得較好的泛化能力。

  • Head: 選擇語義提示向量位置處的輸出(公式(5)的\(z^0\));
  • Patch: 對(duì)所有圖像塊的特征取平均(公式(5)的\(z_{l-1}^1,\dots,z_{l-1}^M\));
  • All: 對(duì)所有特征向量取平均。
論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

4.2.5 圖像大小和主干設(shè)計(jì)

表7可以看到,保持卷積主干不變的情況下縮小圖像會(huì)導(dǎo)致精度下降,因?yàn)榇藭r(shí)卷積核和卷積步幅太大不能捕獲詳細(xì)的視覺特征,如果相應(yīng)地減少卷積核和步幅,精度會(huì)提高。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

4.2.6 可視化

在圖4中,對(duì)注意力圖進(jìn)行可視化。在預(yù)訓(xùn)練的baseline中夾雜著背景信息,如果給出特定的文本提示,模型就能專注于某一部分(蜘蛛或是蛛網(wǎng))。

論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

5. 總結(jié)

本文提出了一種新穎的 FSL 語義提示(SP)方法,該方法利用從類名派生的語義特征自適應(yīng)地調(diào)整特征提取。所提出的方法在四個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估,并相對(duì)于以前的方法取得了顯著的改進(jìn)。更深入的分析表明,SP 鼓勵(lì)模型提取更多類別特定的特征,并且對(duì)不同的文本編碼器和模型設(shè)計(jì)具有健壯性。文章來源地址http://www.zghlxwxcb.cn/news/detail-711522.html

參考文獻(xiàn)

  1. Chen, Wentao, et al. "Semantic Prompt for Few-Shot Image Recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

到了這里,關(guān)于論文精讀:用于少樣本圖像識(shí)別的語義提示(Semantic Prompt for Few-Shot Image Recognition)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包