国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文閱讀]Visual Attention Network原文翻譯

這篇具有很好參考價值的文章主要介紹了[論文閱讀]Visual Attention Network原文翻譯。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

[論文鏈接]https://arxiv.org/abs/2202.09741

摘要

??雖然一開始是被設(shè)計用于自然語言處理任務(wù)的,但是自注意力機(jī)制在多個計算機(jī)視覺領(lǐng)域掀起了風(fēng)暴。然而,圖像的二維特性給自注意力用于計算機(jī)視覺帶來了三個挑戰(zhàn)。(1)將圖像視作一維序列忽視了它們的二維結(jié)構(gòu);(2)二次復(fù)雜度對于高分辨率圖像來說太昂貴了;(3)它只捕獲了空間適應(yīng)性而忽略了通道適應(yīng)性。本文我們提出了一種新穎的被叫做大核注意力(Large Kernel Attention,LKA)的線性注意力使得自注意力中的自適應(yīng)和長期相關(guān)性有效的同時避免其缺點(diǎn)。此外,我們提出了一個基于LKA的神經(jīng)網(wǎng)絡(luò),其被命名為Visual Attention Network(VAN)。盡管非常簡單,但是VAN在多個任務(wù)中的表現(xiàn)超越了大小相似版本的ViTs和CNNs,包括圖像分類、目標(biāo)檢測、語義分割、全景分割、姿態(tài)估計等。例如,VAN-B6在ImageNet基準(zhǔn)上實(shí)現(xiàn)了87.8%的準(zhǔn)確率同時在全景分割任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能(58.2 PQ)。此外,VAN-B2在ADE20K基準(zhǔn)的語義分割任務(wù)中,mIoU超過了SWIN-T 4% (50.1 vs. 46.1),在COCO數(shù)據(jù)集的目標(biāo)檢測任務(wù)中AP超過了2.6% (48.8 vs. 46.2)。這為社區(qū)提供了一種新穎的簡單而強(qiáng)大的基線方法。代碼可在https://github.com/Visual-Attention-Network獲取。

1.序言

??作為最基礎(chǔ)的特征提取器,視覺主干在計算機(jī)視覺領(lǐng)域是一個基礎(chǔ)的研究方向。在過去的十年間由于所具有得出色的特征提取性能,CNNs成為了不可獲取得研究課題。在AlexNet重新開啟了深度學(xué)習(xí)時代后,通過使用更深的網(wǎng)絡(luò)、更高效的架構(gòu)、更強(qiáng)的多尺度能力以及注意力機(jī)制,已經(jīng)取得了一些突破,獲得了更強(qiáng)大的視覺主干。由于平移不變性和共享滑動窗口策略,CNNs對于擁有任意大小輸入的多種視覺任務(wù)固有的高效。更先進(jìn)的視覺骨干網(wǎng)絡(luò)通常會在各種任務(wù)中獲得顯著的性能提升,包括圖像分類,目標(biāo)檢測,語義分割和姿態(tài)估計。
??基于觀察反應(yīng)時間和沿生物途徑估計的信號傳遞時間,認(rèn)知心理學(xué)和神經(jīng)科學(xué)研究人員認(rèn)為,人類視覺系統(tǒng)只詳細(xì)處理可能的刺激的一部分,而其余部分幾乎未被處理。選擇性注意對于處理視覺中復(fù)雜的組合方面是一個重要的機(jī)制。注意機(jī)制可以看作是一個基于輸入特征的自適應(yīng)選擇過程。自從全注意網(wǎng)絡(luò)被提出以來,自注意模型(又稱Transformer)迅速成為自然語言處理領(lǐng)域的主流架構(gòu)。
??最近,Dosovitskiy等人通過將transformer主干引入計算機(jī)視覺,提出了ViT,在圖片分類任務(wù)上超越了著名的CNNs。得益于其強(qiáng)大的建模能力基于transformer的視覺主干迅速占據(jù)了各種任務(wù)的排行榜,包括目標(biāo)檢測、語義分割等。
盡管取得了顯著的成功,卷積運(yùn)算和自關(guān)注仍然有其不足之處。卷積運(yùn)算采用靜態(tài)權(quán)重,缺乏自適應(yīng)性,而這一點(diǎn)已被證明是至關(guān)重要的。又由于自注意最初是為一維NLP任務(wù)設(shè)計的,它將二維圖像視為一維序列,這破壞了圖像的關(guān)鍵的二維結(jié)構(gòu)。由于它的二次計算和內(nèi)存開銷,處理高分辨率圖像也很困難。此外,自注意是一種只考慮空間維度適應(yīng)性而忽略通道維度適應(yīng)性的特殊注意力,而這對于視覺任務(wù)來說也是重要的。
??在本文中,我們提出了一種新的線性注意力機(jī)制,稱為大核注意力(large kernel attention, LKA),它是為視覺任務(wù)量身定制的。LKA吸收了卷積和自關(guān)注的優(yōu)點(diǎn),包括局部結(jié)構(gòu)信息、遠(yuǎn)程依賴和適應(yīng)性。同時也避免了它們在通道維度上忽略自適應(yīng)性的缺點(diǎn)。 基于LKA,我們提出了一種新的視覺主干稱為視覺注意網(wǎng)絡(luò)(VAN),顯著優(yōu)于眾所周知的基于CNN和基于Transformer的主干。本文的貢獻(xiàn)總結(jié)如下:

  • 我們設(shè)計了一種新的線性注意機(jī)制計算機(jī)視覺的LKA,考慮了卷積和自關(guān)注的優(yōu)點(diǎn),同時避免了它們的缺點(diǎn)。在LKA的基礎(chǔ)上,我們進(jìn)一步引入了一種簡單的視覺主干,稱為VAN。
  • 我們在大量的實(shí)驗(yàn)中表明,在圖像分類、目標(biāo)檢測、語義分割、實(shí)例分割、姿態(tài)估計等各種任務(wù)上,VANs的表現(xiàn)優(yōu)于相似水平的ViTs和CNNs。
    [論文閱讀]Visual Attention Network原文翻譯,論文閱讀

2 相關(guān)工作

2.1 卷積神經(jīng)網(wǎng)絡(luò)

??如何有效地計算強(qiáng)大的特征表示是計算機(jī)視覺中最基本的問題。卷積神經(jīng)網(wǎng)絡(luò)利用局部上下文信息和平移不變性,極大地提高了神經(jīng)網(wǎng)絡(luò)效果。自AlexNet以來,CNN迅速成為計算機(jī)視覺的主流框架。為了進(jìn)一步提高可用性,研究者們在CNNs的深度和重量方面投入了大量的精力。我們的工作與MobileNet有相似之處,MobileNet將標(biāo)準(zhǔn)卷積解耦為兩個部分,深度卷積和逐點(diǎn)卷積(也稱為1 × 1卷積)。我們的方法將卷積分解為三個部分:深度卷積、深度和空洞卷積和逐點(diǎn)卷積。得益于這種分解,我們的方法更適合于有效地分解大核卷積。我們還在方法中引入了注意機(jī)制以獲得自適應(yīng)特性。

2.2 視覺注意力方法

??注意力機(jī)制可以看作是一種根據(jù)輸入特征進(jìn)行自適應(yīng)選擇的過程,它在RAM中被引入到計算機(jī)視覺。它在許多視覺任務(wù)中提供了好處,如圖像分類,目標(biāo)檢測和語義分割。計算機(jī)視覺中的注意力可分為通道注意力、空間注意力、時間注意力、分支注意力四種基本類別以及它們的結(jié)合如通道和空間注意力。每一種注意力在視覺任務(wù)中都有不同的效果。
??起源于NLP的自注意力是一種特殊的注意力機(jī)制。由于其在捕獲遠(yuǎn)程依賴性和適應(yīng)性方面的有效性,使得它在計算機(jī)視覺中發(fā)揮著越來越重要的作用。各種深度自注意力網(wǎng)絡(luò)(又稱vision-transformer)在不同的視覺任務(wù)上取得了明顯優(yōu)于主流CNNs的性能,顯示了基于注意力的模型的巨大潛力。然而,自我注意最初是為NLP設(shè)計的。在處理計算機(jī)視覺任務(wù)時,它有三個缺點(diǎn)。(1)它將圖像視為一維序列,忽略了圖像的二維結(jié)構(gòu)。(2)對于高分辨率圖像,二次復(fù)雜度過于昂貴。(3)它僅實(shí)現(xiàn)了空間適應(yīng)性,而忽略了通道維度的適應(yīng)性。對于視覺任務(wù),不同的通道通常代表不同的對象。通道適應(yīng)性對視覺任務(wù)也很重要。為了解決這些問題,我們提出了一種新的視覺注意力方法,即LKA。它包含了自注意力機(jī)制的優(yōu)點(diǎn),如適應(yīng)性和長期依賴。此外,它還利用了卷積的優(yōu)點(diǎn),如利用局部上下文信息。

2.3 視覺MLPs

??在CMMs出現(xiàn)之前,多層感知機(jī)(Multilayer Perceptrons, mlp)是一種流行的計算機(jī)視覺工具。但是,由于計算量大、效率低,使得長期以來MLP一直受到限制。最近的一些研究成功地將標(biāo)準(zhǔn)MLP解耦為空間MLP和通道MLP。這種分解大大減少了計算成本和參數(shù)量,從而釋放出MLP的驚人性能。讀者可參考最近的研究,以獲得更全面的MLP綜述。與我們的方法最相關(guān)的MLP是gMLP,它不僅分解了標(biāo)準(zhǔn)MLP,還引入了注意力機(jī)制。然而,gMLP有兩個缺點(diǎn)。一方面,gMLP對輸入大小比較敏感,只能處理固定大小的圖像。另一方面,gMLP只考慮圖像的全局信息,而忽略圖像的局部結(jié)構(gòu)。我們的方法可以充分利用它的優(yōu)點(diǎn),避免它的缺點(diǎn)。

3. 方法

3.1 大核注意力

??注意機(jī)制可以看作是一種自適應(yīng)選擇過程,它可以根據(jù)輸入特征選擇有區(qū)別的特征,并自動忽略噪聲響應(yīng)。注意力機(jī)制的關(guān)鍵步驟是生成表示不同區(qū)域重要性的注意力映射。要做到這一點(diǎn),我們應(yīng)該了解不同特征之間的關(guān)系。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀有??兩種眾所周知的方法來建立不同部分之間的關(guān)系。第一種是采用自注意機(jī)制獲取遠(yuǎn)程依賴。自注意在計算機(jī)視覺中的應(yīng)用有三個明顯的缺點(diǎn),在2.2節(jié)中已經(jīng)列出。第二種是利用大核卷積構(gòu)建相關(guān)性,生成注意力映射。但是這種方式也有明顯的缺點(diǎn)。大核卷積帶來了大量的計算開銷和參數(shù)量。
??為了克服上面列出的缺點(diǎn)并利用自關(guān)注和大核卷積的優(yōu)點(diǎn),我們提出分解一個大核卷積操作來捕獲遠(yuǎn)程關(guān)系。如圖2所示,大核卷積可以被分為三個部分:空間局部卷積(深度卷積)、空間遠(yuǎn)程卷積(深度擴(kuò)張卷積)和通道卷積(1×1卷積)。具體來說,我們可以把 K × K K \times K K×K的卷積分解成 ? K d ? × ? K d ? \lceil \frac Kd \rceil \times \lceil \frac Kd \rceil ?dK??×?dK??深度空洞卷積空洞為 ? d \ d ?d, 一個 ( 2 d ? 1 ) × ( 2 d ? 1 ) (2d?1)×(2d?1) (2d?1)×(2d?1)的深度卷積和一個1×1卷積。通過上述分解,我們可以以較小的計算成本和參數(shù)捕獲遠(yuǎn)程關(guān)系。在獲得遠(yuǎn)程關(guān)系后,我們可以估計一個點(diǎn)的重要性并生成注意力圖。如圖3(a)所示,LKA模塊可以寫成
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
其中, F ∈ R C × H × W F \in \Bbb R^{C \times H \times W} FRC×H×W是輸入特征, A t t e n t i o n ∈ R C × H × W Attention \in \Bbb R^{C \times H \times W} AttentionRC×H×W表示注意力圖。注意力圖中的值代表每個特征的重要程度。 ? \bigotimes ?表示點(diǎn)積。與常見的注意方法不同,LKA不需要像sigmoid和softmax那樣額外的歸一化函數(shù),如表3所示。我們還認(rèn)為,注意力方法的關(guān)鍵作用是基于輸入特征自適應(yīng)地調(diào)整輸出,而不是標(biāo)準(zhǔn)化的注意力圖。如表1所示,我們提出的LKA結(jié)合了卷積和自注意力的優(yōu)點(diǎn)。同時考慮了局部上下文信息、大接受野、線性復(fù)雜性和動態(tài)過程。此外,LKA不僅實(shí)現(xiàn)了空間維度的自適應(yīng)性,還實(shí)現(xiàn)了通道維度的自適應(yīng)性。值得注意的是,在深度神經(jīng)網(wǎng)絡(luò)中,不同的通道通常表示不同的對象同時通道維度的適應(yīng)性對視覺任務(wù)也很重要。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀

3.2 視覺注意力網(wǎng)絡(luò)(VAN)

??我們的VAN具有簡單的層次結(jié)構(gòu),即輸出空間分辨率遞減的四個階段序列,分別是 H 4 × W 4 \frac H4 \times \frac W4 4H?×4W?, H 8 × W 8 \frac H8 \times \frac W8 8H?×8W?, H 16 × W 16 \frac H{16} \times \frac W{16} 16H?×16W? H 32 × W 32 \frac H{32} \times \frac W{32} 32H?×32W?。其中, H H H W W W表示輸入圖片的寬和高。隨著分辨率的降低,輸出通道的數(shù)量也在增加。輸出通道 C i C_i Ci?變化如表5所示。
??正如圖4中所示在每個階段,我們首先對輸入進(jìn)行下采樣,使用步長來控制下采樣率。下采樣后,一個階段中的所有其他層保持相同的輸出大小,即空間分辨率和通道數(shù)量。然后, L L L組批量歸一化,1 × 1 卷積,GELU激活、大核注意力和前饋網(wǎng)絡(luò)按順序堆疊來提取特征。我們根據(jù)參數(shù)量和計算成本設(shè)計了VAN-B0、VAN-B1、VAN-B2、van - b3、VAN-B4、VAN-B5、VAN-B6七個架構(gòu)。整個網(wǎng)絡(luò)的細(xì)節(jié)如表5所示。
**復(fù)雜度分析。**我們給出了分解的參數(shù)量和浮點(diǎn)運(yùn)算量。為了簡化公式我們在計算過程中忽略了偏差帶來的計算量。我們假設(shè)輸入和輸出特征具有相同大小的 H × W × C H × W × C H×W×C。參數(shù)量 P ( K , d ) P(K, d) P(K,d)和FLOPs F ( K , d ) F(K, d) F(K,d)可表示為:
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
其中, d d d表示空洞率, K K K表示核大小。根據(jù)FLOPs和參數(shù)的計算公式,F(xiàn)LOPs和參數(shù)的預(yù)算節(jié)省率是相同的。
實(shí)現(xiàn)細(xì)節(jié)
我們默認(rèn)采用 K = 21 K = 21 K=21。當(dāng) K = 21 K = 21 K=21時,公式(3)在 d = 3 d = 3 d=3時取最小值,對應(yīng)著 5 × 5 5 × 5 5×5的深度卷積和 7 × 7 7 × 7 7×7的空洞為3深度卷積。對于不同數(shù)量的通道數(shù),具體參數(shù)如表2所示。結(jié)果表明,我們的分解方法在參數(shù)和FLOPs方面對大核卷積的分解具有明顯的優(yōu)勢。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀

4. 實(shí)驗(yàn)

??在本節(jié)中,定量和定性實(shí)驗(yàn)展示了所提出方法的有效性和高效率。我們在ImageNet-1K和ImageNet-22K圖像分類數(shù)據(jù)集、COCO目標(biāo)檢測、實(shí)例分割、全景分割和姿態(tài)估計基準(zhǔn)以及ADE20K語義分割數(shù)據(jù)集上進(jìn)行了定量實(shí)驗(yàn)。此外,我們通過在ImageNet驗(yàn)證集上使用GradCAM將實(shí)驗(yàn)結(jié)果和類激活映射(CAM)可視化。實(shí)驗(yàn)是基于Pytorch和Jittor的。

4.1 圖像分類

4.1.1 ImageNet-1K 實(shí)驗(yàn)

設(shè)置
??我們在ImageNet-1K數(shù)據(jù)集上進(jìn)行圖像分類。它包含來自1000個不同類別的1.28M訓(xùn)練圖像和50K驗(yàn)證圖像。整個訓(xùn)練計劃基本和[19]一致。我們采用隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)、標(biāo)簽平滑、mixup、cutmix和隨機(jī)擦除來增強(qiáng)訓(xùn)練數(shù)據(jù)。在訓(xùn)練過程中,我們使用動量=0.9,權(quán)重衰減= 5 × 1 0 ? 2 5 \times10^{?2} 5×10?2的AdamW優(yōu)化器訓(xùn)練了300個epoch,其中batchsize為1024。余弦調(diào)度和預(yù)熱策略用于調(diào)整學(xué)習(xí)率(LR)。初始學(xué)習(xí)率設(shè)置為 5 × 1 0 ? 4 5 \times 10^{?4} 5×10?4。 我們在注意力層中采用LayerScale的變體,用初值為
0.01的 x o u t = x + d i a g ( λ 1 , λ 2 , … λ d ) ( f ( x ) + x ) x_{out} = x + diag(λ_1, λ_2,… λ_d)(f(x) + x) xout?=x+diag(λ1?,λ2?λd?)(f(x)+x)替換了 x o u t = x + d i a g ( λ 1 , λ 2 , … , λ d ) f ( x ) x_{out} = x + diag(λ_1, λ_2,…,λ_d)f(x) xout?=x+diag(λ1?,λ2?,λd?)f(x) ,獲得比原始LayerScale更好的性能。指數(shù)移動平均(EMA)也被用于改進(jìn)訓(xùn)練過程。在評估階段,我們報告了在單一裁剪設(shè)置下ImageNet驗(yàn)證集的top-1精度。
消融實(shí)驗(yàn)
??我們進(jìn)行了消融實(shí)驗(yàn)以證明LKA的每個組成部分都是必不可少的。為了快速得到實(shí)驗(yàn)結(jié)果,我們選擇VAN-B0作為基線模型。表3的實(shí)驗(yàn)結(jié)果表明LKA的所有部分對于提高性能都是必不可少的。

  • DW-Conv
    DW-Conv可以利用圖像的局部上下文信息。如果沒有它,分類性能將下降0.5% (74.9% vs. 75.4%)這顯示了在圖片處理過程中局部結(jié)構(gòu)信息的重要性。
  • DW-D-Conv
    DW-D-Conv表示深度空洞卷積,它在LKA中起捕獲遠(yuǎn)程依賴的作用。如果沒有它,分類性能將下降1.3%(74.1%對75.4%),這證明了我們所認(rèn)為的遠(yuǎn)距離依賴對視覺任務(wù)至關(guān)重要這一觀點(diǎn)。
  • Attention Mechanism
    注意機(jī)制的引入可以看作是使網(wǎng)絡(luò)實(shí)現(xiàn)了自適應(yīng)特性。得益于此,VAN-B0實(shí)現(xiàn)了約1.1% (74.3% vs. 75.4%)的改進(jìn)。此外,用加法運(yùn)算代替注意力的準(zhǔn)確率也不低。
  • 1x1Conv
    這里,1 × 1 Conv捕獲通道維度上的關(guān)系。結(jié)合注意機(jī)制,引入通道維度的適應(yīng)性。提高了0.8% (74.6% vs. 75.4%)證明了通道維度適應(yīng)性的必要性。
  • Sigmoid functions
    Sigmoid函數(shù)是一種將注意力映射從0歸一化到1的常用歸一化函數(shù)。然而,在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)其對于LKA模塊是不必要的。沒有sigmoid,我們的VAN-B0達(dá)到0.2%
    (75.4% vs. 75.2%)的改進(jìn)和更少的計算。

??通過以上分析,我們發(fā)現(xiàn)我們提出的LKA可以利用本地信息,捕獲遠(yuǎn)程依賴關(guān)系,并且在通道和空間維度上都具有自適應(yīng)性。此外,實(shí)驗(yàn)結(jié)果還證明了這些特性對識別任務(wù)都是積極的。標(biāo)準(zhǔn)卷積雖然可以充分利用局部上下文信息,但忽略了遠(yuǎn)程依賴性和適應(yīng)性。對于自注意,雖然它可以捕獲遠(yuǎn)程依賴關(guān)系,并且具有空間維度上的適應(yīng)性,但它忽略了局部信息和空間維度上的適應(yīng)性。同時,我們也在表1中總結(jié)了上述討論。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
??此外,我們還在表6中進(jìn)行了消融研究,以分解不同大小的卷積核。我們可以發(fā)現(xiàn)分解21×21卷積比分解7×7卷積效果更好,這表明大內(nèi)核對視覺任務(wù)至關(guān)重要。在分解一個較大的28×28卷積時,我們發(fā)現(xiàn)與分解一個21×21卷積相比,增益并不明顯。因此,我們默認(rèn)選擇分解21×21卷積。
與現(xiàn)有方法的比較。
??表7給出了VAN與其他MLP、CNN和VIT的比較。在參數(shù)量和計算成本相似的情況下,VAN優(yōu)于常見的CNNs (ResNet、ResNeXt、ConvNeXt等)、ViT(DeiT、PVT、Swin-Transformer等)和MLP(MLP-Mixer、ResMLP、gMLP等)。我們在圖6中直觀地展示了我們的方法與相似水平的經(jīng)典方法在不同任務(wù)上的比較,可以清楚地看出我們方法的改進(jìn)。在下面的討論中,我們將在每個類別中選擇一個具有代表性的網(wǎng)絡(luò)。
??ConvNeXt是一種特殊的CNN,它吸收了ViTs的一些優(yōu)點(diǎn),如大的感受野(7×7卷積)和先進(jìn)的訓(xùn)練策略(300次epoch,數(shù)據(jù)增強(qiáng)等)。VAN與ConvNeXt相比,由于VAN具有更大的感受野和適應(yīng)能力VAN- b2比ConvNeXt-T提高了0.7%(82.8%對82.1%)。Swin - Transformer是一個著名的ViT變體,它采用了局部注意力和滑動窗口的方式。由于VAN對二維結(jié)構(gòu)信息友好,具有更大的接受野,在通道維度上具有自適應(yīng)性,VAN- b2比Swin - t高1.5% (82.8% vs. 81.3%)。對于MLP,我們選擇gMPL。VAN-B2比gMLPS[72]高出3.2%(82.8%vs79.6%),這反映了局部的重要性。
吞吐量
??我們測試了Swin-transformer和VAN在RTX 3090硬件環(huán)境下的吞吐量。結(jié)果如表4所示。此外,我們還繪制了準(zhǔn)確度-吞吐量圖,如圖5所示VAN實(shí)現(xiàn)了比Swin-transformer更好的精度-吞吐量權(quán)衡。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀

4.1.2 可視化

??類激活映射(Class activation mapping, CAM)是一種流行的可視化感興趣區(qū)域(注意圖)的工具。我們采用Grad-CAM來可視化VAN-B2模型產(chǎn)生的ImageNet驗(yàn)證集上的注意力。從圖7的結(jié)果可以看出,VAN-B2可以清晰地聚焦到目標(biāo)物體上。因此,可視化直觀地證明了我們方法的有效性。此外,我們還比較了Swin - T、ConvNeXtT和VAN-B2產(chǎn)生的不同CAM。我們可以發(fā)現(xiàn)VANB2的激活區(qū)域更加準(zhǔn)確。特別是當(dāng)物體在圖像中占主導(dǎo)地位時(最后3行),我們的方法具有明顯的優(yōu)勢如圖7所示,這表明它有能力獲得長相關(guān)性。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀

4.1.3基于ImageNet-22K的預(yù)訓(xùn)練

設(shè)置
??ImageNet-22K是一個大規(guī)模圖像分類數(shù)據(jù)集,包含約14M張圖像和21841個分類。繼Swin-Transformer和ConvNeXt之后,我們在沒有使用EMA的情況下預(yù)訓(xùn)練了90個epoch的VAN。batchsize設(shè)置為8196。其他訓(xùn)練細(xì)節(jié)與ImageNet-1 k相同。在ImageNet-22K上進(jìn)行預(yù)訓(xùn)練后,我們在ImageNet-1K上對模型進(jìn)行了30個epoch的微調(diào)。我們用224 × 224的輸入預(yù)訓(xùn)練我們的模型然后分別以224 × 224和384× 384的輸入微調(diào)我們的模型。
結(jié)果
??我們比較了當(dāng)前最先進(jìn)的CNNs(例如:ConvNeXt , EFFNetV2)和Vit(例如:, Swin-Transformer,ViT和CoAtNet)。如表8所示,VAN在200M參數(shù)下達(dá)到87.8%的Top-1精度,在不同分辨率下超過了同級ViT、Swin -Transformer、EFFNetV2和ConvNeXt,證明了其較強(qiáng)的適應(yīng)大規(guī)模預(yù)訓(xùn)練的能力。
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀

4.2目標(biāo)檢測

設(shè)置
??我們在COCO 2017基準(zhǔn)上進(jìn)行了目標(biāo)檢測和實(shí)例分割實(shí)驗(yàn),其包含訓(xùn)練集118K張,驗(yàn)證集5K張。
MMDetection被用作實(shí)現(xiàn)檢測模型的代碼庫。為了公平比較,我們采用了與Swin Transformer和PoolFormer相同的訓(xùn)練/驗(yàn)證策略。多種檢測模型(如Mask R-CNN、RetinaNet、Cascade Mask R-CNN、Sparse R-CNN 等),以證明我們方法的有效性。所有骨干模型都是在ImageNet上進(jìn)行預(yù)訓(xùn)練的。
結(jié)果
??由表9和表10可以發(fā)現(xiàn),在RetinaNet 1x和Mask R-CNN 1x的設(shè)置下,VAN的效果明顯優(yōu)于基于CNN的方法ResNet和基于transformer的方法PVT。此外,我們還在表11中比較了Swin-Transformer和ConvNeXt兩種最先進(jìn)的方法。結(jié)果表明,VAN在不同的檢測方法(如Mask RCNN和Cascade Mask R-CNN)下都能達(dá)到最先進(jìn)的性能。

4.3語義分割

設(shè)置
??我們在ADE20K上進(jìn)行了實(shí)驗(yàn),ADE20K包含150個語義類別用于語義分割。它按照20000、2000和3000的比例劃分?jǐn)?shù)據(jù)分別用于訓(xùn)練、驗(yàn)證和測試。MMSEG被用作基本框架,兩個著名的分割頭Semantic FPN和UperNet用于評估我們的VAN主干。為了公平比較,我們采用了[98]和[15]兩種訓(xùn)練/驗(yàn)證方案,驗(yàn)證集的定量結(jié)果分別見表12的上、下部分。所有骨干模型都在ImageNet-1K或ImageNet-22K上預(yù)訓(xùn)練。
結(jié)果
??從表12的上半部分可以看出,在使用FPN的不同骨干網(wǎng)中,基于van的方法優(yōu)于基于CNN (ResNet、ResNeXt)或基于Transformer的方法(PVT , PoolFormer , PVTv2)方法。例如,我們超越了四個PVTv2變體,分別調(diào)高了1.3 (B0), 0.4 (B1), 1.5(B2), 0.8 (B3) mIoU在相近參數(shù)量和FLOPs下。在表12的下半部分,與以往的基于CNN的方法和基于swin - transformer的方法相比,4種VAN變體在相近參數(shù)量和FLOPs的情況下也表現(xiàn)出優(yōu)異的性能。例如,基于UperNet ,VAN-B2比ResNet-101和SwinT分別高5.2和4.0 mIoU。對于ImageNet-22K預(yù)訓(xùn)練模型,VAN的性能也優(yōu)于Swin-Transformer和ConvNeXt,且計算開銷更小,如表13所示。

4.4全景分割

設(shè)置
??我們在COCO全景分割數(shù)據(jù)集上進(jìn)行全景分割,選擇Mask2Former作為分割頭。為了公平比較,我們采用MMDetection中的默認(rèn)設(shè)置,并采用Mask2Former相同的訓(xùn)練/驗(yàn)證方案。所有的骨干模型都在ImageNet-1K或ImageNet-22K上預(yù)訓(xùn)練。
結(jié)果
??如表14所示,我們觀察到VAN的表現(xiàn)在大和小模型上都更勝Swin-Transformer一籌。這里,VAN-B2超過Swin - T 1.7 PQ。此外,值得注意的是,VAN-B6達(dá)到了58.2 PQ,達(dá)到了全景分割任務(wù)的最先進(jìn)的性能
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀
[論文閱讀]Visual Attention Network原文翻譯,論文閱讀

4.5姿態(tài)估計

設(shè)置
??我們在COCO人體姿態(tài)估計數(shù)據(jù)集上進(jìn)行姿態(tài)估計實(shí)驗(yàn),該數(shù)據(jù)集包含200K張帶有17個關(guān)鍵點(diǎn)。模型在COCO train 2017數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在COCO val 2017數(shù)據(jù)集上進(jìn)行測試。我們采用SimpleBaseline作為解碼器部分,與Swin-Transformer和PVT相同。所有實(shí)驗(yàn)均基MMPose。
結(jié)果
??實(shí)驗(yàn)結(jié)果見表15。對于256× 192的輸入,VAN-B2超過Swin - T和PVT-S 2.5AP(74.9 vs. 72.4)和3.5AP (74.9 vs. 71.4),而計算量和參數(shù)量相似。此外,VAN-B2在更少的計算量和參數(shù)量情況下,在256 × 192大小輸入時超過了Swin - B 2AP (74.9 vs. 72.9),在384 × 288輸入時超過了1.8AP (76.7 vs. 74.9),除了基于Transformer的模型外,VAN-B2還超越了流行的基于CNN的模型HRNet-W32。

4.6細(xì)粒度分類

??我們使用CUB-200數(shù)據(jù)集進(jìn)行細(xì)粒度分類,該數(shù)據(jù)集是常用的細(xì)粒度分類基準(zhǔn),包含11788張屬于鳥類的200個子類的圖片。我們沒有為這個任務(wù)設(shè)計特定的算法,只是把最后一個線性層替換為200個類別。我們基于mmclassification實(shí)現(xiàn)我們的模型。表16的結(jié)果顯示,VAN-B4在沒有任何特殊設(shè)計的情況下達(dá)到了91.3%的Top-1準(zhǔn)確率算法,超過了DeiT和ViT-B。

4.7顯著性檢測

??我們基于EDN進(jìn)行顯著性檢測。我們用VAN替換主干,并在常見的顯著性檢測基準(zhǔn)上進(jìn)行實(shí)驗(yàn),包括DUTS、DUT-O和PASCAL-S。表17的結(jié)果顯示,VAN在所有數(shù)據(jù)集上都明顯優(yōu)于其他主ResNet和PVT。

5 討論

??最近,基于變Transformer的模型迅速征服了各種視覺排行榜。我們知道,自注意力只是一種特殊的注意機(jī)制。然而,人們逐漸默認(rèn)了自注意力,忽略了潛在的注意方法。本文提出了一種新穎的注意力模塊LKA和基于CNN的網(wǎng)絡(luò)VAN。在視覺任務(wù)上超過了最先進(jìn)的基于Transformer的方法。我們希望這篇論文能夠促使人們重新思考自注意力是否具有不可替代性,以及哪種注意力更適合于視覺任務(wù)。

6未來的工作

在未來,我們將從以下幾個方向繼續(xù)完善VAN:

  • 結(jié)構(gòu)本身的不斷改進(jìn)在本文中,我們只展示了一個直觀的結(jié)構(gòu)。采用不同的內(nèi)核大小、引入多尺度結(jié)構(gòu)、使用多分支結(jié)構(gòu)等都有很大的改進(jìn)潛力。
  • 大規(guī)模自監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí) VAN自然的結(jié)合了CNNs和ViTs的優(yōu)勢。一方面,VAN可以利用圖像的二維結(jié)構(gòu)信息,另一方面,VAN可以根據(jù)輸入圖像動態(tài)調(diào)整輸出,適合自監(jiān)督學(xué)習(xí)遷移學(xué)習(xí)。結(jié)合以上兩點(diǎn),我們認(rèn)為VAN可以在圖像自監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)領(lǐng)域取得更好的表現(xiàn)。
  • 更多應(yīng)用領(lǐng)域 由于資源有限,我們只在視覺任務(wù)中表現(xiàn)優(yōu)異。在NLP的TCN等其他領(lǐng)域,VANs是否也能表現(xiàn)出色,仍值得探索。我們期待看到VANs成為通用模型。

7總結(jié)

??本文結(jié)合卷積和自注意力的優(yōu)點(diǎn),提出了一種新的視覺注意LKA算法。在LKA的基礎(chǔ)上,我們構(gòu)建了一個視覺主干VAN,在圖像分類、目標(biāo)檢測、語義分割等視覺任務(wù)上達(dá)到了最先進(jìn)的性能。在未來,我們將繼續(xù)從第6節(jié)提到的方向改進(jìn)這個框架。文章來源地址http://www.zghlxwxcb.cn/news/detail-707620.html

到了這里,關(guān)于[論文閱讀]Visual Attention Network原文翻譯的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀】Pay Attention to MLPs

    【論文閱讀】Pay Attention to MLPs

    作者:Google Research, Brain Team 泛讀:只關(guān)注其中cv的論述 提出了一個簡單的網(wǎng)絡(luò)架構(gòu),gMLP,基于門控的MLPs,并表明它可以像Transformers一樣在關(guān)鍵語言和視覺應(yīng)用中發(fā)揮作用 提出了一個基于MLP的沒有self-attention結(jié)構(gòu)名為gMLP,僅僅存在靜態(tài)參數(shù)化的通道映射(channel projections)和

    2024年02月10日
    瀏覽(16)
  • Network Dissection 論文閱讀筆記

    Network Dissection 論文閱讀筆記

    ??這是CVPR2017一篇有關(guān)深度學(xué)習(xí)可解釋性研究的文章,作者通過評估單個隱藏神經(jīng)元(unit)與一系列語義概念(concept)間的對應(yīng)關(guān)系,來量化 CNN 隱藏表征的可解釋性。 確定一套廣泛的人類標(biāo)記的視覺概念集合。 收集隱藏神經(jīng)元對已知概念的響應(yīng)。 量化(隱藏神經(jīng)元,概念)的

    2024年02月15日
    瀏覽(19)
  • 論文閱讀:Attention is all you need

    論文閱讀:Attention is all you need

    【最近課堂上Transformer之前的DL基礎(chǔ)知識儲備差不多了,但學(xué)校里一般講到Transformer課程也接近了尾聲;之前參與的一些科研打雜訓(xùn)練了我閱讀論文的能力和閱讀源碼的能力,也讓我有能力有興趣對最最源頭的論文一探究竟;我最近也想按照論文梳理一下LLM是如何一路發(fā)展而來

    2024年01月18日
    瀏覽(23)
  • 【論文閱讀筆記】Attention Is All You Need

    【論文閱讀筆記】Attention Is All You Need

    ??這是17年的老論文了,Transformer的出處,剛發(fā)布時的應(yīng)用場景是文字翻譯。BLUE是機(jī)器翻譯任務(wù)中常用的一個衡量標(biāo)準(zhǔn)。 ??在此論文之前,序列翻譯的主導(dǎo)模型是RNN或者使用編解碼器結(jié)構(gòu)的CNN。本文提出的Transformer結(jié)構(gòu)不需要使用循環(huán)和卷積結(jié)構(gòu),是完全基于注意力機(jī)制

    2024年04月13日
    瀏覽(30)
  • 論文閱讀NAM:Normalization-based Attention Module

    論文閱讀NAM:Normalization-based Attention Module

    識別不太顯著的特征是模型壓縮的關(guān)鍵。然而,在革命性的注意力機(jī)制中卻沒有對其進(jìn)行研究。在這項(xiàng)工作中,我們提出了一種新的基于歸一化的注意力模塊(NAM),它抑制了不太顯著的權(quán)重。它對注意力模塊應(yīng)用了權(quán)重稀疏性懲罰,從而使它們在保持類似性能的同時具有更

    2024年04月22日
    瀏覽(24)
  • 論文閱讀 Attention is all u need - transformer

    論文閱讀 Attention is all u need - transformer

    提出一個僅需要self attention + linear組合成encoder+decoder的模型架構(gòu) 2.2.1 對比seq2seq,RNN Self Attention 輸入token轉(zhuǎn)為特征輸入 shape [n(序列長度), D(特征維度)] 輸入 進(jìn)入attention模塊 輸出 shape [n(序列長度), D1(特征維度)] 此時每個D1被N個D做了基于attention weight的加權(quán)求和 進(jìn)入MLP 輸出 sha

    2024年02月01日
    瀏覽(29)
  • 論文閱讀 | Cross-Attention Transformer for Video Interpolation

    論文閱讀 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插幀的文章,q,kv,來自不同的圖像 代碼:【here】 傳統(tǒng)的插幀方法多用光流,但是光流的局限性在于 第一:它中間會算至少兩個 cost volumes,它是四維的,計算量非常大 第二:光流不太好處理遮擋(光流空洞)以及運(yùn)動的邊緣(光流不連續(xù))

    2024年02月09日
    瀏覽(28)
  • 【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention

    【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention

    Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html Perceiver:迭代關(guān)注的

    2024年02月20日
    瀏覽(15)
  • EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention論文閱讀

    高效的記憶視覺transformer與級聯(lián)的群體注意 摘要。 視覺transformer由于其高模型能力而取得了巨大的成功。然而,它們卓越的性能伴隨著沉重的計算成本,這使得它們不適合實(shí)時應(yīng)用。在這篇論文中,我們提出了一個高速視覺transformer家族,名為EfficientViT。我們發(fā)現(xiàn)現(xiàn)有的tran

    2024年01月22日
    瀏覽(29)
  • 【Transformer開山之作】Attention is all you need原文解讀

    【Transformer開山之作】Attention is all you need原文解讀

    Attention Is All You Need Transformer原文解讀與細(xì)節(jié)復(fù)現(xiàn) 在Transformer出現(xiàn)以前,深度學(xué)習(xí)的基礎(chǔ)主流模型可分為卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、圖對抗神經(jīng)網(wǎng)絡(luò)GAN。而Transformer的橫空出世,吸引了越來越多的研究者的關(guān)注:Transformer不僅在NLP領(lǐng)域取得了耀眼的成績,近年來甚至一

    2023年04月08日
    瀏覽(36)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包