【論文閱讀】MCTformer: 弱監(jiān)督語義分割的多類令牌轉(zhuǎn)換器

這篇具有很好參考價值的文章主要介紹了【論文閱讀】MCTformer: 弱監(jiān)督語義分割的多類令牌轉(zhuǎn)換器。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

【論文閱讀】MCTformer: 弱監(jiān)督語義分割的多類令牌轉(zhuǎn)換器

Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

本文提出了一種新的基于變換的框架來學習類特定對象定位映射作為弱監(jiān)督語義分割(WSSS)的偽標簽

可以利用標準視覺轉(zhuǎn)換器中一個類令牌的參與區(qū)域來形成與類無關(guān)的定位映射，我們研究了轉(zhuǎn)換器模型是否也可以通過學習轉(zhuǎn)換器中的多個類令牌來有效地捕獲特定于類的注意力

提出了一個多類令牌轉(zhuǎn)換器，稱為MCTformer，它使用多個類令牌來學習類令牌和補丁令牌之間的交互

提出的MCTformer可以成功地從對應(yīng)于不同token的類到patch關(guān)注生成類判別對象定位映射

??
我們還建議使用從patch -patch轉(zhuǎn)換器注意力中提取的patch級成對親和度來進一步細化定位圖

提出的框架被證明可以完全補充類激活映射(CAM)方法

??
??

一、介紹

弱監(jiān)督語義分割(WSSS)旨在通過弱監(jiān)督來減輕對像素級真值標簽的依賴

利用弱標簽生成高質(zhì)量的偽分割真值標簽

圖像級標簽可以提供簡單的弱標簽，其僅指示某些類的存在或不存在定位信息

來自卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的對象定位圖。盡管使用了復雜的CAM擴展策略或多個訓練步驟，但現(xiàn)有方法在定位對象的完整性和準確性方面仍然表現(xiàn)出有限的性能

視覺轉(zhuǎn)換器（ViT）作為第一個專門為計算機視覺設(shè)計的轉(zhuǎn)換器模型，最近在多個視覺任務(wù)上取得了性能突破

ViT在大規(guī)模圖像識別方面取得了最先進的性能，這要歸功于其強大的遠程上下文建模能力
??

ViT還使用一個額外的cls token來聚合來自整個patch token序列的信息

最近的一項工作DINO揭示了在自監(jiān)督ViT特征中存在關(guān)于圖像語義分割的明確信息

在實際工作中我們探究了Class_cls, CNN_cls和Patch_cls的聯(lián)系，最后選擇了Class_cls, CNN_cls

從類標記的注意力圖中發(fā)現(xiàn)語義場景布局

注意力圖在無監(jiān)督分割任務(wù)中產(chǎn)生了有希望的結(jié)果

但如何將頭部與正確的語義類相關(guān)聯(lián)仍不清楚。也就是說，這些注意力映射仍然是類不可知的
??

mctformer,論文閱讀
??

在之前的Transformer中，僅使用一個cls_token（紅色方塊）來聚合來自patch_token（藍色方塊）的信息
所提出的MCTformer使用多個類令牌來學習cls_token和patch_token之間的交互。學習的類對不同類標記的注意力進行Patch可以生成類特定的對象定位圖

利用Transformer的特定類別注意力是一項挑戰(zhàn)

現(xiàn)有的基于轉(zhuǎn)換器的作品有一個共同的問題，即僅使用一個cls_token，這使得在單個圖像上準確定位不同對象具有挑戰(zhàn)性

??
存在的問題：

cls_token設(shè)計本質(zhì)上不可避免地從其他對象類別和背景中捕獲上下文信息
導致相當無歧視和有噪聲的對象定位
模型容量不足以實現(xiàn)有針對性的判別定位性能

一個簡單的想法是利用多個cls_token，它將負責學習不同對象類的表示。為此，我們提出了一種多類令牌轉(zhuǎn)換器（MCTformer），其中使用多個類特定令牌來利用類特定轉(zhuǎn)換器的注意力

??
作用：

擁有類特定令牌的目標不能通過簡單地增加ViT中cls_token的數(shù)量來實現(xiàn)，因為這些類令牌仍然沒有特定的含義
沿著嵌入維度對來自轉(zhuǎn)換器編碼器的輸出類令牌應(yīng)用平均池，以生成cls_token，這些分數(shù)由基本事實類標簽直接監(jiān)督
學習到的類對不同類的注意力的patch可以直接用作類特定的定位圖
所學習的patch到patch的注意力可以作為patch級別的成對親和力
所提出的轉(zhuǎn)換器框架完全補充了CAM方法。這導致類標記和補丁標記之間的高度一致性，從而顯著增強了它們派生的對象定位圖的判別能力
??

貢獻：

建議利用類特定的轉(zhuǎn)換器注意力進行弱監(jiān)督語義分割
提出了一個有效的轉(zhuǎn)換器框架，其中包括一個新的多類令牌轉(zhuǎn)換器（MCTformer），結(jié)合類感知訓練策略，從類中學習特定于類的定位圖，以修補不同類令牌的注意力
使用patch到patch的注意力作為patch級別的成對親和力，這可以顯著細化特定類別的轉(zhuǎn)換器注意力

二、聯(lián)系工作

??
大多數(shù)現(xiàn)有的WSSS方法依賴于類激活映射來從CNN中提取對象定位圖

因此無法為語義分割網(wǎng)絡(luò)的學習提供足夠的監(jiān)督。為了解決這個問題，已經(jīng)提出了特定的分割損失

SEC損失
CRF損失
對比損失

??

進從CAM圖中獲得的偽分割標簽上。這些方法可分為以下幾類：生成高質(zhì)量的CAM映射。一些方法開發(fā)了啟發(fā)式策略，如“隱藏和搜索”[31]和擦除[40]，應(yīng)用于圖像[24，49]或特征圖[16，21]，以驅(qū)動網(wǎng)絡(luò)學習新的對象模式

子類別和跨圖像語義來定位更準確的對象區(qū)域

正則化損失來引導網(wǎng)絡(luò)發(fā)現(xiàn)更多的對象區(qū)域

通過引入擴張卷積來解決標準圖像分類CNN的感受野有限的問題

Refining CAM maps with affinity learning

Ahn等人提出了affinity ，從原始CAM圖的可靠種子中學習相鄰像素之間的仿射關(guān)系

網(wǎng)絡(luò)可以預測仿射矩陣以通過隨機游動傳播CAM映射

分割結(jié)果中的置信像素學習了成對親和網(wǎng)絡(luò)

直接從分類網(wǎng)絡(luò)的特征圖中學習親和度，以細化CAM圖

Xu等人[44]提出了一種跨任務(wù)親和性，該親和性是從弱監(jiān)督多任務(wù)框架中的顯著性和分割表示中學習的

我們提出了一種基于Transformer的模型來提取類特定的對象定位圖。我們利用Transformer機制中的轉(zhuǎn)換器注意圖來生成對象定位圖

??
Transformer

Transformer，最初設(shè)計用于對NLP領(lǐng)域中長序列的長程依賴性進行建模

如圖像分類[10]、顯著性檢測[27]和語義分割[30]，實現(xiàn)了有希望的性能

然后，這些標記被轉(zhuǎn)發(fā)到多個堆疊的基于自我關(guān)注[37]的層中，使每個補丁都具有全局感受野

自監(jiān)督方法應(yīng)用于ViT，并觀察到類標記在補丁上的注意力包含關(guān)于場景語義布局的信息

TS-CAM，使CAM模塊適應(yīng)ViT。然而，TS-CAM只利用了ViT的類不可知注意力映射

提出的多類令牌轉(zhuǎn)換器框架被證明比原始ViT更好地補充了CAM機制，生成了比TS-CAM更好的對象定位圖

??
??

三、方法

具體框架：

mctformer,論文閱讀

新的純基于Transformer的框架（MCTformer-V1）來利用變換器注意力的類特定對象定位圖

輸入RGB圖像首先被分割成不重疊的patch，然后被轉(zhuǎn)換成patch標記序列

使用多個cls_token。這些類標記與嵌入patch信息的補丁標記連接，以形成轉(zhuǎn)換器編碼器的輸入標記

cls_token和patch_token。我們對最后一層的輸出cls_token應(yīng)用平均池來生成類分數(shù)，而不是像傳統(tǒng)的轉(zhuǎn)換器那樣使用多層感知（MLP）來進行分類預測

cls_token直接產(chǎn)生的類分數(shù)和基本事實類標簽之間計算分類損失

聚合來自多個層的注意力圖

從patch到patch的注意力中提取patch級別的成對親和力，以進一步細化類到補丁的注意

類特定的定位圖被用作種子以生成偽標簽來監(jiān)督分割模型

Multi-class token結(jié)構(gòu)設(shè)計

考慮一個輸入圖像，它被分割成N×N個補丁
patch標記序列
C類標記序列
C類標記與補丁標記級聯(lián)，并添加位置嵌入
每個編碼層由一個多頭注意力（MHA）模塊、一個MLP和分別應(yīng)用于MHA和MLP之前的兩個LayerNorm層組成

我們使用標準的自關(guān)注層來捕獲令牌之間的長程依賴關(guān)系。更具體地說，我們首先對輸入token序列進行歸一化

mctformer,論文閱讀
??

token到token的注意力映射A_t2t

全局成對注意力映射At2t

每一行表示特定class對所有patch的注意力得分

考慮到較高的層學習更多的高級判別表示（而較早的層捕獲更多的一般和低級視覺信息）

class融合到最后K個變換器編碼層的patch注意力
??

mctformer,論文閱讀

A_mct是從所提出的MCFormer-V1的第l個變換器編碼層提取的特定于類的變換器注意力。

以生成最終的class特定對象定位映射A_mctR^C×N×N

mctformer,論文閱讀
??

Class-specific attention refinement

在先前的工作中經(jīng)常使用成對仿射來細化對象定位圖。它通常需要一個額外的網(wǎng)絡(luò)或額外的層來學習親和圖

我們建議從所提出的MCTformer的patch匹配注意力中提取成對親和圖，而無需額外的計算或監(jiān)督

通過提取patch到patch的注意力A_p2pR^M×M來實現(xiàn)的

mctformer,論文閱讀
??

所提取的親和度用于進一步細化類特定的變換器注意力

mctformer,論文閱讀

細化的類特定定位圖

可以獲得更好的對象定位圖，并提高外觀連續(xù)性

Class-aware training

與傳統(tǒng)的轉(zhuǎn)換器使用來自最后一層的單個cls_token通過MLP執(zhí)行分類預測相比，我們有多個類令牌，并且我們需要確保不同的類令牌可以學習不同的類判別信息

平均值集中輸出類令牌以生成類分數(shù)
??

mctformer,論文閱讀
??

我們計算類c的類得分y（c）與其基本事實標簽之間的soft margin loss

我們將CAM模塊集成到所提出的多類令牌轉(zhuǎn)換器框架中

我們將其劃分為輸出類令牌T_{out_cls} R^C×D和輸出補丁令牌T_{out_pth} R^N×D

patch標記進行整形，并將其轉(zhuǎn)發(fā)到具有C個輸出通道的卷積層

總損失是分別根據(jù)類標記和補丁標記在圖像級基本事實標記和類預測之間計算的兩個soft margin loss的總和

mctformer,論文閱讀

將PatchCAM和特定于類的轉(zhuǎn)換器注意力相結(jié)合

可以從最后一個卷積層提取基于補丁標記的CAM（此后稱為PatchCAM）圖

將提取的PatchCAM映射與所提出的類特定變換器注意力映射相結(jié)合

通過逐元素乘法運算產(chǎn)生融合的對象定位映射

where ? denotes the Hadamard product
??

類特定的對象定位映射細化。類似于MCTformer-V1中提出的注意力細化機制

我們也可以從MCTformer-V2中提取Patch到Patch的注意力圖作為Patch級別的成對親和度，以細化融合的對象定位圖

??
mctformer,論文閱讀
??
其中CAM方法可以靈活而穩(wěn)健地適應(yīng)多標簽圖像

??
??

四、實驗結(jié)果

數(shù)據(jù)集:PASCAL VOC 2012和MS COCO 2014

PASCAL VOC：

即訓練集（train）、驗證集（val）和測試集，每個子集分別包含1464、1449和1456個圖像
20個對象類和一個用于語義分割任務(wù)的背景類
10582張圖像的增強集以及中的額外數(shù)據(jù)進行訓練

MSCOCO：

80個對象類和一個背景類進行語義分割
其訓練集和驗證集分別包含80K和40K圖像

只使用了這些數(shù)據(jù)集的圖像級基本事實標簽

ImageNet[9]上預訓練的DeiT-S主干構(gòu)建了所提出的MCTformer

具體細節(jié)：

遵循了中提供的數(shù)據(jù)擴充和默認訓練參數(shù)
訓練圖像的大小調(diào)整為256×256
然后裁剪為224×224
在測試時，我們使用多尺度測試和超參數(shù)的CRF進行后處理

mctformer,論文閱讀文章來源地址http://www.zghlxwxcb.cn/news/detail-854781.html

到了這里，關(guān)于【論文閱讀】MCTformer: 弱監(jiān)督語義分割的多類令牌轉(zhuǎn)換器的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！