寫在前面
??新的一周開始了,沖沖沖~
- 最近 Segment Anything 爆火,感覺一些方向可能就此終結了,比如少樣本、零樣本以及視頻領域,但是新的方向也應該會源源不斷涌出,切勿悲觀~
- 論文地址:Zero-shot Referring Image Segmentation with Global-Local Context Features
- 代碼地址:https://github.com/Seonghoon-Yu/Zero-shot-RIS
- 收錄于:CVPR 2023
一、Abstract
??首先給出參考圖像分割 Referring Image Segmentation (RIS) 的定義,指出數(shù)據收集的困難。于是本文通過 CLIP 模型提出零樣本的 RIS。建立 mask 引導的視覺編碼器,用于捕捉全局和局部的上下文信息。利用離線 mask 生成技術得到輸入圖像中每個實例的 mask。引入一個全局-局部文本編碼器編碼整個句子的語義和目標名詞短語的局部特征。實驗表明效果很好甚至超過一些弱監(jiān)督 RIS 方法。
二、引言
??引出 CLIP,點明零樣本能力強,但不能直接用于稠密預測任務,如目標檢測和實例分割。有一些任務嘗試微調,但是成本大。
??RIS 同樣需要的大量的標注,于是最近出現(xiàn)了弱監(jiān)督 RIS 方法,但同樣需要高質量的圖像-文本對標注,并且性能很差。于是本文提出從預訓練的 CLIP 中執(zhí)行零樣本遷移到 RIS。
??接下來是對 RIS 任務的難點介紹,以及一些零樣本視覺方法不能直接遷移的原因。
??本文提出采用預訓練的 CLIP 模型執(zhí)行零樣本 RIS,其中圖像和文本表示采用同一種方法進行全局和局部上下文信息的提取。具體來說:提出 mask 引導的視覺編碼器捕捉圖像中給定 mask 的全局和局部上下文信息,提出全局-局部上下文編碼器捕捉整個句子中的全局上下文信息和名詞短語中的局部上下文信息。
??主要貢獻如下:
- 第一個提出基于 CLIP 的零樣本 RIS 方法;
- 提出的視覺和文本編碼器以同一樣式分別整合圖像和文本的全局和局部的上下文信息;
- 提出的全局-局部上下文特征充分利用了 CLIP 模型的優(yōu)勢來捕捉目標語義及視覺文本之間的關系。
- 實驗效果很牛。
三、相關工作
零樣本遷移
??傳統(tǒng)的零樣本學習的定義,早期的方法的介紹,最近的方法:CLIP、ALIGN。還有一些方法直接應用 CLIP 的編碼器進行語義分割和參考表達式理解,短語定位、目標定位等,本文重點關注 RIS。
零樣本密度預測任務
??最近 CLIP 模型在目標檢測、實例分割上大范圍應用。但主要問題在于 CLIP 學習的是圖像級別特征。于是有一些方法在嘗試解決這一問題:ViLD 先裁剪后提取特征進行分類,Adapting CLIP 使用超像素產生高分辨率的空間特征圖,MaskCLIP 修改 CLIP 的結構。而本文關注 CLIP 的全局-局部上下文視覺特征的提取。
參考圖像分割
?? RIS 的目的,早期的方法,最近兩分支的方法、基于注意力的編碼器融合、基于 Transformer 解碼器的跨模態(tài)解碼器融合,基于 CLIP 的方法。然而這些全監(jiān)督方法需要稠密的標注和大量的語言描述。TSEG 提出一種弱監(jiān)督 RIS 方法,但仍需要高質量的參考表達式標注,因此,本文提出一種無須訓練或者監(jiān)督的零樣本 RIS。
【TSEG】Robin Strudel, Ivan Laptev, and Cordelia Schmid. Weaklysupervised segmentation of referring expressions. arXiv preprint arXiv:2205.04725, 2022. 1, 3, 6, 7
四、方法
??
4.1 框架總覽
??RIS 的關鍵:在同一個共享的 embedding 空間內學習圖像和文本表示。
??如圖 2 所示,框架由兩部分組成:全局-局部視覺編碼器 + 全局-局部自然語言編碼器。
??首先通過一個無監(jiān)督的 mask 生成器產生一組 mask proposals,然后為每個 mask proposal 提取兩組視覺的全局上下文和局部上下文特征。全局上下文特征表示 mask 及其周圍區(qū)域,而局部上下文視覺特征捕捉特定 mask 區(qū)域內的局部上下文特征。
??對于參考表達式,首先通過 CLIP 文本編碼器提取全局的文本表示,然后利用一個依賴分析器 spaCy 從句子中提取關鍵名詞短語,然后將全局特征和名字短語特征結合。
??由于 CLIP 模型中的視覺和文本特征在同一 embedding 空間上,因此零樣本 RIS 任務表述如下:
??給定輸入圖像
I
I
I,參考表達式
T
T
T,旨在找到所有 mask proposl 的視覺特征和文本特征中有著最大相似度的那一個:
m
^
=
arg
?
max
?
m
∈
M
(
I
)
sim
(
t
,
f
m
)
\hat{m}=\arg\max\limits_{m\in M(I)}{\text{sim}}(\mathbf{t},\mathbf{f}_m)
m^=argm∈M(I)max?sim(t,fm?)其中
sim
(
?
,
?
)
{\text{sim}(\cdot,\cdot)}
sim(?,?) 為 cosine 相似度,
t
\mathbf{t}
t 為參考表達式
T
T
T 的全局-局部文本特征,
f
\mathbf{f}
f 為 mask 引導的全局-局部視覺特征,
M
(
I
)
M(I)
M(I) 為圖像
I
I
I 的 mask proposals 集合。
4.2 Mask 引導的全局-局部視覺特征
??CLIP 旨在學習圖像水平的表示,因此并不適合像素級別的稠密預測任務。于是將 RIS 分解為兩個子任務:mask proposal 生成以及 mask 圖像-文本匹配。
??采用離線的、無監(jiān)督的,實例級別的 mask 生成器提取 mask proposals。通過顯式地使用 mask proposals,提出的方法能夠利用 CLIP 解決細粒度的實例分割問題。
全局上下文視覺特征
??對于每個 mask proposal,首先利用 CLIP 提取全局上下文的視覺特征。
??CLIP 有兩種類型的視覺編碼器 ResNet 和 ViT。對于 ResNet,將不含池化層的視覺特征提取器記為
?
f
\phi_\mathbf{f}
?f?,對應的注意力池化層為
?
a
t
t
\phi_{att}
?att?,這兩個組合成 CLIP 中的視覺編碼器
?
CLIP
\phi_\text{CLIP}
?CLIP?,表示如下:
f
=
?
CLIP
(
I
)
=
?
att
(
?
f
(
I
)
)
\mathbf{f}=\phi_{\text{CLIP}}(I)=\phi_{\text{att}}(\phi_\mathbf{f}(I))
f=?CLIP?(I)=?att?(?f?(I))ViT 有著多個多頭注意力層,于是將視覺編碼器劃分為兩部分:最后
k
k
k 層和其它層,前者記為
?
att
\phi_{\text{{att}}}
?att?,后者記為
?
f
\phi_f
?f?。
??給定圖像
I
I
I 和一個 mask
m
m
m,全局上下文視覺特征定義為:
f
m
G
=
?
a
t
t
(
?
f
(
I
)
⊙
m
ˉ
)
\mathbf{f}_m^G=\phi_\mathrm{att}(\phi_\mathbf{f}(I)\odot\bar m)
fmG?=?att?(?f?(I)⊙mˉ)其中
m
ˉ
\bar m
mˉ 為調整尺寸為特征圖大小后的 mask,
⊙
\odot
⊙ 為 Hadamard 乘積。
局部上下文視覺特征
??首先裁剪出圖像中的 mask 區(qū)域,然后送入 CLIP 視覺編碼器得到局部上下文特征
f
m
L
\mathbf{f}^L_m
fmL?:
f
m
L
=
?
CLIP
(
T
crop
(
I
⊙
m
)
)
\mathbf{f}^L_m=\phi_{\text{CLIP}}(\mathcal{T}_{\text{crop}}(I\odot m))
fmL?=?CLIP?(Tcrop?(I⊙m))其中
T
crop
(
?
)
\mathcal{T}_{\text{crop}}(\cdot)
Tcrop?(?) 為裁剪操作。
全局-局部上下文視覺特征
??全局局部上下文視覺特征計算如下:
f
m
=
α
f
m
G
+
(
1
?
α
)
f
m
L
\mathbf f_m=\alpha\mathbf f_m^G+(1-\alpha)\mathbf f_m^L
fm?=αfmG?+(1?α)fmL?其中
α
∈
[
0
,
1
]
\alpha\in[0,1]
α∈[0,1] 為常數(shù),
m
m
m 為 mask proposal,
f
G
\mathbf f^G
fG、
f
L
\mathbf f^L
fL 分別為 全局上下文和局部上下文特征。于是每個 mask proposal 的得分可以通過計算
f
m
\mathbf f_m
fm? 和文本表達式的特征相似度得到。
4.3 全局-局部文本特征
??給定參考表達式
T
T
T,利用 CLIP 文本編碼器
ψ
CLIP
\psi_{\text{CLIP}}
ψCLIP? 提取全局句子特征
t
G
\mathbf{t}^G
tG:
t
G
=
ψ
CLIP
(
T
)
\mathbf{t}^G=\psi_{\text{CLIP}}(T)
tG=ψCLIP?(T)
由于參考表達式通常包含多個線索,使得文本特征很難關注表達式中的特定名詞,于是利用依賴分析 spaCy 找到目標名詞短語
NP
(
T
)
{\text{NP}}(T)
NP(T)。
??首先在表達式中找到所有的名詞短語,然后選擇組成句子根名詞的目標名詞短語。之后采用 CLIP 的文本編碼器提取局部上下文文本特征:
t
L
=
ψ
C
L
P
(
N
P
(
T
)
)
\mathbf{t}^L=\psi_{\mathrm{CLP}}(\mathrm{NP}(T))
tL=ψCLP?(NP(T))最后通過對全局和局部上下文特征加權求和得到全局-局部上下文特征:
t
=
β
t
G
+
(
1
?
β
)
t
L
\mathbf{t}=\beta\mathbf{t}^G+(1-\beta)\mathbf{t}^L
t=βtG+(1?β)tL其中
β
∈
[
0
,
1
]
\beta\in[0,1]
β∈[0,1] 為常數(shù),
t
G
\mathbf{t}^G
tG、
t
L
\mathbf{t}^L
tL 分別為全局句子和局部短語文本特征。
五、實施細節(jié)
??采用無監(jiān)督的實例分割方法:FreeSOLO,得到 mask proposal,輸入圖像短邊調整為 800 800 800,CLIP 的輸入圖像尺寸為 224 × 224 224\times224 224×224,ViT 中 masking 層數(shù) 3 3 3, α = 0.85 \alpha=0.85 α=0.85 對于 RefCOCOg, α = 0.95 \alpha=0.95 α=0.95 對于 RefCOCO、RefCOCO+, β = 0.5 \beta=0.5 β=0.5 對于所有數(shù)據集。
【FreeSOLO】Xinlong Wang, Zhiding Yu, Shalini De Mello, Jan Kautz, Anima Anandkumar, Chunhua Shen, and Jose M Alvarez. Freesolo: Learning to segment objects without annotations. In CVPR, 2022. 3, 4, 5, 6, 7
5.1 全局-局部視覺編碼器中的掩碼
??ReseNet-50 和 ViT-B/32 作為 CLIP 的視覺編碼器。
ResNet 中的掩碼注意力池化
??在 ResNet 中,用注意力池化層代替全局平均池化。這里的池化層和 Transformer 中的多頭注意力結構一樣, q u e r y query query 為 ResNet 提取的特征圖送入全局平均池化的結果, k e y key key、 v a l u e value value 為展平后的特征圖。流程:首先利用給定的 mask 遮住特征圖,然后進行 q u e r y query query、 k e y key key、 v a l u e value value 以及多頭注意力的計算。
ViT 中的 Token 掩碼
??首先將圖像劃分為網格 patches,然后利用線性層 embedding,并加入位置 embedding 得到 tokens,接著送入一系列的 Transformer 層。注意:為捕捉圖像的全局上下文,僅在 Transformer 的最后 k k k 個層 mask 掉 tokens,然后對這些 tokens 調整尺寸,并通過給定的 mask proposal 遮住,展平后送入后續(xù)的 Transformer 層。ViT 中有個分類 token (CLS),從最后輸出的特征中取出 CLS {\text{CLS}} CLS 作為全局上下文視覺表示。實驗中只在視覺編碼器的最后 3 層應用 token masking。
六、實驗
6.1 數(shù)據集和指標
- 數(shù)據集:RefCOCO、Ref-COCO+ 、RefCOCOg;
- 指標:整體 Intersection over Union(oIoU)、平均 Intersection over Union(mIoU)。
6.2 Baselines
- Grad-CAM
- Score Map:MaskCLIP
- Region Token in ViT:Adapting CLIP
- Cropping
6.3 結果
主要結果
??
未知域上的零樣本評估
??
在少樣本設置下與有監(jiān)督方法的比較
??圖 4 右側。
6.4 消融實驗
掩碼質量的效果
??
全局-局部上下文特征的效果
??
定性分析
??
??
??
七、結論
??利用 CLIP 中圖像-文本跨模態(tài)表示,提出零樣本 RIS 方法,提出全局-局部上下文編碼來計算圖像和表達式的相似度,實驗表明方法有效。
補充材料 A:全局-局部上下文特征的分析
數(shù)據集統(tǒng)計
??
全局-局部上下文特征的有效性
??
采用 SpaCY 的目標名詞短語提取
??
補充材料 B:超參數(shù) α \alpha α、 β \beta β 的分析
??
補充材料 C:ViT 中 Token 掩碼的消融研究
??
補充材料 D:附加的定量結果
??
更多的定量結果
??
??
??
對定量結果的定量支持
??
寫在后面文章來源:http://www.zghlxwxcb.cn/news/detail-486268.html
??這篇文章實驗充足,創(chuàng)新點足夠,框架也比較簡單,能打動審稿人的應該是在另外一個數(shù)據集上的實驗。寫作手法值得借鑒,是篇不錯的零樣本 Baseline。文章來源地址http://www.zghlxwxcb.cn/news/detail-486268.html
到了這里,關于零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!