寫在前面
??一篇 Arxiv 上面的新文章,看看清華大佬們的研究。
- 論文地址:Mask Grounding for Referring Image Segmentation
- 代碼地址:原論文說將會(huì)開源,靜待佳音~
- 預(yù)計(jì)提交于:CVPR 2024
- Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~
一、Abstract
??Referring Image Segmentation (RIS) 的定義,目前的 SOTA 方法仍然存在像素和詞水平上的語言-圖像模態(tài)鴻溝。主要原因:通常依賴于句子級(jí)別的語言特征用于語言-圖像對齊;缺乏對細(xì)粒度視覺定位的監(jiān)督。另外,由于弱的視覺和語言特征間的關(guān)聯(lián),因此需要更有效的推理去理解那些包含多個(gè)目標(biāo)的復(fù)雜場景。于是本文引入 Mask Grounding 輔助任務(wù)來提升視覺定位的性能,Mask Grounding 直接適用于之前的模型。此外,為全面解決模態(tài)鴻溝,設(shè)計(jì)了一種跨模態(tài)對齊損失和一種輔助對齊模塊。在 MagNet(Mask-grounded Network) 上達(dá)到了 SOTA 的效果。
二、引言
??首先指出圖像分割任務(wù)與 Referring Image Segmentation 的區(qū)別,RIS 的應(yīng)用。然后就是 RIS 的挑戰(zhàn):如何減少語言和圖像特征間的模態(tài)鴻溝?需要一個(gè)有效性的對齊方法。
??如上圖所示,之前的方法主要關(guān)注于設(shè)計(jì)不同的損失函數(shù)或者引入網(wǎng)絡(luò)結(jié)構(gòu)/模塊來促進(jìn)對齊,然而缺陷有倆:往往依賴于句子級(jí)別的語言特征對齊;缺乏對細(xì)粒度視覺定位的顯著訓(xùn)練監(jiān)督。于是難以處理復(fù)雜的目標(biāo)間關(guān)系或者包含很少或混亂上下文的子句。如下圖所示:
??于是文本引入一種 Mask Grounding 的輔助任務(wù)用于顯式地教會(huì)模型進(jìn)行細(xì)粒度的對齊。具體來說,在訓(xùn)練過程中,模型隨機(jī) mask 掉一些文本詞匯,并且讓模型來預(yù)測這些詞匯的實(shí)體信息。除了整合文本上下文信息外,還利用了視覺和分割的信息。
??除 Mask Grounding 外,還提出一種跨模態(tài)對齊損失和一個(gè)對齊模塊來全面填補(bǔ)模態(tài)鴻溝。整合的模型 MagNet (Mask-grounded Network) 達(dá)到了 SOTA 的效果。主要貢獻(xiàn)如下:
- 突出了最近 SOTA 的 RIS 方法的缺陷,指出細(xì)粒度視覺定位的缺乏;
- 引入 Mask Grounding 輔助任務(wù),旨在增強(qiáng)細(xì)粒度的視覺定位算法;
- Mask Grounding + 跨模態(tài)對齊損失 + 輔助對齊模塊 = MagNet (Mask-grounded Network),實(shí)現(xiàn)了新的 SOTA。
三、相關(guān)工作
Architecture Design for RIS
??早期的方法遵循拼接-卷積的操作,后續(xù)的工作采用 RNN 或動(dòng)態(tài)卷積的方法。還有一些方法設(shè)計(jì)出語言-圖像融合模塊。此外,還有一些工作利用已知的語言結(jié)構(gòu)或目標(biāo)關(guān)系來增強(qiáng)融合。隨著注意力結(jié)構(gòu)的成功,當(dāng)前的工作通常采用無向或雙向的交叉注意力模塊來執(zhí)行語言-圖像融合。有一些工作使用元學(xué)習(xí)的方法用于 RIS。受到大語言模型的驅(qū)動(dòng),一些方法將 RIS 視為自回歸向量生成問題。接下來是一些舉例:VPD、ReLA、DMMI。這些方法的缺陷在于:總是期待語言-圖像對齊發(fā)生在 mask 預(yù)測過程中。于是本文引入一種輔助任務(wù)來顯式地對齊語言-圖像特征。
Loss Design for RIS
??早期用于訓(xùn)練 RIS 的方法通常采用簡單的 binary cross entropy 損失, 接下來是對比學(xué)習(xí)的損失。與之前使用全局池化的語言特征計(jì)算損失相比,本文關(guān)注在像素-詞水平上學(xué)習(xí)細(xì)粒度的目標(biāo)聯(lián)系。
Masked Language Modeling
??Masked language modeling (MLM) 在自然語言處理中很普遍。首先引入的是 BERT,之后就成為預(yù)訓(xùn)練模型及視覺-語言模型的標(biāo)配。最近的 MaskedVLM 采用 MLM 執(zhí)行 mask vision and language 建模,在一個(gè)模態(tài)的輔助作用下重建另外一個(gè)模態(tài)。Mask Grounding 與其不同,通過使用外部 mask 信號(hào)直接匹配缺失的單詞從而確保重建過程,學(xué)習(xí)到相應(yīng)的細(xì)粒度視覺定位的信息。
四、方法
4.1 結(jié)構(gòu)
??MagNet (Mask-grounded Network) 由三個(gè)模塊組成,首先 Mask Grounding 旨在提升細(xì)粒度視覺定位性能,使用視覺線索、語言上下文、分割信息來教會(huì)模型預(yù)測 masked 文本 tokens。之后 Cross-modal Alignment Module (CAM) 用于微調(diào)語言和圖像特征間的雙向交互。最后 Crossmodal Alignment Loss (CAL) 監(jiān)督像素-像素和像素-文本的對齊。
4.2 Mask Grounding
??如圖 3 所示,給定輸入圖像及其對應(yīng)的指代表達(dá)式和分割 mask。首先利用一些特定詞匯來代替指代表達(dá)式中的一些 tokens,從而訓(xùn)練模型來預(yù)測這些 tokens(類似于 MLM)。具體來說,首先取得 mask 區(qū)域的中心坐標(biāo),然后通過一個(gè) 2 層的 MLP,將其 mask 編碼到一個(gè) mask embedding 中。同時(shí)采用一個(gè)線性層將語言 embedding 投影到與圖像 embedding 相同的維度。然后應(yīng)用提出的 Masked Token 預(yù)測器在注意力機(jī)制的作用下來處理所有拼接的 embedding 用于 masked token 預(yù)測。最后,使用一個(gè) cross-entropy 損失
L
grounding
\mathcal L_{\text{grounding}}
Lgrounding? 來比較最終的預(yù)測分布與目標(biāo)分布。數(shù)學(xué)公式描述如下:令
T
,
I
,
M
\bold{T},\bold{I},\bold{M}
T,I,M 分別表示語言編碼器、圖像編碼器、mask 編碼器的輸入:
O
=
Language
E
n
c
o
d
e
r
(
M
a
s
k
(
T
)
)
P
=
I
m
a
g
e
Encoder
(
I
)
C
=
MaskEncoder
(
M
)
L
g
r
o
u
n
d
i
n
g
=
L
C
E
(
y
g
t
,
Predictor
(
C
o
n
c
a
t
(
[
O
,
P
,
C
]
)
\mathbf{O}=\text{Language}\mathrm{Encoder}(\mathrm{Mask}(\mathbf{T}))\\ \mathbf{P}=\mathrm{Image}\text{Encoder}(\mathbf{I})\\ \mathbf{C}=\text{MaskEncoder}(\mathbf{M})\\ \mathcal{L}_{\mathrm{grounding}}=\mathcal{L}_{\mathrm{CE}}(\mathbf{y}_{\mathrm{gt}},\text{Predictor}(\mathrm{Concat}([\mathbf{O},\mathbf{P},\mathbf{C}])
O=LanguageEncoder(Mask(T))P=ImageEncoder(I)C=MaskEncoder(M)Lgrounding?=LCE?(ygt?,Predictor(Concat([O,P,C])其中預(yù)測器為類似 BERT 編碼器的結(jié)構(gòu),
M
M
M 為 GT masks 的中心坐標(biāo),
y
g
t
\mathbf{y}_{\mathrm{gt}}
ygt? 為 masked token 的標(biāo)簽,
L
C
E
\mathcal{L}_{\mathrm{CE}}
LCE? 為交叉熵?fù)p失。實(shí)驗(yàn)中設(shè)置 Swin-B 為圖像編碼器,BERT-base 為語言編碼器,但方法不限于此。
討論
??如上表所示,Mask Grounding 超越了標(biāo)準(zhǔn)的 masked language modeling (MLM) 和 masked-vision language modeling (MaskedVLM)。原因在于:模型整合:傳統(tǒng)的 MLM 為單模態(tài),缺乏了指代表達(dá)式及其匹配的視覺目標(biāo)的聯(lián)系,而 MaskedVLM 為多模態(tài),Mask Grounding 能夠超越的目的在于引入了額外的 masking 信號(hào)來對齊 masked words 和匹配的視覺目標(biāo)。這一結(jié)果表明 詞-目標(biāo)聯(lián)系和細(xì)粒度的視覺定位很重要;任務(wù)屬性:MLM 和 MaksedVLM 作為一般的預(yù)訓(xùn)練任務(wù),需要在下游任務(wù)上進(jìn)行微調(diào),而 Mask Grounding 設(shè)計(jì)于一個(gè) RIS 的輔助任務(wù),在訓(xùn)練階段增強(qiáng)了細(xì)粒度的視覺定位性能,且不需要額外的微調(diào);預(yù)測上下文:MLM 和 MaskedVLM 采用文本或文本-視覺上下文預(yù)測,而 Mask Grounding 整合了外部的分割信息,于是性能更好。
4.3 跨模態(tài)對齊模塊
??如上圖所示,提出的跨模態(tài)對齊、 cross-modal alignment module (CAM) 將全局上下文先驗(yàn)注入到圖像特征中,再進(jìn)行跨模態(tài)融合。CAM 首先采用不同窗口尺寸的池化操作生成
K
K
K 個(gè)不同尺度的特征圖構(gòu)成特征金字塔。然后,每個(gè)特征圖將會(huì)通過一個(gè) 3 層的 MLP 用于提取全局特征。之后所有的輸出特征將通過雙線性插值上采樣到原始特征圖,然后沿著特征維度拼接。同樣采用一個(gè)門控單元來調(diào)制最后的輸出。最終,輸出后的特征返回到輸入特征上用于下一階段圖像或語言編碼器的輸入。將語言編碼器劃分為 4 個(gè)階段,并在每個(gè)階段的末尾添加 CAM 模塊。
??用數(shù)學(xué)公式表示如下:令
T
i
\bold T_i
Ti? 和
I
i
\bold I_i
Ii? 分別表示語言和圖像編碼器每個(gè)階段的輸入,于是每個(gè)階段有:
O
i
=
LanguageStage
(
T
i
)
,
P
i
=
I
m
a
g
e
Stage
(
I
i
)
P
i
k
=
M
L
P
k
(
P
o
o
l
k
(
P
i
)
)
,
p
2
t
K
,
P
i
,
t
2
p
k
=
X
?
M
H
A
k
(
O
i
,
P
n
k
)
O
i
,
p
2
t
=
C
o
n
c
a
t
(
[
O
i
,
p
2
t
i
,
.
.
.
,
O
i
,
p
2
t
N
]
2
p
=
C
o
n
c
a
t
(
[
U
p
(
P
i
,
t
2
p
1
,
.
.
.
,
U
p
(
P
i
,
t
2
p
N
)
]
O
i
+
1
=
O
i
+
tanh
?
(
M
L
P
(
O
i
,
p
2
t
)
)
P
i
+
1
=
P
i
+
tanh
?
(
M
L
P
(
P
i
,
t
2
p
)
)
\begin{gathered} \mathbf{O}_i=\text{LanguageStage}(\mathbf{T}_i),\mathbf{P}_i=\mathrm{Image}\text{Stage}(\mathbf{I}_i)\\ \mathbf{P}_i^k=\mathrm{MLP}_k(\mathrm{Pool}_k(\mathbf{P}_i))\\ {}_{,p2t}^{K},\mathbf{P}_{i,t2p}^{k}=\mathrm{X-MHA}_{k}(\mathbf{O}_{i},\mathbf{P}_{n}^{k}) \\ \mathbf{O}_{i,p2t}=\mathrm{Concat}([\mathbf{O}_{i,p2t}^i,...,\mathbf{O}_{i,p2t}^N] \\ _{2p}=\mathrm{Concat}([\mathrm{Up}(\mathbf{P}_{i,t2p}^{1},...,\mathrm{Up}(\mathbf{P}_{i,t2p}^{N})]\\ \mathbf{O}_{i+1}=\mathbf{O}_i+\tanh(\mathsf{MLP}(\mathbf{O}_{i,p2t}))\\ \mathbf{P}_{i+1}=\mathbf{P}_{i}+\operatorname{tanh}(\mathsf{MLP}(\mathbf{P}_{i,t2p})) \end{gathered}
Oi?=LanguageStage(Ti?),Pi?=ImageStage(Ii?)Pik?=MLPk?(Poolk?(Pi?)),p2tK?,Pi,t2pk?=X?MHAk?(Oi?,Pnk?)Oi,p2t?=Concat([Oi,p2ti?,...,Oi,p2tN?]2p?=Concat([Up(Pi,t2p1?,...,Up(Pi,t2pN?)]Oi+1?=Oi?+tanh(MLP(Oi,p2t?))Pi+1?=Pi?+tanh(MLP(Pi,t2p?))?其中
U
p
Up
Up 表示上采樣,X-MHA 表示雙向跨模態(tài)多頭注意力。
4.4 跨模態(tài)對齊損失
??采用跨模態(tài)對齊損失來對齊語言和圖像特征,其中 cross-modal alignment loss (CAL) 全面總結(jié)了像素-像素級(jí)別的損失
L
P2P
\mathcal L_{\text{P2P}}
LP2P? 和像素-文本損失
L
P2T
\mathcal L_{\text{P2T}}
LP2T?。用數(shù)學(xué)公式表示如下:給定語言編碼器產(chǎn)生的語言特征
T
∈
R
M
×
D
\bold T\in\mathbb{R}^{M\times D}
T∈RM×D,包含
∣
P
∣
|\mathcal P|
∣P∣ 個(gè)正樣本像素特征的最終像素解碼器 mask 特征
I
∈
R
C
l
×
H
l
×
W
l
\bold I\in \mathbb{R}^{C_l\times H_l \times W_l}
I∈RCl?×Hl?×Wl?,
∣
N
∣
|\mathcal N|
∣N∣ 個(gè)負(fù)樣本像素特征。
I
i
+
\bold I_i^+
Ii+? 表示正樣本集合
P
\mathcal P
P 中的第
i
t
h
i^{th}
ith 個(gè)像素特征,
I
j
?
I_j^-
Ij?? 表示負(fù)樣本集合
N
\mathbb N
N 中的第
j
t
h
j^{th}
jth 個(gè)像素特征,
T
k
\bold T_k
Tk? 表示第
k
t
h
k^{th}
kth 個(gè)語言特征,然后有:
L
C
A
L
=
L
P
2
P
+
L
P
2
T
L
P
2
P
=
?
1
∣
P
∣
∑
i
∣
P
∣
e
I
i
+
?
I
a
v
g
+
/
τ
1
e
I
i
+
?
I
a
v
g
+
/
τ
1
+
∑
j
∣
N
∣
e
I
i
+
?
I
j
?
/
τ
1
+
?
1
∣
N
∣
∑
j
∣
N
∣
e
I
j
?
?
I
a
v
g
?
/
τ
1
e
I
j
?
?
I
a
v
g
?
/
τ
1
+
∑
i
∣
P
∣
e
I
j
?
?
I
i
+
/
τ
1
L
P
2
T
=
?
1
∣
P
∣
∑
i
∣
P
∣
e
I
i
+
?
T
a
v
g
/
τ
2
e
I
i
+
?
T
a
v
g
/
τ
2
+
∑
j
∣
N
∣
e
I
i
+
?
I
j
?
/
τ
2
\begin{aligned} \mathcal{L}_{\mathrm{CAL}}=\mathcal{L}_{\mathrm{P2P}}+\mathcal{L}_{\mathrm{P2T}}\\ \mathcal{L}_{\mathrm{P2P}}=-\frac{1}{|\mathcal{P}|}\sum_i^{|\mathcal{P}|}\frac{e^{\mathbf{I}_i^+ \cdot \mathbf{I}_{\mathbf{avg}}^+/\tau_1}}{e^{\mathbf{I}_i^+\cdot\mathbf{I}_{\mathbf{avg}}^+/\tau_1}+\sum_j^{|\mathcal{N}|}e^{\mathbf{I}_i^+\cdot\mathbf{I}_j^-/\tau_1}} +-\frac{1}{|\mathcal{N}|}\sum_j^{|\mathcal{N}|}\frac{e^{\mathbf{I}_j^-\cdot\mathbf{I}_{\mathrm{avg}}^-/\tau_1}}{e^{\mathbf{I}_j^-\cdot\mathbf{I}_{\mathrm{avg}}^-/\tau_1}+\sum_i^{|\mathcal{P}|}e^{\mathbf{I}_j^-\cdot\mathbf{I}_i^+/\tau_1}}\\ \mathcal{L}_{\mathrm{P2T}} = - \frac 1 { | \mathcal{P}|}\sum_i^{|\mathcal{P}|}\frac{e^{\mathbf{I}_i^+\cdot\mathbf{T}_{\mathrm{avg}}/\tau_2}}{e^{\mathbf{I}_i^+\cdot\mathbf{T}_{\mathrm{avg}}/\tau_2}+\sum_j^{|\mathcal{N}|}e^{\mathbf{I}_i^+\cdot\mathbf{I}_j^-/\tau_2}} \end{aligned}
LCAL?=LP2P?+LP2T?LP2P?=?∣P∣1?i∑∣P∣?eIi+??Iavg+?/τ1?+∑j∣N∣?eIi+??Ij??/τ1?eIi+??Iavg+?/τ1??+?∣N∣1?j∑∣N∣?eIj???Iavg??/τ1?+∑i∣P∣?eIj???Ii+?/τ1?eIj???Iavg??/τ1??LP2T?=?∣P∣1?i∑∣P∣?eIi+??Tavg?/τ2?+∑j∣N∣?eIi+??Ij??/τ2?eIi+??Tavg?/τ2???其中
I
a
v
g
+
=
1
∣
P
∣
∑
i
∣
P
∣
I
i
+
\mathbf{I}_\mathrm{avg}^+=\frac1{|\mathcal{P}|}\sum_i^{|\mathcal{P}|}\mathbf{I}_i^+
Iavg+?=∣P∣1?∑i∣P∣?Ii+? 和
I
a
v
g
?
=
1
∣
N
∣
∑
j
∣
N
∣
I
j
?
\mathbf{I}_\mathrm{avg}^-=\frac1{|\mathcal{N}|}\sum_j^{|\mathcal{N}|}\mathbf{I}_j^-
Iavg??=∣N∣1?∑j∣N∣?Ij?? 分別表示平均池化后正樣本像素特征和負(fù)樣本像素特征。
T
a
v
g
=
proj
?
(
1
M
∑
m
M
T
k
)
\mathbf{T}_{\mathrm{avg}}=\operatorname*{proj}(\frac1M\sum_{m}^{M}\mathbf{T}_{k})
Tavg?=proj(M1?∑mM?Tk?) 為平均池化和線性投影后的詞特征,
τ
1
\tau_1
τ1? 和
τ
2
\tau_2
τ2? 為超參數(shù)。需要注意的是所有的特征在進(jìn)行點(diǎn)乘前均經(jīng)過 L2 歸一化處理,但并未在上式中體現(xiàn)。
4.5 損失函數(shù)
??損失函數(shù)為下列 4 個(gè)不同損失的加權(quán)求和:
L
=
λ
B
C
E
L
B
C
E
+
λ
D
i
c
e
L
D
i
c
e
+
λ
C
A
L
L
C
A
L
+
λ
g
r
o
u
n
d
i
n
g
L
g
r
o
u
n
d
i
n
g
,
\begin{gathered} \mathcal{L}=\lambda_{\mathrm{BCE}}\mathcal{L}_{\mathrm{BCE}}+\lambda_{\mathrm{Dice}}\mathcal{L}_{\mathrm{Dice}}+ \lambda_\mathrm{CAL}\mathcal{L}_\mathrm{CAL}+\lambda_\mathrm{grounding}\mathcal{L}_\mathrm{grounding}, \end{gathered}
L=λBCE?LBCE?+λDice?LDice?+λCAL?LCAL?+λgrounding?Lgrounding?,?實(shí)驗(yàn)中
λ
B
C
E
=
2.0
\lambda_{\mathrm{BCE}}=2.0
λBCE?=2.0,
λ
D
i
c
e
=
2.0
\lambda_{\mathrm{Dice}}=2.0
λDice?=2.0,
λ
g
r
o
u
n
d
i
n
g
=
1.0
\lambda_\mathrm{grounding}=1.0
λgrounding?=1.0 。
五、實(shí)驗(yàn)
5.1 數(shù)據(jù)集及評(píng)估指標(biāo)
- 數(shù)據(jù)集:RefCOCO、RefCOCO+、GRef
- 評(píng)估指標(biāo):overall intersection-over-union (oIoU)、mean intersection-overunion (mIoU)
5.2 主要結(jié)果
5.3 可視化
5.4 消融研究
??訓(xùn)練 10 個(gè) epoch,輸入圖像尺寸 224 × 224 224\times 224 224×224。所有的消融實(shí)驗(yàn)執(zhí)行在 RefCOCO 和 RefCOCO+ 數(shù)據(jù)集上。
- RIS 性能的影響;
- Mask 編碼器的設(shè)計(jì);
- Mask Token 預(yù)測器的設(shè)計(jì);
- Mask Grounding 的統(tǒng)一效果。
- CAM 的有效性
- CAL 的有效性
語言-圖像對齊的影響
MagNet 組件的兼容性
六、結(jié)論
??本文提出 Mask Grounding,基于周圍的文本、視覺和分割信息,通過教導(dǎo)模型預(yù)測隨機(jī) mask 掉的文本 tokens,實(shí)驗(yàn)效果很好。為全面解決模態(tài)鴻溝,設(shè)計(jì)了一種跨模態(tài)對齊損失和一種輔助對齊模塊。當(dāng)一齊作用時(shí),提出的 MagNet 實(shí)現(xiàn)了 SOTA 的性能。
寫在后面文章來源:http://www.zghlxwxcb.cn/news/detail-774111.html
??這篇論文咋說呢,感覺就是那種頂會(huì)的邊緣,創(chuàng)新點(diǎn)屬于可拒可不拒的那種。最大的敗筆還是論文的寫作確實(shí)不咋地,沒有一種連貫之感。另外,實(shí)驗(yàn)缺少了實(shí)驗(yàn)細(xì)節(jié)的介紹,放在補(bǔ)充材料中嗎?文章來源地址http://www.zghlxwxcb.cn/news/detail-774111.html
到了這里,關(guān)于RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!