寫在前面
??又是一周周末,可惜今天運氣不咋好,上午被小汽車撞自行車后座上了,手臂皮外傷,所幸人沒事。下午繼續(xù)淦論文吧。
- 論文地址:Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation
- 代碼地址:原論文未提供
- 預計投稿于:CVPR 2024
- Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~
一、Abstract
??Referring Image Segmentation 指代圖像分割旨在在像素水平上分割出自然語言表達式所指的特定目標。最近一些基于 Transformer 的方法憑借著注意力機制生成上下文 query,雖然很是成功,但是未能理解復雜表達式中的上下文。于是本文受到 masked autoencoder (MAE) 的啟發(fā)提出 bidirectional token-masking autoencoder (BTMAE) 雙向 token-masking 自編碼器。通過在 token 水平上利用圖像-文本以及文本-圖像構(gòu)建出圖像和文本上缺失的特征。換句話說,這一方法涉及到兩個模態(tài)的相互補全。實驗效果很好。
二、引言
??RIS 的定義,最近的一些進展,應用。一些工作基于 Transformer 編碼器利用 Transformer 的編碼器 tokensize 視覺和文本特征,使用交叉注意力建模多模態(tài)間的關(guān)系。其缺點在于可能會產(chǎn)生混亂的視覺-語言關(guān)系,一些工作嘗試利用豐富的多模態(tài)上下文信息提取 tokens、使用類似對比學習的方式、視覺-語言 Transformer 微調(diào)、多模態(tài) embedding 空間來增強聯(lián)系,然而這些方法仍然在建模高維度視覺-語言上下文時有難度。
??為解決這些問題,本文關(guān)注于 Masked Autoencoder (MAE) 的自特征建模能力。然而很難將其應用在 RIS 任務上。原因:基于 MAE 的預訓練需要大量數(shù)據(jù);傳統(tǒng)的單模態(tài) MAE 不能學習多模態(tài)的知識。
??于是本文提出 bidirectional token masking token autoencoder (BTMAE) 雙向 token masking 自回歸編碼器來解決 RIS 及 MAE 的缺點。
??如上圖所示,將 BTMAE 劃分為雙流來建模模態(tài)間的高維度關(guān)聯(lián)信息:其中一流用于從完整的文本中重構(gòu)缺失的圖像,另外一流從完整的圖像中重構(gòu)缺失的文本。進一步,為維持模型的魯棒性,提出一個解碼器層,名為 Impact Token Attention (ITA),ITA 從 BEMAEs 生成的視覺語言 tokens 中采樣關(guān)鍵的 tokens。于是提出的模型會盡可能消除混亂句子的噪聲干擾,并生成一個正確的預測 mask。
??在 RefCOCO、RefCOCO+、GRef 數(shù)據(jù)集上進行評估,提出的方法達到了 SOTA。本文貢獻總結(jié)如下:
- 提出 BTMAE,在無大數(shù)據(jù)集的情況下能夠捕捉多模態(tài)上下文信息,有效增強模型的性能;
- 引入 IAT 模塊消除復雜句子中無關(guān)信息的影響。ITA 模塊通過 BTMAE 采樣多模態(tài) tokens,來建立起關(guān)鍵的 tokens;
- 方法達到了 SOTA 的性能。
三、相關(guān)工作
Referring Image Segmentation
??RIS 的定義,傳統(tǒng)的方法將圖像特征圖映射到語言特征空間,最近的一些方法應用 Transformer 中的注意力機制實現(xiàn)更高維度的視覺-語言特征融合,但問題在于未能定位到那些包含太多無關(guān)描述以及復雜背景的句子。于是有一些方法單獨 tokenizing 目標和文本,然后融合這兩個模態(tài)的 embedding,然而仍然依賴于圖像和語言特征間的關(guān)聯(lián)。而本文提出的 BTMAE 以無監(jiān)督學習的方式能夠跨模態(tài)建模上下文信息。
Masked Autoencoder
??MAE 旨在重構(gòu)輸入的數(shù)據(jù),同時選擇性地忽略或 mask 掉輸入的某些部分,通常用于特征學習和維度降低。提出的方法利用 MAE 特征表示建模的能力學習模態(tài)間復雜的上下文關(guān)系。
四、提出的方法
4.1 整體框架
??如上圖所示,提出的模型包含視覺和語言編碼器用于特征提取,兩個 BTMAEs 模塊用于增強上下文信息。此外,ITA 的解碼器層生成多模態(tài)緊湊型的 tokens,用于生成最終預測的 masks。具體來說,首先輸入的 RGB 圖像通過視覺編碼器生成多尺度的融合特征
X
v
∈
R
C
×
H
×
W
\mathbf{X_v}\in\mathbb{R}^{C\times H\times W}
Xv?∈RC×H×W,其中
C
C
C 是 embedding 維度,
H
H
H、
W
W
W 分別為特征的高、寬。
??對于文本輸入,其通過一個預訓練的語言編碼器來建立語言特征 X t ∈ R C × H × W \mathbf{X_t}\in\mathbb{R}^{C\times H\times W} Xt?∈RC×H×W,其中 L L L 為特征的長度。這兩種特征分別提煉為 tokens T v ∈ R C ′ × ( H × W ) \mathrm{T}_\mathbf{v}\in\mathbb{R}^{C^{\prime}\times(H\times W)} Tv?∈RC′×(H×W) 和 T l ∈ R C ′ × L \mathbf{T_l}\in\mathbb{R}^{C^{\prime}\times L} Tl?∈RC′×L。而 T v \mathrm{T}_\mathbf{v} Tv? 和 T 1 \mathrm{T}_\mathbf{1} T1? 則分別用于兩種類型的輸入: B T M A E l → v BTMAE_{l→v} BTMAEl→v?、 B T M A E v → l BTMAE_{v→l} BTMAEv→l?。在 B T M A E l → v BTMAE_{l→v} BTMAEl→v? 中,其生成一個重構(gòu)的視覺 tokens T v r ∈ R C ′ × ( H × W ) \mathrm{T}_\mathbf{v}^{\mathbf{r}}\in\mathbb{R}^{C^{\prime}\times(H\times W)} Tvr?∈RC′×(H×W),具有精煉的空間上下文信息。而對于 B T M A E v → l BTMAE_{v→l} BTMAEv→l?,其生成一個重構(gòu)的語言 tokens T l r ∈ R C ′ × l \mathrm{T}_\mathbf{l}^{\mathbf{r}}\in\mathbb{R}^{C^{\prime}\times l} Tlr?∈RC′×l,具有增強的語言上下文信息。此外,ITA 在目標上生成一個關(guān)鍵的凝練 tokens T v i ∈ R C ′ × K \mathrm{T}_\mathbf{v}^{\mathbf{i}}\in\mathbb{R}^{C^{\prime}\times K} Tvi?∈RC′×K,接下來穿過 impact token transformer (ITT) 層的得到預測的 mask。
4.2 雙向 token-masking 自回歸編碼器
??如上圖所示,將 BTMAE 劃分為兩步,首先 BTMAE 編碼器和解碼器生成自編碼圖像,然后僅在 BTMAE 編碼器上執(zhí)行 token 提煉。上圖 (a) 和 (b) 預測
B
T
M
A
E
l
→
v
BTMAE_{l→v}
BTMAEl→v?,而
B
T
M
A
E
v
→
l
BTMAE_{v→l}
BTMAEv→l? 則是相同的流程。
??具體來說,在視覺 tokens T v \mathrm{T}_\mathbf{v} Tv? 上執(zhí)行位置編碼和隨機 masking,生成 masked token T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 。如果 masking 比例為 α \alpha α,則 T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 的尺寸為 C ′ × ( ? H × W × ( 1 ? α ) ? ) C'\times(\lfloor H\times W\times(1-\alpha)\rfloor) C′×(?H×W×(1?α)?)。其次, T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 作為 E E E Transformer 的編碼器輸入特征,需要注意的是一個不同的模態(tài) tokens T 1 \mathrm{T}_\mathbf{1} T1? query 用作第二個多頭自注意力機制中的 key 和 value。再者,類似于 MAE,應用一個隨機的 masking tokens 和位置編碼到編碼器的輸出 tokens。而這些 masking tokens 分別插入到 T v \mathrm{T}_\mathbf{v} Tv? 的 masked 位置上。于是 T v m \mathrm{T}_\mathbf{v}^{\mathbf{m}} Tvm? 的尺寸和 T v \mathrm{T}_\mathbf{v} Tv? 相同了。最后將這些 tokens 穿過 D D D 個 Transformer 解碼器塊,并將其 reshape,投影到一個自編碼圖像 I p r e d \mathrm{I}_\mathbf{pred} Ipred?。
??解碼器采用 T 1 \mathrm{T}_\mathbf{1} T1? 作為 key 和 value,其與 BTMAE 編碼器一致。 T v r \mathrm{T}_\mathbf{v}^{\mathbf{r}} Tvr? 僅僅采用未 masked 的 T v \mathrm{T}_\mathbf{v} Tv?, T l \mathrm{T}_\mathbf{l} Tl? 和 E E E 個 Transformer 編碼器。此外 , B T M A E ( v → l ) BTMAE_{(v→l)} BTMAE(v→l)? 有著與 B T M A E ( l → v ) BTMAE_{(l→v)} BTMAE(l→v)? 相同的結(jié)構(gòu)以及自回歸編碼器語言特征。
4.3 凝縮的 Token 注意力
??ITA 模塊從增強的多模態(tài)特征
T
v
r
\mathrm{T}_\mathbf{v}^{\mathbf{r}}
Tvr?、
T
l
r
\mathrm{T}_\mathbf{l}^{\mathbf{r}}
Tlr? 中生成濃縮的 tokens
T
v
i
\mathrm{T}_\mathbf{v}^{\mathbf{i}}
Tvi?,用于 mask 的生成。具體來說,通過在
T
v
r
\mathrm{T}_\mathbf{v}^{\mathbf{r}}
Tvr? 上執(zhí)行空間全局平均池化,生成
T
l
r
\mathrm{T}_\mathbf{l}^{\mathbf{r}}
Tlr?。
T
v
r
\mathrm{T}_\mathbf{v}^{\mathbf{r}}
Tvr? 和
T
l
r
\mathrm{T}_\mathbf{l}^{\mathbf{r}}
Tlr? 穿過 MHA 和 FFN 層后,其輸出 shape 改為
X
v
\mathrm{X}_\mathbf{v}
Xv? 相同的形狀。接下來采用
1
×
1
1\times1
1×1 卷積和逐元素 softmax 操作生成空間采樣 masks
S
v
∈
R
K
×
H
×
W
\mathbf{S_v}\in\mathbb{R}^{K\times H\times W}
Sv?∈RK×H×W,其中
K
K
K 為視覺濃縮 tokens 的數(shù)量。因此,定義
S
v
\mathbf{S_v}
Sv? 的第
k
k
k 個通道為
S
v
k
∈
R
1
×
H
×
W
\mathrm{S}_{\mathbf{v}^{\mathbf{k}}}\in\mathbb{R}^{1\times H\times W}
Svk?∈R1×H×W,這一過程表示如下:
S
v
k
(
x
,
y
)
=
e
X
v
k
(
x
,
y
)
r
∑
k
=
1
K
e
X
v
k
(
x
,
y
)
r
\mathbf{S_{v^{k}(x,y)}}=\frac{e^{\mathbf{X_{v^{k}(x,y)}^{r}}}}{\sum_{k=1}^{K}e^{\mathbf{X_{v^{k}(x,y)}^{r}}}}
Svk(x,y)?=∑k=1K?eXvk(x,y)r?eXvk(x,y)r??其中
(
x
,
y
)
(x,y)
(x,y) 為像素坐標,
k
=
1
,
2
,
…
,
k
k=1,2,\ldots,k
k=1,2,…,k,
X
v
r
∈
R
K
×
H
×
W
\mathrm{X}_\mathbf{v}^{\mathbf{r}}\in\mathbb{R}^{K\times H\times W}
Xvr?∈RK×H×W 為標準自注意力序列的輸出,其計算如下:
X
v
r
=
f
1
×
1
(
f
F
F
N
(
X
a
t
t
)
)
X
a
t
t
=
ψ
(
w
Q
T
v
r
(
w
K
T
l
r
)
?
C
′
)
(
w
V
T
l
r
)
+
T
v
r
\begin{aligned} &\mathbf{X_{v}^{r}}=f_{1\times1}\left(f_{FFN}\left(\mathbf{X_{att}}\right)\right)\\ &\mathbf{X_{att}}=\psi\left(\frac{\mathbf{w_{Q}T_{v}^{r}}\left(\mathbf{w_{K}T_{l}^{r}}\right)^{\top}}{\sqrt{C^{\prime}}}\right)(\mathbf{w_{V}T_{l}^{r}})+\mathbf{T_{v}^{r}} \end{aligned}
?Xvr?=f1×1?(fFFN?(Xatt?))Xatt?=ψ(C′?wQ?Tvr?(wK?Tlr?)??)(wV?Tlr?)+Tvr??其中
w
K
∈
R
C
′
×
C
′
\mathrm{w}_{\mathbf{K}}\in\mathbb{R}^{C^{\prime}\times C^{\prime}}
wK?∈RC′×C′、
w
Q
∈
R
C
′
×
C
′
\mathrm{w}_{\mathbf{Q}}\in\mathbb{R}^{C^{\prime}\times C^{\prime}}
wQ?∈RC′×C′,
w
V
∈
R
C
′
×
C
′
\mathrm{w}_{\mathbf{V}}\in\mathbb{R}^{C^{\prime}\times C^{\prime}}
wV?∈RC′×C′ 分別為可學習的投影矩陣。此外,
ψ
(
?
)
\psi(\cdot)
ψ(?) 和
f
(
?
)
f(\cdot)
f(?) 分別表示 softmax 和
1
×
1
1\times1
1×1 卷積操作。因此通過下列過程生成
K
K
K 個濃縮的 tokens
T
V
i
=
T
v
1
i
,
T
v
2
i
,
.
.
.
,
T
v
K
i
\mathrm{T}_\mathbf{V}^\mathbf{i}={\mathrm{T_{v^{1}}^{i}},\mathrm{T_{v^{2}}^{i}},...,\mathrm{T_{v^{K}}^{i}}}
TVi?=Tv1i?,Tv2i?,...,TvKi?:
T
v
k
i
=
∑
x
=
1
H
∑
y
=
1
W
(
S
v
k
(
x
,
y
)
?
X
(
x
,
y
)
)
∑
x
=
1
H
∑
y
=
1
W
S
v
k
(
x
,
y
)
\mathrm{T}_{\mathbf{v}\mathbf{k}}^{\mathrm{i}}=\frac{\sum_{x=1}^{H}\sum_{y=1}^{W}(\mathrm{S}_{\mathbf{v}\mathbf{k}(\mathbf{x},\mathbf{y})}\cdot\mathrm{X}_{(\mathbf{x},\mathbf{y})})}{\sum_{x=1}^{H}\sum_{y=1}^{W}\mathrm{S}_{\mathbf{v}\mathbf{k}(\mathbf{x},\mathbf{y})}}
Tvki?=∑x=1H?∑y=1W?Svk(x,y)?∑x=1H?∑y=1W?(Svk(x,y)??X(x,y)?)?其中
T
v
K
i
\mathrm{T_{v^{K}}^{i}}
TvKi? 為第
k
k
k 個視覺濃縮 token。
??ITA 最后一次的處理涉及到多模態(tài)濃縮 tokens 的融合,通過 impact token transformer (ITT) 和編碼器的特征來表示 IoU 區(qū)域。ITT 的結(jié)構(gòu)類似于標準的 Transformer 解碼器。
4.4 目標函數(shù)
??首先,在
B
T
M
A
E
(
l
→
v
)
BTMAE_{(l→v)}
BTMAE(l→v)? 中使用均方誤差損失來重建輸入的圖像,這一過程如下:
L
B
T
M
A
E
(
l
→
v
)
=
∑
x
,
y
(
I
P
r
e
d
(
x
,
y
)
?
I
G
T
(
x
,
y
)
)
2
\mathcal{L}_{BTMAE_{(l\to v)}}=\sum_{x,y}\left(\mathrm{I}_{\mathrm{Pred}}\left(x,y\right)-\mathrm{I}_{\mathrm{GT}}\left(x,y\right)\right)^2
LBTMAE(l→v)??=x,y∑?(IPred?(x,y)?IGT?(x,y))2其中
I
P
r
e
d
\mathrm{I}_{\mathrm{Pred}}
IPred? 和
I
G
T
\mathrm{I}_{\mathrm{GT}}
IGT? 指的是預測的 RGB 圖像和原始的 RGB 圖像。
??對于 B T M A E ( v → l ) BTMAE_{(v→l)} BTMAE(v→l)?,采用交叉熵損失來性訓練預測的語言 tokens T l r \mathrm{T}_{\mathrm{l}}^{\mathrm{r}} Tlr? 和原始的語言 tokens X 1 \mathrm{X}_{\mathrm{1}} X1?。
??最后采用 IoU 損失求和以及加權(quán)的交叉熵損失來賦值更多的權(quán)重給難的像素,定義損失函數(shù)如下:
L
I
O
U
=
1
?
∑
(
x
,
y
)
min
?
(
M
P
,
M
G
)
∑
(
x
,
y
)
max
?
(
M
P
,
M
G
)
L
b
c
e
w
=
?
∑
(
x
,
y
)
w
[
M
G
ln
?
(
M
P
)
+
(
1
?
M
G
T
)
ln
?
(
1
?
M
P
)
]
\begin{aligned} &\mathcal{L}_{IOU}=1-\frac{\sum_{(x,y)}\operatorname{min}\left(\mathbf{M_P},\mathbf{M_G}\right)}{\sum_{(x,y)}\operatorname{max}\left(\mathbf{M_P},\mathbf{M_G}\right)}\\ &\mathcal{L}_{bce}^{w}=-\sum_{(x,y)}w\left[\mathbf{M_{G}}\ln\left(\mathbf{M_{P}}\right)+\left(1-\mathbf{M_{GT}}\right)\ln\left(1-\mathbf{M_{P}}\right)\right] \end{aligned}
?LIOU?=1?∑(x,y)?max(MP?,MG?)∑(x,y)?min(MP?,MG?)?Lbcew?=?(x,y)∑?w[MG?ln(MP?)+(1?MGT?)ln(1?MP?)]?其中
w
=
σ
∣
M
P
?
M
G
∣
w=\sigma|\mathrm{M_P-M_G}|
w=σ∣MP??MG?∣,
M
G
\mathbf{M_{G}}
MG? 和
M
P
\mathbf{M_{P}}
MP? 為 GT maps 以及預測的 maps。最后,總體的損失表達如下:
L
t
o
t
a
l
=
L
B
T
M
A
E
(
l
→
v
)
+
L
B
T
M
A
E
(
v
→
l
)
+
L
I
O
U
+
L
b
c
e
w
\mathcal{L}_{\mathrm{total}}=\mathcal{L}_{BTMAE_{(l\to v)}}+\mathcal{L}_{BTMAE_{(v\to l)}}+\mathcal{L}_{IOU}+\mathcal{L}_{bce}^{w}
Ltotal?=LBTMAE(l→v)??+LBTMAE(v→l)??+LIOU?+Lbcew?
五、實驗
5.1 數(shù)據(jù)集 & 評估指標
??Ref-COCO、RefCOCO+、GRef;
??mean intersection-overunion (mIoU)、overall intersection-over-union (oIoU)
5.2 實施細節(jié)
??使用 ResNet-101、Darknet-53、Swin-B 預訓練在 ImageNet 上作為視覺 Backbone,BERT 12 層的 Transformer,768 維度。輸入圖像尺寸 480 × 480 480\times480 480×480, B T M A E ( l → v ) BTMAE_{(l→v)} BTMAE(l→v)? 中編碼器層數(shù) E = 4 E=4 E=4, B T M A E ( v → l ) BTMAE_{(v→l)} BTMAE(v→l)? 中解碼器層數(shù) D = 4 D=4 D=4。設置 BTMAE 中所有的 masking ration α = 0.5 \alpha=0.5 α=0.5。每個 ITA 用于設定濃縮 tokens T v r \mathrm{T_v^{r}} Tvr? 的數(shù)量分別為 16,8,2。于是,在 ITA 最后一層僅有兩個 token 保留下來,即對應前景和背景。Adam 優(yōu)化器,用于訓練和微調(diào)的超參數(shù)為 β 1 = 0.9 \beta_1=0.9 β1?=0.9, β 2 = 0.999 \beta_2=0.999 β2?=0.999, ? = 1 0 ? 8 \epsilon=10^{-8} ?=10?8。學習率從 1 0 ? 4 10^{-4} 10?4 衰減為 1 0 ? 5 10^{-5} 10?5,余弦學習率計劃??傮w epochs 設為 200 200 200,Batch_size 12,兩塊 NVIDIA RTX A6000 GPUs。
5.3 結(jié)果
定性結(jié)果
定量結(jié)果
視覺 & 語言重構(gòu)結(jié)果
5.4 消融分析
??Swin-B 視覺 Backbone + BERT 語言 Backbone
BTMAE 的效果
ITA 的效果
??上表 2。
Masking 比例的影響
六、結(jié)論
??提出的 BTMAE 解決了現(xiàn)有 RIS 模型的限制,增強了對復雜和混亂的上下文信息的理解 ,大量實驗表明 BTMAE 達到了 SOTA 的效果,提升了魯棒性。
寫在后面文章來源:http://www.zghlxwxcb.cn/news/detail-772139.html
??總算是把這篇博文寫完了 ,怎么說,思路想法還是可以的,就是這個寫作好像有點不太行,需要注意下。文章來源地址http://www.zghlxwxcb.cn/news/detail-772139.html
到了這里,關(guān)于RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!