寫在前面
??同樣是一篇比較新的論文掛在 Arxiv 上面,拿來讀一讀??礃?biāo)題應(yīng)該是提出了新的 RIS 數(shù)據(jù)集與方法,用于遙感目標(biāo)檢測的。
- 論文地址:Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation
- 代碼地址:https://github.com/Lsan2401/RMSIN
- 預(yù)計(jì)提交于:CVPR 2024
- Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~
一、Abstract
??首先指出 Referring Remote Sensing Image Segmentation (RRSIS) 指代遙感目標(biāo)分割的粗略含義,與 RIS 一致,但是需要在航空圖像中實(shí)現(xiàn)。于是本文引入一種旋轉(zhuǎn)的多尺度交互網(wǎng)絡(luò) Rotated Multi-Scale Interaction Network (RMSIN),其整合了一種內(nèi)部尺度交互模塊 Intra-scale Interaction Module (IIM) 來解決多尺度且細(xì)粒度的細(xì)節(jié)信息,以及一種跨尺度交互模塊 Cross-scale Interaction Module (CIM) 用于整合這些細(xì)節(jié)。此外,RMSIN 利用自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 考慮那些不同方向的目標(biāo)。為評(píng)估 RMSIN 的性能,建立了一個(gè)可拓展的數(shù)據(jù)集,包含 17420 個(gè)“圖像-字幕-mask” 三元組。實(shí)驗(yàn)效果很好。
二、引言
??Referring Remote Sensing Image Segmentation (RRSIS) 的定義,應(yīng)用。缺陷在于:這一領(lǐng)域數(shù)據(jù)集尺度有限,且模型精度有限。于是本文引入一種可拓展的數(shù)據(jù)集,名為 RRSSIS-D,用于提升 RRSIS 任務(wù)。此數(shù)據(jù)集主要利用 Segment Anything Model (SAM) 模型,采用一個(gè)半自動(dòng)化標(biāo)注流程,因此耗時(shí)較短,同時(shí)標(biāo)注精度較高。其設(shè)計(jì)源于最初的 Bounding box prompts 生成的分割 masks,然后進(jìn)一步精煉來確保航空圖像的高保真度。于是生成了一個(gè)包含 17502 個(gè)遙感“圖像-字幕-masks”三元組。
??此外,現(xiàn)有的 RIS 方法在應(yīng)對遙感圖像時(shí)效果不咋地。如下圖所示:
??航空圖像的挑戰(zhàn)在于不僅包含了傳統(tǒng)的數(shù)據(jù),還有一些尺度多變的圖像以及多個(gè)方向的圖像。當(dāng)前的 RIS 方法在面對這些航空圖像時(shí)效果確實(shí)不行。
??于是本文提出 Rotated Multi-Scale Interaction Network (RMSIN) 用于解決 RRSIS 問題。首先引入了一種尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM),在單個(gè)層內(nèi)提取出詳細(xì)的特征信息;引入一種跨尺度交互模塊 Cross-scale Interaction Module (CIM) 來促進(jìn)全面的特征融合。此外,整合一種自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 到解碼器中,使得模型能夠解決目標(biāo)的旋轉(zhuǎn)問題。本文貢獻(xiàn)總結(jié)如下:
- 引入 RRSiS-D,一種新的數(shù)據(jù)集用于指代遙感圖像分割 Referring Remote Sensing Image Segmentation (RRSIS)。其利用 SAM 的分割能力再結(jié)合手動(dòng)校準(zhǔn),在目標(biāo)尺度和方向上有很大變動(dòng);
- 提出旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò) Rotated Multi-Scale Interaction Network (RMSIN) 用于解決航空圖像中多種空間尺度和方向變化的問題;
- 提出 IIM 和 CIM 用于解決不同尺度下的細(xì)粒度信息問題,設(shè)計(jì)了 ARC 用于增強(qiáng)模型對于任意旋轉(zhuǎn)目標(biāo)的魯棒性問題;
- 大量的實(shí)驗(yàn)表明本文提出的 RMSIN 實(shí)現(xiàn)了 SOTA 的性能。
三、相關(guān)工作
Referring Image Detection and Segmentation
??講一下 RID 和 RIS 的定義,現(xiàn)有的方法。然而由于航空圖像的特殊屬性,這些方法很難在遙感領(lǐng)域發(fā)揮作用。有一些方法引入了尺度交互模塊用于增強(qiáng)特征提取,但是自然圖像和航空圖像間的語義鴻溝仍然存在,使得性能達(dá)不到最優(yōu)結(jié)果。
Remote Sensing Referring Image Detection and Segmentation
??RSRID 和 RSRIS 任務(wù)比較新,目前研究還很少。而最近基于 Transformer 的方法 RSVG 利用視覺 Transformer 和 BERT 作為 Backbone,整合了多層次跨模態(tài)特征學(xué)習(xí)來解決航空圖像中的多尺度變換問題。而 RSRIS 也是處于萌芽期,于是本文提出一種可拓展的、復(fù)雜的 RRSIS-D 數(shù)據(jù)集,以及一種新的模型 RMSIN。
四、RRSIS-D
??提出了一個(gè)RRSIS-D 數(shù)據(jù)集,用于RRSIS 任務(wù)。上圖為數(shù)據(jù)集中的詞云表示。基于 Segment Anything Model (SAM),采用了一種半自動(dòng)化標(biāo)注方法,利用 bouding boxes 和 SAM 上生成像素級(jí)別的 masks,從而在標(biāo)注過程節(jié)約成本。具體來說,采用下列步驟為語言標(biāo)注生成逐像素標(biāo)注:
- 步驟一:利用 SAM 為 RSVGD 數(shù)據(jù)集中的 Bounding box prompts 生成 masks,然而由于 SAM 可能在精度方面存在變化(主要是航空圖像和自然圖像存在領(lǐng)域鴻溝導(dǎo)致),于是有了下一步。
- 采取一個(gè)手動(dòng)提煉過程用于那些可能存在問題的航空圖像 mask,具體來說,對數(shù)據(jù)集進(jìn)行全面檢查,鑒別那些有問題的數(shù)據(jù),手動(dòng)標(biāo)注其 masks。
- RRSIS-D 數(shù)據(jù)集的標(biāo)注全部轉(zhuǎn)化為與 RefCOOC 數(shù)據(jù)集相同的格式。
??數(shù)據(jù)集的統(tǒng)計(jì)情況如上表所示,類別分布如下圖所示:
??生成 Maks 的統(tǒng)計(jì)情況如下圖所示:
??需要注意的是生成的 masks 非常小的比例占據(jù)了數(shù)據(jù)集中的絕大部分。但同時(shí)也有一些大像素,例如超過 40 0000 的。
五、RMSIN
5.1 總覽
??給定輸入圖像 I ∈ R H × W × 3 I\in \mathbb{R}^{H\times W\times 3} I∈RH×W×3,語言表達(dá)式 E = { ω i } , i ∈ { 0 , … , N } E=\{\omega_i\},i\in\{0,\ldots,N\} E={ωi?},i∈{0,…,N},其中 H H H 和 W W W 分別表示圖像的高、寬。 N N N 為表達(dá)式的長度。輸入表達(dá)式通過 backbone f l f_l fl? 轉(zhuǎn)化到特征空間 F l ∈ R N × C F_l\in \mathbb{R}^{N\times C} Fl?∈RN×C。
??接下來是復(fù)合的尺度交互編碼器 Compounded Scale Interaction Encoder (CSIE),其由一個(gè)尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM) 和跨尺度交互模塊 Cross-scale Interaction Module (CIM) 組成,用于在不同階段生成融合的特征。最后,基于方向感知解碼器 Oriented-Aware Decoder (OAD),提出一種自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 生成 masks。
5.2 Compounded Scale Interaction Encoder (CSIE)
??給定語言特征 F l F_l Fl? 和輸入的圖像 I ∈ R H × W × 3 I\in \mathbb{R}^{H\times W\times 3} I∈RH×W×3,復(fù)合的尺度交互編碼器 Compounded Scale Interaction Encoder (CSIE) 以多階段的方式在內(nèi)部和外部視角進(jìn)行視覺語言的跨模態(tài)融合。CSIE 由兩個(gè)組成部分:尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM) 和跨尺度交互模塊 Cross-scale Interaction Module (CIM)。
5.2.1 尺度內(nèi)交互模塊
??CSIE 內(nèi)每個(gè)階段的第一部分,即尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM) 用于提取每個(gè)尺度下的信息,并促進(jìn)視覺語言模態(tài)的交互。根據(jù)級(jí)聯(lián)的 4 個(gè)階段,IIM 可以表示為
{
?
i
}
i
∈
{
1
,
2
,
3
,
4
}
\{\phi_i\}_{i\in\{1,2,3,4\}}
{?i?}i∈{1,2,3,4}?。通過文本 Backbone 得到語言特征
F
l
∈
R
N
×
C
F_l\in \mathbb{R}^{N\times C}
Fl?∈RN×C,其中
C
C
C 表示通道的數(shù)量,IIM 每個(gè)階段的輸出特征
F
e
i
F_e^{i}
Fei?可表示為:
F
e
i
=
?
i
(
F
e
i
?
1
,
F
?
)
F_{e}^{i}=\phi_{i}(F_{e}^{i-1},F_{\ell})
Fei?=?i?(Fei?1?,F??)其中
F
e
0
F_e^0
Fe0? 利用視覺 Backbone
f
v
f_v
fv? 和輸入
I
I
I 得到。具體來說,在階段
i
i
i 中,輸入的特征
F
e
i
?
1
F^{i-1}_e
Fei?1? 經(jīng)過一個(gè)下采樣和 MLP 減少其尺度,并統(tǒng)一其維度到特征
F
^
e
i
?
1
\hat F^{i-1}_e
F^ei?1?。然后
F
^
e
i
?
1
\hat F^{i-1}_e
F^ei?1? 送入到兩個(gè)分支中用于增強(qiáng)視覺先驗(yàn)以及融合跨模態(tài)信息。
各種感知分支
??特征
F
^
e
i
?
1
\hat F^{i-1}_e
F^ei?1? 送入到多個(gè)不同卷積核大小的分支,生成不同感受野大小的特征圖:
ω
i
=
σ
(
∑
j
=
0
J
(
1
C
∑
C
k
j
i
?
F
^
e
i
?
1
)
)
\omega^i=\sigma\left(\sum_{j=0}^J\left(\frac1C\sum^Ck_j^i*\hat{F}_e^{i-1}\right)\right)
ωi=σ(j=0∑J?(C1?∑C?kji??F^ei?1?))其中
k
j
i
k_j^i
kji? 表示第
j
j
j 個(gè)卷積分支,
σ
\sigma
σ 為 Sigmoid 函數(shù)。
ω
i
∈
(
0
,
1
)
H
×
W
\omega^i\in {(0,1)}^{H \times W}
ωi∈(0,1)H×W 為平衡不同分支的權(quán)重:
F
^
e
1
i
?
1
=
ω
i
?
F
^
e
i
?
1
\hat{F}_{e1}^{i-1}=\omega^i\otimes\hat{F}_{e}^{i-1}
F^e1i?1?=ωi?F^ei?1?
此外,其輸出通過一個(gè)視覺門進(jìn)行歸一化,添加在原始圖像特征上作為局部細(xì)節(jié)信息的補(bǔ)充。這一過程實(shí)施如下:
α
=
T
a
n
h
(
L
N
(
R
e
L
U
(
L
N
(
F
^
e
1
i
?
1
)
)
)
)
\alpha=\mathrm{Tanh}(\mathrm{LN}(\mathrm{ReLU}(\mathrm{LN}(\hat{F}_{e1}^{i-1}))))
α=Tanh(LN(ReLU(LN(F^e1i?1?))))其中
L
N
(
?
)
\mathrm{LN}(\cdot)
LN(?) 表示一個(gè)
1
×
1
1\times1
1×1 卷積,
T
a
n
h
(
?
)
\mathrm{Tanh}(\cdot)
Tanh(?) 和
R
e
L
U
(
?
)
\mathrm{ReLU}(\cdot)
ReLU(?) 表示激活函數(shù)。
跨模態(tài)對齊分支
??輸入為
F
^
e
i
?
1
\hat F^{i-1}_e
F^ei?1? 和語言特征
F
l
F_l
Fl?,這一模塊首先應(yīng)用尺度點(diǎn)乘注意力,
F
^
e
i
?
1
\hat F^{i-1}_e
F^ei?1? 作為 query,
F
l
F_l
Fl? 為 key 和 value 得到多模態(tài)特征:
A
i
=
attention
(
F
^
e
i
?
1
W
q
i
,
F
?
W
k
i
,
F
?
W
v
i
)
A^i=\text{attention}(\hat{F}_e^{i-1}W_q^i,F_\ell W_k^i,F_\ell W_v^i)
Ai=attention(F^ei?1?Wqi?,F??Wki?,F??Wvi?)其中
W
q
i
W_q^i
Wqi?、
W
k
i
W_k^i
Wki?、
W
v
i
W_v^i
Wvi? 為線性投影矩陣。接下來,注意力
A
i
A^i
Ai 聯(lián)合
F
^
e
i
?
1
\hat{F}_e^{i-1}
F^ei?1? 一起得到語言引導(dǎo)的圖像特征:
F
^
e
2
i
?
1
=
P
r
o
j
(
A
i
W
w
i
?
F
^
e
i
?
1
W
m
i
)
\hat{F}_{e2}^{i-1}=\mathrm{Proj}(A^iW_w^i\otimes\hat{F}_e^{i-1}W_m^i)
F^e2i?1?=Proj(AiWwi??F^ei?1?Wmi?)其中
W
w
i
W_w^i
Wwi?、
W
m
i
W_m^i
Wmi? 為投影矩陣,
?
\otimes
? 表示逐元素乘法。得到的結(jié)果通過
1
×
1
1\times1
1×1 卷積
Proj
(
?
)
\text{Proj}(\cdot)
Proj(?) 產(chǎn)生最終的輸出。
??與其它在輸出
F
^
e
i
?
1
\hat{F}_e^{i-1}
F^ei?1? 上執(zhí)行的操作類似,其結(jié)果通過共享的語言門
β
\beta
β 來歸一化。而視覺門同樣添加到原始圖像特征上,補(bǔ)充語言特征。于是 IIM 在階段
i
i
i 的整體輸出特征表示如下:
F
e
i
=
F
^
e
i
?
1
+
α
F
^
e
1
i
?
1
+
β
F
^
e
2
i
?
1
F_{e}^i=\hat{F}_{e}^{i-1}+\alpha\hat{F}_{e1}^{i-1}+\beta\hat{F}_{e2}^{i-1}
Fei?=F^ei?1?+αF^e1i?1?+βF^e2i?1?
5.2.2 跨尺度交互模塊
??IIM 充分提取出由語言特征引導(dǎo)的多尺度定位信息,此外設(shè)計(jì)了一種跨尺度交互模塊 Cross-scale Interaction Module (CIM),進(jìn)一步增強(qiáng)粗糙和細(xì)膩階段的特征交互。具體來說,模塊收集 IIM 每個(gè)階段的輸出,即 F e i , i ∈ { 1 , 2 , 3 , 4 } F_e^{i},i\in\{1,2,3,4\} Fei?,i∈{1,2,3,4},執(zhí)行多階段交互。
多尺度特征組合
??輸入為特征
F
e
i
,
i
∈
{
1
,
2
,
3
,
4
}
F_e^{i},i\in\{1,2,3,4\}
Fei?,i∈{1,2,3,4},下采樣到同一尺寸后沿著通道維度進(jìn)行拼接:
F
d
i
=
downsample
(
F
e
i
)
i
∈
{
1
,
2
,
3
,
4
}
,
F
c
?
=
concat
(
F
d
1
,
F
d
2
,
F
d
3
,
F
e
4
)
\begin{aligned}F_d^i&=\text{downsample}(F_e^i)\quad i\in\{1,2,3,4\},\\F_c^*&=\text{concat}(F_d^1,F_d^2,F_d^3,F_e^4)\end{aligned}
Fdi?Fc???=downsample(Fei?)i∈{1,2,3,4},=concat(Fd1?,Fd2?,Fd3?,Fe4?)?其中
F
d
i
F_d^i
Fdi? 為下采樣后的特征,
F
c
?
F_c^*
Fc?? 表示沿著通道維度拼接后的多階段特征。通過平均池化進(jìn)行下采樣操作。
多尺度注意力層
??設(shè)計(jì)不同的感受野用于拼接后的特征
F
c
?
F_c^*
Fc??,從而實(shí)現(xiàn)多尺度交互。
F
c
?
F_c^*
Fc?? 在不同的深度卷積核的作用下調(diào)整為不同的尺度:
F
c
m
=
concat
?
c
(
k
m
?
F
c
?
)
W
m
h
m
=
?
h
?
1
m
+
1
?
,
w
m
=
?
w
?
1
m
+
1
?
\begin{aligned} &F_c^m=\underset{c}{\operatorname*{concat}}(k^m*F_c^*)W^m\\ &h^m=\lfloor\frac{h-1}m+1\rfloor,w^m=\lfloor\frac{w-1}m+1\rfloor \end{aligned}
?Fcm?=cconcat?(km?Fc??)Wmhm=?mh?1?+1?,wm=?mw?1?+1??其中
m
∈
{
1
,
…
,
M
}
m\in\{1,\ldots,M\}
m∈{1,…,M},
M
M
M 為調(diào)整尺度的數(shù)量。
k
m
k_m
km? 為第
m
m
m 個(gè)深度卷積核的參數(shù)。
h
m
h_m
hm? 和
w
m
w_m
wm? 分別為
F
c
m
F_c^m
Fcm? 的高和寬。在得到特征集合
{
F
c
m
∣
m
∈
{
1
,
…
,
M
}
}
\{F_c^m|m\in \{1,\ldots,M\}\}
{Fcm?∣m∈{1,…,M}} 后,將所有元素在尺寸維度展平,并進(jìn)行拼接作為序列特征
F
^
c
?
∈
R
(
∑
1
M
h
m
×
w
m
)
×
C
)
\hat F_c^*\in \mathbb{R}^{(\sum_{1}^{M}h^{m}\times w^{m})\times C)}
F^c??∈R(∑1M?hm×wm)×C)。與經(jīng)典的注意力類似,將原始特征
F
c
?
F_c^*
Fc?? 作為 query,多尺度感知特征
F
^
c
?
\hat F_c^*
F^c?? 為 key 和 value,執(zhí)行跨尺度交互:
F
~
c
?
=
s
o
f
t
m
a
x
(
F
c
?
W
q
?
F
^
c
?
W
k
T
C
)
?
F
^
c
?
W
v
\tilde{F}_{c}^{*}=\mathrm{softmax}(\frac{F_{c}^{*}W_{q}\cdot\hat{F}_{c}^{*}W_{k}^{T}}{\sqrt{C}})\cdot\hat{F}_{c}^{*}W_{v}
F~c??=softmax(C?Fc??Wq??F^c??WkT??)?F^c??Wv?接下來采用局部關(guān)系表示,稱之為 LRC 的模塊,歸一化多尺注意力的輸出。于是,多尺度注意力層的最終輸出表示為:
F
c
=
F
~
c
?
+
DWConv
(
Hardswish
(
F
c
?
)
)
F_c=\widetilde{F}_c^*+\text{DWConv}(\text{Hardswish}(F_c^*))
Fc?=F
c??+DWConv(Hardswish(Fc??))其中
DWConv
(
?
)
\text{DWConv}(\cdot)
DWConv(?) 表示深度卷積,
Hardswish
(
?
)
\text{Hardswish}(\cdot)
Hardswish(?) 為激活函數(shù),旨在增強(qiáng)多尺度局部信息。
??之后將 F c F_c Fc? 劃分為 4 個(gè)部分,通過上采樣恢復(fù)到 F e i F_e^i Fei? 的原始尺寸后送入尺度感知門,從而得到最終的輸出。
尺度感知門
??對于
F
c
F_c
Fc? 中每個(gè)部分,從
F
e
F_e
Fe? 中取出對應(yīng)的部分,從而衡量跨尺度交互的權(quán)重。這一權(quán)重以輔助殘差的方式疊加在 IIM 特征之上,表示如下:
F
o
i
=
sigmoid
(
F
e
i
W
1
)
?
F
c
i
W
2
+
F
e
i
W
3
F_o^i=\text{sigmoid}(F_e^iW_1)\otimes F_c^iW_2+F_e^iW_3
Foi?=sigmoid(Fei?W1?)?Fci?W2?+Fei?W3?其中
i
∈
{
1
,
2
,
3
,
4
}
i\in\{1,2,3,4\}
i∈{1,2,3,4}。尺度感知門的輸出用于下一解碼器,從而生成最終的 mask 預(yù)測。
5.3 方向感知解碼器
??來自 CSIE 的特征集合 { F o i ∣ i ∈ { 1 , 2 , 3 , 4 } } \{F_o^i|i\in\{1,2,3,4\}\} {Foi?∣i∈{1,2,3,4}} 用于生成 mask。將自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 整合進(jìn)分割解碼器用于 RRSIS 任務(wù)。
5.3.1 自適應(yīng)旋轉(zhuǎn)卷積
??首先提取方向特征,基于輸入來預(yù)測
n
n
n 個(gè)角度。對于輸入
X
X
X,預(yù)測
θ
\theta
θ 和
λ
\lambda
λ 如下:
θ
,
λ
=
Routing
?
(
X
)
\theta,\lambda=\operatorname{Routing}(X)
θ,λ=Routing(X)其中 Routing 塊的結(jié)構(gòu)如下圖所示:
其中靜態(tài)卷積核權(quán)重可以視為從 2 維核空間采樣出的點(diǎn)。因此卷積的方向選擇為旋轉(zhuǎn)重采樣的過程。具體來說,卷積核
W
i
W_i
Wi? 根據(jù)預(yù)測的角度重參數(shù)化為:
Y
i
′
=
M
?
1
(
θ
i
)
Y
i
W
i
′
=
i
n
t
e
r
p
o
l
a
t
i
o
n
(
W
i
,
Y
i
′
)
\begin{aligned} &Y_{i}^{'}=M^{-1}(\theta_{i})Y_{i}\\ &W_{i}^{'}=\mathrm{interpolation}(W_{i},Y_{i}^{'}) \end{aligned}
?Yi′?=M?1(θi?)Yi?Wi′?=interpolation(Wi?,Yi′?)?其中
Y
i
Y_i
Yi? 為原始采樣點(diǎn)的坐標(biāo),
M
?
1
(
θ
i
)
M^{-1}(\theta_{i})
M?1(θi?) 為旋轉(zhuǎn)矩陣的逆矩陣,用于仿射變換
θ
\theta
θ 度。
i
n
t
e
r
p
o
l
a
t
i
o
n
\mathrm{interpolation}
interpolation 通過雙線性插值實(shí)現(xiàn)。最終,特征通過獲得的卷積核過濾,之后進(jìn)行一個(gè)權(quán)重求和操作來生成方向感知的特征:
X
?
=
X
?
∑
i
=
1
n
λ
i
W
i
′
X^*=X*\sum_{i=1}^n\lambda_iW_i^{'}
X?=X?i=1∑n?λi?Wi′?
Mask 預(yù)測的整體自頂向下過程描述如下:
D
4
=
F
o
4
D
i
=
S
e
g
(
A
R
C
(
[
D
i
+
1
;
F
o
i
]
)
)
,
i
∈
{
1
,
2
,
3
}
D
0
=
P
r
o
j
(
D
1
)
\begin{aligned} &D_{4}=F_{o}^{4} \\ &\begin{aligned}D_i=\mathrm{Seg}(\mathrm{ARC}([D_{i+1};F_o^i])),\quad i\in\{1,2,3\}\end{aligned} \\ &D_{0}=\mathrm{Proj}(D_{1}) \end{aligned}
?D4?=Fo4?Di?=Seg(ARC([Di+1?;Foi?])),i∈{1,2,3}?D0?=Proj(D1?)?其中
S
e
g
\mathrm{Seg}
Seg 表示一個(gè)非線性塊,由一個(gè)
3
×
3
3\times3
3×3 卷積層,一個(gè) batch normalization 層,一個(gè) ReLU 激活函數(shù)組成。
P
r
o
j
\mathrm{Proj}
Proj 是一個(gè)線性投影函數(shù),將最終的特征
D
1
D_1
D1? 投影為兩個(gè)類別得分。需要注意的是一半的卷積層由 ARC 代替,從而利用上特征空間的方向信息。
六、實(shí)驗(yàn)
6.1 實(shí)施細(xì)節(jié)
實(shí)驗(yàn)設(shè)置
??視覺 Backbone 采用 Swin Transformer,預(yù)訓(xùn)練在 ImageNet22K 上,語言 Backbone 采用 BERT 模型。訓(xùn)練 40 個(gè) epochs,AdamW 優(yōu)化器,權(quán)重衰減 0.01,初始學(xué)習(xí)率 5 e ? 4 5e-4 5e?4,根據(jù) polynomial 衰減。輸入圖像尺寸 480 × 480 480\times480 480×480。
指標(biāo)
??Overall Intersection-over-Union (oIoU)、Mean Intersection-over-Union (mIoU)、Precision@X (P@X)。
6.2 與 SOTA 的 RIS 方法比較
6.3 消融研究
IIM 和 CIM 的有效性
CIM 的深度設(shè)計(jì)
解碼器的設(shè)計(jì)
ARC 的設(shè)計(jì)
6.4 可視化
6.4.1 定量分析
6.4.2 編碼器特征可視化
七、結(jié)論
??本文引入一個(gè)旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò) Rotated Multi-Scale Interaction Network (RMSIN),用于解決 RRSIS 中復(fù)雜的空間尺度和方向問題。尺度內(nèi)交互模塊 Intra-scale Interaction Module 和 RMSIN 中的跨尺度交互模塊 Cross-scale Interaction Module 解決了航空圖像中不同空間尺度的問題。此外,自適應(yīng)旋轉(zhuǎn)卷積的引入解決了航空圖像中不同的方向分布問題。在 RRSIS-D 數(shù)據(jù)集上的實(shí)驗(yàn)表明 RMSIN 的方法達(dá)到了 SOTA 的性能。
寫在后面文章來源:http://www.zghlxwxcb.cn/news/detail-769353.html
??這篇論文工作量其實(shí)蠻大的,比上一篇好很多。這個(gè)論文應(yīng)該穩(wěn)中,但是評(píng)分的話也不是那么頂高。畢竟涉及到了多個(gè)模塊的組合。還是要吐槽下論文的寫作,咋說呢,感覺不是那么完美。文章來源地址http://www.zghlxwxcb.cn/news/detail-769353.html
到了這里,關(guān)于RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!