国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀

這篇具有很好參考價(jià)值的文章主要介紹了RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

寫在前面

??同樣是一篇比較新的論文掛在 Arxiv 上面,拿來讀一讀??礃?biāo)題應(yīng)該是提出了新的 RIS 數(shù)據(jù)集與方法,用于遙感目標(biāo)檢測的。

  • 論文地址:Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation
  • 代碼地址:https://github.com/Lsan2401/RMSIN
  • 預(yù)計(jì)提交于:CVPR 2024
  • Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~

一、Abstract

??首先指出 Referring Remote Sensing Image Segmentation (RRSIS) 指代遙感目標(biāo)分割的粗略含義,與 RIS 一致,但是需要在航空圖像中實(shí)現(xiàn)。于是本文引入一種旋轉(zhuǎn)的多尺度交互網(wǎng)絡(luò) Rotated Multi-Scale Interaction Network (RMSIN),其整合了一種內(nèi)部尺度交互模塊 Intra-scale Interaction Module (IIM) 來解決多尺度且細(xì)粒度的細(xì)節(jié)信息,以及一種跨尺度交互模塊 Cross-scale Interaction Module (CIM) 用于整合這些細(xì)節(jié)。此外,RMSIN 利用自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 考慮那些不同方向的目標(biāo)。為評(píng)估 RMSIN 的性能,建立了一個(gè)可拓展的數(shù)據(jù)集,包含 17420 個(gè)“圖像-字幕-mask” 三元組。實(shí)驗(yàn)效果很好。

二、引言

??Referring Remote Sensing Image Segmentation (RRSIS) 的定義,應(yīng)用。缺陷在于:這一領(lǐng)域數(shù)據(jù)集尺度有限,且模型精度有限。于是本文引入一種可拓展的數(shù)據(jù)集,名為 RRSSIS-D,用于提升 RRSIS 任務(wù)。此數(shù)據(jù)集主要利用 Segment Anything Model (SAM) 模型,采用一個(gè)半自動(dòng)化標(biāo)注流程,因此耗時(shí)較短,同時(shí)標(biāo)注精度較高。其設(shè)計(jì)源于最初的 Bounding box prompts 生成的分割 masks,然后進(jìn)一步精煉來確保航空圖像的高保真度。于是生成了一個(gè)包含 17502 個(gè)遙感“圖像-字幕-masks”三元組。

??此外,現(xiàn)有的 RIS 方法在應(yīng)對遙感圖像時(shí)效果不咋地。如下圖所示:

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能
??航空圖像的挑戰(zhàn)在于不僅包含了傳統(tǒng)的數(shù)據(jù),還有一些尺度多變的圖像以及多個(gè)方向的圖像。當(dāng)前的 RIS 方法在面對這些航空圖像時(shí)效果確實(shí)不行。

??于是本文提出 Rotated Multi-Scale Interaction Network (RMSIN) 用于解決 RRSIS 問題。首先引入了一種尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM),在單個(gè)層內(nèi)提取出詳細(xì)的特征信息;引入一種跨尺度交互模塊 Cross-scale Interaction Module (CIM) 來促進(jìn)全面的特征融合。此外,整合一種自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 到解碼器中,使得模型能夠解決目標(biāo)的旋轉(zhuǎn)問題。本文貢獻(xiàn)總結(jié)如下:

  • 引入 RRSiS-D,一種新的數(shù)據(jù)集用于指代遙感圖像分割 Referring Remote Sensing Image Segmentation (RRSIS)。其利用 SAM 的分割能力再結(jié)合手動(dòng)校準(zhǔn),在目標(biāo)尺度和方向上有很大變動(dòng);
  • 提出旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò) Rotated Multi-Scale Interaction Network (RMSIN) 用于解決航空圖像中多種空間尺度和方向變化的問題;
  • 提出 IIM 和 CIM 用于解決不同尺度下的細(xì)粒度信息問題,設(shè)計(jì)了 ARC 用于增強(qiáng)模型對于任意旋轉(zhuǎn)目標(biāo)的魯棒性問題;
  • 大量的實(shí)驗(yàn)表明本文提出的 RMSIN 實(shí)現(xiàn)了 SOTA 的性能。

三、相關(guān)工作

Referring Image Detection and Segmentation

??講一下 RID 和 RIS 的定義,現(xiàn)有的方法。然而由于航空圖像的特殊屬性,這些方法很難在遙感領(lǐng)域發(fā)揮作用。有一些方法引入了尺度交互模塊用于增強(qiáng)特征提取,但是自然圖像和航空圖像間的語義鴻溝仍然存在,使得性能達(dá)不到最優(yōu)結(jié)果。

Remote Sensing Referring Image Detection and Segmentation

??RSRID 和 RSRIS 任務(wù)比較新,目前研究還很少。而最近基于 Transformer 的方法 RSVG 利用視覺 Transformer 和 BERT 作為 Backbone,整合了多層次跨模態(tài)特征學(xué)習(xí)來解決航空圖像中的多尺度變換問題。而 RSRIS 也是處于萌芽期,于是本文提出一種可拓展的、復(fù)雜的 RRSIS-D 數(shù)據(jù)集,以及一種新的模型 RMSIN。

四、RRSIS-D

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能
??提出了一個(gè)RRSIS-D 數(shù)據(jù)集,用于RRSIS 任務(wù)。上圖為數(shù)據(jù)集中的詞云表示。基于 Segment Anything Model (SAM),采用了一種半自動(dòng)化標(biāo)注方法,利用 bouding boxes 和 SAM 上生成像素級(jí)別的 masks,從而在標(biāo)注過程節(jié)約成本。具體來說,采用下列步驟為語言標(biāo)注生成逐像素標(biāo)注:

  • 步驟一:利用 SAM 為 RSVGD 數(shù)據(jù)集中的 Bounding box prompts 生成 masks,然而由于 SAM 可能在精度方面存在變化(主要是航空圖像和自然圖像存在領(lǐng)域鴻溝導(dǎo)致),于是有了下一步。
  • 采取一個(gè)手動(dòng)提煉過程用于那些可能存在問題的航空圖像 mask,具體來說,對數(shù)據(jù)集進(jìn)行全面檢查,鑒別那些有問題的數(shù)據(jù),手動(dòng)標(biāo)注其 masks。
  • RRSIS-D 數(shù)據(jù)集的標(biāo)注全部轉(zhuǎn)化為與 RefCOOC 數(shù)據(jù)集相同的格式。

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能
??數(shù)據(jù)集的統(tǒng)計(jì)情況如上表所示,類別分布如下圖所示:

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能
??生成 Maks 的統(tǒng)計(jì)情況如下圖所示:

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能
??需要注意的是生成的 masks 非常小的比例占據(jù)了數(shù)據(jù)集中的絕大部分。但同時(shí)也有一些大像素,例如超過 40 0000 的。

五、RMSIN

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

5.1 總覽

??給定輸入圖像 I ∈ R H × W × 3 I\in \mathbb{R}^{H\times W\times 3} IRH×W×3,語言表達(dá)式 E = { ω i } , i ∈ { 0 , … , N } E=\{\omega_i\},i\in\{0,\ldots,N\} E={ωi?},i{0,,N},其中 H H H W W W 分別表示圖像的高、寬。 N N N 為表達(dá)式的長度。輸入表達(dá)式通過 backbone f l f_l fl? 轉(zhuǎn)化到特征空間 F l ∈ R N × C F_l\in \mathbb{R}^{N\times C} Fl?RN×C。

??接下來是復(fù)合的尺度交互編碼器 Compounded Scale Interaction Encoder (CSIE),其由一個(gè)尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM) 和跨尺度交互模塊 Cross-scale Interaction Module (CIM) 組成,用于在不同階段生成融合的特征。最后,基于方向感知解碼器 Oriented-Aware Decoder (OAD),提出一種自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 生成 masks。

5.2 Compounded Scale Interaction Encoder (CSIE)

??給定語言特征 F l F_l Fl? 和輸入的圖像 I ∈ R H × W × 3 I\in \mathbb{R}^{H\times W\times 3} IRH×W×3,復(fù)合的尺度交互編碼器 Compounded Scale Interaction Encoder (CSIE) 以多階段的方式在內(nèi)部和外部視角進(jìn)行視覺語言的跨模態(tài)融合。CSIE 由兩個(gè)組成部分:尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM) 和跨尺度交互模塊 Cross-scale Interaction Module (CIM)。

5.2.1 尺度內(nèi)交互模塊

??CSIE 內(nèi)每個(gè)階段的第一部分,即尺度內(nèi)交互模塊 Intra-scale Interaction Module (IIM) 用于提取每個(gè)尺度下的信息,并促進(jìn)視覺語言模態(tài)的交互。根據(jù)級(jí)聯(lián)的 4 個(gè)階段,IIM 可以表示為 { ? i } i ∈ { 1 , 2 , 3 , 4 } \{\phi_i\}_{i\in\{1,2,3,4\}} {?i?}i{1,2,3,4}?。通過文本 Backbone 得到語言特征 F l ∈ R N × C F_l\in \mathbb{R}^{N\times C} Fl?RN×C,其中 C C C 表示通道的數(shù)量,IIM 每個(gè)階段的輸出特征 F e i F_e^{i} Fei?可表示為:
F e i = ? i ( F e i ? 1 , F ? ) F_{e}^{i}=\phi_{i}(F_{e}^{i-1},F_{\ell}) Fei?=?i?(Fei?1?,F??)其中 F e 0 F_e^0 Fe0? 利用視覺 Backbone f v f_v fv? 和輸入 I I I 得到。具體來說,在階段 i i i 中,輸入的特征 F e i ? 1 F^{i-1}_e Fei?1? 經(jīng)過一個(gè)下采樣和 MLP 減少其尺度,并統(tǒng)一其維度到特征 F ^ e i ? 1 \hat F^{i-1}_e F^ei?1?。然后 F ^ e i ? 1 \hat F^{i-1}_e F^ei?1? 送入到兩個(gè)分支中用于增強(qiáng)視覺先驗(yàn)以及融合跨模態(tài)信息。

各種感知分支

??特征 F ^ e i ? 1 \hat F^{i-1}_e F^ei?1? 送入到多個(gè)不同卷積核大小的分支,生成不同感受野大小的特征圖:
ω i = σ ( ∑ j = 0 J ( 1 C ∑ C k j i ? F ^ e i ? 1 ) ) \omega^i=\sigma\left(\sum_{j=0}^J\left(\frac1C\sum^Ck_j^i*\hat{F}_e^{i-1}\right)\right) ωi=σ(j=0J?(C1?C?kji??F^ei?1?))其中 k j i k_j^i kji? 表示第 j j j 個(gè)卷積分支, σ \sigma σ 為 Sigmoid 函數(shù)。 ω i ∈ ( 0 , 1 ) H × W \omega^i\in {(0,1)}^{H \times W} ωi(0,1)H×W 為平衡不同分支的權(quán)重:
F ^ e 1 i ? 1 = ω i ? F ^ e i ? 1 \hat{F}_{e1}^{i-1}=\omega^i\otimes\hat{F}_{e}^{i-1} F^e1i?1?=ωi?F^ei?1?
此外,其輸出通過一個(gè)視覺門進(jìn)行歸一化,添加在原始圖像特征上作為局部細(xì)節(jié)信息的補(bǔ)充。這一過程實(shí)施如下:
α = T a n h ( L N ( R e L U ( L N ( F ^ e 1 i ? 1 ) ) ) ) \alpha=\mathrm{Tanh}(\mathrm{LN}(\mathrm{ReLU}(\mathrm{LN}(\hat{F}_{e1}^{i-1})))) α=Tanh(LN(ReLU(LN(F^e1i?1?))))其中 L N ( ? ) \mathrm{LN}(\cdot) LN(?) 表示一個(gè) 1 × 1 1\times1 1×1 卷積, T a n h ( ? ) \mathrm{Tanh}(\cdot) Tanh(?) R e L U ( ? ) \mathrm{ReLU}(\cdot) ReLU(?) 表示激活函數(shù)。

跨模態(tài)對齊分支

??輸入為 F ^ e i ? 1 \hat F^{i-1}_e F^ei?1? 和語言特征 F l F_l Fl?,這一模塊首先應(yīng)用尺度點(diǎn)乘注意力, F ^ e i ? 1 \hat F^{i-1}_e F^ei?1? 作為 query, F l F_l Fl? 為 key 和 value 得到多模態(tài)特征:
A i = attention ( F ^ e i ? 1 W q i , F ? W k i , F ? W v i ) A^i=\text{attention}(\hat{F}_e^{i-1}W_q^i,F_\ell W_k^i,F_\ell W_v^i) Ai=attention(F^ei?1?Wqi?,F??Wki?,F??Wvi?)其中 W q i W_q^i Wqi?、 W k i W_k^i Wki?、 W v i W_v^i Wvi? 為線性投影矩陣。接下來,注意力 A i A^i Ai 聯(lián)合 F ^ e i ? 1 \hat{F}_e^{i-1} F^ei?1? 一起得到語言引導(dǎo)的圖像特征:
F ^ e 2 i ? 1 = P r o j ( A i W w i ? F ^ e i ? 1 W m i ) \hat{F}_{e2}^{i-1}=\mathrm{Proj}(A^iW_w^i\otimes\hat{F}_e^{i-1}W_m^i) F^e2i?1?=Proj(AiWwi??F^ei?1?Wmi?)其中 W w i W_w^i Wwi?、 W m i W_m^i Wmi? 為投影矩陣, ? \otimes ? 表示逐元素乘法。得到的結(jié)果通過 1 × 1 1\times1 1×1 卷積 Proj ( ? ) \text{Proj}(\cdot) Proj(?) 產(chǎn)生最終的輸出。

??與其它在輸出 F ^ e i ? 1 \hat{F}_e^{i-1} F^ei?1? 上執(zhí)行的操作類似,其結(jié)果通過共享的語言門 β \beta β 來歸一化。而視覺門同樣添加到原始圖像特征上,補(bǔ)充語言特征。于是 IIM 在階段 i i i 的整體輸出特征表示如下:
F e i = F ^ e i ? 1 + α F ^ e 1 i ? 1 + β F ^ e 2 i ? 1 F_{e}^i=\hat{F}_{e}^{i-1}+\alpha\hat{F}_{e1}^{i-1}+\beta\hat{F}_{e2}^{i-1} Fei?=F^ei?1?+αF^e1i?1?+βF^e2i?1?

5.2.2 跨尺度交互模塊

??IIM 充分提取出由語言特征引導(dǎo)的多尺度定位信息,此外設(shè)計(jì)了一種跨尺度交互模塊 Cross-scale Interaction Module (CIM),進(jìn)一步增強(qiáng)粗糙和細(xì)膩階段的特征交互。具體來說,模塊收集 IIM 每個(gè)階段的輸出,即 F e i , i ∈ { 1 , 2 , 3 , 4 } F_e^{i},i\in\{1,2,3,4\} Fei?,i{1,2,3,4},執(zhí)行多階段交互。

多尺度特征組合

??輸入為特征 F e i , i ∈ { 1 , 2 , 3 , 4 } F_e^{i},i\in\{1,2,3,4\} Fei?,i{1,2,3,4},下采樣到同一尺寸后沿著通道維度進(jìn)行拼接:
F d i = downsample ( F e i ) i ∈ { 1 , 2 , 3 , 4 } , F c ? = concat ( F d 1 , F d 2 , F d 3 , F e 4 ) \begin{aligned}F_d^i&=\text{downsample}(F_e^i)\quad i\in\{1,2,3,4\},\\F_c^*&=\text{concat}(F_d^1,F_d^2,F_d^3,F_e^4)\end{aligned} Fdi?Fc???=downsample(Fei?)i{1,2,3,4},=concat(Fd1?,Fd2?,Fd3?,Fe4?)?其中 F d i F_d^i Fdi? 為下采樣后的特征, F c ? F_c^* Fc?? 表示沿著通道維度拼接后的多階段特征。通過平均池化進(jìn)行下采樣操作。

多尺度注意力層

??設(shè)計(jì)不同的感受野用于拼接后的特征 F c ? F_c^* Fc??,從而實(shí)現(xiàn)多尺度交互。 F c ? F_c^* Fc?? 在不同的深度卷積核的作用下調(diào)整為不同的尺度:
F c m = concat ? c ( k m ? F c ? ) W m h m = ? h ? 1 m + 1 ? , w m = ? w ? 1 m + 1 ? \begin{aligned} &F_c^m=\underset{c}{\operatorname*{concat}}(k^m*F_c^*)W^m\\ &h^m=\lfloor\frac{h-1}m+1\rfloor,w^m=\lfloor\frac{w-1}m+1\rfloor \end{aligned} ?Fcm?=cconcat?(km?Fc??)Wmhm=?mh?1?+1?,wm=?mw?1?+1??其中 m ∈ { 1 , … , M } m\in\{1,\ldots,M\} m{1,,M}, M M M 為調(diào)整尺度的數(shù)量。 k m k_m km? 為第 m m m 個(gè)深度卷積核的參數(shù)。 h m h_m hm? w m w_m wm? 分別為 F c m F_c^m Fcm? 的高和寬。在得到特征集合 { F c m ∣ m ∈ { 1 , … , M } } \{F_c^m|m\in \{1,\ldots,M\}\} {Fcm?m{1,,M}} 后,將所有元素在尺寸維度展平,并進(jìn)行拼接作為序列特征 F ^ c ? ∈ R ( ∑ 1 M h m × w m ) × C ) \hat F_c^*\in \mathbb{R}^{(\sum_{1}^{M}h^{m}\times w^{m})\times C)} F^c??R(1M?hm×wm)×C)。與經(jīng)典的注意力類似,將原始特征 F c ? F_c^* Fc?? 作為 query,多尺度感知特征 F ^ c ? \hat F_c^* F^c?? 為 key 和 value,執(zhí)行跨尺度交互:
F ~ c ? = s o f t m a x ( F c ? W q ? F ^ c ? W k T C ) ? F ^ c ? W v \tilde{F}_{c}^{*}=\mathrm{softmax}(\frac{F_{c}^{*}W_{q}\cdot\hat{F}_{c}^{*}W_{k}^{T}}{\sqrt{C}})\cdot\hat{F}_{c}^{*}W_{v} F~c??=softmax(C ?Fc??Wq??F^c??WkT??)?F^c??Wv?接下來采用局部關(guān)系表示,稱之為 LRC 的模塊,歸一化多尺注意力的輸出。于是,多尺度注意力層的最終輸出表示為:
F c = F ~ c ? + DWConv ( Hardswish ( F c ? ) ) F_c=\widetilde{F}_c^*+\text{DWConv}(\text{Hardswish}(F_c^*)) Fc?=F c??+DWConv(Hardswish(Fc??))其中 DWConv ( ? ) \text{DWConv}(\cdot) DWConv(?) 表示深度卷積, Hardswish ( ? ) \text{Hardswish}(\cdot) Hardswish(?) 為激活函數(shù),旨在增強(qiáng)多尺度局部信息。

??之后將 F c F_c Fc? 劃分為 4 個(gè)部分,通過上采樣恢復(fù)到 F e i F_e^i Fei? 的原始尺寸后送入尺度感知門,從而得到最終的輸出。

尺度感知門

??對于 F c F_c Fc? 中每個(gè)部分,從 F e F_e Fe? 中取出對應(yīng)的部分,從而衡量跨尺度交互的權(quán)重。這一權(quán)重以輔助殘差的方式疊加在 IIM 特征之上,表示如下:
F o i = sigmoid ( F e i W 1 ) ? F c i W 2 + F e i W 3 F_o^i=\text{sigmoid}(F_e^iW_1)\otimes F_c^iW_2+F_e^iW_3 Foi?=sigmoid(Fei?W1?)?Fci?W2?+Fei?W3?其中 i ∈ { 1 , 2 , 3 , 4 } i\in\{1,2,3,4\} i{1,2,3,4}。尺度感知門的輸出用于下一解碼器,從而生成最終的 mask 預(yù)測。

5.3 方向感知解碼器

??來自 CSIE 的特征集合 { F o i ∣ i ∈ { 1 , 2 , 3 , 4 } } \{F_o^i|i\in\{1,2,3,4\}\} {Foi?i{1,2,3,4}} 用于生成 mask。將自適應(yīng)旋轉(zhuǎn)卷積 Adaptive Rotated Convolution (ARC) 整合進(jìn)分割解碼器用于 RRSIS 任務(wù)。

5.3.1 自適應(yīng)旋轉(zhuǎn)卷積

??首先提取方向特征,基于輸入來預(yù)測 n n n 個(gè)角度。對于輸入 X X X,預(yù)測 θ \theta θ λ \lambda λ 如下:
θ , λ = Routing ? ( X ) \theta,\lambda=\operatorname{Routing}(X) θ,λ=Routing(X)其中 Routing 塊的結(jié)構(gòu)如下圖所示:

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能
其中靜態(tài)卷積核權(quán)重可以視為從 2 維核空間采樣出的點(diǎn)。因此卷積的方向選擇為旋轉(zhuǎn)重采樣的過程。具體來說,卷積核 W i W_i Wi? 根據(jù)預(yù)測的角度重參數(shù)化為:
Y i ′ = M ? 1 ( θ i ) Y i W i ′ = i n t e r p o l a t i o n ( W i , Y i ′ ) \begin{aligned} &Y_{i}^{'}=M^{-1}(\theta_{i})Y_{i}\\ &W_{i}^{'}=\mathrm{interpolation}(W_{i},Y_{i}^{'}) \end{aligned} ?Yi?=M?1(θi?)Yi?Wi?=interpolation(Wi?,Yi?)?其中 Y i Y_i Yi? 為原始采樣點(diǎn)的坐標(biāo), M ? 1 ( θ i ) M^{-1}(\theta_{i}) M?1(θi?) 為旋轉(zhuǎn)矩陣的逆矩陣,用于仿射變換 θ \theta θ 度。 i n t e r p o l a t i o n \mathrm{interpolation} interpolation 通過雙線性插值實(shí)現(xiàn)。最終,特征通過獲得的卷積核過濾,之后進(jìn)行一個(gè)權(quán)重求和操作來生成方向感知的特征:
X ? = X ? ∑ i = 1 n λ i W i ′ X^*=X*\sum_{i=1}^n\lambda_iW_i^{'} X?=X?i=1n?λi?Wi?
Mask 預(yù)測的整體自頂向下過程描述如下:
D 4 = F o 4 D i = S e g ( A R C ( [ D i + 1 ; F o i ] ) ) , i ∈ { 1 , 2 , 3 } D 0 = P r o j ( D 1 ) \begin{aligned} &D_{4}=F_{o}^{4} \\ &\begin{aligned}D_i=\mathrm{Seg}(\mathrm{ARC}([D_{i+1};F_o^i])),\quad i\in\{1,2,3\}\end{aligned} \\ &D_{0}=\mathrm{Proj}(D_{1}) \end{aligned} ?D4?=Fo4?Di?=Seg(ARC([Di+1?;Foi?])),i{1,2,3}?D0?=Proj(D1?)?其中 S e g \mathrm{Seg} Seg 表示一個(gè)非線性塊,由一個(gè) 3 × 3 3\times3 3×3 卷積層,一個(gè) batch normalization 層,一個(gè) ReLU 激活函數(shù)組成。 P r o j \mathrm{Proj} Proj 是一個(gè)線性投影函數(shù),將最終的特征 D 1 D_1 D1? 投影為兩個(gè)類別得分。需要注意的是一半的卷積層由 ARC 代替,從而利用上特征空間的方向信息。

六、實(shí)驗(yàn)

6.1 實(shí)施細(xì)節(jié)

實(shí)驗(yàn)設(shè)置

??視覺 Backbone 采用 Swin Transformer,預(yù)訓(xùn)練在 ImageNet22K 上,語言 Backbone 采用 BERT 模型。訓(xùn)練 40 個(gè) epochs,AdamW 優(yōu)化器,權(quán)重衰減 0.01,初始學(xué)習(xí)率 5 e ? 4 5e-4 5e?4,根據(jù) polynomial 衰減。輸入圖像尺寸 480 × 480 480\times480 480×480。

指標(biāo)

??Overall Intersection-over-Union (oIoU)、Mean Intersection-over-Union (mIoU)、Precision@X (P@X)。

6.2 與 SOTA 的 RIS 方法比較

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

6.3 消融研究

IIM 和 CIM 的有效性

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

CIM 的深度設(shè)計(jì)

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

解碼器的設(shè)計(jì)

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

ARC 的設(shè)計(jì)

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

6.4 可視化

6.4.1 定量分析

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

6.4.2 編碼器特征可視化

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀,新東西,論文閱讀,筆記,計(jì)算機(jī)視覺,transformer,人工智能

七、結(jié)論

??本文引入一個(gè)旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò) Rotated Multi-Scale Interaction Network (RMSIN),用于解決 RRSIS 中復(fù)雜的空間尺度和方向問題。尺度內(nèi)交互模塊 Intra-scale Interaction Module 和 RMSIN 中的跨尺度交互模塊 Cross-scale Interaction Module 解決了航空圖像中不同空間尺度的問題。此外,自適應(yīng)旋轉(zhuǎn)卷積的引入解決了航空圖像中不同的方向分布問題。在 RRSIS-D 數(shù)據(jù)集上的實(shí)驗(yàn)表明 RMSIN 的方法達(dá)到了 SOTA 的性能。

寫在后面

??這篇論文工作量其實(shí)蠻大的,比上一篇好很多。這個(gè)論文應(yīng)該穩(wěn)中,但是評(píng)分的話也不是那么頂高。畢竟涉及到了多個(gè)模塊的組合。還是要吐槽下論文的寫作,咋說呢,感覺不是那么完美。文章來源地址http://www.zghlxwxcb.cn/news/detail-769353.html

到了這里,關(guān)于RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Res2Net: 一種新的多尺度主干體系結(jié)構(gòu)(Res2Net: A New Multi-scale Backbone Architecture )

    Res2Net: 一種新的多尺度主干體系結(jié)構(gòu)(Res2Net: A New Multi-scale Backbone Architecture )

    如圖1所示,視覺模式在自然場景中以多尺度出現(xiàn)。首先, 對象可以在單個(gè)圖像中以不同的尺寸 出現(xiàn),例如,沙發(fā)和杯子具有不同的尺寸。其次, 對象的基本上下文信息可能比對象本身占據(jù)更大的區(qū)域 。例如,我們需要依靠大桌子作為上下文,以更好地判斷放置在桌子上的

    2024年02月13日
    瀏覽(19)
  • 論文閱讀 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

    在我們內(nèi)部產(chǎn)品中,一直有關(guān)于網(wǎng)絡(luò)性能數(shù)據(jù)監(jiān)控需求,我們之前是直接使用 ping 命令收集結(jié)果,每臺(tái)服務(wù)器去 ping (N-1) 臺(tái),也就是 N^2 的復(fù)雜度,穩(wěn)定性和性能都存在一些問題,最近打算對這部分進(jìn)行重寫,在重新調(diào)研期間看到了 Pingmesh 這篇論文,Pingmesh 是微軟用來監(jiān)控?cái)?shù)

    2024年02月11日
    瀏覽(22)
  • SA-Net:用于醫(yī)學(xué)圖像分割的尺度注意網(wǎng)絡(luò) A scale-attention network for medical image segmentation

    ????????醫(yī)學(xué)圖像的語義分割為后續(xù)的圖像分析和理解任務(wù)提供了重要的基石。隨著深度學(xué)習(xí)方法的快速發(fā)展,傳統(tǒng)的 U-Net 分割網(wǎng)絡(luò)已在許多領(lǐng)域得到應(yīng)用?;谔剿餍詫?shí)驗(yàn),已發(fā)現(xiàn)多尺度特征對于醫(yī)學(xué)圖像的分割非常重要。在本文中,我們提出了一種尺度注意力深度學(xué)

    2024年02月16日
    瀏覽(27)
  • 【論文閱讀】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲諷檢測,多模態(tài),跨模態(tài),圖神經(jīng)網(wǎng)絡(luò)

    【論文閱讀】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲諷檢測,多模態(tài),跨模態(tài),圖神經(jīng)網(wǎng)絡(luò)

    本博客系博主根據(jù)個(gè)人理解所寫,非逐字逐句翻譯,預(yù)知詳情,請參閱論文原文。 發(fā)表地點(diǎn): ACL 2022; 論文下載鏈接: Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network - ACL Anthology 代碼鏈接: https://github.com/HITSZ-HLT/CMGCN; 隨著在線發(fā)布包含多模態(tài)信息的博客的流行,

    2024年02月17日
    瀏覽(30)
  • ElasticSearch系列 - SpringBoot整合ES:多字段查詢 multi_match

    1. 什么是 ElasticSearch 的 multi_match 查詢? 有時(shí)用戶需要在多個(gè)字段中查詢,除了使用布爾查詢封裝多個(gè)match查詢之外,可替代的方案是使用multi_match??梢栽趍ulti_match的query子句中組織數(shù)據(jù)匹配規(guī)則,并在fields子句中指定需要搜索的字段列表。 以下是一個(gè)示例multi-match查詢

    2023年04月21日
    瀏覽(24)
  • LeetCode //C - 153. Find Minimum in Rotated Sorted Array

    Suppose an array of length n sorted in ascending order is rotated between 1 and n times. For example, the array nums = [0,1,2,4,5,6,7] might become: [4,5,6,7,0,1,2] if it was rotated 4 times. [0,1,2,4,5,6,7] if it was rotated 7 times. Notice that rotating an array [a[0], a[1], a[2], …, a[n-1]] 1 time results in the array [a[n-1], a[0], a[1], a[2], …, a[n

    2024年02月06日
    瀏覽(31)
  • Algorithms practice:leetcode 33. Search in Rotated Sorted Array

    Algorithms practice:leetcode 33. Search in Rotated Sorted Array

    Algorithms practice:leetcode33 Search in Rotated Sorted Array There is an integer array ,nums , sorted in ascending order (with distinct values). Prior to being passed to your function, nums is possibly rotated,at an unknown pivot index k (1 = k nums.length) such that the resulting array is [nums[k], nums[k+1], …, nums[n-1], nums[0], nums[1], …, nums

    2024年01月21日
    瀏覽(18)
  • 【論文筆記】DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets

    【論文筆記】DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets

    原文鏈接:https://arxiv.org/abs/2301.06051 本文提出DSVT,一種通用的、部署友好的、基于transformer的3D主干,可用于多種基于點(diǎn)云處理的3D感知任務(wù)中。 傳統(tǒng)的稀疏點(diǎn)云特征提取方法,如PointNet系列和稀疏卷積,要么需要高計(jì)算力進(jìn)行采樣與分組,要么因?yàn)樽恿餍尉矸e導(dǎo)致表達(dá)能力受

    2024年02月05日
    瀏覽(19)
  • 【Docker系列】docke報(bào)錯(cuò) non-overlapping IPv4 address pool among the defaults to assign to the network 解決方法

    【Docker系列】docke報(bào)錯(cuò) non-overlapping IPv4 address pool among the defaults to assign to the network 解決方法

    目錄 1. 問題 1.1 問題描述 1.2 原因: 1.3 排查步驟:? 1.3.1 查看docker 網(wǎng)絡(luò) 1.3.2 查看網(wǎng)絡(luò)數(shù)量? 1.4 解決方案 1.4.1?刪除沒使用的網(wǎng)絡(luò) 1.4.2 修改docker默認(rèn)網(wǎng)絡(luò)地址 1.4.3?yml指定網(wǎng)絡(luò) 2.投票 ? 好運(yùn)氣不會(huì)憑空而來,要么藏在努力里,要么藏在堅(jiān)持里。 文章標(biāo)記顏色說明: 黃色 :重

    2024年02月02日
    瀏覽(495)
  • Unity VR 開發(fā)教程 OpenXR+XR Interaction Toolkit(八)手指觸控 Poke Interaction

    Unity VR 開發(fā)教程 OpenXR+XR Interaction Toolkit(八)手指觸控 Poke Interaction

    此教程相關(guān)的詳細(xì)教案,文檔,思維導(dǎo)圖和工程文件會(huì)放入 Spatial XR 社區(qū) 。這是一個(gè)高質(zhì)量知識(shí)星球 XR 社區(qū),博主目前在內(nèi)擔(dān)任 XR 開發(fā)的講師。此外,該社區(qū)提供教程答疑、及時(shí)交流、進(jìn)階教程、外包、行業(yè)動(dòng)態(tài)等服務(wù)。 社區(qū)鏈接: Spatial XR 高級(jí)社區(qū)(知識(shí)星球) Spatial

    2024年02月12日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包