国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記

這篇具有很好參考價(jià)值的文章主要介紹了RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


寫在前面

??一篇 Arxiv 上面的新文章,看看清華大佬們的研究。

  • 論文地址:Mask Grounding for Referring Image Segmentation
  • 代碼地址:原論文說將會(huì)開源,靜待佳音~
  • 預(yù)計(jì)提交于:CVPR 2024
  • Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~

一、Abstract

??Referring Image Segmentation (RIS) 的定義,目前的 SOTA 方法仍然存在像素和詞水平上的語言-圖像模態(tài)鴻溝。主要原因:通常依賴于句子級(jí)別的語言特征用于語言-圖像對齊;缺乏對細(xì)粒度視覺定位的監(jiān)督。另外,由于弱的視覺和語言特征間的關(guān)聯(lián),因此需要更有效的推理去理解那些包含多個(gè)目標(biāo)的復(fù)雜場景。于是本文引入 Mask Grounding 輔助任務(wù)來提升視覺定位的性能,Mask Grounding 直接適用于之前的模型。此外,為全面解決模態(tài)鴻溝,設(shè)計(jì)了一種跨模態(tài)對齊損失和一種輔助對齊模塊。在 MagNet(Mask-grounded Network) 上達(dá)到了 SOTA 的效果。

二、引言

??首先指出圖像分割任務(wù)與 Referring Image Segmentation 的區(qū)別,RIS 的應(yīng)用。然后就是 RIS 的挑戰(zhàn):如何減少語言和圖像特征間的模態(tài)鴻溝?需要一個(gè)有效性的對齊方法。

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer
??如上圖所示,之前的方法主要關(guān)注于設(shè)計(jì)不同的損失函數(shù)或者引入網(wǎng)絡(luò)結(jié)構(gòu)/模塊來促進(jìn)對齊,然而缺陷有倆:往往依賴于句子級(jí)別的語言特征對齊;缺乏對細(xì)粒度視覺定位的顯著訓(xùn)練監(jiān)督。于是難以處理復(fù)雜的目標(biāo)間關(guān)系或者包含很少或混亂上下文的子句。如下圖所示:

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer
??于是文本引入一種 Mask Grounding 的輔助任務(wù)用于顯式地教會(huì)模型進(jìn)行細(xì)粒度的對齊。具體來說,在訓(xùn)練過程中,模型隨機(jī) mask 掉一些文本詞匯,并且讓模型來預(yù)測這些詞匯的實(shí)體信息。除了整合文本上下文信息外,還利用了視覺和分割的信息。

??除 Mask Grounding 外,還提出一種跨模態(tài)對齊損失和一個(gè)對齊模塊來全面填補(bǔ)模態(tài)鴻溝。整合的模型 MagNet (Mask-grounded Network) 達(dá)到了 SOTA 的效果。主要貢獻(xiàn)如下:

  • 突出了最近 SOTA 的 RIS 方法的缺陷,指出細(xì)粒度視覺定位的缺乏;
  • 引入 Mask Grounding 輔助任務(wù),旨在增強(qiáng)細(xì)粒度的視覺定位算法;
  • Mask Grounding + 跨模態(tài)對齊損失 + 輔助對齊模塊 = MagNet (Mask-grounded Network),實(shí)現(xiàn)了新的 SOTA。

三、相關(guān)工作

Architecture Design for RIS

??早期的方法遵循拼接-卷積的操作,后續(xù)的工作采用 RNN 或動(dòng)態(tài)卷積的方法。還有一些方法設(shè)計(jì)出語言-圖像融合模塊。此外,還有一些工作利用已知的語言結(jié)構(gòu)或目標(biāo)關(guān)系來增強(qiáng)融合。隨著注意力結(jié)構(gòu)的成功,當(dāng)前的工作通常采用無向或雙向的交叉注意力模塊來執(zhí)行語言-圖像融合。有一些工作使用元學(xué)習(xí)的方法用于 RIS。受到大語言模型的驅(qū)動(dòng),一些方法將 RIS 視為自回歸向量生成問題。接下來是一些舉例:VPD、ReLA、DMMI。這些方法的缺陷在于:總是期待語言-圖像對齊發(fā)生在 mask 預(yù)測過程中。于是本文引入一種輔助任務(wù)來顯式地對齊語言-圖像特征。

Loss Design for RIS

??早期用于訓(xùn)練 RIS 的方法通常采用簡單的 binary cross entropy 損失, 接下來是對比學(xué)習(xí)的損失。與之前使用全局池化的語言特征計(jì)算損失相比,本文關(guān)注在像素-詞水平上學(xué)習(xí)細(xì)粒度的目標(biāo)聯(lián)系。

Masked Language Modeling

??Masked language modeling (MLM) 在自然語言處理中很普遍。首先引入的是 BERT,之后就成為預(yù)訓(xùn)練模型及視覺-語言模型的標(biāo)配。最近的 MaskedVLM 采用 MLM 執(zhí)行 mask vision and language 建模,在一個(gè)模態(tài)的輔助作用下重建另外一個(gè)模態(tài)。Mask Grounding 與其不同,通過使用外部 mask 信號(hào)直接匹配缺失的單詞從而確保重建過程,學(xué)習(xí)到相應(yīng)的細(xì)粒度視覺定位的信息。

四、方法

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer

4.1 結(jié)構(gòu)

??MagNet (Mask-grounded Network) 由三個(gè)模塊組成,首先 Mask Grounding 旨在提升細(xì)粒度視覺定位性能,使用視覺線索、語言上下文、分割信息來教會(huì)模型預(yù)測 masked 文本 tokens。之后 Cross-modal Alignment Module (CAM) 用于微調(diào)語言和圖像特征間的雙向交互。最后 Crossmodal Alignment Loss (CAL) 監(jiān)督像素-像素和像素-文本的對齊。

4.2 Mask Grounding

??如圖 3 所示,給定輸入圖像及其對應(yīng)的指代表達(dá)式和分割 mask。首先利用一些特定詞匯來代替指代表達(dá)式中的一些 tokens,從而訓(xùn)練模型來預(yù)測這些 tokens(類似于 MLM)。具體來說,首先取得 mask 區(qū)域的中心坐標(biāo),然后通過一個(gè) 2 層的 MLP,將其 mask 編碼到一個(gè) mask embedding 中。同時(shí)采用一個(gè)線性層將語言 embedding 投影到與圖像 embedding 相同的維度。然后應(yīng)用提出的 Masked Token 預(yù)測器在注意力機(jī)制的作用下來處理所有拼接的 embedding 用于 masked token 預(yù)測。最后,使用一個(gè) cross-entropy 損失 L grounding \mathcal L_{\text{grounding}} Lgrounding? 來比較最終的預(yù)測分布與目標(biāo)分布。數(shù)學(xué)公式描述如下:令 T , I , M \bold{T},\bold{I},\bold{M} T,I,M 分別表示語言編碼器、圖像編碼器、mask 編碼器的輸入:
O = Language E n c o d e r ( M a s k ( T ) ) P = I m a g e Encoder ( I ) C = MaskEncoder ( M ) L g r o u n d i n g = L C E ( y g t , Predictor ( C o n c a t ( [ O , P , C ] ) \mathbf{O}=\text{Language}\mathrm{Encoder}(\mathrm{Mask}(\mathbf{T}))\\ \mathbf{P}=\mathrm{Image}\text{Encoder}(\mathbf{I})\\ \mathbf{C}=\text{MaskEncoder}(\mathbf{M})\\ \mathcal{L}_{\mathrm{grounding}}=\mathcal{L}_{\mathrm{CE}}(\mathbf{y}_{\mathrm{gt}},\text{Predictor}(\mathrm{Concat}([\mathbf{O},\mathbf{P},\mathbf{C}]) O=LanguageEncoder(Mask(T))P=ImageEncoder(I)C=MaskEncoder(M)Lgrounding?=LCE?(ygt?,Predictor(Concat([O,P,C])其中預(yù)測器為類似 BERT 編碼器的結(jié)構(gòu), M M M 為 GT masks 的中心坐標(biāo), y g t \mathbf{y}_{\mathrm{gt}} ygt? 為 masked token 的標(biāo)簽, L C E \mathcal{L}_{\mathrm{CE}} LCE? 為交叉熵?fù)p失。實(shí)驗(yàn)中設(shè)置 Swin-B 為圖像編碼器,BERT-base 為語言編碼器,但方法不限于此。

討論

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer
??如上表所示,Mask Grounding 超越了標(biāo)準(zhǔn)的 masked language modeling (MLM) 和 masked-vision language modeling (MaskedVLM)。原因在于:模型整合:傳統(tǒng)的 MLM 為單模態(tài),缺乏了指代表達(dá)式及其匹配的視覺目標(biāo)的聯(lián)系,而 MaskedVLM 為多模態(tài),Mask Grounding 能夠超越的目的在于引入了額外的 masking 信號(hào)來對齊 masked words 和匹配的視覺目標(biāo)。這一結(jié)果表明 詞-目標(biāo)聯(lián)系和細(xì)粒度的視覺定位很重要;任務(wù)屬性:MLM 和 MaksedVLM 作為一般的預(yù)訓(xùn)練任務(wù),需要在下游任務(wù)上進(jìn)行微調(diào),而 Mask Grounding 設(shè)計(jì)于一個(gè) RIS 的輔助任務(wù),在訓(xùn)練階段增強(qiáng)了細(xì)粒度的視覺定位性能,且不需要額外的微調(diào);預(yù)測上下文:MLM 和 MaskedVLM 采用文本或文本-視覺上下文預(yù)測,而 Mask Grounding 整合了外部的分割信息,于是性能更好。

4.3 跨模態(tài)對齊模塊

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer
??如上圖所示,提出的跨模態(tài)對齊、 cross-modal alignment module (CAM) 將全局上下文先驗(yàn)注入到圖像特征中,再進(jìn)行跨模態(tài)融合。CAM 首先采用不同窗口尺寸的池化操作生成 K K K 個(gè)不同尺度的特征圖構(gòu)成特征金字塔。然后,每個(gè)特征圖將會(huì)通過一個(gè) 3 層的 MLP 用于提取全局特征。之后所有的輸出特征將通過雙線性插值上采樣到原始特征圖,然后沿著特征維度拼接。同樣采用一個(gè)門控單元來調(diào)制最后的輸出。最終,輸出后的特征返回到輸入特征上用于下一階段圖像或語言編碼器的輸入。將語言編碼器劃分為 4 個(gè)階段,并在每個(gè)階段的末尾添加 CAM 模塊。

??用數(shù)學(xué)公式表示如下:令 T i \bold T_i Ti? I i \bold I_i Ii? 分別表示語言和圖像編碼器每個(gè)階段的輸入,于是每個(gè)階段有:
O i = LanguageStage ( T i ) , P i = I m a g e Stage ( I i ) P i k = M L P k ( P o o l k ( P i ) ) , p 2 t K , P i , t 2 p k = X ? M H A k ( O i , P n k ) O i , p 2 t = C o n c a t ( [ O i , p 2 t i , . . . , O i , p 2 t N ] 2 p = C o n c a t ( [ U p ( P i , t 2 p 1 , . . . , U p ( P i , t 2 p N ) ] O i + 1 = O i + tanh ? ( M L P ( O i , p 2 t ) ) P i + 1 = P i + tanh ? ( M L P ( P i , t 2 p ) ) \begin{gathered} \mathbf{O}_i=\text{LanguageStage}(\mathbf{T}_i),\mathbf{P}_i=\mathrm{Image}\text{Stage}(\mathbf{I}_i)\\ \mathbf{P}_i^k=\mathrm{MLP}_k(\mathrm{Pool}_k(\mathbf{P}_i))\\ {}_{,p2t}^{K},\mathbf{P}_{i,t2p}^{k}=\mathrm{X-MHA}_{k}(\mathbf{O}_{i},\mathbf{P}_{n}^{k}) \\ \mathbf{O}_{i,p2t}=\mathrm{Concat}([\mathbf{O}_{i,p2t}^i,...,\mathbf{O}_{i,p2t}^N] \\ _{2p}=\mathrm{Concat}([\mathrm{Up}(\mathbf{P}_{i,t2p}^{1},...,\mathrm{Up}(\mathbf{P}_{i,t2p}^{N})]\\ \mathbf{O}_{i+1}=\mathbf{O}_i+\tanh(\mathsf{MLP}(\mathbf{O}_{i,p2t}))\\ \mathbf{P}_{i+1}=\mathbf{P}_{i}+\operatorname{tanh}(\mathsf{MLP}(\mathbf{P}_{i,t2p})) \end{gathered} Oi?=LanguageStage(Ti?),Pi?=ImageStage(Ii?)Pik?=MLPk?(Poolk?(Pi?)),p2tK?,Pi,t2pk?=X?MHAk?(Oi?,Pnk?)Oi,p2t?=Concat([Oi,p2ti?,...,Oi,p2tN?]2p?=Concat([Up(Pi,t2p1?,...,Up(Pi,t2pN?)]Oi+1?=Oi?+tanh(MLP(Oi,p2t?))Pi+1?=Pi?+tanh(MLP(Pi,t2p?))?其中 U p Up Up 表示上采樣,X-MHA 表示雙向跨模態(tài)多頭注意力。

4.4 跨模態(tài)對齊損失

??采用跨模態(tài)對齊損失來對齊語言和圖像特征,其中 cross-modal alignment loss (CAL) 全面總結(jié)了像素-像素級(jí)別的損失 L P2P \mathcal L_{\text{P2P}} LP2P? 和像素-文本損失 L P2T \mathcal L_{\text{P2T}} LP2T?。用數(shù)學(xué)公式表示如下:給定語言編碼器產(chǎn)生的語言特征 T ∈ R M × D \bold T\in\mathbb{R}^{M\times D} TRM×D,包含 ∣ P ∣ |\mathcal P| P 個(gè)正樣本像素特征的最終像素解碼器 mask 特征 I ∈ R C l × H l × W l \bold I\in \mathbb{R}^{C_l\times H_l \times W_l} IRCl?×Hl?×Wl?, ∣ N ∣ |\mathcal N| N 個(gè)負(fù)樣本像素特征。 I i + \bold I_i^+ Ii+? 表示正樣本集合 P \mathcal P P 中的第 i t h i^{th} ith 個(gè)像素特征, I j ? I_j^- Ij?? 表示負(fù)樣本集合 N \mathbb N N 中的第 j t h j^{th} jth 個(gè)像素特征, T k \bold T_k Tk? 表示第 k t h k^{th} kth 個(gè)語言特征,然后有:
L C A L = L P 2 P + L P 2 T L P 2 P = ? 1 ∣ P ∣ ∑ i ∣ P ∣ e I i + ? I a v g + / τ 1 e I i + ? I a v g + / τ 1 + ∑ j ∣ N ∣ e I i + ? I j ? / τ 1 + ? 1 ∣ N ∣ ∑ j ∣ N ∣ e I j ? ? I a v g ? / τ 1 e I j ? ? I a v g ? / τ 1 + ∑ i ∣ P ∣ e I j ? ? I i + / τ 1 L P 2 T = ? 1 ∣ P ∣ ∑ i ∣ P ∣ e I i + ? T a v g / τ 2 e I i + ? T a v g / τ 2 + ∑ j ∣ N ∣ e I i + ? I j ? / τ 2 \begin{aligned} \mathcal{L}_{\mathrm{CAL}}=\mathcal{L}_{\mathrm{P2P}}+\mathcal{L}_{\mathrm{P2T}}\\ \mathcal{L}_{\mathrm{P2P}}=-\frac{1}{|\mathcal{P}|}\sum_i^{|\mathcal{P}|}\frac{e^{\mathbf{I}_i^+ \cdot \mathbf{I}_{\mathbf{avg}}^+/\tau_1}}{e^{\mathbf{I}_i^+\cdot\mathbf{I}_{\mathbf{avg}}^+/\tau_1}+\sum_j^{|\mathcal{N}|}e^{\mathbf{I}_i^+\cdot\mathbf{I}_j^-/\tau_1}} +-\frac{1}{|\mathcal{N}|}\sum_j^{|\mathcal{N}|}\frac{e^{\mathbf{I}_j^-\cdot\mathbf{I}_{\mathrm{avg}}^-/\tau_1}}{e^{\mathbf{I}_j^-\cdot\mathbf{I}_{\mathrm{avg}}^-/\tau_1}+\sum_i^{|\mathcal{P}|}e^{\mathbf{I}_j^-\cdot\mathbf{I}_i^+/\tau_1}}\\ \mathcal{L}_{\mathrm{P2T}} = - \frac 1 { | \mathcal{P}|}\sum_i^{|\mathcal{P}|}\frac{e^{\mathbf{I}_i^+\cdot\mathbf{T}_{\mathrm{avg}}/\tau_2}}{e^{\mathbf{I}_i^+\cdot\mathbf{T}_{\mathrm{avg}}/\tau_2}+\sum_j^{|\mathcal{N}|}e^{\mathbf{I}_i^+\cdot\mathbf{I}_j^-/\tau_2}} \end{aligned} LCAL?=LP2P?+LP2T?LP2P?=?P1?iP?eIi+??Iavg+?/τ1?+jN?eIi+??Ij??/τ1?eIi+??Iavg+?/τ1??+?N1?jN?eIj???Iavg??/τ1?+iP?eIj???Ii+?/τ1?eIj???Iavg??/τ1??LP2T?=?P1?iP?eIi+??Tavg?/τ2?+jN?eIi+??Ij??/τ2?eIi+??Tavg?/τ2???其中 I a v g + = 1 ∣ P ∣ ∑ i ∣ P ∣ I i + \mathbf{I}_\mathrm{avg}^+=\frac1{|\mathcal{P}|}\sum_i^{|\mathcal{P}|}\mathbf{I}_i^+ Iavg+?=P1?iP?Ii+? I a v g ? = 1 ∣ N ∣ ∑ j ∣ N ∣ I j ? \mathbf{I}_\mathrm{avg}^-=\frac1{|\mathcal{N}|}\sum_j^{|\mathcal{N}|}\mathbf{I}_j^- Iavg??=N1?jN?Ij?? 分別表示平均池化后正樣本像素特征和負(fù)樣本像素特征。 T a v g = proj ? ( 1 M ∑ m M T k ) \mathbf{T}_{\mathrm{avg}}=\operatorname*{proj}(\frac1M\sum_{m}^{M}\mathbf{T}_{k}) Tavg?=proj(M1?mM?Tk?) 為平均池化和線性投影后的詞特征, τ 1 \tau_1 τ1? τ 2 \tau_2 τ2? 為超參數(shù)。需要注意的是所有的特征在進(jìn)行點(diǎn)乘前均經(jīng)過 L2 歸一化處理,但并未在上式中體現(xiàn)。

4.5 損失函數(shù)

??損失函數(shù)為下列 4 個(gè)不同損失的加權(quán)求和:
L = λ B C E L B C E + λ D i c e L D i c e + λ C A L L C A L + λ g r o u n d i n g L g r o u n d i n g , \begin{gathered} \mathcal{L}=\lambda_{\mathrm{BCE}}\mathcal{L}_{\mathrm{BCE}}+\lambda_{\mathrm{Dice}}\mathcal{L}_{\mathrm{Dice}}+ \lambda_\mathrm{CAL}\mathcal{L}_\mathrm{CAL}+\lambda_\mathrm{grounding}\mathcal{L}_\mathrm{grounding}, \end{gathered} L=λBCE?LBCE?+λDice?LDice?+λCAL?LCAL?+λgrounding?Lgrounding?,?實(shí)驗(yàn)中 λ B C E = 2.0 \lambda_{\mathrm{BCE}}=2.0 λBCE?=2.0 λ D i c e = 2.0 \lambda_{\mathrm{Dice}}=2.0 λDice?=2.0, λ g r o u n d i n g = 1.0 \lambda_\mathrm{grounding}=1.0 λgrounding?=1.0 。

五、實(shí)驗(yàn)

5.1 數(shù)據(jù)集及評(píng)估指標(biāo)

  • 數(shù)據(jù)集:RefCOCO、RefCOCO+、GRef
  • 評(píng)估指標(biāo):overall intersection-over-union (oIoU)、mean intersection-overunion (mIoU)

5.2 主要結(jié)果

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer
RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer

5.3 可視化

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer

5.4 消融研究

??訓(xùn)練 10 個(gè) epoch,輸入圖像尺寸 224 × 224 224\times 224 224×224。所有的消融實(shí)驗(yàn)執(zhí)行在 RefCOCO 和 RefCOCO+ 數(shù)據(jù)集上。

  • RIS 性能的影響;
  • Mask 編碼器的設(shè)計(jì);
  • Mask Token 預(yù)測器的設(shè)計(jì);
  • Mask Grounding 的統(tǒng)一效果。
  • CAM 的有效性
  • CAL 的有效性

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer

語言-圖像對齊的影響

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer

MagNet 組件的兼容性

RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記,RIS_REC,論文閱讀,筆記,圖像處理,人工智能,transformer

六、結(jié)論

??本文提出 Mask Grounding,基于周圍的文本、視覺和分割信息,通過教導(dǎo)模型預(yù)測隨機(jī) mask 掉的文本 tokens,實(shí)驗(yàn)效果很好。為全面解決模態(tài)鴻溝,設(shè)計(jì)了一種跨模態(tài)對齊損失和一種輔助對齊模塊。當(dāng)一齊作用時(shí),提出的 MagNet 實(shí)現(xiàn)了 SOTA 的性能。

寫在后面

??這篇論文咋說呢,感覺就是那種頂會(huì)的邊緣,創(chuàng)新點(diǎn)屬于可拒可不拒的那種。最大的敗筆還是論文的寫作確實(shí)不咋地,沒有一種連貫之感。另外,實(shí)驗(yàn)缺少了實(shí)驗(yàn)細(xì)節(jié)的介紹,放在補(bǔ)充材料中嗎?文章來源地址http://www.zghlxwxcb.cn/news/detail-774111.html

到了這里,關(guān)于RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記

    寫在前面 ??該忙的事情忙的差不多了,繼續(xù)看論文寫筆記,把之前兩個(gè)月落下來的補(bǔ)回來?。ㄟ€差7篇博文),歡迎關(guān)注,持續(xù)高產(chǎn)。 論文地址:PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 代碼地址:作者暫未提供 預(yù)計(jì)投稿在 CVPR 2023,昨天還是前天放榜了,不

    2024年02月07日
    瀏覽(18)
  • 零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

    零樣本參考圖像分割 Zero-shot Referring Image Segmentation with Global-Local Context Features 論文筆記

    寫在前面 ??新的一周開始了,沖沖沖~ 最近 Segment Anything 爆火,感覺一些方向可能就此終結(jié)了,比如少樣本、零樣本以及視頻領(lǐng)域,但是新的方向也應(yīng)該會(huì)源源不斷涌出,切勿悲觀~ 論文地址:Zero-shot Referring Image Segmentation with Global-Local Context Features 代碼地址:https://github

    2024年02月09日
    瀏覽(32)
  • 2023 Mask R-CNN 改進(jìn):DynaMask: Dynamic Mask Selection for Instance Segmentation 論文筆記

    2023 Mask R-CNN 改進(jìn):DynaMask: Dynamic Mask Selection for Instance Segmentation 論文筆記

    寫在前面 ??本周更新的第二篇論文閱讀,2023年每周一篇博文,還剩5篇未補(bǔ),繼續(xù)加油~ 論文地址:DynaMask: Dynamic Mask Selection for Instance Segmentation 代碼地址:https://github.com/lslrh/DynaMask 收錄于:CVPR 2023 歡迎關(guān)注,主頁更多干貨,持續(xù)輸出中~ ??一般的實(shí)例分割通常采用固定

    2024年02月01日
    瀏覽(50)
  • [深度學(xué)習(xí)論文筆記]UNETR: Transformers for 3D Medical Image Segmentation

    [深度學(xué)習(xí)論文筆記]UNETR: Transformers for 3D Medical Image Segmentation

    UNETR: Transformers for 3D Medical Image Segmentation UNETR:用于三維醫(yī)學(xué)圖像分割的Transformer Published: Oct 2021 Published in: IEEE Winter Conference on Applications of Computer Vision (WACV) 2022 論文:https://arxiv.org/abs/2103.10504 代碼:https://monai.io/research/unetr 摘要: ??過去十年以來,具有收縮路徑和擴(kuò)展路徑

    2024年01月24日
    瀏覽(23)
  • RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記

    RIS 系列 Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for RIS 論文閱讀筆記

    寫在前面 ??又是一周周末,可惜今天運(yùn)氣不咋好,上午被小汽車撞自行車后座上了,手臂皮外傷,所幸人沒事。下午繼續(xù)淦論文吧。 論文地址:Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation 代碼地址:原論文未提供 預(yù)計(jì)投稿于:CVPR 2

    2024年02月03日
    瀏覽(27)
  • 論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文鏈接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting? [pdf] ? [code] 本文創(chuàng)新點(diǎn): 開發(fā)了一種新穎的修復(fù)框架 MAT,是第一個(gè)能夠直接處理高分辨率圖像的基于 transformer 的修復(fù)系統(tǒng)。 提出了一種新的多頭自注意力 (MSA) 變體,稱為多頭上下文注意力 (MCA),只使用

    2024年02月08日
    瀏覽(23)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

    FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

    論文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代碼:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/會(huì)議:WACV 2023 我們提出了一種新的transformer,能夠分割不同形態(tài)的醫(yī)學(xué)圖像。 醫(yī)學(xué)圖像分析的細(xì)粒度特性所帶來的挑戰(zhàn)意味著transformer對其分析的適應(yīng)仍處

    2024年02月10日
    瀏覽(22)
  • 論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation

    論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation

    采用端到端的結(jié)構(gòu),通過FCN(最后一層仍然是通過卷積完成),最后輸出圖像。 通過編碼(下采樣)-解碼(上采樣)形成一個(gè)“U”型結(jié)構(gòu)。每次下采樣時(shí),先進(jìn)行兩次卷積(通道數(shù)不變),然后通過一次池化層(也可以通過卷積)處理(長寬減半,通道數(shù)加倍);在每次上

    2024年02月13日
    瀏覽(21)
  • 【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開源】 【核心思想】 本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整(Prompt Tuning)方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),通過插入可學(xué)習(xí)的

    2024年01月17日
    瀏覽(45)
  • 【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation

    【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【論文概述】 本文是關(guān)于醫(yī)學(xué)圖像分割中視覺變換器(Vision Transformers,ViTs)的最新綜述。文中詳細(xì)回顧了ViTs及其與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)結(jié)合形成的混合視覺Trans

    2024年02月02日
    瀏覽(46)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包