国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記

這篇具有很好參考價值的文章主要介紹了突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


寫在前面

??這一周趕上五一五天假了,朋友們出去 happy 了嗎?有沒有趕上人山人海的熱鬧?反正我只是在 5.1 那天出去走走,哈哈。
??這是一篇關(guān)于實例分割的文章,所解決的問題在于實例分割中需要的小目標(biāo)像素分辨率太低,于是本文提出一種自適應(yīng)下采樣的方法來解決這一之前沒有人想到要做的隱藏問題。

  • 論文地址:AutoFocusFormer: Image Segmentation off the Grid
  • 代碼地址:https://github.com/apple/ml-autofocusformer/tree/main
  • 收錄于:CVPR 2023
  • 溫馨提示:這篇論文寫作廢話太多,抓不住重點,此篇寫到一半結(jié)束了,但可作為反面教材學(xué)習(xí)避免一些糟糕的表達(dá)。
  • TiP:2023 每周一篇博文,主頁更多干貨輸出,歡迎瀏覽、關(guān)注。粉絲量破 3K,期待您的參與~

一、Abstract

突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
??真實世界的圖像內(nèi)容總是密度不平衡分布,即大塊的藍(lán)天白云,小塊的目標(biāo)物體,如上圖所示。經(jīng)典的卷積網(wǎng)絡(luò)對所有圖像內(nèi)容一視同仁。但由于小目標(biāo)占據(jù)的空間位置非常小,以至分割等任務(wù)比較糟糕。于是,在下采樣中保留更多的表示小目標(biāo)的像素能夠有助于留存重要的信息。本文提出一種局部注意力 Transformer 圖像識別 Backbone,即 AutoFocusFormer (AFF) 方法,執(zhí)行自適應(yīng)下采樣來學(xué)習(xí)保留最重要的像素信息。由于自適應(yīng)下采樣會產(chǎn)生一些不規(guī)則的像素分布,因此放棄了經(jīng)典的grid結(jié)構(gòu),而提出了一種新的基于點的局部注意力 block,由一個平衡聚類模塊和一個可學(xué)習(xí)的聚類融合模塊組成。實驗表明 AFF 的性能很棒。

二、引言

??首先指出現(xiàn)實世界圖像內(nèi)容分布通常不平衡,經(jīng)典的卷積網(wǎng)絡(luò)平等地對待圖像上的內(nèi)容,而忽視了不同目標(biāo)的重要性。最近的 Transformer 方法雖然并不是嚴(yán)格依賴于 grid 結(jié)構(gòu),但是仍采用基于 grid 的技術(shù),例如步長為 16 的卷積和 7 × 7 7\times7 7×7 的局部注意力滑動窗口。
??盡管卷積網(wǎng)絡(luò)被普遍使用,但均勻下采樣對于需要像素水平的細(xì)節(jié)信息例如分割任務(wù),就力不從心了。于是首先想到的解決方法是提高輸入圖像分辨率,這樣下采樣后的特征圖分辨率也隨之提高,但是計算內(nèi)存和計算量也隨之增加。還有一些方法在分割解碼器中采用不規(guī)則的采樣點來嘗試解決這一問題,但是仍然依賴于均勻下采樣編碼器,留下了一些均勻采樣的隱患。
??為解決這一問題,需要模型能夠在每張圖像上非均勻采樣,即 保留重要的細(xì)節(jié)信息同時壓縮那些不太重要的區(qū)域。有一些方法簡單的應(yīng)用全局注意力機(jī)制進(jìn)行自適應(yīng)下采樣,但全局注意力不會放縮到遠(yuǎn)高于 ImageNet 的分辨率,從而無法適應(yīng)于類似圖像分割的任務(wù)。
??為滿足上述要求,本文提出提出第一個端到端的、連續(xù)自適應(yīng)下采樣階段的網(wǎng)絡(luò),AutoFocusFormer (AFF)。為縮放高分辨率圖到分割的要求,AFF 采用局部注意力 Block。為定義不規(guī)則采樣 tokens 的局部注意力區(qū)域,提出一種平衡聚類算法,利用空間填充曲線將這些不規(guī)則的位置分組到區(qū)域,提出一種自適應(yīng)下采樣模塊通過可微分的區(qū)域融合過程來學(xué)習(xí)不同圖像位置的重要性。最終,修改分割頭以使得能夠適應(yīng) backbone 生成的不規(guī)則空間表示。
??本文提出的方法通過保留任意數(shù)量的token從而能擁有大量的計算預(yù)算,總體而言,貢獻(xiàn)如下:

  • 第一個引入端到端的、有著彈性下采樣率的連續(xù)自適應(yīng)下采樣;
  • 提出一組平衡聚類算法將 tokens 分組到區(qū)域內(nèi);提出一組聚類融合模塊來啟用端到端的自適應(yīng)下采樣學(xué)習(xí);
  • 應(yīng)用本文提出的算法到一些 SOTA 的框架內(nèi),驗證了方法的泛化性;
  • 實驗結(jié)果表明本文提出的方法能夠顯著地識別實例分割任務(wù)中的小目標(biāo)。

三、相關(guān)工作

視覺 Transformer Backbones

??ViTs 模型缺乏稠密預(yù)測任務(wù)所需要的級聯(lián)特征圖,于是 MViT、PVT 出世了。但仍然是在全局注意力圖上進(jìn)行操作,因此所需要的計算成本隨著輸入圖像的尺寸增大而增加。解決辦法之一是應(yīng)用低分辨率的特征圖,例如 BoT、LeViT 等。另外一些方法修改注意力操作:Seg-Former、PoolFormer、AFT、Swin Transformer、SASA。

基于聚類的注意力

??基于稀疏注意力的聚類方法已經(jīng)應(yīng)用在視覺語言領(lǐng)域了,但是這些方法并未涉及自適應(yīng)下采樣。大多數(shù)方法嘗試聚類學(xué)習(xí)到的特征,而本文提出基于 token 位置的聚類。有一些方法將聚類應(yīng)用在解碼器中,不同于這種,本文將聚類應(yīng)用在編碼器中。

自適應(yīng)下采樣

??有很多嘗試結(jié)合自適應(yīng)下采樣與 ViTs 的方法,例如 AdaViT、DynamicViT、A-ViT、Dynamic Grained Encoder、EViT、PS-ViT。但這些方法仍然基于全局注意力圖,因此不能縮放到高分辨率的分割任務(wù),而是僅關(guān)注與加速 ImageNet 上的分類。有一些方法關(guān)注于自適應(yīng)下采樣策略的設(shè)計,總體趨勢則是發(fā)現(xiàn) tokens 的融合比 tokens 的減少似乎更自然。相應(yīng)的,本文提出一種區(qū)域融合模塊,能夠自適應(yīng)地選擇融合位置,直接從損失中獲得重要 tokens 的得分。

點云網(wǎng)絡(luò)

??有一些 3D 點云方法,直接在一系列不規(guī)則的點上進(jìn)行操作,例如:PointNet++、PointConv、Point Transformer。這些方法總是選擇 K 個最近鄰的或者為每個點找到若干個最近聚類中心。本文利用 PointConv 作為解碼器模型來代替 3 × 3 3\times3 3×3 卷積。

四、方法

突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
??如上圖所示:本文提出的 Backbone 模型主要由 patch embedding 模塊和 4 個階段以及一個特定任務(wù)頭組成。其中每個階段由一個聚類算法、一些局部注意力 Transformer 塊、自適應(yīng)下采樣模塊組成。

4.1 聚類和區(qū)域

??原始的聚類方法有著平方復(fù)雜度,于是一些方法通過引入對給定的點進(jìn)行初次 k-means 聚類來加速 KNN。本文同樣采用聚類來定義局部區(qū)域,即將 tokens 劃分為類,將區(qū)域定義為包含多個鄰近的聚類。但是傳統(tǒng)的聚類方法不能直接完成這一目標(biāo),原因在于這類方法通常需要迭代或者多輪采樣導(dǎo)致速度太慢,并且聚類中心有著不同數(shù)量的賦值點,于是在計算時只能用 0 填充到同一維度從而進(jìn)行批量運(yùn)算,這就占據(jù)了大量的內(nèi)存和時間上的浪費(fèi)。
??于是本文提出一種新穎的平衡聚類方法。

4.1.1 平衡聚類

??通過空間填充曲線將 2D 坐標(biāo)轉(zhuǎn)化為 1D 坐標(biāo),同時保留 2D 距離信息,然后將這些坐標(biāo)劃分到等大小的組內(nèi)從而得到一個平衡的聚類,于是在線上靠近的點在 2D 空間中也相當(dāng)接近。然而從 2D 轉(zhuǎn)為為 1D 的過程中,很難完整地保存 2D 的信息。為減輕這一丟失問題,本文采用一種兩階段的處理過程。這一想法實質(zhì)上是盡在粗糙的層次上利用空間填充曲線來獲得稀疏且規(guī)則的 2D 樣本位置,然后基于 2D 距離來排列 tokens 的位置。
??確切來說,首先將圖像劃分為粗糙且規(guī)則的 Patch 塊,其數(shù)量與打算聚類的類別數(shù)量相同。每一個 patch 的中心記為空間填充錨點,空間填充曲線在錨點之間創(chuàng)建序列。于是在這序列上位置為 p ∈ R 2 p\in\mathbb{R}^2 pR2 處,且屬于錨點 a i ∈ R 2 a_i\in\mathbb{R}^2 ai?R2 的 token,同時定義前面的錨點 a i ? 1 a_{i-1} ai?1? a i + 1 a_{i+1} ai+1?。計算 token p 到這兩個錨點的距離比 r r r 如下:
r ( p ) = d i ? 1 ( p ) d i + 1 ( p ) = ∥ p ? a i ? 1 ∥ 2 ∥ p ? a i + 1 ∥ 2 r(p)=\dfrac{d_{i-1}(p)}{d_{i+1}(p)}=\dfrac{\|p-a_{i-1}\|_2}{\|p-a_{i+1}\|_2} r(p)=di+1?(p)di?1?(p)?=p?ai+1?2?p?ai?1?2??在每個 pathc 上,通過對 r r r 進(jìn)行降序排列,就能得到一組有序的 tokens。如下圖所示:
突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
注意這一聚類算法在每個階段開始時僅需要執(zhí)行一次,而所有注意力 bolock 和結(jié)尾使用的下采樣模塊在這一階段中共享聚類信息,但這一平衡聚類算法僅適用于低維度的點。

4.1.2 聚類的區(qū)域

??為鼓勵信息在整個圖像上流動,那么注意力就不能僅僅局限于相同的聚類上,例如 Swin-Transformers 通過滑動窗口使得注意力能夠關(guān)注不同層上的不同區(qū)域。但是在本文中,每一層的重聚類會增加計算量。于是采用更小的聚類,并使得每個 token 關(guān)注周圍 R R R 個鄰近的聚類。
突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
結(jié)語

??這可能是第一篇寫到最后沒太完成的博文,論文中的寫作一言難盡,廢話太多,抓不住重點,遂到此為止,及時止損。這篇論文的寫作可以算得上反面教材了。文章來源地址http://www.zghlxwxcb.cn/news/detail-462794.html

到了這里,關(guān)于突破經(jīng)典網(wǎng)格特征?AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [深度學(xué)習(xí)論文筆記]UNETR: Transformers for 3D Medical Image Segmentation

    [深度學(xué)習(xí)論文筆記]UNETR: Transformers for 3D Medical Image Segmentation

    UNETR: Transformers for 3D Medical Image Segmentation UNETR:用于三維醫(yī)學(xué)圖像分割的Transformer Published: Oct 2021 Published in: IEEE Winter Conference on Applications of Computer Vision (WACV) 2022 論文:https://arxiv.org/abs/2103.10504 代碼:https://monai.io/research/unetr 摘要: ??過去十年以來,具有收縮路徑和擴(kuò)展路徑

    2024年01月24日
    瀏覽(24)
  • RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記

    RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記

    寫在前面 ??一篇 Arxiv 上面的新文章,看看清華大佬們的研究。 論文地址:Mask Grounding for Referring Image Segmentation 代碼地址:原論文說將會開源,靜待佳音~ 預(yù)計提交于:CVPR 2024 Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~ ??

    2024年02月03日
    瀏覽(23)
  • PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記

    寫在前面 ??該忙的事情忙的差不多了,繼續(xù)看論文寫筆記,把之前兩個月落下來的補(bǔ)回來?。ㄟ€差7篇博文),歡迎關(guān)注,持續(xù)高產(chǎn)。 論文地址:PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 代碼地址:作者暫未提供 預(yù)計投稿在 CVPR 2023,昨天還是前天放榜了,不

    2024年02月07日
    瀏覽(18)
  • 【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代碼開源] 【論文概述】 本文思路借鑒于自然圖像分割領(lǐng)域的 SAM ,介紹了一種名為SegVol的先進(jìn)醫(yī)學(xué)圖像分割模型,旨在構(gòu)建一種 圖像分割基礎(chǔ)模型 ,這是一個面向體

    2024年01月16日
    瀏覽(23)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

    FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

    論文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代碼:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/會議:WACV 2023 我們提出了一種新的transformer,能夠分割不同形態(tài)的醫(yī)學(xué)圖像。 醫(yī)學(xué)圖像分析的細(xì)粒度特性所帶來的挑戰(zhàn)意味著transformer對其分析的適應(yīng)仍處

    2024年02月10日
    瀏覽(22)
  • 論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation

    論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation

    采用端到端的結(jié)構(gòu),通過FCN(最后一層仍然是通過卷積完成),最后輸出圖像。 通過編碼(下采樣)-解碼(上采樣)形成一個“U”型結(jié)構(gòu)。每次下采樣時,先進(jìn)行兩次卷積(通道數(shù)不變),然后通過一次池化層(也可以通過卷積)處理(長寬減半,通道數(shù)加倍);在每次上

    2024年02月13日
    瀏覽(21)
  • 【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開源】 【核心思想】 本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整(Prompt Tuning)方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),通過插入可學(xué)習(xí)的

    2024年01月17日
    瀏覽(45)
  • 3D醫(yī)學(xué)圖像分割大模型 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    3D醫(yī)學(xué)圖像分割大模型 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    pub: 22 November, 2023 ArXiv [ paper] [ code] 1 體積圖像分割通過準(zhǔn)確提取器官、病變和組織等感興趣的區(qū)域,在醫(yī)學(xué)圖像分析中起著至關(guān)重要的作用,在腫瘤監(jiān)測、手術(shù)計劃、疾病診斷和優(yōu)化治療等臨床應(yīng)用中有著廣泛的應(yīng)用。 2 公開可用的體積醫(yī)學(xué)圖像數(shù)據(jù)集通常由來自不同類別的

    2024年02月03日
    瀏覽(23)
  • SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于擴(kuò)散模型的圖像語義分割模型

    SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于擴(kuò)散模型的圖像語義分割模型

    目錄 Diffusion models是生成模型的一種,同樣的還有GAN,VAE,F(xiàn)low模型等 Abstract 2、related work 3、背景 前向擴(kuò)散表達(dá): 反向生成過程: 4、理論 5、實驗 ? 論文地址:https://arxiv.org/pdf/2112.00390.pdf 代碼:截至今天還未公開。 隨著人工智能在圖像生成,文本生成以及多模態(tài)生成等領(lǐng)域

    2024年02月02日
    瀏覽(26)
  • 醫(yī)學(xué)圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    醫(yī)學(xué)圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation 在醫(yī)學(xué)圖像分割領(lǐng)域,U形結(jié)構(gòu)的網(wǎng)絡(luò),尤其是Unet,已經(jīng)取得了很優(yōu)秀的效果。但是,CNN結(jié)構(gòu)并不擅長建立遠(yuǎn)程信息連接,也就是CNN結(jié)構(gòu)的感受野有限。盡管可以通過堆疊CNN結(jié)構(gòu)、使用空洞卷積等方式增加感受野,但也

    2024年02月05日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包