国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記

2年前作者：乄洛塵分類：Toy博客閱讀(52)違法舉報

這篇具有很好參考價值的文章主要介紹了突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

寫在前面

??這一周趕上五一五天假了，朋友們出去 happy 了嗎？有沒有趕上人山人海的熱鬧？反正我只是在 5.1 那天出去走走，哈哈。
??這是一篇關(guān)于實例分割的文章，所解決的問題在于實例分割中需要的小目標(biāo)像素分辨率太低，于是本文提出一種自適應(yīng)下采樣的方法來解決這一之前沒有人想到要做的隱藏問題。

論文地址：AutoFocusFormer: Image Segmentation off the Grid
代碼地址：https://github.com/apple/ml-autofocusformer/tree/main
收錄于：CVPR 2023
溫馨提示：這篇論文寫作廢話太多，抓不住重點，此篇寫到一半結(jié)束了，但可作為反面教材學(xué)習(xí)避免一些糟糕的表達(dá)。
TiP：2023 每周一篇博文，主頁更多干貨輸出，歡迎瀏覽、關(guān)注。粉絲量破 3K，期待您的參與~

一、Abstract

突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
??真實世界的圖像內(nèi)容總是密度不平衡分布，即大塊的藍(lán)天白云，小塊的目標(biāo)物體，如上圖所示。經(jīng)典的卷積網(wǎng)絡(luò)對所有圖像內(nèi)容一視同仁。但由于小目標(biāo)占據(jù)的空間位置非常小，以至分割等任務(wù)比較糟糕。于是，在下采樣中保留更多的表示小目標(biāo)的像素能夠有助于留存重要的信息。本文提出一種局部注意力 Transformer 圖像識別 Backbone，即 AutoFocusFormer (AFF) 方法，執(zhí)行自適應(yīng)下采樣來學(xué)習(xí)保留最重要的像素信息。由于自適應(yīng)下采樣會產(chǎn)生一些不規(guī)則的像素分布，因此放棄了經(jīng)典的grid結(jié)構(gòu)，而提出了一種新的基于點的局部注意力 block，由一個平衡聚類模塊和一個可學(xué)習(xí)的聚類融合模塊組成。實驗表明 AFF 的性能很棒。

二、引言

??首先指出現(xiàn)實世界圖像內(nèi)容分布通常不平衡，經(jīng)典的卷積網(wǎng)絡(luò)平等地對待圖像上的內(nèi)容，而忽視了不同目標(biāo)的重要性。最近的 Transformer 方法雖然并不是嚴(yán)格依賴于 grid 結(jié)構(gòu)，但是仍采用基于 grid 的技術(shù)，例如步長為 16 的卷積和 $7\times7$ 的局部注意力滑動窗口。
??盡管卷積網(wǎng)絡(luò)被普遍使用，但均勻下采樣對于需要像素水平的細(xì)節(jié)信息例如分割任務(wù)，就力不從心了。于是首先想到的解決方法是提高輸入圖像分辨率，這樣下采樣后的特征圖分辨率也隨之提高，但是計算內(nèi)存和計算量也隨之增加。還有一些方法在分割解碼器中采用不規(guī)則的采樣點來嘗試解決這一問題，但是仍然依賴于均勻下采樣編碼器，留下了一些均勻采樣的隱患。
??為解決這一問題，需要模型能夠在每張圖像上非均勻采樣，即保留重要的細(xì)節(jié)信息同時壓縮那些不太重要的區(qū)域。有一些方法簡單的應(yīng)用全局注意力機(jī)制進(jìn)行自適應(yīng)下采樣，但全局注意力不會放縮到遠(yuǎn)高于 ImageNet 的分辨率，從而無法適應(yīng)于類似圖像分割的任務(wù)。
??為滿足上述要求，本文提出提出第一個端到端的、連續(xù)自適應(yīng)下采樣階段的網(wǎng)絡(luò)，AutoFocusFormer (AFF)。為縮放高分辨率圖到分割的要求，AFF 采用局部注意力 Block。為定義不規(guī)則采樣 tokens 的局部注意力區(qū)域，提出一種平衡聚類算法，利用空間填充曲線將這些不規(guī)則的位置分組到區(qū)域，提出一種自適應(yīng)下采樣模塊通過可微分的區(qū)域融合過程來學(xué)習(xí)不同圖像位置的重要性。最終，修改分割頭以使得能夠適應(yīng) backbone 生成的不規(guī)則空間表示。
??本文提出的方法通過保留任意數(shù)量的token從而能擁有大量的計算預(yù)算，總體而言，貢獻(xiàn)如下：

第一個引入端到端的、有著彈性下采樣率的連續(xù)自適應(yīng)下采樣；
提出一組平衡聚類算法將 tokens 分組到區(qū)域內(nèi)；提出一組聚類融合模塊來啟用端到端的自適應(yīng)下采樣學(xué)習(xí)；
應(yīng)用本文提出的算法到一些 SOTA 的框架內(nèi)，驗證了方法的泛化性；
實驗結(jié)果表明本文提出的方法能夠顯著地識別實例分割任務(wù)中的小目標(biāo)。

三、相關(guān)工作

視覺 Transformer Backbones

??ViTs 模型缺乏稠密預(yù)測任務(wù)所需要的級聯(lián)特征圖，于是 MViT、PVT 出世了。但仍然是在全局注意力圖上進(jìn)行操作，因此所需要的計算成本隨著輸入圖像的尺寸增大而增加。解決辦法之一是應(yīng)用低分辨率的特征圖，例如 BoT、LeViT 等。另外一些方法修改注意力操作：Seg-Former、PoolFormer、AFT、Swin Transformer、SASA。

基于聚類的注意力

??基于稀疏注意力的聚類方法已經(jīng)應(yīng)用在視覺語言領(lǐng)域了，但是這些方法并未涉及自適應(yīng)下采樣。大多數(shù)方法嘗試聚類學(xué)習(xí)到的特征，而本文提出基于 token 位置的聚類。有一些方法將聚類應(yīng)用在解碼器中，不同于這種，本文將聚類應(yīng)用在編碼器中。

自適應(yīng)下采樣

??有很多嘗試結(jié)合自適應(yīng)下采樣與 ViTs 的方法，例如 AdaViT、DynamicViT、A-ViT、Dynamic Grained Encoder、EViT、PS-ViT。但這些方法仍然基于全局注意力圖，因此不能縮放到高分辨率的分割任務(wù)，而是僅關(guān)注與加速 ImageNet 上的分類。有一些方法關(guān)注于自適應(yīng)下采樣策略的設(shè)計，總體趨勢則是發(fā)現(xiàn) tokens 的融合比 tokens 的減少似乎更自然。相應(yīng)的，本文提出一種區(qū)域融合模塊，能夠自適應(yīng)地選擇融合位置，直接從損失中獲得重要 tokens 的得分。

點云網(wǎng)絡(luò)

??有一些 3D 點云方法，直接在一系列不規(guī)則的點上進(jìn)行操作，例如：PointNet++、PointConv、Point Transformer。這些方法總是選擇 K 個最近鄰的或者為每個點找到若干個最近聚類中心。本文利用 PointConv 作為解碼器模型來代替 $3\times3$ 卷積。

四、方法

突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
??如上圖所示：本文提出的 Backbone 模型主要由 patch embedding 模塊和 4 個階段以及一個特定任務(wù)頭組成。其中每個階段由一個聚類算法、一些局部注意力 Transformer 塊、自適應(yīng)下采樣模塊組成。

4.1 聚類和區(qū)域

??原始的聚類方法有著平方復(fù)雜度，于是一些方法通過引入對給定的點進(jìn)行初次 k-means 聚類來加速 KNN。本文同樣采用聚類來定義局部區(qū)域，即將 tokens 劃分為類，將區(qū)域定義為包含多個鄰近的聚類。但是傳統(tǒng)的聚類方法不能直接完成這一目標(biāo)，原因在于這類方法通常需要迭代或者多輪采樣導(dǎo)致速度太慢，并且聚類中心有著不同數(shù)量的賦值點，于是在計算時只能用 0 填充到同一維度從而進(jìn)行批量運(yùn)算，這就占據(jù)了大量的內(nèi)存和時間上的浪費(fèi)。
??于是本文提出一種新穎的平衡聚類方法。

4.1.1 平衡聚類

??通過空間填充曲線將 2D 坐標(biāo)轉(zhuǎn)化為 1D 坐標(biāo)，同時保留 2D 距離信息，然后將這些坐標(biāo)劃分到等大小的組內(nèi)從而得到一個平衡的聚類，于是在線上靠近的點在 2D 空間中也相當(dāng)接近。然而從 2D 轉(zhuǎn)為為 1D 的過程中，很難完整地保存 2D 的信息。為減輕這一丟失問題，本文采用一種兩階段的處理過程。這一想法實質(zhì)上是盡在粗糙的層次上利用空間填充曲線來獲得稀疏且規(guī)則的 2D 樣本位置，然后基于 2D 距離來排列 tokens 的位置。
??確切來說，首先將圖像劃分為粗糙且規(guī)則的 Patch 塊，其數(shù)量與打算聚類的類別數(shù)量相同。每一個 patch 的中心記為空間填充錨點，空間填充曲線在錨點之間創(chuàng)建序列。于是在這序列上位置為 $p\in\mathbb{R}^2$ 處，且屬于錨點 $a_i\in\mathbb{R}^2$ 的 token，同時定義前面的錨點 $a_{i-1}$ 和 $a_{i+1}$ 。計算 token p 到這兩個錨點的距離比 $r$ 如下：
$r(p)=\dfrac{d_{i-1}(p)}{d_{i+1}(p)}=\dfrac{\|p-a_{i-1}\|_2}{\|p-a_{i+1}\|_2}$ 在每個 pathc 上，通過對 $r$ 進(jìn)行降序排列，就能得到一組有序的 tokens。如下圖所示：
突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
注意這一聚類算法在每個階段開始時僅需要執(zhí)行一次，而所有注意力 bolock 和結(jié)尾使用的下采樣模塊在這一階段中共享聚類信息，但這一平衡聚類算法僅適用于低維度的點。

4.1.2 聚類的區(qū)域

??為鼓勵信息在整個圖像上流動，那么注意力就不能僅僅局限于相同的聚類上，例如 Swin-Transformers 通過滑動窗口使得注意力能夠關(guān)注不同層上的不同區(qū)域。但是在本文中，每一層的重聚類會增加計算量。于是采用更小的聚類，并使得每個 token 關(guān)注周圍 $R$ 個鄰近的聚類。
突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記
結(jié)語

??這可能是第一篇寫到最后沒太完成的博文，論文中的寫作一言難盡，廢話太多，抓不住重點，遂到此為止，及時止損。這篇論文的寫作可以算得上反面教材了。文章來源地址http://www.zghlxwxcb.cn/news/detail-462794.html

到了這里，關(guān)于突破經(jīng)典網(wǎng)格特征？AutoFocusFormer: Image Segmentation off the Grid 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[深度學(xué)習(xí)論文筆記]UNETR: Transformers for 3D Medical Image Segmentation
UNETR: Transformers for 3D Medical Image Segmentation UNETR：用于三維醫(yī)學(xué)圖像分割的Transformer Published: Oct 2021 Published in: IEEE Winter Conference on Applications of Computer Vision (WACV) 2022 論文：https://arxiv.org/abs/2103.10504 代碼：https://monai.io/research/unetr 摘要： ??過去十年以來，具有收縮路徑和擴(kuò)展路徑
2024年01月24日
瀏覽(24)
RIS 系列 Mask Grounding for Referring Image Segmentation 論文閱讀筆記
寫在前面 ??一篇 Arxiv 上面的新文章，看看清華大佬們的研究。論文地址：Mask Grounding for Referring Image Segmentation 代碼地址：原論文說將會開源，靜待佳音~ 預(yù)計提交于：CVPR 2024 Ps：2023 年每周一篇博文閱讀筆記，主頁更多干貨，歡迎關(guān)注呀，期待 6 千粉絲有你的參與呦~ ??
2024年02月03日
瀏覽(23)
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 論文閱讀筆記
寫在前面 ??該忙的事情忙的差不多了，繼續(xù)看論文寫筆記，把之前兩個月落下來的補(bǔ)回來?。ㄟ€差7篇博文），歡迎關(guān)注，持續(xù)高產(chǎn)。論文地址：PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 代碼地址：作者暫未提供預(yù)計投稿在 CVPR 2023，昨天還是前天放榜了，不
2024年02月07日
瀏覽(18)
【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation
Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代碼開源] 【論文概述】本文思路借鑒于自然圖像分割領(lǐng)域的 SAM ，介紹了一種名為SegVol的先進(jìn)醫(yī)學(xué)圖像分割模型，旨在構(gòu)建一種圖像分割基礎(chǔ)模型，這是一個面向體
2024年01月16日
瀏覽(23)
FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀
論文：The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代碼：Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/會議：WACV 2023 我們提出了一種新的transformer，能夠分割不同形態(tài)的醫(yī)學(xué)圖像。醫(yī)學(xué)圖像分析的細(xì)粒度特性所帶來的挑戰(zhàn)意味著transformer對其分析的適應(yīng)仍處
2024年02月10日
瀏覽(22)
論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation
采用端到端的結(jié)構(gòu)，通過FCN（最后一層仍然是通過卷積完成），最后輸出圖像。通過編碼（下采樣）-解碼（上采樣）形成一個“U”型結(jié)構(gòu)。每次下采樣時，先進(jìn)行兩次卷積（通道數(shù)不變），然后通過一次池化層（也可以通過卷積）處理（長寬減半，通道數(shù)加倍）；在每次上
2024年02月13日
瀏覽(21)
【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation
Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開源】【核心思想】本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整（Prompt Tuning）方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，通過插入可學(xué)習(xí)的
2024年01月17日
瀏覽(45)
3D醫(yī)學(xué)圖像分割大模型 SegVol: Universal and Interactive Volumetric Medical Image Segmentation
pub: 22 November, 2023 ArXiv [ paper] [ code] 1 體積圖像分割通過準(zhǔn)確提取器官、病變和組織等感興趣的區(qū)域，在醫(yī)學(xué)圖像分析中起著至關(guān)重要的作用，在腫瘤監(jiān)測、手術(shù)計劃、疾病診斷和優(yōu)化治療等臨床應(yīng)用中有著廣泛的應(yīng)用。 2 公開可用的體積醫(yī)學(xué)圖像數(shù)據(jù)集通常由來自不同類別的
2024年02月03日
瀏覽(23)
SegDiff: Image Segmentation with Diffusion Probabilistic Models 基于擴(kuò)散模型的圖像語義分割模型
目錄 Diffusion models是生成模型的一種，同樣的還有GAN，VAE，F(xiàn)low模型等 Abstract 2、related work 3、背景前向擴(kuò)散表達(dá)：反向生成過程： 4、理論 5、實驗 ? 論文地址：https://arxiv.org/pdf/2112.00390.pdf 代碼：截至今天還未公開。隨著人工智能在圖像生成，文本生成以及多模態(tài)生成等領(lǐng)域
2024年02月02日
瀏覽(26)
醫(yī)學(xué)圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation
TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation 在醫(yī)學(xué)圖像分割領(lǐng)域，U形結(jié)構(gòu)的網(wǎng)絡(luò)，尤其是Unet，已經(jīng)取得了很優(yōu)秀的效果。但是，CNN結(jié)構(gòu)并不擅長建立遠(yuǎn)程信息連接，也就是CNN結(jié)構(gòu)的感受野有限。盡管可以通過堆疊CNN結(jié)構(gòu)、使用空洞卷積等方式增加感受野，但也
2024年02月05日
瀏覽(26)

<form id="85wrj"></form>

<style id="85wrj"></style>

<i id="85wrj"></i>

<rp id="85wrj"><legend id="85wrj"><s id="85wrj"></s></legend></rp>