国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<pre id="xntyy"><cite id="xntyy"><li id="xntyy"></li></cite></pre>

<center id="xntyy"><rp id="xntyy"><wbr id="xntyy"></wbr></rp></center>

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

2年前作者：deephub分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了MaskFormer：將語義分割和實例分割作為同一任務進行訓練。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

目標檢測和實例分割是計算機視覺的基本任務，在從自動駕駛到醫(yī)學成像的無數(shù)應用中發(fā)揮著關(guān)鍵作用。目標檢測的傳統(tǒng)方法中通常利用邊界框技術(shù)進行對象定位，然后利用逐像素分類為這些本地化實例分配類。但是當處理同一類的重疊對象時，或者在每個圖像的對象數(shù)量不同的情況下，這些方法通常會出現(xiàn)問題。

諸如Faster R-CNN、Mask R-CNN等經(jīng)典方法雖然非常有效，但由于其固有的固定大小輸出空間，它們通常預測每個圖像的邊界框和類的固定數(shù)量，這可能與圖像中實例的實際數(shù)量不匹配，特別是當不同圖像的實例數(shù)量不同時。并且它們可能無法充分處理相同類的對象重疊的情況，從而導致分類不一致。

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

本文中將介紹Facebook AI Research在21年發(fā)布的一種超越這些限制的實例分割方法MaskFormer?？梢钥吹綇哪菚r候開始，F(xiàn)B就對Mask和Transformer進行整合研究了。

1、逐像素分類和掩碼分類的區(qū)別

逐像素分類

該方法指的是為圖像中的每個像素分配一個類標簽。在這種情況下，每個像素都被獨立處理，模型根據(jù)該像素位置的輸入特征預測該像素屬于哪個類。對于邊界清晰、定義明確的對象，逐像素分類可以非常準確。但是當感興趣的對象具有復雜的形狀，相互重疊或位于雜亂的背景中時，它可能會遇到困難，這可以解釋為這些模型傾向于首先根據(jù)其空間邊界來查看對象。

考慮一幅描繪多輛重疊汽車的圖像。傳統(tǒng)的實例分割模型(如逐像素模型)可能難以應對如下所示的情況。如果汽車重疊，這些模型可能會為整個重疊的汽車創(chuàng)建一個單一的并且是合并后的掩碼?？赡軙堰@個場景誤認為是一輛形狀奇怪的大型汽車，而不是多輛不同的汽車。

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

掩碼分類

掩碼分類(在MaskFormer中使用)采用了不同的方法。掩碼分類模型不是獨立對每個像素進行分類，而是為圖像中的每個對象實例預測特定于類的掩碼。這個掩碼本質(zhì)上是一個二值圖像，表示哪些像素屬于對象實例，哪些不屬于。換句話說，單個遮罩代表整個對象，而不僅僅是單個像素。

在前一個例子中，使用掩碼分類使我們能夠識別圖像中有多個“car”類實例，并為每個實例分配一個唯一的掩碼，即使它們重疊。每輛車都被視為一個獨立的實例，并被賦予自己獨特的面具，以保持其與其他汽車分開的身份。

使用掩碼分類/分割的模型示例:掩碼R-CNN, DETR, Max-deeplab…

DETR

DETR的核心是一個被稱為Transformer的強大機制，它允許模型克服傳統(tǒng)逐像素和掩碼分類方法的一些關(guān)鍵限制。

在傳統(tǒng)的掩模分類方法中，如果兩輛車重疊，可能難以將它們區(qū)分為不同的實體。而DETR為這類問題提供了一個優(yōu)雅的解決方案。DETR不是為每輛車生成掩碼，而是預測一組固定的邊界框和相關(guān)的類概率。這種“集合預測”方法允許DETR以驚人的效率處理涉及重疊對象的復雜場景。

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

雖然DETR徹底改變了邊界框預測，但它并沒有直接提供分割掩碼——這是許多應用程序中至關(guān)重要的細節(jié)。這時就出現(xiàn)了MaskFormer：它擴展了DETR的魯棒集預測機制，為每個檢測到的對象創(chuàng)建特定于類的掩碼。所以MaskFormer建立在DETR的優(yōu)勢之上，并增強了生成高質(zhì)量分割掩碼的能力。

比如在上面提到的汽車場景中，MaskFormer不僅將每輛車識別為一個單獨的實體(感謝DETR的集合預測機制)，而且還為每輛車生成一個精確的掩碼，準確捕獲它們的邊界，即使在重疊的情況下也是如此。

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

DETR和MaskFormer之間的這種協(xié)同作用為更準確、更高效的實例分割打開了一個可能性的世界，超越了傳統(tǒng)的逐像素和掩碼分類方法的限制。

MaskFormer

下面是MaskFormer的架構(gòu):

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

通過主干提取特征:MaskFormer主干網(wǎng)絡(luò)負責從輸入中提取關(guān)鍵的圖像特征。這個主干可以是任何流行的CNN(卷積神經(jīng)網(wǎng)絡(luò))架構(gòu)，比如ResNet，它處理圖像并提取一組特征，用F表示。

逐像素嵌入生成:然后將這些特征F傳遞給像素解碼器，該解碼器逐漸對圖像特征進行上采樣，生成我們所說的“逐像素嵌入”(E像素)。這些嵌入捕獲圖像中每個像素的局部和全局上下文。

段（Per-Segment ）嵌入生成:與此同時，Transformer Decoder關(guān)注圖像特征F并生成一組“N”段嵌入，用Q表示，通過“注意力”的機制為圖像的不同部分分配不同的重要性權(quán)重。這些嵌入本質(zhì)上代表了我們想要分類和定位的圖像中的潛在對象(或片段)。

這里的術(shù)“Segment ”是指模型試圖識別和分割的圖像中對象的潛在實例。

一般來說，編碼器處理輸入數(shù)據(jù)，解碼器使用處理后的數(shù)據(jù)生成輸出。編碼器和解碼器的輸入通常是序列，就像機器翻譯任務中的句子一樣。

而maskformer的“編碼器”是骨干網(wǎng)絡(luò)(用于maskFormer的Resnet50)，它處理輸入圖像并生成一組特征映射。這些特征映射與傳統(tǒng)Transformer中的編碼器輸出具有相同的目的，提供輸入數(shù)據(jù)的豐富的高級表示。

然后使用這些嵌入Q來預測N個類標簽和N個相應的掩碼嵌入(E掩碼)。這就是MaskFormer真正的亮點所在。與傳統(tǒng)分割模型預測每個像素的類標簽不同，MaskFormer預測每個潛在對象的類標簽，以及相應的掩碼嵌入。

在獲得掩碼嵌入后，MaskFormer通過像素嵌入(E像素)與掩碼嵌入(E掩碼)之間的點積產(chǎn)生N個二進制掩碼，然后進行s型激活。這個過程可能會將每個對象實例的二進制掩碼重疊。

最后對于像語義分割這樣的任務，MaskFormer可以通過將N個二進制掩碼與其相應的類預測相結(jié)合來計算最終預測。這種組合是通過一個簡單的矩陣乘法實現(xiàn)的，給我們最終的分割和分類圖像。

MaskFormer用于語義和實例分割

語義分割涉及到用類標簽標記圖像的每個像素(例如“汽車”，“狗”，“人”等)。但是它不區(qū)分同一類的不同實例。例如如果圖像中有兩個人，語義分割會將所有屬于這兩個人的像素標記為“人”，但它不會區(qū)分A和B。

而實例分割不僅對每個像素進行分類，而且對同一類的不同實例進行分離。比如實例分割需要將所有屬于A的像素標記為“A”，所有屬于B的像素標記為“B”。

MaskFormer：將語義分割和實例分割作為同一任務進行訓練

大多數(shù)傳統(tǒng)的計算機視覺模型將語義分割和實例分割視為獨立的問題，需要不同的模型、損失函數(shù)和訓練過程。但是MaskFormer設(shè)計了一個統(tǒng)一的方式處理這兩個任務：它通過預測圖像中每個對象實例的類標簽和二進制掩碼來工作。這種方法本質(zhì)上結(jié)合了語義和實例分割的各個方面。

對于損失函數(shù)，MaskFormer使用統(tǒng)一的損失函數(shù)來處理這個掩碼分類問題。這個損失函數(shù)以一種與語義和實例分割任務一致的方式評估預測掩碼的質(zhì)量。

所以使用相同的損失函數(shù)和訓練過程得到的的MaskFormer模型可以不做任何修改地同時應用于語義和實例分割任務。

總結(jié)

MaskFormer提供了一種新的圖像分割方法，集成了DETR模型和Transformer架構(gòu)的優(yōu)點。它使用基于掩碼的預測，增強了對圖像中復雜對象交互的處理。

MaskFormer的統(tǒng)一方法在圖像分割方面向前邁出了一大步，為計算機視覺的進步開辟了新的可能性。它為進一步的研究奠定了基礎(chǔ)，旨在提高我們理解和解釋視覺世界的能力。

論文地址：

https://avoid.overfit.cn/post/3f38050c2a794e33ac9ee66642740fd3

作者：HannaMergui文章來源地址http://www.zghlxwxcb.cn/news/detail-499590.html

到了這里，關(guān)于MaskFormer：將語義分割和實例分割作為同一任務進行訓練的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

深度學習中語義分割、實例分割、目標檢測和圖像分類區(qū)別
語義分割實例分割目標檢測語義分割：需要判斷每個像素屬于哪一個類別，屬于像素級別分類標注實例分割：相較于語義分割會將同一類別的不同物體進行分離標注 ? 目標檢測：輸入圖像通常包含多個物體，對物體的位置與類別進行標注 ?圖像分類：輸入圖像通常包含一
2024年02月08日
瀏覽(30)
關(guān)聯(lián)分割點云中的實例和語義＜論文＞
題目：Associatively Segmenting Instances and Semantics in Point Clouds 代碼：https://github.com/WXinlong/ASIS 文章討論：?Instances?Segmentation 和?Semantics Segmentation 實例Instances Segmentation：分辨出每個單獨事物，但不知道是否是一類語義Semantics Segmentation：分辨出不同類事物，但不知道每類事物具體
2024年02月03日
瀏覽(13)
計算機視覺與深度學習-圖像分割-視覺識別任務01-語義分割-【北郵魯鵬】
給每個像素分配類別標簽。不區(qū)分實例，只考慮像素類別。滑動窗口缺點重疊區(qū)域的特征反復被計算，效率很低。所以針對該問題提出了新的解決方案–全卷積。讓整個網(wǎng)絡(luò)只包含卷積層，一次性輸出所有像素的類別預測。全卷積優(yōu)點不用將圖片分為一個個小區(qū)域然后再
2024年02月07日
瀏覽(20)
【計算機視覺】CVPR 2023 上的分割論文真的是神仙打架（介紹前12篇，圖像分割，全景分割，語義分割，實例分割）
AutoFocusFormer：網(wǎng)格外的圖像分割論文地址：真實世界的圖像通常具有高度不平衡的內(nèi)容密度。有些區(qū)域非常均勻，例如大片藍天，而其他區(qū)域則散布著許多小物體。然而，卷積深度網(wǎng)絡(luò)中常用的連續(xù)網(wǎng)格下采樣策略平等對待所有區(qū)域。因此，小對象在很少的空間位置表示
2024年02月12日
瀏覽(38)
使用SAM進行遙感圖像語義分割
Segment Anything Model(SAM)論文 Segment Anything Model(SAM)模型解讀及代碼復現(xiàn) Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model論文 The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Rem
2024年02月07日
瀏覽(20)
YOLOv5+BiSeNet——同時進行目標檢測和語義分割
在Gayhub上看到個項目，有人在YOLOv5的基礎(chǔ)上，新增了一個分割頭，把BiSeNet語義分割算法加入到了目標檢測中，使其能夠同時進行目標檢測和語義分割。項目地址：https://github.com/TomMao23/multiyolov5 先看我使用原作者提供的模型，復刻出來的效果： (本來想放視頻的，不過傳了兩
2024年02月07日
瀏覽(20)
PointNet：利用深度學習對點云進行3D分類和語義分割
參考自，PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 代碼倉庫地址為：https://github.com/charlesq34/pointnet/ 介紹這次介紹的是一個比較基礎(chǔ)的工作，針對空間點云，進行分類或者語義分割的框架，現(xiàn)在通常也被用作對RGB-D圖像進行特征提取的部分。該工作的目的就是
2024年02月03日
瀏覽(23)
可解釋深度學習：從感受野到深度學習的三大基本任務：圖像分類，語義分割，目標檢測，讓你真正理解深度學習
目錄 ? 前言一、初識感受野 1.1猜一猜他是什么？ 1.2人眼視覺系統(tǒng)下的感受野 1.3深度神經(jīng)網(wǎng)絡(luò)中的感受野 1.3.1感受野的性質(zhì) 1.3.2感受野的定義 1.3.3舉一個例子 1.3.4以VGG網(wǎng)絡(luò)為例二、感受野的計算 2.1 哪些操作能夠改變感受野？ 2.2 感受野的計算公式 2.3 感受野的中心位置計算
2024年02月02日
瀏覽(26)
計算機視覺與深度學習-圖像分割-視覺識別任務03-實例分割-【北郵魯鵬】
論文題目：Mask R-CNN 論文鏈接：論文下載論文代碼：Facebook代碼鏈接；Tensorflow版本代碼鏈接； Keras and TensorFlow版本代碼鏈接；MxNet版本代碼鏈接參考：Mask R-CNN詳解將圖像中的每個像素與其所屬的目標實例進行關(guān)聯(lián)，并為每個像素分配一個特定的標簽，以實現(xiàn)像素級別的目標
2024年02月07日
瀏覽(27)
使用MMDetection進行目標檢測、實例和全景分割
MMDetection 是一個基于 PyTorch 的目標檢測開源工具箱，它是 OpenMMLab 項目的一部分。包含以下主要特性：支持三個任務目標檢測（Object Detection）是指分類并定位圖片中物體的任務實例分割（Instance Segmentation）是指分類，分割圖片物體的任務全景分割（Panoptic Segmentation）是統(tǒng)一
2024年02月07日
瀏覽(27)

<p id="87xyc"><i id="87xyc"></i></p>