国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述

這篇具有很好參考價(jià)值的文章主要介紹了【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、導(dǎo)讀

SAM (Segment Anything )作為一個(gè)視覺(jué)的分割基礎(chǔ)模型,在短短的3個(gè)月時(shí)間吸引了很多研究者的關(guān)注和跟進(jìn)。如果你想系統(tǒng)地了解SAM背后的技術(shù),并跟上內(nèi)卷的步伐,并能做出屬于自己的SAM模型,那么接下這篇Transformer-Based的Segmentation Survey是不容錯(cuò)過(guò)!

近期,南洋理工大學(xué)和上海人工智能實(shí)驗(yàn)室?guī)孜谎芯咳藛T寫(xiě)了一篇關(guān)于Transformer-Based的Segmentation的綜述,系統(tǒng)地回顧了近些年來(lái)基于Transformer的分割與檢測(cè)模型,調(diào)研的最新模型截止至今年6月!

同時(shí),綜述還包括了相關(guān)領(lǐng)域的最新論文以及大量的實(shí)驗(yàn)分析與對(duì)比,并披露了多個(gè)具有廣闊前景的未來(lái)研究方向!

論文地址:

https://arxiv.org/abs/2304.09854

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割
【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割
發(fā)表單位:南洋理工大學(xué),上海人工智能實(shí)驗(yàn)室

項(xiàng)目地址:

https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

二、摘要

視覺(jué)分割旨在將圖像、視頻幀或點(diǎn)云分割為多個(gè)片段或組。這種技術(shù)具有許多現(xiàn)實(shí)世界的應(yīng)用,如自動(dòng)駕駛、圖像編輯、機(jī)器人感知和醫(yī)學(xué)分析。

在過(guò)去的十年里,基于深度學(xué)習(xí)的方法在這個(gè)領(lǐng)域取得了顯著的進(jìn)展。

最近,Transformer成為一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),最初設(shè)計(jì)用于自然語(yǔ)言處理,在各種視覺(jué)處理任務(wù)中明顯超越了以往的卷積或循環(huán)方法。

具體而言,視覺(jué)Transformer為各種分割任務(wù)提供了強(qiáng)大、統(tǒng)一甚至更簡(jiǎn)單的解決方案。

本綜述全面概述了基于Transformer的視覺(jué)分割,總結(jié)了最近的進(jìn)展。

首先,本文回顧了背景,包括問(wèn)題定義、數(shù)據(jù)集和以往的卷積方法。接下來(lái),本文總結(jié)了一個(gè)元架構(gòu),將所有最近的基于Transformer的方法統(tǒng)一起來(lái)?;谶@個(gè)元架構(gòu),本文研究了各種方法設(shè)計(jì),包括對(duì)這個(gè)元架構(gòu)的修改和相關(guān)應(yīng)用。此外,本文還介紹了幾個(gè)相關(guān)的設(shè)置,包括3D點(diǎn)云分割、基礎(chǔ)模型調(diào)優(yōu)、域適應(yīng)分割、高效分割和醫(yī)學(xué)分割。此外,本文在幾個(gè)廣泛認(rèn)可的數(shù)據(jù)集上編譯和重新評(píng)估了這些方法。最后,本文確定了這個(gè)領(lǐng)域的開(kāi)放挑戰(zhàn),并提出了未來(lái)研究的方向。

本文仍會(huì)持續(xù)和跟蹤最新的基于Transformer的分割與檢測(cè)方法。

三、內(nèi)容解讀

3.1 研究動(dòng)機(jī)

  • ViT和DETR的出現(xiàn)使得分割與檢測(cè)領(lǐng)域有了十足的進(jìn)展,目前幾乎各個(gè)數(shù)據(jù)集基準(zhǔn)上,排名靠前的方法都是基于Transformer的。為此有必要系統(tǒng)地總結(jié)與對(duì)比下這個(gè)方向的方法與技術(shù)特點(diǎn)。
  • 近期的大模型架構(gòu)均基于Transformer結(jié)構(gòu),包括多模態(tài)模型以及分割的基礎(chǔ)模型(SAM),視覺(jué)各個(gè)任務(wù)向著統(tǒng)一的模型建??繑n。
  • 分割與檢測(cè)衍生出來(lái)了很多相關(guān)下游任務(wù),這些任務(wù)很多方法也是采用Transformer結(jié)構(gòu)來(lái)解決。

3.2 這篇綜述的特色,以及與以往的Transformer綜述有什么區(qū)別?

  1. 系統(tǒng)性和可讀性。本文系統(tǒng)地回顧了分割的各個(gè)任務(wù)定義,以及相關(guān)任務(wù)定義,評(píng)估指標(biāo)。并且本文從卷積的方法出發(fā),基于ViT和DETR,總結(jié)出了一種元架構(gòu)?;谠撛軜?gòu),本綜述把相關(guān)的方法進(jìn)行歸納與總結(jié),系統(tǒng)地回顧了近期的方法。具體的技術(shù)回顧路線(xiàn)如圖所示。

Survey的內(nèi)容路線(xiàn)圖:

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割

  1. 技術(shù)的角度進(jìn)行細(xì)致分類(lèi)。相比于前人的Transformer 綜述,本文對(duì)方法的分類(lèi)會(huì)更加的細(xì)致。本文把類(lèi)似思路的論文匯聚到一起,對(duì)比了他們的相同點(diǎn)以及不同點(diǎn)。例如,本文會(huì)對(duì)同時(shí)修改元架構(gòu)的解碼器端的方法進(jìn)行分類(lèi),分為基于圖像的Cross Attention,以及基于視頻的時(shí)空Cross Attention的建模。
  2. 研究問(wèn)題的全面性。本文會(huì)系統(tǒng)地回顧分割各個(gè)方向,包括圖像,視頻,點(diǎn)云分割任務(wù)。同時(shí),本文也會(huì)同時(shí)回顧相關(guān)的方向比如開(kāi)集分割于檢測(cè)模型,無(wú)監(jiān)督分割和弱監(jiān)督分割。

常用的數(shù)據(jù)集以及分割任務(wù)總結(jié):

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割

3.3 Transformer-Based 分割和檢測(cè)方法總結(jié)與對(duì)比

通用的元架構(gòu)框架(Meta-Architecture):

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割

本文首先基于DETR和MaskFormer的框架總結(jié)出了一個(gè)元架構(gòu)。這個(gè)模型包括了如下幾個(gè)不同的模塊:

  • Backbone:特征提取器,用來(lái)提取圖像特征。
  • Neck:構(gòu)建多尺度特征,用來(lái)處理多尺度的物體。
  • Object Query:查詢(xún)對(duì)象,用于代表場(chǎng)景中的每個(gè)實(shí)體,包括前景物體以及背景物體。
  • Decoder:解碼器,用于去逐步優(yōu)化Object Query以及對(duì)應(yīng)的特征。
  • End-to-End Training:基于Object Query的設(shè)計(jì)可以做到端到端的優(yōu)化。

基于這個(gè)元架構(gòu),現(xiàn)有的方法可以分為如下五個(gè)不同的方向來(lái)進(jìn)行優(yōu)化以及根據(jù)任務(wù)進(jìn)行調(diào)整,如圖所示,每個(gè)方向有包含幾個(gè)不同的子方向。

Transformer-Based Segmentation方法總結(jié)與對(duì)比:

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割

  1. 更好的特征表達(dá)學(xué)習(xí),Representation Learning。強(qiáng)大的視覺(jué)特征表示始終會(huì)帶來(lái)更好的分割結(jié)果。本文將相關(guān)工作分為三個(gè)方面:更好的視覺(jué)Transformer設(shè)計(jì)、混合CNN/Transformer/MLP以及自監(jiān)督學(xué)習(xí)。
  2. 解碼器端的方法設(shè)計(jì),Interaction Design in Decoder。本章節(jié)回顧了新的Transformer解碼器設(shè)計(jì)。本文將解碼器設(shè)計(jì)分為兩組:一組用于改進(jìn)圖像分割中的交叉注意力設(shè)計(jì),另一組用于視頻分割中的時(shí)空交叉注意力設(shè)計(jì)。前者側(cè)重于設(shè)計(jì)一個(gè)更好的解碼器,以改進(jìn)原始DETR中的解碼器。后者將基于查詢(xún)對(duì)象的目標(biāo)檢測(cè)器和分割器擴(kuò)展到視頻領(lǐng)域,用于視頻目標(biāo)檢測(cè)(VOD)、視頻實(shí)例分割(VIS)和視頻像素分割(VPS),重點(diǎn)在建模時(shí)間一致性和關(guān)聯(lián)性。
  3. 嘗試從查詢(xún)對(duì)象優(yōu)化的角度,Optimizing Object Query。與Faster-RCNN相比,DETR要更長(zhǎng)的收斂時(shí)間表。由于查詢(xún)對(duì)象的關(guān)鍵作用,現(xiàn)有的一些方法已經(jīng)展開(kāi)了研究,以加快訓(xùn)練速度和提高性能。根據(jù)對(duì)象查詢(xún)的方法,本文將下面的文獻(xiàn)分為兩個(gè)方面:添加位置信息和采用額外監(jiān)督。位置信息提供了對(duì)查詢(xún)特征進(jìn)行快速訓(xùn)練采樣的線(xiàn)索。額外監(jiān)督著重設(shè)計(jì)了除DETR默認(rèn)損失函數(shù)之外的特定損失函數(shù)。
  4. 使用查詢(xún)對(duì)象來(lái)做特征和實(shí)例的關(guān)聯(lián),Using Query For Association。受益于查詢(xún)對(duì)象的簡(jiǎn)單性,最近的多個(gè)研究將其作為關(guān)聯(lián)工具來(lái)解決下游任務(wù)。主要有兩種用法:一種是實(shí)例級(jí)別的關(guān)聯(lián),另一種是任務(wù)級(jí)別的關(guān)聯(lián)。前者采用實(shí)例判別的思想,用于解決視頻中的實(shí)例級(jí)匹配問(wèn)題,例如視頻的分割和跟蹤。后者使用查詢(xún)對(duì)象來(lái)橋接不同子任務(wù)實(shí)現(xiàn)高效的多任務(wù)學(xué)習(xí)。
  5. 多模態(tài)的條件查詢(xún)對(duì)象生成,Conditional Query Generation。這一章節(jié)主要關(guān)注多模態(tài)分割任務(wù)。條件查詢(xún)查詢(xún)對(duì)象主要來(lái)處理跨模態(tài)和跨圖像的特征匹配任務(wù)。根據(jù)任務(wù)輸入條件而確定的,解碼器頭部使用不同的查詢(xún)來(lái)獲取相應(yīng)的分割掩碼。根據(jù)不同輸入的來(lái)源,本文將這些工作分為兩個(gè)方面:語(yǔ)言特征和圖像特征。這些方法基于不同模型特征融合查詢(xún)對(duì)象的策略,在多個(gè)多模態(tài)的分割任務(wù)以及few-shot分割上取得了不錯(cuò)的結(jié)果。

下圖中給出這5個(gè)不同方向的一些代表性的工作對(duì)比。更具體的方法細(xì)節(jié)以及對(duì)比可以參考論文的內(nèi)容。

Transformer-based的分割與檢測(cè)代表性的方法總結(jié)與對(duì)比:

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割

3.4 相關(guān)研究領(lǐng)域的方法總結(jié)與對(duì)比

本文還探索了幾個(gè)相關(guān)的領(lǐng)域:1,基于Transformer的點(diǎn)云分割方法。2, 視覺(jué)與多模態(tài)大模型調(diào)優(yōu)。3,域相關(guān)的分割模型研究,包括域遷移學(xué)習(xí),域泛化學(xué)習(xí)。4,高效語(yǔ)義分割:無(wú)監(jiān)督與弱監(jiān)督分割模型。5,類(lèi)無(wú)關(guān)的分割與跟蹤。6,醫(yī)學(xué)圖像分割。

相關(guān)研究領(lǐng)域的基于Transformer方法總結(jié)與對(duì)比:

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割

3.5 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

語(yǔ)義分割數(shù)據(jù)集的基準(zhǔn)實(shí)驗(yàn):

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割
全景分割數(shù)據(jù)集的基準(zhǔn)實(shí)驗(yàn):

【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述,計(jì)算機(jī)視覺(jué),人工智能,計(jì)算機(jī)視覺(jué),transformer,視覺(jué)分割
本文還統(tǒng)一地使用相同的實(shí)驗(yàn)設(shè)計(jì)條件來(lái)對(duì)比了幾個(gè)代表性的工作在全景分割以及語(yǔ)義分割上多個(gè)數(shù)據(jù)集的結(jié)果。結(jié)果發(fā)現(xiàn),在使用相同的訓(xùn)練策略以及編碼器的時(shí)候,方法性能之間的差距會(huì)縮小。

此外,本文還同時(shí)對(duì)比了近期的Transformer-based的分割方法在多個(gè)不同數(shù)據(jù)集和任務(wù)上結(jié)果。(語(yǔ)義分割,實(shí)例分割,全景分割,以及對(duì)應(yīng)的視頻分割任務(wù))

3.6 未來(lái)可以進(jìn)行的方向

此外本文也給出了一些未來(lái)的可能一些研究方向分析。這里給出三個(gè)不同的方向作為例子。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-521418.html

  • 更加通用與統(tǒng)一的分割模型。使用Transformer結(jié)構(gòu)來(lái)統(tǒng)一不同的分割任務(wù)是一個(gè)趨勢(shì)。最近的研究使用基于查詢(xún)對(duì)象的Transformer在一個(gè)體系結(jié)構(gòu)下執(zhí)行不同的分割任務(wù)。一個(gè)可能的研究方向是通過(guò)一個(gè)模型在各種分割數(shù)據(jù)集上統(tǒng)一圖像和視頻分割任務(wù)。這些通用模型可以在各種場(chǎng)景中實(shí)現(xiàn)通用和穩(wěn)健的分割,例如,在各種場(chǎng)景中檢測(cè)和分割罕見(jiàn)類(lèi)別有助于機(jī)器人做出更好的決策。
  • 結(jié)合視覺(jué)推理的分割模型。視覺(jué)推理要求機(jī)器人理解場(chǎng)景中物體之間的聯(lián)系,這種理解在運(yùn)動(dòng)規(guī)劃中起著關(guān)鍵作用。先前的研究已經(jīng)探索了將分割結(jié)果作為視覺(jué)推理模型的輸入,用于各種應(yīng)用,如目標(biāo)跟蹤和場(chǎng)景理解。聯(lián)合分割和視覺(jué)推理可以是一個(gè)有前景的方向,對(duì)分割和關(guān)系分類(lèi)都具有互惠的潛力。通過(guò)將視覺(jué)推理納入分割過(guò)程中,研究人員可以利用推理的能力提高分割的準(zhǔn)確性,同時(shí)分割結(jié)果也可以為視覺(jué)推理提供更好的輸入。
  • 持續(xù)學(xué)習(xí)的分割模型研究。現(xiàn)有的分割方法通常在封閉世界的數(shù)據(jù)集上進(jìn)行基準(zhǔn)測(cè)試,這些數(shù)據(jù)集具有一組預(yù)定義的類(lèi)別,即假設(shè)訓(xùn)練和測(cè)試樣本具有預(yù)先知道的相同類(lèi)別和特征空間。然而,真實(shí)場(chǎng)景通常是開(kāi)放世界和非穩(wěn)定的,新類(lèi)別的數(shù)據(jù)可能不斷出現(xiàn)。例如,在自動(dòng)駕駛車(chē)輛和醫(yī)學(xué)診斷中,可能會(huì)突然出現(xiàn)未預(yù)料到的情況?,F(xiàn)有方法在現(xiàn)實(shí)和封閉世界場(chǎng)景中的性能和能力之間存在明顯差距。因此,希望能夠逐漸而持續(xù)地將新概念納入分割模型的現(xiàn)有知識(shí)庫(kù)中,使得模型能夠進(jìn)行終身學(xué)習(xí)。

到了這里,關(guān)于【計(jì)算機(jī)視覺(jué)】最新綜述:南洋理工和上海AI Lab提出基于Transformer的視覺(jué)分割綜述的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包