国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【圖像分割】Segment Anything(Meta AI)論文解讀

這篇具有很好參考價(jià)值的文章主要介紹了【圖像分割】Segment Anything(Meta AI)論文解讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

【圖像分割】Segment Anything(Meta AI)論文解讀


論文地址:https://arxiv.org/abs/2304.02643

項(xiàng)目地址:https://github.com/facebookresearch/segment-anything

Demo 與數(shù)據(jù)集SA-1B地址:https://segment-anything.com/

Meta 發(fā)布的新模型名叫 Segment Anything Model (SAM) 。他們?cè)诓┛椭薪榻B說,「SAM 已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領(lǐng)域』上即開即用,無需額外的訓(xùn)練?!乖谏疃葘W(xué)習(xí)領(lǐng)域,這種能力通常被稱為零樣本遷移,這也是 GPT-4 震驚世人的一大原因。

摘要

Segment Anything(SA)項(xiàng)目:一個(gè)圖像分割新的任務(wù)、模型和數(shù)據(jù)集。建立了迄今為止最大的分割數(shù)據(jù)集,在11M許可和尊重隱私的圖像上有超過1億個(gè)mask。該模型的設(shè)計(jì)和訓(xùn)練是靈活的,因此它可以將zero-shot(零樣本)轉(zhuǎn)移到新的圖像分布和任務(wù)。實(shí)驗(yàn)評(píng)估了它在許多任務(wù)上的能力,發(fā)現(xiàn)它的zero-shot性能令人印象深刻——通常與之前的完全監(jiān)督結(jié)果競(jìng)爭(zhēng),甚至更好。在https://segment-anything.com上發(fā)布 Segment Anything 模型 (SAM)和1Bmask和11M圖像的相應(yīng)的數(shù)據(jù)集(SA-1B),以促進(jìn)對(duì)計(jì)算機(jī)視覺基礎(chǔ)模型的研究。

一、引言

在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集上預(yù)訓(xùn)練的大型語言模型,用零樣本zero shot和少樣本泛化[10]正在徹底改變NLP。這些“基礎(chǔ)模型”[8]可以推廣到超出訓(xùn)練期間看到的任務(wù)和數(shù)據(jù)分布。該功能通常是通過 提示工程(prompt engineering) 來實(shí)現(xiàn)的,其中手工制作的文本用來提示語言模型為當(dāng)前任務(wù)生成一個(gè)有效的文本響應(yīng)。當(dāng)使用來自web的大量文本語料庫(kù)進(jìn)行縮放和訓(xùn)練時(shí),這些模型的zero shot和few shot性能比得上微調(diào)模型(在某些情況下甚至匹配)。經(jīng)驗(yàn)趨勢(shì)表明,這種行為隨著模型規(guī)模、數(shù)據(jù)集大小和總訓(xùn)練計(jì)算而改善。

基礎(chǔ)模型也在計(jì)算機(jī)視覺中得到了探索,盡管程度較小。最突出的illustration是將網(wǎng)上的文本和圖像對(duì)齊。例如,CLIP和ALIGN 使用對(duì)比性學(xué)習(xí)來訓(xùn)練文本和圖像編碼器來對(duì)齊這兩種模式。 一旦經(jīng)過訓(xùn)練,工程文本提示可以使zero shot泛化到新的視覺概念和數(shù)據(jù)分布。這些編碼器還可以有效地與其他模塊進(jìn)行組合,以實(shí)現(xiàn)下游任務(wù),如圖像生成(如DALL·E)。但計(jì)算機(jī)視覺大大超出這個(gè)范圍,且缺少豐富的訓(xùn)練數(shù)據(jù)。

這項(xiàng)工作,目標(biāo)是開發(fā)一個(gè)可提示的圖像分割的基礎(chǔ)模型,在一個(gè)廣泛的數(shù)據(jù)集上預(yù)訓(xùn)練,解決新數(shù)據(jù)分布上的一系列下游分割問題。

項(xiàng)目關(guān)鍵三部分:任務(wù)、模型和數(shù)據(jù)。解決問題:

1.1 任務(wù)
在NLP和CV中,基礎(chǔ)模型是一個(gè)很有前途的發(fā)展,它可以通過使用“提示(prompt)”技術(shù)對(duì)新的數(shù)據(jù)集和任務(wù)執(zhí)行zero shot和few shot學(xué)習(xí)。受到啟發(fā),提出了提示分割任務(wù),其目標(biāo)是在給定任何分割提示下返回一個(gè)有效的分割掩碼(見圖1a)。提示只是指定要在圖像中分割的內(nèi)容,例如,提示可以包括標(biāo)識(shí)對(duì)象的空間或文本信息。有效的輸出面具的要求意味著即使提示是模棱兩可的,可以指多個(gè)對(duì)象(例如,點(diǎn)襯衫可能表示襯衫或穿它的人),輸出應(yīng)該是一個(gè)合理的至少一個(gè)對(duì)象的mask。我們使用提示分割任務(wù)作為訓(xùn)練前的目標(biāo),并通過提示工程來解決一般的下游分割任務(wù)。

1.2 模型
可提示的分割任務(wù)和在真實(shí)世界使用的目標(biāo)對(duì)模型架構(gòu)施加了約束。特別是,模型必須支持靈活的提示,需要以平攤實(shí)時(shí)計(jì)算掩模以允許交互使用,并且必須具有模糊性。我們發(fā)現(xiàn)一個(gè)簡(jiǎn)單的設(shè)計(jì)滿足所有三個(gè)約束條件:一個(gè)強(qiáng)大的圖像編碼器計(jì)算圖像嵌入,一個(gè)提示編碼器嵌入提示,然后將兩個(gè)信息源組合在一個(gè)輕量級(jí)掩碼解碼器中來預(yù)測(cè)分割掩碼。我們將此模型稱為Segment Anything,或SAM(見圖1b)。通過將SAM分離為一個(gè)圖像編碼器和一個(gè)快速提示編碼器/掩碼解碼器,相同的圖像嵌入可以用不同的提示被重用(及其成本攤銷)。給定一個(gè)圖像嵌入,提示編碼器和掩碼解碼器在web瀏覽器中以50毫秒的提示預(yù)測(cè)掩碼。我們關(guān)注點(diǎn)、框和掩碼提示,并使用自由形式的文本提示顯示初始結(jié)果。為了使SAM感知到歧義,我們將其設(shè)計(jì)為:一個(gè)提示預(yù)測(cè)多個(gè)mask,允許SAM自然地處理歧義,比如襯衫和人的例子
【圖像分割】Segment Anything(Meta AI)論文解讀

1.3 數(shù)據(jù)引擎data engine
為了實(shí)現(xiàn)對(duì)新數(shù)據(jù)分布的強(qiáng)泛化,需要在大量和不同的掩碼集上訓(xùn)練SAM。在線獲取數(shù)據(jù)缺少mask標(biāo)注。我們的方案是構(gòu)建一個(gè)“數(shù)據(jù)引擎”,也就是說,我們與model in the loop的數(shù)據(jù)集注釋共同開發(fā)我們的模型(見圖1c)。分三個(gè)階段:輔助手動(dòng)、半自動(dòng)和全自動(dòng)。在第一階段,SAM協(xié)助注釋器對(duì)掩碼進(jìn)行注釋,類似于經(jīng)典的交互式分割設(shè)置。在第二階段,SAM可以通過提示可能的對(duì)象位置來為對(duì)象子集自動(dòng)生成掩碼,注釋器專注于對(duì)其余對(duì)象的注釋,幫助增加掩碼的多樣性。在最后一個(gè)階段,我們用一個(gè)規(guī)則的前景點(diǎn)網(wǎng)格提示SAM,平均每張圖像產(chǎn)生100個(gè)高質(zhì)量的掩模。

1.4 數(shù)據(jù)集
我們最終的數(shù)據(jù)集,SA-1B,包括來自11M許可和隱私保護(hù)圖像的超過1B個(gè)掩碼(見下圖)。SA-1B,使用我們的數(shù)據(jù)引擎的最后階段完全自動(dòng)收集,mask是高質(zhì)量和多樣性的。
【圖像分割】Segment Anything(Meta AI)論文解讀

1.5 負(fù)責(zé)任的AI
論文報(bào)告SA-1B和SAM潛在的公平問題和偏差。SA-1B的圖像跨越了地理上和經(jīng)濟(jì)上不同的國(guó)家,SAM在不同的人群群體中表現(xiàn)相似,對(duì)現(xiàn)實(shí)世界的用例更加公平。

1.6 實(shí)驗(yàn)
廣泛地評(píng)估了SAM:首先,使用23個(gè)不同的分割數(shù)據(jù)集,SAM從單個(gè)前景點(diǎn)產(chǎn)生高質(zhì)量的掩模,通常只略低于手動(dòng)注釋的Groundtruth相。在使用提示工程的zero shot傳輸協(xié)議下,我們發(fā)現(xiàn)了持續(xù)的強(qiáng)有力的定量和定性結(jié)果(we find consistently strong quantitative and qualitative results on a variety of downstream tasks)在一系列下游任務(wù)上,包括邊緣檢測(cè),目標(biāo)proposal生成,實(shí)例分割,以及對(duì)文本到掩碼預(yù)測(cè)的初步探索。

二、segment anything任務(wù)

1.任務(wù)

任務(wù):將prompt從NLP轉(zhuǎn)換為分割。其中prompt可以是一組前景/背景點(diǎn)、一個(gè)粗糙的框或掩碼、自由形式的文本(指示在圖像中分割什么的任何信息),根據(jù)提示返回一個(gè)有效的分割掩碼?!坝行А币馕吨?,即使提示模棱兩可,可以引用多個(gè)對(duì)象(例如襯衫與人的例子),輸出也至少是其中一個(gè)合理的掩碼。類似于期望一個(gè)語言模型對(duì)一個(gè)模糊的提示輸出一個(gè)一致的響應(yīng)。該任務(wù)導(dǎo)向了一種自然的預(yù)訓(xùn)練算法和一種通過提示將zero shot 轉(zhuǎn)移到下游分割任務(wù)的通用方法。

2.預(yù)訓(xùn)練

可提示的分割任務(wù)提出了一種自然的訓(xùn)練前算法,為每個(gè)訓(xùn)練樣本模擬一系列提示(例如,點(diǎn)、盒子、掩碼),并將模型的掩碼預(yù)測(cè)與GT進(jìn)行比較。

我們從交互式分割中采用了這種方法,盡管不同于交互式分割(目的是在足夠的用戶輸入后最終預(yù)測(cè)一個(gè)有效的掩碼),我們的目標(biāo)是預(yù)測(cè)任何提示的有效掩碼,即使提示是模糊的。這確保了預(yù)先訓(xùn)練好的模型在涉及歧義的用例中是有效的

3.zero shot transfer

訓(xùn)練前任務(wù)賦予了模型在推理時(shí)對(duì)任何提示做出適當(dāng)反應(yīng)的能力,因此下游任務(wù)可以通過工程設(shè)計(jì)適當(dāng)?shù)奶崾緛斫鉀Q。例如,如果你有一個(gè)貓的目標(biāo)檢測(cè)器,實(shí)例分割可以通過提供 bounding box 輸出作為我們的模型的提示來解決。一般來說,一個(gè)廣泛的實(shí)際分割任務(wù)可以被轉(zhuǎn)換為提示。

4.相關(guān)任務(wù)

分割是一個(gè)廣泛的領(lǐng)域:有交互式分割[57,109]、邊緣檢測(cè)[3]、超級(jí)像素化[85]、對(duì)象建議生成[2]、前景分割[94]、語義分割[90]、實(shí)例分割[66]、泛光分割[59]等。我們的快速分割任務(wù)的目標(biāo)是產(chǎn)生一個(gè)能力廣泛的模型,可以通過快速工程來適應(yīng)許多(雖然不是全部)現(xiàn)有的和新的分割任務(wù)。該能力是任務(wù)泛化的一種形式。不同于多任務(wù)系統(tǒng)(單個(gè)模型執(zhí)行一組固定的任務(wù),如聯(lián)合語義、實(shí)例和全光分割,訓(xùn)練和測(cè)試任務(wù)相同),我們的可提示分割的模型,可以作為一個(gè)更大的系統(tǒng)中的一個(gè)組件,在推理時(shí)執(zhí)行一個(gè)新的、不同的任務(wù),例如,執(zhí)行實(shí)例分割,一個(gè)可提示分割模型與現(xiàn)有的目標(biāo)檢測(cè)器相結(jié)合。

5.討論

提示和組合是一種強(qiáng)大的工具,它使單個(gè)模型能夠以可擴(kuò)展的方式使用,并有可能完成在模型設(shè)計(jì)時(shí)未知的任務(wù)。類似于其他基礎(chǔ)模型的使用方式,例如,CLIP如何使DALL·E圖像生成系統(tǒng)的文本-圖像對(duì)齊組件。我們預(yù)計(jì),可組合系統(tǒng)設(shè)計(jì),由提示工程等技術(shù)驅(qū)動(dòng),將比專門為一組固定任務(wù)訓(xùn)練的系統(tǒng)提供更廣泛的應(yīng)用。

三*、Segment Anything 模型

SAM有三個(gè)組件,如圖4所示:圖像encoder、靈活的提示encoder和快速掩碼decoder。我們建立在Vision Transformer上,對(duì)實(shí)時(shí)性能進(jìn)行特定的權(quán)衡。如圖
【圖像分割】Segment Anything(Meta AI)論文解讀

1. 圖像編碼器

基于可擴(kuò)展和強(qiáng)大的預(yù)訓(xùn)練方法,我們使用MAE預(yù)訓(xùn)練的ViT,最小限度地適用于處理高分辨率輸入。圖像編碼器對(duì)每張圖像運(yùn)行一次,在提示模型之前進(jìn)行應(yīng)用。

2. 提示編碼器

考慮兩組prompt:稀疏(點(diǎn)、框、文本)和密集(掩碼)。我們通過位置編碼來表示點(diǎn)和框,并將對(duì)每個(gè)提示類型的學(xué)習(xí)嵌入自由形式的文本CLIP中的現(xiàn)成文本編碼相加。密集的提示(即掩碼)使用卷積進(jìn)行嵌入,并通過圖像嵌入進(jìn)行元素求和。

3. 掩碼解碼器
掩碼解碼器有效地將圖像嵌入、提示嵌入和輸出token映射到掩碼。該設(shè)計(jì)的靈感來自于DETR,采用了對(duì)(帶有動(dòng)態(tài)掩模預(yù)測(cè)頭的)Transformer decoder模塊的修改。

4. 解決歧義
對(duì)于一個(gè)輸出,如果給出一個(gè)模糊的提示,該模型將平均多個(gè)有效的掩碼。為了解決這個(gè)問題,我們修改了模型,以預(yù)測(cè)單個(gè)提示的多個(gè)輸出掩碼(見下圖,綠色點(diǎn)為輸入的提示點(diǎn))。我們發(fā)現(xiàn)3個(gè)掩模輸出足以解決大多數(shù)常見的情況(嵌套掩模通常最多有三個(gè)深度:整體、部分和子部分)。在訓(xùn)練期間,我們只支持mask上的最小損失[匈牙利損失]。為了對(duì)掩碼進(jìn)行排名,該模型預(yù)測(cè)了每個(gè)掩碼的置信度分?jǐn)?shù)(即估計(jì)的IoU)
【圖像分割】Segment Anything(Meta AI)論文解讀

5.效率

給定一個(gè)預(yù)先計(jì)算的圖像嵌入,提示編碼器和掩碼解碼器運(yùn)行在一個(gè)web瀏覽器中,在CPU上,運(yùn)行時(shí)間為50毫秒。這種運(yùn)行時(shí)性能使我們的模型能夠無縫、實(shí)時(shí)地交互提示。

6. 損失和訓(xùn)練

模型使用DETR中的focal loss和dice loss的線性組合來監(jiān)督掩模預(yù)測(cè)。我們使用混合幾何提示進(jìn)行訓(xùn)練。通過在每個(gè)掩碼的11輪中隨機(jī)采樣提示,來模擬一個(gè)交互式設(shè)置,允許SAM無縫地集成到我們的數(shù)據(jù)引擎中。

四、Segment Anything 數(shù)據(jù)引擎

建立了一個(gè)數(shù)據(jù)引擎來支持收集1.1B掩碼數(shù)據(jù)集:SA-1B。數(shù)據(jù)引擎分為三個(gè)階段:

(1)模型輔助手動(dòng)注釋階段

經(jīng)典的交互式分割,一個(gè)專業(yè)注釋者團(tuán)隊(duì)通過使用由SAM提供的基于瀏覽器的交互式分割工具,通過點(diǎn)擊前景/背景對(duì)象點(diǎn)來標(biāo)記掩碼。mask可以使用像素精確的“筆刷”和“橡皮擦”工具來改進(jìn)。我們的模型輔助注釋直接在瀏覽器中實(shí)時(shí)運(yùn)行(使用預(yù)先計(jì)算的圖像嵌入),從而實(shí)現(xiàn)真正的交互體驗(yàn)。我們沒有對(duì)標(biāo)記對(duì)象施加語義約束,注釋者可以自由地標(biāo)記“stuff”和“thing”(要求按突出程度的順序標(biāo)記物體)

階段開始,SAM使用常見的公共分割數(shù)據(jù)集進(jìn)行訓(xùn)練。在進(jìn)行足夠的數(shù)據(jù)注釋后,只使用新注釋的掩碼進(jìn)行重新訓(xùn)練。隨著更多的掩模被收集到,圖像編碼器從ViT-B縮放到ViT-H,其他框架細(xì)節(jié)不斷演變;總共6次再訓(xùn)練。隨著SAM的改進(jìn),每幅圖像的平均掩模數(shù)量從20個(gè)增加到44個(gè)??偟膩碚f,這個(gè)階段從12萬張圖像中收集了430萬個(gè)mask。

(2)包含自動(dòng)預(yù)測(cè)掩碼和模型輔助注釋的半自動(dòng)階段

在這個(gè)階段,我們的目標(biāo)是增加mask的多樣性,以提高我們的模型分割任何東西的能力。為了將注釋器集中在不太突出的對(duì)象上,我們首先自動(dòng)檢測(cè)到肯定的mask。然后,**我們提供了預(yù)先填充掩碼的圖像的注釋器,要求它注釋未注釋的對(duì)象。**為了檢測(cè)確定的掩模,我們使用一個(gè)通用的“對(duì)象”類別,在所有的第一階段掩模上訓(xùn)練了一個(gè)邊界框檢測(cè)器。在這一階段,我們?cè)?8萬張圖像中收集了額外的5.9M掩模(總共有10.2M面具)。與第一階段一樣,我們定期對(duì)新收集的數(shù)據(jù)重新訓(xùn)練我們的模型(5次),每張圖片的平均面具數(shù)量從44個(gè)增加到72個(gè)

(3)全自動(dòng)階段

該階段,注釋為全自動(dòng),因?yàn)閮蓚€(gè)主要的增強(qiáng):首先,前兩個(gè)階段收集了足夠的mask來極大地改進(jìn)模型;其次,這個(gè)階段開發(fā)了模糊感知模型,允許預(yù)測(cè)即使在模糊情況下的有效mask。具體來說,我們用一個(gè)32×32的規(guī)則點(diǎn)網(wǎng)格提示模型,并為每個(gè)點(diǎn)預(yù)測(cè)一組可能對(duì)應(yīng)于有效對(duì)象的掩模。對(duì)于歧義感知模型,如果一個(gè)點(diǎn)位于一個(gè)部分或子部分上,我們的模型將返回該子部分、部件和整個(gè)對(duì)象。

我們模型的IoU預(yù)測(cè)模塊用于選擇自信的掩模;此外,我們只識(shí)別和選擇了穩(wěn)定的掩模。最后,在選擇了自信和穩(wěn)定的掩模后,我們應(yīng)用非最大抑制(NMS)來過濾副本。為了進(jìn)一步提高較小掩模的質(zhì)量,我們還處理了多個(gè)重疊的放大的圖像片段。我們對(duì)數(shù)據(jù)集中的所有11M幅圖像應(yīng)用了全自動(dòng)掩模生成,總共產(chǎn)生了1.1B個(gè)高質(zhì)量的掩模

五、Segment Anything 數(shù)據(jù)集

  1. 圖像

我們從一家直接與攝影師合作的供應(yīng)商那里授權(quán)了一組1100萬張新圖片。這些圖像是高分辨率的(平均3300×4950像素),我們將發(fā)布其最短邊設(shè)置為1500像素的降采樣圖像。明顯高于許多現(xiàn)有的視覺數(shù)據(jù)集(COCO 的480×640像素)

  1. 掩碼

我們的數(shù)據(jù)引擎產(chǎn)生了1.1B個(gè)掩碼,其中99.1%是完全自動(dòng)生成的。因此,mask的質(zhì)量至關(guān)重要。我們將它們直接與專業(yè)注釋進(jìn)行比較,結(jié)論如下面的分析和7中的實(shí)驗(yàn):
為了估計(jì)掩模的質(zhì)量,我們隨機(jī)抽取了500張圖像(50k掩模),并要求我們的專業(yè)注釋者提高這些圖像中所有掩模的質(zhì)量。注釋器使用我們的模型和像素精確的“刷”和“橡皮擦”編輯工具。這一過程產(chǎn)生了成對(duì)的自動(dòng)預(yù)測(cè)和專業(yè)矯正的mask。我們計(jì)算了每對(duì)之間的IoU,發(fā)現(xiàn)94%對(duì)的數(shù)據(jù)IoU大于90%(97%的對(duì)的IoU大于75%)。為了進(jìn)行比較,之前的工作估計(jì)了85-91%的IoU [44,60]之間的一致性。我們?cè)?的實(shí)驗(yàn)通過人類評(píng)級(jí)證實(shí),掩碼質(zhì)量相對(duì)于各種數(shù)據(jù)集很高,并且在自動(dòng)掩碼上訓(xùn)練我們的模型幾乎和使用數(shù)據(jù)引擎產(chǎn)生的所有掩碼一樣好。

下圖繪制了SA-1B中目標(biāo)中心與現(xiàn)有最大的分割數(shù)據(jù)集相比的空間分布。在所有的數(shù)據(jù)集中,都存在著常見的攝影師bias。我們觀察到,與分布最相似的兩個(gè)數(shù)據(jù)集LVIS v1 [44]和ADE20K [117]相比,SA-1B具有更大的圖像角覆蓋范圍,而COCO [66]和Open Images V5 [60]具有更突出的中心偏差。

【圖像分割】Segment Anything(Meta AI)論文解讀

六、Segment Anything RAI分析

接下來,我們通過調(diào)查使用SA-1B和SAM時(shí)潛在的公平問題和偏見,對(duì)我們的工作進(jìn)行了負(fù)責(zé)任的AI(RAI)分析。我們關(guān)注SA-1B的地理和收入分布,以及SAM在受保護(hù)屬性中的公平性。

地理和來源
我們推斷這些國(guó)家的圖像是用標(biāo)準(zhǔn)方法拍攝的。在圖7中,我們可視化了SA-1B中每個(gè)國(guó)家(左)和圖像最多的50個(gè)國(guó)家(右)的圖像計(jì)數(shù)。我們注意到,前三個(gè)國(guó)家來自世界不同的地區(qū)。SA-1B在歐洲、亞洲、大洋洲以及中等收入國(guó)家的圖像中所占的比例要高得多,包括非洲在內(nèi)的所有地區(qū)至少有2800萬個(gè)mask,在不同地區(qū)和收入之間是相當(dāng)一致的(每張圖像mask為94-108張)
【圖像分割】Segment Anything(Meta AI)論文解讀
分割人群的公平性

我們通過測(cè)量組間SAM的表現(xiàn)差異,調(diào)查了感知的性別表現(xiàn)、感知的年齡組和感知的膚色之間的潛在的公平問題。我們使用了更具包容性的人群注釋(MIAP)[87]數(shù)據(jù)集,用于性別表現(xiàn)和年齡,以及一個(gè)專有的數(shù)據(jù)集,用于膚色。SAM對(duì)那些被認(rèn)為年齡較大的人表現(xiàn)最好(盡管置信區(qū)間很大)

七、Zero-Shot Transfer 實(shí)驗(yàn)

本節(jié)用SAM模型進(jìn)行Zero-Shot Transfer實(shí)驗(yàn):考慮了5個(gè)任務(wù),其中4個(gè)與用于訓(xùn)練SAM的快速分割任務(wù)有顯著不同,評(píng)估了在訓(xùn)練過程中沒有看到的數(shù)據(jù)集和任務(wù)上的SAM模型(遵循CLIP)。數(shù)據(jù)集可能包括新的圖像分布(如水下或以自我為中心的圖像),并沒有出現(xiàn)在SA-1B中。

我們的實(shí)驗(yàn)首先測(cè)試了可提示分割的核心目標(biāo):從任何提示中生成一個(gè)有效的掩碼。我們強(qiáng)調(diào)單個(gè)前景點(diǎn)提示的具有挑戰(zhàn)性的場(chǎng)景,因?yàn)樗绕渌唧w的提示更有可能是模棱兩可。隨后,我們提示SAM(1)執(zhí)行邊緣檢測(cè),(2)分割所有內(nèi)容,即對(duì)象提議生成,(3)分段檢測(cè)到的對(duì)象,即實(shí)例分割,以及(4)作為概念證明,從自由形式的文本中分割對(duì)象。這四個(gè)任務(wù)與SAM訓(xùn)練并通過提示工程實(shí)現(xiàn)的可提示分割任務(wù)有顯著不同。我們的實(shí)驗(yàn)以消融研究結(jié)束。

(1) SAM使用一個(gè)MAE [47]預(yù)訓(xùn)練的ViT-H [33]圖像編碼器
(2) SAM是在SA-1B上訓(xùn)練的,數(shù)據(jù)集只包括數(shù)據(jù)引擎的最后階段自動(dòng)生成的掩碼。

1.zero shot 單點(diǎn)有效掩模評(píng)估

任務(wù):評(píng)估從單個(gè)前景點(diǎn)分割一個(gè)對(duì)象,因?yàn)橐粋€(gè)點(diǎn)可以指代多個(gè)對(duì)象。大多數(shù)數(shù)據(jù)集中的標(biāo)簽掩碼不會(huì)枚舉所有可能的掩碼,這可能會(huì)使自動(dòng)度量不可靠。因此,我們補(bǔ)充了標(biāo)準(zhǔn)mIoU度量(即預(yù)測(cè)和標(biāo)簽掩模之間的所有IoU的平均值),在該研究中,注釋者將掩碼質(zhì)量從1(無意義)評(píng)級(jí)到10(像素完美)。

默認(rèn)情況下,我們從標(biāo)簽掩碼的“中心”(在掩碼內(nèi)部距離變換的最大值)中采樣點(diǎn),遵循交互式分割中的標(biāo)準(zhǔn)評(píng)估協(xié)議,默認(rèn)只評(píng)估模型中最確定的掩模。基線都是單掩碼方法。我們主要與RITM [92]進(jìn)行比較,這是一個(gè)強(qiáng)交互分段器。

數(shù)據(jù)集:使用一套新編譯的23個(gè)具有不同圖像分布的數(shù)據(jù)集,來進(jìn)行mIoU評(píng)估

上圖為對(duì)23個(gè)數(shù)據(jù)集的指向掩碼評(píng)估。(a)SAM的平均MIOU和最強(qiáng)單點(diǎn)分段器RITM 。由于歧義,一個(gè)mask可能與GT不匹配;圓圈顯示了SAM的3個(gè)預(yù)測(cè)中最相關(guān)的“神諭”結(jié)果。(b)每個(gè)數(shù)據(jù)集比較注釋器從1到10(最差)(最好)的掩碼質(zhì)量評(píng)級(jí)。所有方法都使用GT掩模中心作為提示符。(c,d)具有不同點(diǎn)數(shù)的mIoU。SAM以1分顯著優(yōu)于之前的交互式分段器,并且得分更多。1點(diǎn)的低絕對(duì)mIoU是歧義的結(jié)果。

【圖像分割】Segment Anything(Meta AI)論文解讀

2.zero shot 目標(biāo) proposal

接下來,我們?cè)u(píng)估了SAM在對(duì)象提案生成的中級(jí)任務(wù)上的作用。這項(xiàng)任務(wù)在目標(biāo)檢測(cè)研究中發(fā)揮了重要的作用,作為開創(chuàng)性系統(tǒng)的中間步驟。為了生成對(duì)象建議,我們運(yùn)行一個(gè)稍微修改的自動(dòng)掩碼生成管道的版本,并將掩碼輸出為提案。
我們計(jì)算了LVIS v1 上的標(biāo)準(zhǔn)平均召回率(AR)度量。我們關(guān)注LVIS,因?yàn)樗拇罅款悇e是一個(gè)具有挑戰(zhàn)性的測(cè)試。我們與作為ViTDet 檢測(cè)器(帶有級(jí)聯(lián)掩模R-CNN ViT-H)實(shí)現(xiàn)的強(qiáng)基線進(jìn)行了比較。

結(jié)果。在表4中,我們可以毫不意外地看到,使用來自ViTDet-H的檢測(cè)作為對(duì)象建議(即,游戲AR的DMP方法[16])總體上表現(xiàn)最好。然而,SAM在幾個(gè)指標(biāo)上都做得非常好。值得注意的是,它在中型和大型物體以及稀有和普通物體上都優(yōu)于ViTDet-H。事實(shí)上,SAM只在小對(duì)象和頻繁對(duì)象上的表現(xiàn)低于ViTDet-H,其中ViTDet-H可以很容易地學(xué)習(xí)LVIS特定的注釋偏差,因?yàn)樗窃贚VIS上訓(xùn)練的,而不像SAM。我們還比較了消融的模糊模糊版本的SAM,它在所有AR指標(biāo)上的表現(xiàn)都明顯低于SAM。

3.zero shot 文本到掩碼

最后,我們考慮一個(gè)更高層次的任務(wù):從自由形式的文本中分割對(duì)象。這個(gè)實(shí)驗(yàn)證明了SAM處理文本提示的能力。雖然我們?cè)谥暗乃袑?shí)驗(yàn)中都使用了完全相同的SAM,但對(duì)于這個(gè)實(shí)驗(yàn),SAM的訓(xùn)練過程被修改以使其能夠感知文本,但其方式不需要新的文本注釋。具體來說,對(duì)于每個(gè)手動(dòng)收集的面積大于1002的掩模,我們提取了CLIP圖像嵌入。然后,在訓(xùn)練過程中,我們將提取的CLIP圖像嵌入作為第一次交互,提示SAM。這里的關(guān)鍵觀察結(jié)果是,由于CLIP的圖像嵌入被訓(xùn)練成與文本嵌入對(duì)齊,所以我們可以使用圖像嵌入進(jìn)行訓(xùn)練,但要使用文本嵌入進(jìn)行推理。也就是說,在推理時(shí),我們通過CLIP的文本編碼器運(yùn)行文本,然后將生成的文本嵌入作為提示符提供給SAM。

【圖像分割】Segment Anything(Meta AI)論文解讀

結(jié)果我們?cè)谏蠄D中顯示了定性的結(jié)果。SAM可以根據(jù)簡(jiǎn)單的文本提示如“輪子”以及“海貍齒格柵”等短語來分割對(duì)象。當(dāng)SAM不能僅從文本提示中選擇正確的對(duì)象時(shí),一個(gè)額外的點(diǎn)提示可以提供幫助,類似于[PhraseClick]。

4.zero shot Edge Detection

類似不再討論

5. Zero-Shot Instance Segmentation

類似不再討論

八、討論

1.基礎(chǔ)模型

自機(jī)器學(xué)習(xí)的早期以來,預(yù)訓(xùn)練的模型已經(jīng)適應(yīng)于下游任務(wù)。近年來,隨著對(duì)規(guī)模的日益重視,這種模式變得越來越重要,這種模型最近被(重新)命名為“基礎(chǔ)模型”:即“在大規(guī)模的廣泛數(shù)據(jù)上進(jìn)行訓(xùn)練,并適應(yīng)廣泛的下游任務(wù)”的模型。我們的工作與這個(gè)定義很好地相關(guān),盡管我們注意到圖像分割的基礎(chǔ)模型本質(zhì)上是一個(gè)有限的范圍,因?yàn)樗砹擞?jì)算機(jī)視覺的一個(gè)重要的、但有分?jǐn)?shù)的子集。我們還將我們的方法的一個(gè)方面與[8]進(jìn)行了對(duì)比,[ On the opportunities and risks of foundation models]強(qiáng)調(diào)了自我監(jiān)督學(xué)習(xí)在基礎(chǔ)模型中的作用。雖然我們的模型是用自監(jiān)督技術(shù)(MAE)初始化的,但它的絕大部分能力來自于大規(guī)模的監(jiān)督訓(xùn)練。在數(shù)據(jù)引擎可以擴(kuò)展可用注釋的情況下,監(jiān)督訓(xùn)練提供了一個(gè)有效的解決方案。

2.組合性

預(yù)先訓(xùn)練過的模型可以增強(qiáng)新的能力,甚至超出了人們?cè)谟?xùn)練時(shí)的想象。一個(gè)突出的例子是CLIP 如何在更大的系統(tǒng)中作為一個(gè)組件使用,如DALL·E。我們的目標(biāo)是通過要求SAM為廣泛的分割提示預(yù)測(cè)一個(gè)有效的掩碼來實(shí)現(xiàn)這一點(diǎn)。其效果是在SAM和其他組件之間創(chuàng)建一個(gè)可靠的接口。例如,MCC 可以很容易地使用SAM來分割感興趣的對(duì)象,并實(shí)現(xiàn)對(duì)單個(gè)RGB-D圖像的三維重建的強(qiáng)泛化。在另一個(gè)例子中,SAM可以通過可穿戴設(shè)備檢測(cè)到的注視點(diǎn)而被提示,從而啟用新的應(yīng)用程序。由于SAM能夠推廣到像 ego-centric 的圖像這樣的新領(lǐng)域,這樣的系統(tǒng)不需要額外的訓(xùn)練就能工作。

3.限制

雖然SAM在總體上表現(xiàn)得很好,但它并不完美。它可能會(huì)錯(cuò)過精細(xì)的結(jié)構(gòu),有時(shí)會(huì)使小的斷開的組件產(chǎn)生幻覺,并且不會(huì)像“放大”等計(jì)算密集型的方法那樣清晰地產(chǎn)生邊界。一般來說,當(dāng)提供了許多點(diǎn)時(shí),我們期望專用的交互式分割方法優(yōu)于SAM。與這些方法不同,SAM是為通用性和使用廣度而設(shè)計(jì)的,而不是高IoU交互分割。此外,SAM可以實(shí)時(shí)處理提示,但是當(dāng)使用一個(gè)很重的圖像編碼器時(shí),SAM的整體性能并不是實(shí)時(shí)的。我們對(duì)文本到mask任務(wù)的嘗試是探索性的,并不是完全魯棒的,盡管我們相信它可以通過更多的努力來改進(jìn)。雖然SAM可以執(zhí)行許多任務(wù),但如何設(shè)計(jì)簡(jiǎn)單的提示來實(shí)現(xiàn)語義和全景分割尚不清楚。最后,還有一些特定于領(lǐng)域的工具,比如[ilastik: interactive machine learning for (bio)image analysis.],我們希望它們?cè)诟髯缘念I(lǐng)域中優(yōu)于SAM。

總結(jié)

Segment Anything 項(xiàng)目是一個(gè)試圖提升圖像分割到基礎(chǔ)模型的時(shí)代。我們的主要貢獻(xiàn)是一個(gè)新的任務(wù)(可提示的分割)、模型(SAM)和數(shù)據(jù)集(SA-1B),使這一飛躍成為可能。SAM是否達(dá)到了基礎(chǔ)模型的狀態(tài)還有待它在社區(qū)中的使用,但無論我們期望這項(xiàng)工作的視角,超過1B的mask的發(fā)布,以及我們快速的分割模型將有助于鋪平道路。文章來源地址http://www.zghlxwxcb.cn/news/detail-409257.html

到了這里,關(guān)于【圖像分割】Segment Anything(Meta AI)論文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Meta的分割一切模型SAM( Segment Anything )測(cè)試

    Meta的分割一切模型SAM( Segment Anything )測(cè)試

    Meta不久前開源發(fā)布了一款圖像處理模型,即分割一切模型:Segment Anything Model,簡(jiǎn)稱 SAM,號(hào)稱要從任意一張圖片中分割萬物,源碼地址為: 打開后看到目錄結(jié)構(gòu)大概這樣: 一般一個(gè)開源項(xiàng)目中都會(huì)有項(xiàng)目介紹和示例代碼。本示例中的文件 README.md 即為項(xiàng)目概況介紹,主要說明

    2023年04月27日
    瀏覽(24)
  • CV不存在了?體驗(yàn)用Segment Anything Meta分割清明上河圖

    CV不存在了?體驗(yàn)用Segment Anything Meta分割清明上河圖

    在圖像處理與計(jì)算機(jī)視覺領(lǐng)域, 圖像分割(image segmentation) 是在像素級(jí)別將一個(gè)完整圖像劃分為若干具有特定語義 區(qū)域(region) 或 對(duì)象(object) 的過程。每個(gè)分割區(qū)域是一系列擁有相似特征——例如顏色、強(qiáng)度、紋理等的像素集合,因此圖像分割也可視為 以圖像屬性為特征空間,

    2023年04月20日
    瀏覽(26)
  • 【AIGC】6、Segment Anything | Meta 推出超強(qiáng)悍可分割一切的模型 SAM

    【AIGC】6、Segment Anything | Meta 推出超強(qiáng)悍可分割一切的模型 SAM

    論文:Segment Anything 官網(wǎng):https://segment-anything.com/ 代碼:https://github.com/facebookresearch/segment-anything 出處:Meta、FAIR 時(shí)間:2023.04.05 貢獻(xiàn)點(diǎn): 首次提出基于提示的分割任務(wù),并開源了可以分割一切的模型 SAM 開源了一個(gè)包含 1100 萬張圖像(約包含 10 億 masks)的數(shù)據(jù)集 SA-1B,是目前

    2023年04月23日
    瀏覽(24)
  • 【多模態(tài)】14、Segment Anything | Meta 推出超強(qiáng)悍可分割一切的模型 SAM

    【多模態(tài)】14、Segment Anything | Meta 推出超強(qiáng)悍可分割一切的模型 SAM

    論文:Segment Anything 官網(wǎng):https://segment-anything.com/ 代碼:https://github.com/facebookresearch/segment-anything 出處:Meta、FAIR 時(shí)間:2023.04.05 貢獻(xiàn)點(diǎn): 首次提出基于提示的分割任務(wù),并開源了可以分割一切的模型 SAM 開源了一個(gè)包含 1100 萬張圖像(約包含 10 億 masks)的數(shù)據(jù)集 SA-1B,是目前

    2024年02月16日
    瀏覽(24)
  • 【多模態(tài)】12、Segment Anything | Meta 推出超強(qiáng)悍可分割一切的模型 SAM

    【多模態(tài)】12、Segment Anything | Meta 推出超強(qiáng)悍可分割一切的模型 SAM

    論文:Segment Anything 官網(wǎng):https://segment-anything.com/ 代碼:https://github.com/facebookresearch/segment-anything 出處:Meta、FAIR 時(shí)間:2023.04.05 貢獻(xiàn)點(diǎn): 首次提出基于提示的分割任務(wù),并開源了可以分割一切的模型 SAM 開源了一個(gè)包含 1100 萬張圖像(約包含 10 億 masks)的數(shù)據(jù)集 SA-1B,是目前

    2024年02月17日
    瀏覽(20)
  • Segment Anything論文翻譯,SAM模型,SAM論文,SAM論文翻譯;一個(gè)用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集;SA-1B數(shù)據(jù)集

    Segment Anything論文翻譯,SAM模型,SAM論文,SAM論文翻譯;一個(gè)用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集;SA-1B數(shù)據(jù)集

    論文鏈接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publications/segment-anything/ 代碼連接:https://github.com/facebookresearch/segment-anything 論文翻譯: http://t.csdn.cn/nnqs8 https://blog.csdn.net/leiduifan6944/article/details/130080159 本文提出Segment Anything (SA)項(xiàng)目:一個(gè)用于圖像分割的新任務(wù)

    2023年04月19日
    瀏覽(69)
  • 論文解讀:Segment Anything

    論文解讀:Segment Anything

    Segment Anything 發(fā)表時(shí)間:2023 論文地址:https://arxiv.org/abs/2304.02643 項(xiàng)目地址:https://github.com/facebookresearch/segment-anything 介紹了Segment Anything(SA)項(xiàng)目:一個(gè)新的任務(wù)、模型集和數(shù)據(jù)集的圖像分割。在數(shù)據(jù)收集循環(huán)中使用模型迭代,我們建立了迄今為止(迄今為止)最大的分割數(shù)

    2024年02月09日
    瀏覽(23)
  • Meta AI Segment Anything Model (SAM)初體驗(yàn)

    Meta AI Segment Anything Model (SAM)初體驗(yàn)

    最近Meta AI發(fā)布了Segment Anything模型,可以直接分割任何圖片。我趁熱乎體驗(yàn)了一下。 打開Segment Anything官網(wǎng)https://segment-anything.com/: 點(diǎn)擊Try the demo,在彈出的對(duì)話框中勾選“I have read…”,進(jìn)入上傳界面: 點(diǎn)擊“Upload an image”,上傳自己的圖片: 我上傳的圖片大小是5.14MB,提

    2024年02月05日
    瀏覽(20)
  • 圖像分割之SAM(Segment Anything Model)

    圖像分割之SAM(Segment Anything Model)

    論文:Segment Anything Github:https://github.com/facebookresearch/segment-anything 論文從zero-shot主干網(wǎng)絡(luò)的基礎(chǔ)出發(fā),提出了SAM(Segment Anything Model)模型。該模型有別于傳統(tǒng)的分割模型。傳統(tǒng)分割模型只能輸入原圖輸出固定的分割結(jié)果,SAM在設(shè)計(jì)上可以同時(shí)輸入原圖和特定提示(點(diǎn)、框、

    2024年02月07日
    瀏覽(28)
  • Segment Anything:突破邊界的圖像分割新技術(shù)解析

    Segment Anything:突破邊界的圖像分割新技術(shù)解析

    Segment Anything論文地址: https://arxiv.org/pdf/2304.02643.pdf 在自然語言處理中,基于大規(guī)模語言模型的零樣本和少樣本學(xué)習(xí)已經(jīng)取得了重要進(jìn)展。在計(jì)算機(jī)視覺領(lǐng)域,例如CLIP和ALIGN,通過工程化的文本提示可以實(shí)現(xiàn)對(duì)新視覺概念的零樣本泛化。 本論文中,我們提出了可提示的分割任

    2024年02月12日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包