介紹地址:https://ai.facebook.com/research/publications/segment-anything/
演示地址:https://segment-anything.com/demo#
論文:https://scontent-akl1-1.xx.fbcdn.net/v/t39.2365-6/10000000_900554171201033_1602411987825904100_n.pdf?_nc_cat=100&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=Ald4OYhL6hgAX-FZV7S&_nc_ht=scontent-akl1-1.xx&oh=00_AfDDJRfDV85B3em0zMZvyCIp882H7HaUn6lo1KzBtZ_ntQ&oe=643500E7
簡介:“分割任何物體”(SA)項(xiàng)目:這是一個新的任務(wù)、模型和用于圖像分割的數(shù)據(jù)集。我們使用高效的模型在數(shù)據(jù)收集循環(huán)中,建立了迄今為止最大的分割數(shù)據(jù)集,涵蓋了超過1億張授權(quán)和尊重隱私的圖像。該模型經(jīng)過設(shè)計(jì)和訓(xùn)練,可立即響應(yīng),因此可以在新的圖像分布和任務(wù)上進(jìn)行零樣本遷移。
Meta評估了其在眾多任務(wù)上的能力,并發(fā)現(xiàn)它的零樣本性能令人印象深刻——通常與甚至優(yōu)于以前的全監(jiān)督結(jié)果相競爭。我們將發(fā)布“分割任何物體模型”(SAM)和相應(yīng)的數(shù)據(jù)集(SA-1B),其中包含10億個掩模和1100萬張圖像,以促進(jìn)計(jì)算機(jī)視覺基礎(chǔ)模型的研究。https://segment-anything.com
整體流程
Meta提出:大規(guī)模預(yù)訓(xùn)練的語言模型正在使用零-shot和少量-shot的泛化性能方面在NLP領(lǐng)域進(jìn)行革命性的改變。這些“基礎(chǔ)模型”可以將任務(wù)和數(shù)據(jù)分布泛化到訓(xùn)練期間未曾見過的領(lǐng)域。這種能力通常是通過prompt engineering實(shí)現(xiàn)的,即使用手工制作的文本來提示語言模型為當(dāng)前任務(wù)生成有效的文本響應(yīng)。當(dāng)使用來自Web的豐富文本語料庫進(jìn)行擴(kuò)展和訓(xùn)練時,這些模型的零-shot和少量-shot的性能表現(xiàn)出人意料的好,甚至在某些情況下與微調(diào)模型相媲美。經(jīng)驗(yàn)趨勢表明,這種行為隨著模型規(guī)模、數(shù)據(jù)集大小和總的訓(xùn)練計(jì)算力的增加而不斷改善?;A(chǔ)模型在計(jì)算機(jī)視覺領(lǐng)域也得到了探索,盡管探索程度較少。最顯著的例子可能是從Web上對齊文本和圖像。例如,CLIP [82]和ALIGN [55]使用對比學(xué)習(xí)來訓(xùn)練文本和圖像編碼器以對齊這兩種模態(tài)。訓(xùn)練后,經(jīng)過設(shè)計(jì)的文本提示可以實(shí)現(xiàn)對新的視覺概念和數(shù)據(jù)分布的零-shot泛化。這種編碼器也可以有效地與其他模塊組合,以實(shí)現(xiàn)下游任務(wù),例如圖像生成(例如DALL·E [83])。雖然在視覺和語言編碼器方面取得了很多進(jìn)展,但計(jì)算機(jī)視覺包括許多超出此范圍的問題,對于其中許多問題,缺乏豐富的訓(xùn)練數(shù)據(jù)。在本研究中,我們的目標(biāo)是建立一個圖像分割的基礎(chǔ)模型。也就是說,我們希望開發(fā)一個可提示的模型,并使用一個能夠?qū)崿F(xiàn)強(qiáng)大泛化的任務(wù)在廣泛的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。利用該模型,我們旨在使用prompt engineering在新的數(shù)據(jù)分布上解決一系列下游分割問題。
關(guān)鍵點(diǎn):
任務(wù)(§2)。在自然語言處理領(lǐng)域,以及近年來的計(jì)算機(jī)視覺領(lǐng)域,基礎(chǔ)模型是一種有前途的發(fā)展,通??梢酝ㄟ^“提示”技術(shù)實(shí)現(xiàn)對新數(shù)據(jù)集和任務(wù)的零樣本和小樣本學(xué)習(xí)。受到這一工作線路的啟發(fā),我們提出了可提示分割任務(wù),即旨在根據(jù)任何分割提示(參見圖1a)返回有效的分割掩碼。提示簡單地指定要在圖像中分割的內(nèi)容,例如,提示可以包括標(biāo)識對象的空間或文本信息。要求輸出掩碼有效意味著即使提示模棱兩可并可能涉及多個對象(例如,襯衫上的一個點(diǎn)可能表示襯衫或穿著襯衫的人),輸出也應(yīng)為至少其中一個對象提供一個合理的掩碼。我們使用可提示分割任務(wù)作為預(yù)訓(xùn)練目標(biāo),并通過提示工程來解決各種下游分割任務(wù)。
模型(§3)。可提示分割任務(wù)和實(shí)際使用目標(biāo)對模型架構(gòu)施加了約束。特別是,模型必須支持靈活的提示,需要在攤銷實(shí)時計(jì)算掩碼以允許交互式使用,并且必須具有歧義感知能力。令人驚訝的是,我們發(fā)現(xiàn)一個簡單的設(shè)計(jì)可以滿足所有三個約束條件:一個強(qiáng)大的圖像編碼器計(jì)算圖像嵌入,一個提示編碼器嵌入提示,然后兩個信息源在一個輕量級的掩碼解碼器中進(jìn)行組合以預(yù)測分割掩碼。我們將這個模型稱為“Segment Anything Model”或SAM(參見圖1b)。通過將SAM分解為圖像編碼器和快速提示編碼器/掩碼解碼器,可以重用相同的圖像嵌入(并攤銷其成本),并使用不同的提示。給定一個圖像嵌入,提示編碼器和掩碼解碼器在Web瀏覽器中從提示預(yù)測掩碼需要約50ms。我們專注于點(diǎn)、框和掩碼提示,并且還使用自由形式文本提示呈現(xiàn)初始結(jié)果。為了使SAM具有歧義感知能力,我們設(shè)計(jì)它預(yù)測單個提示的多個掩碼,從而自然地處理歧義,例如襯衫與人的例子。
數(shù)據(jù)引擎(§4)。為了實(shí)現(xiàn)對新數(shù)據(jù)分布的強(qiáng)大泛化能力,我們發(fā)現(xiàn)有必要在大量且多樣化的掩碼上訓(xùn)練SAM,這超出了任何現(xiàn)有分割數(shù)據(jù)集。雖然基礎(chǔ)模型的典型方法是在線獲得數(shù)據(jù)[82],但掩碼并不是自然豐富的,因此我們需要一種替代策略。我們的解決方案是構(gòu)建一個“數(shù)據(jù)引擎”,即我們與模型在回路中的數(shù)據(jù)集標(biāo)注一起開發(fā)(參見圖1c)。我們的數(shù)據(jù)引擎分為三個階段:輔助手動、半自動和全自動。在第一階段,SAM協(xié)助注釋者注釋掩碼,類似于經(jīng)典的交互式分割設(shè)置。在第二階段,SAM可以通過提示可能的對象位置自動生成部分對象的掩碼,注釋者專注于注釋其余對象,從而增加掩碼的多樣性。在最后一個階段,我們用前景點(diǎn)的常規(guī)網(wǎng)格提示SAM,每個圖像平均產(chǎn)生約100個高質(zhì)量的掩碼。
數(shù)據(jù)集(§5)。我們最終的數(shù)據(jù)集SA-1B包括來自1100萬個經(jīng)過許可且保護(hù)隱私的圖像的1億多個掩碼(見圖2)。使用我們數(shù)據(jù)引擎的最終階段完全自動地收集的SA-1B比任何現(xiàn)有的分割數(shù)據(jù)集[66, 44, 117, 60]都多出400倍,如我們廣泛驗(yàn)證的那樣,掩碼具有高質(zhì)量和多樣性。除了用于訓(xùn)練SAM以實(shí)現(xiàn)強(qiáng)大的穩(wěn)健性和泛化能力外,我們希望SA-1B成為旨在構(gòu)建新基礎(chǔ)模型的研究的有價值的資源。
負(fù)責(zé)任的AI(§6)。我們研究并報告了在使用SA-1B和SAM時可能存在的公平性問題和偏差。SA-1B中的圖像涵蓋了一組地理和經(jīng)濟(jì)多樣化的國家,我們發(fā)現(xiàn)SAM在不同的人群中表現(xiàn)相似。我們希望這將使我們的工作在實(shí)際應(yīng)用場景中更具公平性。我們在附錄中提供了模型和數(shù)據(jù)集卡片。
實(shí)驗(yàn)(§7)。我們對SAM進(jìn)行了廣泛的評估。首先,使用23個不同的分割數(shù)據(jù)集,我們發(fā)現(xiàn)SAM可以從單個前景點(diǎn)生成高質(zhì)量的掩模,通常只比手動注釋的地面真實(shí)值稍微低一些。其次,我們發(fā)現(xiàn)在使用提示工程的零-shot轉(zhuǎn)移協(xié)議下,在各種下游任務(wù)中,包括邊緣檢測、目標(biāo)提議生成、實(shí)例分割以及文本到掩模預(yù)測的初步探索中,我們都獲得了一致強(qiáng)勁的定量和定性結(jié)果。這些結(jié)果表明,SAM可以與提示工程一起直接用于解決涉及對象和圖像分布超出SAM訓(xùn)練數(shù)據(jù)的各種任務(wù)。然而,仍有改進(jìn)的空間,我們在§8中進(jìn)行了討論。
發(fā)布。我們將SA-1B數(shù)據(jù)集發(fā)布供研究用途,并在https://segment-anything.com上以寬松的開放許可(Apache?2.0)提供SAM。我們還通過在線演示展示了SAM的能力。
文章來源:http://www.zghlxwxcb.cn/news/detail-449856.html
具體請看論文文章來源地址http://www.zghlxwxcb.cn/news/detail-449856.html
到了這里,關(guān)于Meta:segment anything的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!