国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

圖像分割之SAM(Segment Anything Model)

這篇具有很好參考價值的文章主要介紹了圖像分割之SAM(Segment Anything Model)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文:Segment Anything

Github:https://github.com/facebookresearch/segment-anything

圖像分割之SAM(Segment Anything Model)

論文從zero-shot主干網(wǎng)絡(luò)的基礎(chǔ)出發(fā),提出了SAM(Segment Anything Model)模型。該模型有別于傳統(tǒng)的分割模型。傳統(tǒng)分割模型只能輸入原圖輸出固定的分割結(jié)果,SAM在設(shè)計上可以同時輸入原圖和特定提示(點、框、陰影、文本),然后根據(jù)不同的提示輸出不同的分割結(jié)果圖,并且SAM支持不同提示的交互式分割。SAM可以適用于多種分割場景,包括交互式分割、邊界檢測、超分、物體生成、前景分割、語義分割、實例分割、全景分割等眾多場景。另外為了訓練SAM這種多模態(tài)的模型,論文在數(shù)據(jù)上也下足了功夫,論文貢獻了大規(guī)模分割數(shù)據(jù)集SA-1B,包括10億個mask和110w圖片。

要使模型具備0樣本遷移能力,需要從模型容量、數(shù)據(jù)集大小、整體訓練這3方面下功夫。

因此論文就從task, model, data 3個方面進行了改進。

Task

圖像分割之SAM(Segment Anything Model)

在論文的交互式分割任務(wù)中,有的提示信息,比如點的提示,存在模棱兩可的情況。為了解決這樣的問題,SAM模型會同時輸出3個分割結(jié)果,分別為全部(whole),部分(part), 局部(subpart)。

model

圖像分割之SAM(Segment Anything Model)

論文設(shè)計了包含多模態(tài)信息的SAM分割模型,模型在相關(guān)提示下預測分割mask大概耗時50ms。

SAM模型由圖片編碼器模塊(image encoder)、提示信息編碼器模塊(prompt encoder)、分割mask解碼器模塊(mask decoder)3部分組成。

圖片編碼器模塊基于Vision Transformer (ViT)主干網(wǎng)絡(luò)實現(xiàn)。

提示信息編碼器模塊支持稀疏特征點、框、文本 (points, boxes, text) 和稠密特征陰影 (masks)。

對于點和框在提取embedding的時候加入了位置編碼信息的embedding,然后將兩者相加得到最終的embedding。對于文本信息的編碼采用了clip模型。

對于陰影信息的編碼通過conv實現(xiàn),并最終和圖片的編碼特征相加。

圖像分割之SAM(Segment Anything Model)

分割mask解碼器模塊采用Transformer的解碼器部分實現(xiàn),并在后面接入動態(tài)的頭部預測模塊。同時在訓練過程中,從圖片到提示和從提示到圖片都引入了自監(jiān)督(self-attention)和跨監(jiān)督(cross-attention)操作。 最后上采樣圖片的embedding,通過一個MLP模塊,經(jīng)線性分類器,得到最終的概率圖。

Data engine

為了建立一個大規(guī)模的分割數(shù)據(jù)集,論文建立了一套數(shù)據(jù)制作的引擎。整個過程包含3個階段,人工手動階段(assisted-manual),半自動階段(semi-automatic), 全自動階段(fully automatic)。

人工手動階段(assisted-manual):

該階段標注過程和訓練過程是同步進行的。需要人工在標注引擎上對mask進行標注,如果一個mask的標注時間超過30s就會放棄選擇標注下一個圖片。隨著標注圖片的增加和訓練過程的進行,圖片編碼器的主干網(wǎng)絡(luò)從ViT-B進化為ViT-H。這樣的標注-訓練迭代過程持續(xù)了6輪。最終每張圖片的標注時間從34s降低為14s。每個圖片中的mask數(shù)量從20個提升到44個。最終在該階段收集到了4.3M mask和 120k image。

半自動階段(semi-automatic):

該階段主要目的是提高mask的多樣性,從而提高模型的分割能力。由于標注過程更注重mask多樣性的標注,所以該階段的平均標注時間提升到了34s/圖。每個圖片中的mask數(shù)量從44提升到了72。在該階段收集了5.9M mask和180k image。

全自動階段(fully automatic):

該階段使用模型進行全自動標注。每個圖片會被設(shè)置32*32的網(wǎng)格點來覆蓋圖片中的所有物體。并且會通過iou來選擇靠譜的mask,然后再進行NMS操作,從而得到最終的mask。

該階段共收集到1.1B mask和 11M image。

Losses and training

訓練過程采用focal loss 和 dice loss的線性組合作為最終loss。

訓練過程中會根據(jù)mask隨機采樣不同的提示進行訓練。

Dataset

大規(guī)模分割數(shù)據(jù)集SA-1B,包括10億個mask和110w圖片。相比同類分割數(shù)據(jù)集,多了400倍的mask。

Images

原始圖片的分辨率為3300× 4950,考慮到存儲和展示的必要,將圖片都縮放到短邊為1500像素。即使是這樣,也比coco數(shù)據(jù)集的圖片分辨率480× 640大很多。

Masks

通過數(shù)據(jù)引擎標注的圖片具有很高的標注質(zhì)量。

Mask quality

從所有數(shù)據(jù)中隨機選取了500張圖片以及對應(yīng)的大概50000mask。讓專家進行精細標注,然后和數(shù)據(jù)引擎標注的結(jié)果進行iou對比。結(jié)果是94%的圖片iou超過90%,97%的圖片iou超過75%。iou一致性基本在85-91%。

Mask properties

圖像分割之SAM(Segment Anything Model)

SA-1B覆蓋了更廣泛的圖片區(qū)間,比第二大分割數(shù)據(jù)集多了11倍的圖片400倍的mask。同時SA-1B包含了更多的小和中等的mask。通過mask輪廓的凹陷程度來分析mask的多樣性,發(fā)現(xiàn)SA-1B和其他分割數(shù)據(jù)集擁有同樣的mask多樣性。

RAI Analysis

通過Responsible AI (RAI)分析,SA-1B覆蓋了全世界各個角落的數(shù)據(jù)圖片。同時在年齡、性別、膚色等維度也都沒有各種歧視。表現(xiàn)出了更多的包容性More Inclusive Annotations for People (MIAP)。

圖像分割之SAM(Segment Anything Model)?

實驗結(jié)果:

圖像分割之SAM(Segment Anything Model)在眾多數(shù)據(jù)集上,SAM方法都優(yōu)于RITM方法。

隨著提示點的數(shù)量的增加,SAM的分割效果越來越高,隨著提示點從1到9的增加,SAM方法和其他分割方法之間的gap越來越小。當提示點達到9個是,SAM的分割效果會略低于其他方法,這是因為SAM方法的設(shè)計初衷就不是一個高IOU的分割方法。

SAM方法在中型物體、大型物體、罕見物體、正常物體上的分割效果是優(yōu)于其他分割方法的。

?圖像分割之SAM(Segment Anything Model)

SAM可以實現(xiàn)基于文本的分割。同時在文本分割不準確的情況下,可以通過增加點的提示信息,來提升分割效果。

Limitations

SAM在細粒度的分割、非連續(xù)部件的分割上表現(xiàn)都較差。同時分割的邊界也不夠干凈利落。

對于文本到mask的分割任務(wù)還在嘗試探索階段,尚不夠魯棒,具有很大的提升空間。

結(jié)論:

SAM首個提出在圖像分割領(lǐng)域0樣本遷移的基礎(chǔ)模型(foundation models)的概念。也就是不需要任何實際使用場景的訓練,該模型就可以直接進行分割推理。論文貢獻了SAM分割模型和SA-1B分割數(shù)據(jù)集。

?文章來源地址http://www.zghlxwxcb.cn/news/detail-470343.html

?

?

?

?

到了這里,關(guān)于圖像分割之SAM(Segment Anything Model)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Segment Anything論文翻譯,SAM模型,SAM論文,SAM論文翻譯;一個用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集;SA-1B數(shù)據(jù)集

    Segment Anything論文翻譯,SAM模型,SAM論文,SAM論文翻譯;一個用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集;SA-1B數(shù)據(jù)集

    論文鏈接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publications/segment-anything/ 代碼連接:https://github.com/facebookresearch/segment-anything 論文翻譯: http://t.csdn.cn/nnqs8 https://blog.csdn.net/leiduifan6944/article/details/130080159 本文提出Segment Anything (SA)項目:一個用于圖像分割的新任務(wù)

    2023年04月19日
    瀏覽(69)
  • 【Segment Anything Model】論文+代碼實戰(zhàn)調(diào)用SAM模型預訓練權(quán)重+相關(guān)論文

    上篇文章已經(jīng)全局初步介紹了SAM和其功能,本篇作為進階使用。點擊訂閱專欄查看專欄列表和對應(yīng)知識點,本文為seg SAM系列文章,在持續(xù)更新。

    2024年02月05日
    瀏覽(22)
  • 【自用】SAM模型論文筆記與復現(xiàn)代碼(segment-anything-model)

    【自用】SAM模型論文筆記與復現(xiàn)代碼(segment-anything-model)

    一個 prompt encoder ,對提示進行編碼, image encoder 對圖像編碼,生成embedding, 最后融合2個 encoder ,再接一個輕量的 mask decoder ,輸出最后的mask。 模型結(jié)構(gòu)示意圖: 流程圖: 模型的結(jié)構(gòu)如上圖所示. prompt會經(jīng)過 prompt encoder , 圖像會經(jīng)過 image encoder 。然后將兩部分embedding經(jīng)過一個

    2024年01月24日
    瀏覽(24)
  • Segment Anything Model (SAM)——卷起來了,那個號稱分割一切的CV大模型他來了

    Segment Anything Model (SAM)——卷起來了,那個號稱分割一切的CV大模型他來了

    最近每天打開微信看到10個公眾號里面差不多有11個都在各種玩賺chatGPT,每個都在說是各種大好風口,哎,看得眼睛都是累的。 今天下午無意間看到Meta發(fā)布了一款號稱能分割一切的CV大模型,CV圈也開始卷起來,今年各種大模型要爆發(fā)了感覺。 吃瓜群眾滿懷好奇,點開了解一

    2023年04月10日
    瀏覽(27)
  • 【論文閱讀】Segment Anything(SAM)——可分割一切的CV大模型

    【論文閱讀】Segment Anything(SAM)——可分割一切的CV大模型

    【前言】隨著ChatGPT席卷自然語言處理,F(xiàn)acebook憑借著Segment Anything在CV圈也算扳回一城。迄今為止,github的star已經(jīng)超過3萬,火的可謂一塌糊涂。作為AI菜鳥,可不得自己爬到巨人肩膀上瞅一瞅~ 論文地址:https://arxiv.org/abs/2304.02643 代碼地址:GitHub - facebookresearch/segment-anything: T

    2024年02月15日
    瀏覽(20)
  • 【論文閱讀筆記】Sam3d: Segment anything model in volumetric medical images[

    【論文閱讀筆記】Sam3d: Segment anything model in volumetric medical images[

    Bui N T, Hoang D H, Tran M T, et al. Sam3d: Segment anything model in volumetric medical images[J]. arXiv preprint arXiv:2309.03493, 2023.【開源】 本文提出的SAM3D模型是針對三維體積醫(yī)學圖像分割的一種新方法。其核心在于將“分割任何事物”(SAM)模型的預訓練編碼器與一個輕量級的3D解碼器相結(jié)合。與

    2024年01月20日
    瀏覽(32)
  • 【論文筆記】SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

    【論文筆記】SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

    原文鏈接:https://arxiv.org/pdf/2306.02245.pdf ??分割一切模型(SAM)作為視覺領(lǐng)域的基石模型,有強大的泛化性,能解決很多2D視覺問題。但是SAM是否可以適用于3D視覺任務(wù),仍需要被探索。 ??目前幾乎沒有關(guān)于3D目標檢測的零樣本學習,如何使SAM的零樣本能力適用于3D目標檢測

    2024年02月16日
    瀏覽(27)
  • 【圖像分割】Segment Anything(Meta AI)論文解讀

    【圖像分割】Segment Anything(Meta AI)論文解讀

    論文地址:https://arxiv.org/abs/2304.02643 項目地址:https://github.com/facebookresearch/segment-anything Demo 與數(shù)據(jù)集SA-1B地址:https://segment-anything.com/ Meta 發(fā)布的新模型名叫 Segment Anything Model (SAM) 。他們在博客中介紹說,「SAM 已經(jīng)學會了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中

    2023年04月10日
    瀏覽(23)
  • SAM(segment anything model)本地部署復現(xiàn)

    SAM(segment anything model)本地部署復現(xiàn)

    源碼位置:https://github.com/facebookresearch/segment-anything 或者 直接下載,解壓到當前文件夾,并把解壓出的文件夾名字改成segment-anything 1、進入segment-anything文件夾 2、安裝 3、安裝其他依賴 4、下載模型文件到segment-anything文件夾內(nèi) default or vit_h: vit_l: vit_b: 5、下載數(shù)據(jù)集 或者用自己

    2024年02月11日
    瀏覽(20)
  • 【模型解讀】【代碼復現(xiàn)】Segment Anything Model(SAM)

    【模型解讀】【代碼復現(xiàn)】Segment Anything Model(SAM)

    Segment Anything Model論文 Segment Anything Model官網(wǎng) Segment Anything Model官網(wǎng)demo網(wǎng)頁端 Segment Anything Model模型源碼 SAM應(yīng)用:生成包含語義信息的遙感圖像分割結(jié)果 We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we bu

    2024年02月08日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包