如果你認(rèn)為 AI 領(lǐng)域已經(jīng)通過(guò) ChatGPT、GPT4 和 Stable Diffusion 快速發(fā)展,那么請(qǐng)系好安全帶,為 AI 的下一個(gè)突破性創(chuàng)新做好準(zhǔn)備。
推薦:用 NSDT場(chǎng)景設(shè)計(jì)器 快速搭建3D場(chǎng)景。
Meta 的 FAIR 實(shí)驗(yàn)室剛剛發(fā)布了 Segment Anything Model (SAM),這是一種最先進(jìn)的圖像分割模型,旨在改變計(jì)算機(jī)視覺(jué)領(lǐng)域。
SAM 基于對(duì)自然語(yǔ)言處理 (NLP) 產(chǎn)生重大影響的基礎(chǔ)模型。 它專注于可提示的分割任務(wù),使用提示工程來(lái)適應(yīng)不同的下游分割問(wèn)題。
為什么我們對(duì) SAM 如此興奮?
經(jīng)過(guò)一天的測(cè)試,我們可以看到以下令人難以置信的進(jìn)步:
- SAM 可以通過(guò)簡(jiǎn)單地單擊或交互地選擇點(diǎn)來(lái)分割對(duì)象以包括或排除對(duì)象。 你還可以通過(guò)使用多邊形工具繪制邊界框或分割區(qū)域來(lái)創(chuàng)建分割,它會(huì)捕捉到對(duì)象。
- 當(dāng)在識(shí)別要分割的對(duì)象時(shí)遇到不確定性時(shí),SAM 能夠生成多個(gè)有效掩碼。
- SAM 能夠?yàn)閳D像中存在的所有對(duì)象自動(dòng)識(shí)別和生成蒙版。
- 在預(yù)計(jì)算圖像嵌入后,SAM 可以立即為任何提示提供分割掩碼,從而實(shí)現(xiàn)與模型的實(shí)時(shí)交互。
在這篇博文中,我們將了解什么是 SAM 以及它為何能改變游戲規(guī)則,了解它與之前模型相比的表現(xiàn)如何,查看 SAM 的內(nèi)部結(jié)構(gòu)、網(wǎng)絡(luò)架構(gòu)、設(shè)計(jì)和實(shí)施,并了解 SAM 在 AI 輔助標(biāo)記方面的潛在用途。
1、SAM vs. 之前的分割模型
SAM 是 AI 向前邁出的一大步,因?yàn)樗⒃谠缙谀P偷於ǖ幕A(chǔ)之上。 SAM 可以從其他系統(tǒng)獲取輸入提示,例如,在未來(lái),從 AR/VR 耳機(jī)獲取用戶的目光來(lái)選擇對(duì)象,使用輸出掩碼進(jìn)行視頻編輯,將 2D 對(duì)象抽象為 3D 模型,甚至流行的谷歌 照片任務(wù),如創(chuàng)建拼貼畫(huà)。
它可以通過(guò)在提示不清楚的情況下生成多個(gè)有效掩碼來(lái)處理棘手的情況。 以用戶提示尋找 Waldo 為例:
SAM 結(jié)果具有開(kāi)創(chuàng)性的原因之一是分割掩碼與 ViTDet 等其他技術(shù)相比有多好。 下圖顯示了兩種技術(shù)的比較:
這篇研究論文更詳細(xì)地比較了這兩種技術(shù)的結(jié)果。
2、SAM 的網(wǎng)絡(luò)架構(gòu)和設(shè)計(jì)
SAM 的設(shè)計(jì)取決于三個(gè)主要組件:
- 可提示的分割任務(wù)可實(shí)現(xiàn)零樣本泛化。
- 模型架構(gòu)。
- 為任務(wù)和模型提供支持的數(shù)據(jù)集。
2.1 任務(wù)
SAM 接受了數(shù)百萬(wàn)張圖像和超過(guò)十億個(gè)掩碼的訓(xùn)練,可為任何提示返回有效的分割掩碼。 在這種情況下,提示是分割任務(wù),可以是前景/背景點(diǎn)、粗框或遮罩、點(diǎn)擊、文本,或者一般來(lái)說(shuō),指示圖像中要分割的內(nèi)容的任何信息。 該任務(wù)也用作模型的預(yù)訓(xùn)練目標(biāo)。
2.2 模型
SAM 的架構(gòu)包含三個(gè)組件,它們協(xié)同工作以返回有效的分割掩碼:
- 圖像編碼器,用于生成一次性圖像嵌入。
- 提示編碼器,用于生成提示嵌入,提示可以是點(diǎn)、框或文本。
- 結(jié)合了提示和圖像編碼器的嵌入的輕量級(jí)掩碼解碼器。
我們將在下一節(jié)中更深入地研究架構(gòu),但現(xiàn)在,讓我們看一下數(shù)據(jù)集。
2.3 數(shù)據(jù)引擎和數(shù)據(jù)集
需要數(shù)據(jù)引擎來(lái)支持任務(wù)并改進(jìn)數(shù)據(jù)集和模型。 數(shù)據(jù)引擎分為三個(gè)階段:
- 輔助手動(dòng),其中 SAM 協(xié)助標(biāo)注者對(duì)掩碼進(jìn)行標(biāo)注,類似于經(jīng)典的交互式分割設(shè)置。
- 半自動(dòng),其中 SAM 可以通過(guò)提示可能的對(duì)象位置來(lái)自動(dòng)為對(duì)象子集生成掩碼,標(biāo)注者專注于剩余對(duì)象的標(biāo)注,從而有助于增加掩碼多樣性。
- 全自動(dòng),人工標(biāo)注者使用規(guī)則的前景點(diǎn)網(wǎng)格提示 SAM,平均每張圖像生成 100 個(gè)高質(zhì)量掩碼。
數(shù)據(jù)引擎構(gòu)建大段任何 10 億掩碼數(shù)據(jù)集 Meta AI 發(fā)布。
3、SAM模型的內(nèi)幕
3.1 圖像編碼器
在最高級(jí)別,圖像編碼器(掩碼自動(dòng)編碼器、MAE、預(yù)訓(xùn)練視覺(jué)變換器、ViT)生成一次性圖像嵌入,可以在提示模型之前應(yīng)用。
3.2 提示編碼器
提示編碼器將背景點(diǎn)、遮罩、邊界框或文本實(shí)時(shí)編碼到嵌入向量中。 該研究考慮了兩組提示:稀疏(點(diǎn)、框、文本)和密集(掩碼)。
點(diǎn)和框由位置編碼表示,并為每種提示類型添加學(xué)習(xí)嵌入。 自由格式的文本提示由來(lái)自 CLIP 的現(xiàn)成文本編碼器表示。 密集提示,如蒙版,嵌入卷積并與圖像嵌入逐元素求和。
3.3 掩碼解碼器
輕量級(jí)掩碼解碼器根據(jù)來(lái)自圖像和提示編碼器的嵌入預(yù)測(cè)分割掩碼。 它將圖像嵌入、提示嵌入和輸出標(biāo)記映射到掩碼。 所有嵌入都由解碼器塊更新,解碼器塊在兩個(gè)方向(從提示到圖像嵌入和返回)使用提示自我注意和交叉注意。
掩碼被注釋并用于更新模型權(quán)重。 這種布局增強(qiáng)了數(shù)據(jù)集,并允許模型隨著時(shí)間的推移學(xué)習(xí)和改進(jìn),使其高效靈活。
3.4 10 億掩碼數(shù)據(jù)集
Segment Anything 10 億掩碼 (SA-1B) 數(shù)據(jù)集是迄今為止最大的標(biāo)記分割數(shù)據(jù)集。 它專為高級(jí)分割模型的開(kāi)發(fā)和評(píng)估而設(shè)計(jì)。
我們認(rèn)為數(shù)據(jù)集將成為訓(xùn)練和微調(diào)未來(lái)通用模型的重要組成部分。 這將使他們能夠在不同的分割任務(wù)中取得卓越的表現(xiàn)。 目前,該數(shù)據(jù)集僅在研究許可下可用。
SA-1B 數(shù)據(jù)集的獨(dú)特之處在于:
- 數(shù)據(jù)的多樣性
數(shù)據(jù)集經(jīng)過(guò)精心策劃,涵蓋廣泛的領(lǐng)域、對(duì)象和場(chǎng)景,確保模型可以很好地泛化到不同的任務(wù)。 它包括來(lái)自各種來(lái)源的圖像,例如自然場(chǎng)景、城市環(huán)境、醫(yī)學(xué)圖像、衛(wèi)星圖像等。這種多樣性有助于模型學(xué)習(xí)分割具有不同復(fù)雜性、規(guī)模和上下文的對(duì)象和場(chǎng)景。
- 數(shù)據(jù)規(guī)模
SA-1B 數(shù)據(jù)集包含超過(guò) 10 億張高質(zhì)量注釋圖像,為模型提供了充足的訓(xùn)練數(shù)據(jù)。 龐大的數(shù)據(jù)量有助于模型學(xué)習(xí)復(fù)雜的模式和表示,使其能夠在不同的分割任務(wù)上實(shí)現(xiàn)最先進(jìn)的性能。
- 高質(zhì)量的注釋
數(shù)據(jù)集已經(jīng)用高質(zhì)量的掩碼仔細(xì)注釋,導(dǎo)致更準(zhǔn)確和詳細(xì)的分割結(jié)果。 在 SA-1B 數(shù)據(jù)集的 Responsible AI (RAI) 分析中,調(diào)查了地理和收入分配中潛在的公平問(wèn)題和偏見(jiàn)。
研究論文表明,與其他開(kāi)源數(shù)據(jù)集相比,SA-1B 中來(lái)自歐洲、亞洲和大洋洲以及中等收入國(guó)家的圖像比例要高得多。 值得注意的是,SA-1B 數(shù)據(jù)集包含至少 2800 萬(wàn)個(gè)所有地區(qū)的掩碼,包括非洲。 這是之前任何數(shù)據(jù)集中掩碼總數(shù)的 10 倍。
我們認(rèn)為 SA-1B 數(shù)據(jù)集將進(jìn)入計(jì)算機(jī)視覺(jué)名人堂(與 COCO、ImageNet 和 MNIST 等著名數(shù)據(jù)集一起)作為未來(lái)計(jì)算機(jī)視覺(jué)分割模型開(kāi)發(fā)的資源。
4、SAM是開(kāi)源的嗎?
簡(jiǎn)短的回答是,YES! SA-1B 數(shù)據(jù)集已作為研究目的開(kāi)源發(fā)布。 此外,遵循 FAIR 對(duì)開(kāi)放研究的承諾,Meta AI 發(fā)布了預(yù)訓(xùn)練模型(大小約為 2.4 GB)和 Apache 2.0(寬松許可)下的代碼。 它可以在 GitHub 上免費(fèi)訪問(wèn)。 還提供了訓(xùn)練數(shù)據(jù)集以及交互式演示 Web UI。
所有鏈接都來(lái)自項(xiàng)目網(wǎng)頁(yè):
5、基于SAM的 AI 輔助標(biāo)記
我們將 Segment Anything Model (SAM) 視為 AI 輔助標(biāo)記的游戲規(guī)則改變者。 它基本上消除了使用多邊形繪圖工具分割圖像的痛苦,并允許你專注于對(duì)您的模型更重要的數(shù)據(jù)任務(wù)。
這些其他數(shù)據(jù)任務(wù)包括映射不同對(duì)象之間的關(guān)系,賦予它們描述它們?nèi)绾涡袨榈膶傩?,以及評(píng)估訓(xùn)練數(shù)據(jù)以確保它是平衡的、多樣化的和沒(méi)有偏見(jiàn)的。
6、使用 AI 增強(qiáng)手動(dòng)標(biāo)記
SAM 可用于創(chuàng)建 AI 輔助的工作流程增強(qiáng)功能并提高標(biāo)注者的工作效率。 以下是我們認(rèn)為 SAM 可以做出的一些改進(jìn):
- 提高準(zhǔn)確性:標(biāo)注者可以獲得更精確和準(zhǔn)確的標(biāo)簽,減少錯(cuò)誤并提高注釋數(shù)據(jù)的整體質(zhì)量。
- 更快的標(biāo)注:毫無(wú)疑問(wèn),SAM 將加快標(biāo)記過(guò)程,與合適的圖像標(biāo)注工具結(jié)合使用時(shí),使標(biāo)注者能夠更快、更高效地完成任務(wù)。
- 一致性:讓所有標(biāo)注者都使用一個(gè)版本的 SAM 將確保標(biāo)注之間的一致性,這在多個(gè)注釋者處理同一個(gè)項(xiàng)目時(shí)尤為重要。
- 減少工作量:通過(guò)自動(dòng)分割復(fù)雜和復(fù)雜的結(jié)構(gòu),SAM 顯著減少了標(biāo)注者的手動(dòng)工作量,使他們能夠?qū)W⒂诟咛魬?zhàn)性和更復(fù)雜的任務(wù)。
- 持續(xù)學(xué)習(xí):隨著標(biāo)注者改進(jìn)和糾正 SAM 的輔助標(biāo)記,我們可以實(shí)施它,使模型不斷學(xué)習(xí)和改進(jìn),從而隨著時(shí)間的推移獲得更好的性能并進(jìn)一步簡(jiǎn)化標(biāo)注過(guò)程。
因此,將 SAM 集成到注釋工作流程中對(duì)我們來(lái)說(shuō)是輕而易舉的事,這將使我們當(dāng)前和未來(lái)的客戶能夠加速尖端計(jì)算機(jī)視覺(jué)應(yīng)用程序的開(kāi)發(fā)。
7、SAM 如何為 AI 輔助標(biāo)記做出貢獻(xiàn)
要舉例說(shuō)明 SAM 如何有助于 AI 輔助標(biāo)記,請(qǐng)考慮之前的醫(yī)學(xué)圖像示例。 我們將 DICOM 圖像上傳到SAM的演示 Web UI,并花了 10 秒鐘單擊圖像以分割不同的興趣區(qū)域。
之后,我們使用多邊形標(biāo)注工具進(jìn)行了手動(dòng)標(biāo)記,耗時(shí) 2.5 分鐘。 SAM標(biāo)注速度提高 15 倍!
8、真實(shí)世界的用例和應(yīng)用程序
SAM 幾乎可以用于你能想到的每一個(gè)分割任務(wù),從實(shí)例分割到全景分割。 讓我們感到興奮的是,在你的專家審閱者將本體添加到頂部之前,SAM 可以多快地幫助你使用幾乎像素完美的分割蒙版預(yù)先標(biāo)記對(duì)象。
從農(nóng)業(yè)和零售到醫(yī)學(xué)圖像和地理空間圖像,使用 SAM 可以實(shí)現(xiàn)的 AI 輔助標(biāo)記是無(wú)窮無(wú)盡的。 這就是為什么我們 對(duì)這項(xiàng)新技術(shù)感到非常興奮。
9、SAM會(huì)給我們留下什么?
Segment Anything Model (SAM) 真正代表了計(jì)算機(jī)視覺(jué)領(lǐng)域的突破性發(fā)展。 通過(guò)利用可提示的分割任務(wù),SAM 可以使用提示工程來(lái)適應(yīng)各種下游分割問(wèn)題。
這種創(chuàng)新方法與迄今為止最大的標(biāo)記分割數(shù)據(jù)集 (SA-1B) 相結(jié)合,使 SAM 能夠在各種分割任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。
憑借顯著增強(qiáng) AI 輔助標(biāo)記并減少圖像分割任務(wù)中的人工勞動(dòng)的潛力,SAM 可以為農(nóng)業(yè)、零售、醫(yī)學(xué)影像和地理空間影像等行業(yè)鋪平道路。
作為一個(gè)開(kāi)源模型,SAM 將激發(fā)計(jì)算機(jī)視覺(jué)的進(jìn)一步研究和開(kāi)發(fā),鼓勵(lì) AI 社區(qū)在這個(gè)快速發(fā)展的領(lǐng)域突破可能性的界限。
最終,SAM 標(biāo)志著計(jì)算機(jī)視覺(jué)故事的新篇章,展示了基礎(chǔ)模型在改變我們感知和理解周圍世界的方式方面的力量。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-420751.html
原文鏈接:SAM:分割任意圖像 — BimAnt文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-420751.html
到了這里,關(guān)于SAM - 分割一切圖像【AI大模型】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!