一、前言
今天親手體驗了一下meta公司發(fā)布的Segment Anything,我們認(rèn)為是cv界的chatgpt,這個模型太厲害了,厲害到可以對任意一張圖進(jìn)行分割,他們的網(wǎng)站上的例子也是挺復(fù)雜的,能夠說明其強大的能力—demo鏈接,人工智能的技術(shù)迭代真是太快了。在模型的介紹中,有句話著實驚人——號稱:“SAM已經(jīng)學(xué)會了物體是什么的一般概念”:
通常人們認(rèn)為,人工智能大致可以分為三個階段:
(1)弱人工智能(Weak AI)
弱人工智能(Weak AI)簡稱弱智,指特定場景解決特定領(lǐng)域的問題。比如前段時間出現(xiàn)的AlphaGo,實現(xiàn)了圍棋領(lǐng)域的的人工智能。
(2)強人工智能(General AI)
強人工智能更貼切的翻譯是通用人工智能,就是以ChatGPT為代表的完全人工智能,能夠適應(yīng)人類大部分甚至是所有工作領(lǐng)域的一類人工智能。可以說我們?nèi)缃?,正在處于通用人工智能技術(shù)突破的時間轉(zhuǎn)折點上。
(3)超人工智能(Super AI)
顧名思意,這個時候,人工智能在人類定義的”智能“領(lǐng)域已經(jīng)全面超過了人類,隨著量子計算等技術(shù)發(fā)展,相信實現(xiàn)是時間問題。真希望這個時代晚點到來,或者那時候,人類或許已經(jīng)和超人工智能實現(xiàn)了融合,成為了新一代的超人。也希望那個時代,人類的道德境界也實現(xiàn)了滿格。
二、SAM的一些介紹
2.1 模型的結(jié)構(gòu)是什么?
- ViT-H 圖像編碼器,每個圖像運行一次并輸出圖像嵌入
- 嵌入輸入提示(如單擊或框)的提示編碼器
- 基于轉(zhuǎn)換器的輕量級掩碼解碼器,可從圖像嵌入和提示嵌入中預(yù)測對象掩碼
2.2 支持哪些類型的提示?
- 前景/背景點
- 邊界框
- 遮罩
2.3 該模型使用什么平臺?
- 圖像編碼器在 PyTorch 中實現(xiàn),需要 GPU 才能進(jìn)行高效推理。
- 提示編碼器和掩碼解碼器可以直接使用 PyTroch 運行,也可以轉(zhuǎn)換為 ONNX,并在支持 ONNX 運行時的各種平臺上的 CPU 或 GPU 上高效運行。
2.4 模型有多大?
- 圖像編碼器具有632M參數(shù)。
- 提示編碼器和掩碼解碼器具有4M參數(shù)。
2.5 推理需要多長時間?
- 圖像編碼器在 NVIDIA A0 GPU 上需要 ~15.100 秒。(沒查到這款GPU,有知情的評論區(qū)告知)
- 提示編碼器和掩碼解碼器在瀏覽器中使用多線程 SIMD 執(zhí)行的 CPU 上占用 ~50 毫秒。
2.6 訓(xùn)練模型需要多長時間?
- 該模型在 3 個 A5 GPU 上訓(xùn)練了 256-100 天。
2.7 模型是在哪些數(shù)據(jù)上訓(xùn)練的?
- 該模型在meta的SA-1B數(shù)據(jù)集上進(jìn)行了訓(xùn)練。
2.8 模型是否生成掩碼標(biāo)簽?
- 否,模型僅預(yù)測對象掩碼,不生成標(biāo)簽。
三、象棋摳圖測試
筆者上傳了自己的一個棋盤圖片,利用Segment Anything提供的模型工具進(jìn)行了測試,測試結(jié)果發(fā)現(xiàn),能夠很好地?fù)赋銎灞P中的棋子。
3.1、圖片上傳
3.2、鼠標(biāo)物體響應(yīng)
上傳后,通過一點時間的識別后,把鼠標(biāo)放到圖片上面,就可以對上面的棋子做出響應(yīng),顯然自動分離出了棋子棋盤。有一點厲害的是,它把棋子的厚度也給識別出來,認(rèn)為也是棋子的一部分。
3.3、一鍵扣圖
Segment Anything提供了手動框選分割功能,此外還有一個牛逼的功能是,自動對圖像進(jìn)行分割:
點擊自動分割后,可以準(zhǔn)確的識別出棋子:
識別完后,它會自動切出分離的物體如下32個棋子一個不少:
四、運動場景測試
輸入一張隨機的羽毛球圖片:
識別結(jié)果如下:
好吧,我承認(rèn),我用opecv遠(yuǎn)遠(yuǎn)還不能達(dá)到以上的效果。文章來源:http://www.zghlxwxcb.cn/news/detail-417343.html
五、后記
以上的象棋、羽毛球圖片其實場景并不復(fù)雜,比它網(wǎng)站上面的圖片要簡單的多,但是足夠可以說明一件事,該模型可以勝任多個領(lǐng)域的機器視覺任務(wù),或者是給各領(lǐng)域的cv工作者提供了底層解決方案或者思路。文章來源地址http://www.zghlxwxcb.cn/news/detail-417343.html
到了這里,關(guān)于CV界的chatgpt出現(xiàn)——Segment Anything能分割萬物的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!