国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【計算機視覺 | 目標檢測 | 圖像分割】Grounded Segment Anything:Grounding DINO + Segment Anything Model (SAM)介紹

這篇具有很好參考價值的文章主要介紹了【計算機視覺 | 目標檢測 | 圖像分割】Grounded Segment Anything:Grounding DINO + Segment Anything Model (SAM)介紹。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


集成SAM,可以通過文本提示做檢測/分割等任務。

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
我們計劃通過結合 Grounding DINO 和 Segment Anything 來創(chuàng)建一個非常有趣的演示,旨在通過文本輸入檢測和分割任何內容! 并且我們會在此基礎上不斷完善它,創(chuàng)造出更多有趣的demo。

我們非常愿意幫助大家分享和推廣基于Segment-Anything的新項目,更多精彩的demo和作品請查看社區(qū):亮點擴展項目。 您可以提交新問題(帶有項目標簽)或新拉取請求以添加新項目的鏈接。

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
該項目背后的核心思想是結合不同模型的優(yōu)勢,構建一個非常強大的管道來解決復雜問題。 值得一提的是,這是一個組合強專家模型的工作流程,其中所有部件都可以單獨或組合使用,并且可以替換為任何相似但不同的模型(例如用 GLIP 或其他探測器替換 Grounding DINO / 替換 Stable- 使用 ControlNet 或 GLIGEN 進行擴散/與 ChatGPT 結合)。

一、Preliminary Works

在這里,我們提供了一些您在嘗試演示之前可能需要了解的背景知識。

  1. Segment-Anything:

強大的基礎模型旨在分割圖像中的所有內容,這需要提示(如框/點/文本)來生成掩模

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
2. Grounding DINO:

強大的零樣本檢測器,能夠生成帶有自由格式文本的高質量框和標簽。

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
3. OSX

一種強大而高效的單階段運動捕捉方法,可從單目圖像生成高質量的 3D 人體網(wǎng)格。 OSX還發(fā)布了大規(guī)模上半身數(shù)據(jù)集UBody,用于更準確地重建上半身場景。

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
4. Stable-Diffusion

超強大的開源潛在文本到圖像擴散模型。

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割
5. RAM

RAM is an image tagging model, which can recognize any common category with high accuracy.

  1. BLIP

A wonderful language-vision model for image understanding.

  1. Visual ChatGPT

A wonderful tool that connects ChatGPT and a series of Visual Foundation Models to enable sending and receiving images during chatting.

  1. Tag2Text

An efficient and controllable vision-language model which can simultaneously output superior image captioning and image tagging.

  1. VoxelNeXt

A clean, simple, and fully-sparse 3D object detector, which predicts objects directly upon sparse voxel features.

二、Highlighted Projects

在這里,我們提供了一些您可能會感興趣的令人印象深刻的作品:

2.1 Semantic-SAM

通用圖像分割模型,能夠以任何所需的粒度分割和識別任何內容.

2.2 SEEM: Segment Everything Everywhere All at Once

強大的提示分割模型支持使用各種類型的提示(文本、點、涂鴉、引用圖像等)以及提示的任意組合進行分割。

2.3 OpenSeeD

一個用于開放詞匯分割和檢測的簡單框架,支持通過框輸入生成掩模的交互式分割.

2.4 LLaVA

Visual instruction tuning with GPT-4.

三、Installation

該代碼需要 python>=3.8,以及 pytorch>=1.7 和 torchvision>=0.8。 請按照此處的說明安裝 PyTorch 和 TorchVision 依賴項。 強烈建議安裝支持 CUDA 的 PyTorch 和 TorchVision。

3.1 Install with Docker

Open one terminal:

make build-image
make run

就是這樣。

如果您想允許跨 docker 容器進行可視化,請打開另一個終端并輸入:

xhost +

3.2 Install without Docker

如果您想為Grounded-SAM構建本地GPU環(huán)境,您應該手動設置環(huán)境變量,如下所示:

export AM_I_DOCKER=False
export BUILD_WITH_CUDA=True
export CUDA_HOME=/path/to/cuda-11.3/

安裝Segment Anything:

python -m pip install -e segment_anything

安裝 DINO 接地:

python -m pip install -e GroundingDINO

安裝擴散器:

pip install --upgrade diffusers[torch]

Install osx:

git submodule update --init --recursive
cd grounded-sam-osx && bash install.sh

Install RAM & Tag2Text:

git submodule update --init --recursive
cd Tag2Text && pip install -r requirements.txt

以下可選依賴項對于掩模后處理、以 COCO 格式保存掩模、示例筆記本以及以 ONNX 格式導出模型是必需的。 運行示例筆記本還需要 jupyter。

pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel

四、GroundingDINO: Detect Everything with Text Prompt

以下是運行 GroundingDINO 演示的分步教程:

4.1 Download the pretrained weights

cd Grounded-Segment-Anything

# download the pretrained groundingdino-swin-tiny model
wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

4.2 Running the demo

python grounding_dino_demo.py

4.3 Running with Python

from groundingdino.util.inference import load_model, load_image, predict, annotate
import cv2

model = load_model("GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py", "./groundingdino_swint_ogc.pth")
IMAGE_PATH = "assets/demo1.jpg"
TEXT_PROMPT = "bear."
BOX_THRESHOLD = 0.35
TEXT_THRESHOLD = 0.25

image_source, image = load_image(IMAGE_PATH)

boxes, logits, phrases = predict(
    model=model,
    image=image,
    caption=TEXT_PROMPT,
    box_threshold=BOX_THRESHOLD,
    text_threshold=TEXT_THRESHOLD
)

annotated_frame = annotate(image_source=image_source, boxes=boxes, logits=logits, phrases=phrases)
cv2.imwrite("annotated_image.jpg", annotated_frame)

如果您想使用 Grounding DINO 在一個句子中檢測多個物體,我們建議用 分隔每個名稱。 。 一個例子:貓。 狗 。 椅子 。

4.4 Check the annotated image

帶注釋的圖像將保存為./annotated_image.jpg。

grounding 分割,計算機視覺,計算機視覺,目標檢測,人工智能,SAM,圖像分割文章來源地址http://www.zghlxwxcb.cn/news/detail-766490.html

到了這里,關于【計算機視覺 | 目標檢測 | 圖像分割】Grounded Segment Anything:Grounding DINO + Segment Anything Model (SAM)介紹的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【計算機視覺 | 目標檢測】arxiv 計算機視覺關于分類和分割的學術速遞(6月 22 日論文合集)

    【計算機視覺 | 目標檢測】arxiv 計算機視覺關于分類和分割的學術速遞(6月 22 日論文合集)

    模糊圖像標注:脊椎骨折診斷生物醫(yī)學驗證圖像分類的通用標注策略 論文地址: 雖然存在許多方法來解決策展數(shù)據(jù)集內的分類問題,但由于數(shù)據(jù)的偏見或模糊性,這些解決方案在生物醫(yī)學應用中往往不足。當從脊椎數(shù)據(jù)推斷身高減少時,這些困難尤其明顯,臨床公認的Gena

    2024年02月10日
    瀏覽(121)
  • 目標檢測 圖像處理 計算機視覺 工業(yè)視覺

    目標檢測 圖像處理 計算機視覺 工業(yè)視覺

    從事ai視覺算法有幾年了,本帖是對以往做過的計算機視覺項目的一些總結,硬件部署的大多是基于nvidia的開發(fā)板和GPU服務器上,如jetson nano,還有地平線J3J5和瑞芯微以及星辰的開發(fā)板,另外就是對實時性要求不高的部署在cpu上。有相關項目需求可以一起交流和學習。(+v 3

    2024年02月06日
    瀏覽(107)
  • 【計算機視覺】圖像分割與特征提取——基于Log、Canny的邊緣檢測

    【計算機視覺】圖像分割與特征提取——基于Log、Canny的邊緣檢測

    個人簡介:? ??個人主頁:趙四司機 ??學習方向:JAVA后端開發(fā)? ?往期文章:SpringBoot項目整合微信支付 ??博主推薦網(wǎng)站:??途W(wǎng) 刷題|面試|找工作神器 ??種一棵樹最好的時間是十年前,其次是現(xiàn)在! ??喜歡的話麻煩點點關注喔,你們的支持是我的最大動力。 前言:

    2024年02月03日
    瀏覽(91)
  • 計算機視覺實戰(zhàn)項目(圖像分類+目標檢測+目標跟蹤+姿態(tài)識別+車道線識別+車牌識別)

    計算機視覺實戰(zhàn)項目(圖像分類+目標檢測+目標跟蹤+姿態(tài)識別+車道線識別+車牌識別)

    教程博客_傳送門鏈接:鏈接 在本教程中,您將學習如何使用遷移學習訓練卷積神經(jīng)網(wǎng)絡以進行圖像分類。您可以在 cs231n 上閱讀有關遷移學習的更多信息。 本文主要目的是教會你如何自己搭建分類模型,耐心看完,相信會有很大收獲。廢話不多說,直切主題… 首先們要知道深

    2024年02月07日
    瀏覽(101)
  • 【計算機視覺 | 圖像分割】arxiv 計算機視覺關于圖像分割的學術速遞(8 月 30 日論文合集)

    Novis:端到端近在線視頻實例分割實例 直到最近,視頻實例分割(VIS)社區(qū)在以下共同信念下操作:離線方法通常優(yōu)于逐幀在線處理。然而,最近在線方法的成功質疑這種信念,特別是對于具有挑戰(zhàn)性和長視頻序列。我們將這項工作理解為對最近觀察結果的反駁,并呼吁社區(qū)

    2024年02月09日
    瀏覽(93)
  • 【計算機視覺 | 圖像分割】arxiv 計算機視覺關于圖像分割的學術速遞(7 月 6 日論文合集)

    【計算機視覺 | 圖像分割】arxiv 計算機視覺關于圖像分割的學術速遞(7 月 6 日論文合集)

    面向跨域語義分割的提示擴散表示法 雖然最初設計用于圖像生成,擴散模型最近已證明提供了優(yōu)秀的預訓練的特征表示語義分割。這一結果引起了興趣,我們開始探索擴散預訓練表示如何推廣到新的領域,這是任何表示的關鍵能力。我們發(fā)現(xiàn),擴散預訓練實現(xiàn)了非凡的領域泛

    2024年02月12日
    瀏覽(27)
  • 計算機視覺 -- 圖像分割

    計算機視覺 -- 圖像分割

    引入問題: 在自動駕駛系統(tǒng)中,如果用之前的檢測網(wǎng)絡(例如Faster-Rcnn),試想,倘若前方有一處急轉彎,系統(tǒng)只在道路上給出一個矩形標識,這樣一來車輛很有可能判斷不出是該避讓還是徑直上前,車禍一觸即發(fā)。因此,對新技術的訴求應運而生,該技術須能識別具體路況

    2024年02月11日
    瀏覽(102)
  • 計算機視覺實戰(zhàn)項目3(圖像分類+目標檢測+目標跟蹤+姿態(tài)識別+車道線識別+車牌識別+無人機檢測+A*路徑規(guī)劃+單目測距與測速+行人車輛計數(shù)等)

    計算機視覺實戰(zhàn)項目3(圖像分類+目標檢測+目標跟蹤+姿態(tài)識別+車道線識別+車牌識別+無人機檢測+A*路徑規(guī)劃+單目測距與測速+行人車輛計數(shù)等)

    該項目一個基于深度學習和目標跟蹤算法的項目,主要用于實現(xiàn)視頻中的目標檢測和跟蹤。 該項目使用了 YOLOv5目標檢測算法和 DeepSORT 目標跟蹤算法,以及一些輔助工具和庫,可以幫助用戶快速地在本地或者云端上實現(xiàn)視頻目標檢測和跟蹤! 教程博客_傳送門鏈接-------單目測

    2024年02月08日
    瀏覽(28)
  • 計算機視覺實驗五——圖像分割

    計算機視覺實驗五——圖像分割

    了解圖割操作,實現(xiàn)用戶交互式分割,通過在一幅圖像上為前景和背景提供一些標記或利用邊界框選擇一個包含前景的區(qū)域,實現(xiàn)分割。 采用聚類法實現(xiàn)圖像的分割(K-means方法)。 ①圖片準備 博主選擇了一張 前景與背景區(qū)分明顯 的圖片,和一張 前景與背景區(qū)分不明顯 的

    2024年04月15日
    瀏覽(22)
  • 【計算機視覺 | 目標檢測】arxiv 計算機視覺關于目標檢測的學術速遞(7 月 3 日論文合集)

    【計算機視覺 | 目標檢測】arxiv 計算機視覺關于目標檢測的學術速遞(7 月 3 日論文合集)

    聯(lián)邦集成YOLOv5–一種更好的廣義目標檢測算法 論文地址: 聯(lián)邦學習(FL)作為一種隱私保護算法已經(jīng)獲得了顯著的吸引力,但聯(lián)邦學習算法(如聯(lián)邦平均(FED Avg)或聯(lián)邦SGD(FED SGD))與集成學習算法的潛在相似之處尚未得到充分探索。本文的目的是研究FL的應用程序的對象

    2024年02月13日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包