【計(jì)算機(jī)視覺 | 目標(biāo)檢測】RegionCLIP的環(huán)境部署和代碼測試（含源代碼）

2年前作者：旅途中的寬~分類：Toy博客閱讀(49)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【計(jì)算機(jī)視覺 | 目標(biāo)檢測】RegionCLIP的環(huán)境部署和代碼測試（含源代碼）。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、導(dǎo)讀

RegionCLIP: Region-based Language-Image Pretraining

This is the official PyTorch implementation of RegionCLIP (CVPR 2022).

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

我們提出 RegionCLIP，它顯著擴(kuò)展了 CLIP 以學(xué)習(xí)區(qū)域級視覺表示。 RegionCLIP 支持圖像區(qū)域和文本概念之間的細(xì)粒度對齊，從而支持基于區(qū)域的推理任務(wù)，包括零樣本對象檢測和開放詞匯對象檢測。

預(yù)訓(xùn)練：我們利用 CLIP 模型將圖像區(qū)域與模板標(biāo)題進(jìn)行匹配，然后預(yù)訓(xùn)練我們的模型以對齊這些區(qū)域-文本對。
零樣本推理：經(jīng)過預(yù)訓(xùn)練后，學(xué)習(xí)到的區(qū)域表示支持用于對象檢測的零樣本推理。
學(xué)習(xí)到的 RegionCLIP 模型可以通過附加的對象檢測注釋進(jìn)行進(jìn)一步微調(diào)，從而使我們的模型能夠用于完全監(jiān)督或開放詞匯對象檢測。
我們的方法展示了零樣本目標(biāo)檢測和開放詞匯目標(biāo)檢測的最先進(jìn)結(jié)果。

二、環(huán)境部署

下一步，下載RegionCLIP文件，下載地址作者已經(jīng)給出：

https://github.com/microsoft/RegionCLIP.git

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域
完成RegionCLIP文件的下載后，便需要配置RegionCLIP進(jìn)行zero-shot推理的環(huán)境配置以及所需要的配置文件。

然后進(jìn)行環(huán)境配置：

!python -m pip install -e RegionCLIP

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

安裝其他所需的文件：

!pip install opencv-python timm diffdist h5py sklearn ftfy

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

!pip install git+https://github.com/lvis-dataset/lvis-api.git

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

三、權(quán)重文件配置

首先需要下載一個(gè)pretrained_ckpt文件夾下到RegionCLIP文件夾下：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域
文件夾的地址為：

https://drive.google.com/drive/folders/1hzrJBvcCrahoRcqJRqzkIGFO_HUSJIii

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

由于共享的文件夾不是pretrained_ckpt名稱，所以將其重命名為pretrained_ckpt即可。

四、數(shù)據(jù)集的配置

還需要一個(gè)lvis驗(yàn)證集的label數(shù)據(jù)集，這個(gè)直接去官網(wǎng)下載即可，不是很大，官網(wǎng)地址：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

注意的是，要選擇路徑”RegionCLIP””datasets”后再點(diǎn)擊新建，把文件夾上傳到RegionCLIP/datasets下，并且文件夾名為lvis：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

至此，你已經(jīng)完成好了RegionCLIP的zero-shot測試的相關(guān)文件配置，下面要做的就是running code啦。

具體的一些配置如下：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

五、代碼執(zhí)行

記得先切換到對應(yīng)的目錄下：目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

執(zhí)行如下代碼：

python ./tools/train_net.py \
--eval-only \
--num-gpus 1 \
--config-file ./configs/LVISv1-InstanceSegmentation/CLIP_fast_rcnn_R_50_C4_custom_img.yaml \
MODEL.WEIGHTS ./pretrained_ckpt/regionclip/regionclip_pretrained-cc_rn50x4.pth \
MODEL.CLIP.TEXT_EMB_PATH ./pretrained_ckpt/concept_emb/lvis_1203_cls_emb_rn50x4.pth \
MODEL.CLIP.OFFLINE_RPN_CONFIG ./configs/LVISv1-InstanceSegmentation/mask_rcnn_R_50_FPN_1x.yaml \
MODEL.CLIP.TEXT_EMB_DIM 640 \
MODEL.RESNETS.DEPTH 200 \
MODEL.ROI_BOX_HEAD.POOLER_RESOLUTION 18 \

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

運(yùn)行結(jié)果如下：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域
然后會在RegionCLIP目錄生成一個(gè)“output/inference/lvis_instances_results.json"文件夾：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

為了可視化最后的zero-shot測試結(jié)果，執(zhí)行如下代碼：

python ./tools/visualize_json_results.py \
--input ./output/inference/lvis_instances_results.json \
--output ./output/regions \
--dataset lvis_v1_val_custom_img \
--conf-threshold 0.05 \
--show-unique-boxes \
--max-boxes 25 \
--small-region-px 8100\

然后找到根據(jù)路徑RegionCLIP/output/regions找到對應(yīng)的測試結(jié)果圖片：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

結(jié)果展示如下：

目標(biāo)檢測 clip,計(jì)算機(jī)視覺,開放域目標(biāo)檢測,計(jì)算機(jī)視覺,目標(biāo)檢測,人工智能,CLIP,RegionCLIP,開放域

從測試結(jié)果可以看出，RegionCLIP的zero-shot推理主要集中在未知類別的目標(biāo)檢測，也就是說對于一些常見的類別如person、book、cup等，RegionCLIP的zero-shot就不進(jìn)行定位和識別，只是檢測少見的類，也就是一般數(shù)據(jù)集如coco里面沒有的類別，比如第一張圖片里的pantyose（連褲襪，這里識別錯(cuò)了）、kimono（和服）、以及第二張圖片里的shopping_cart、short_pants、deck_chair等這些類別在常見的數(shù)據(jù)集是沒有標(biāo)記的，只是一些關(guān)于圖片的描述中可能會出現(xiàn)的，也就是image-caption數(shù)據(jù)集中才會有的。文章來源地址http://www.zghlxwxcb.cn/news/detail-791822.html

到了這里，關(guān)于【計(jì)算機(jī)視覺 | 目標(biāo)檢測】RegionCLIP的環(huán)境部署和代碼測試（含源代碼）的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（5月26日論文合集）
基于能量的激光雷達(dá)數(shù)據(jù)中不利天氣影響的檢測論文地址：自動駕駛車輛依賴于LiDAR傳感器對環(huán)境進(jìn)行感知。然而，雨、雪、霧等惡劣天氣條件會對這些傳感器造成負(fù)面影響，導(dǎo)致測量數(shù)據(jù)中引入不必要的噪聲，降低了其可靠性。在本研究中，我們通過提出一種新的方法來檢
2024年02月07日
瀏覽(46)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（11 月 28 日論文合集）
基于無人機(jī)遙感圖像的窗口自動檢測與計(jì)數(shù) 盡管建筑和測量部門的技術(shù)進(jìn)步，但對在建或現(xiàn)有建筑物中的窗戶等顯著特征的檢查主要是一個(gè)手動過程。此外，建筑物中存在的窗戶數(shù)量與其在地震下遭受的變形程度直接相關(guān)。在本研究中，提出了一種通過部署無人機(jī)（UAV）遙感
2024年02月05日
瀏覽(28)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（7 月 21 日論文合集）
異常檢測中的表征學(xué)習(xí)：成功、局限和巨大挑戰(zhàn) 在這篇透視論文中，我們認(rèn)為異常檢測中的主導(dǎo)范式不能無限擴(kuò)展，最終將達(dá)到根本的極限。這是由于異常檢測的“沒有免費(fèi)的午餐”原則。當(dāng)存在強(qiáng)任務(wù)優(yōu)先級時(shí)，可以克服這些限制，如許多工業(yè)任務(wù)的情況。當(dāng)這樣的先驗(yàn)不
2024年02月16日
瀏覽(26)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（8 月 14 日論文合集）
基于保持歷史分布的連續(xù)人臉偽造檢測人臉偽造技術(shù)發(fā)展迅速，并帶來了嚴(yán)重的安全威脅?，F(xiàn)有的人臉偽造檢測方法試圖學(xué)習(xí)可推廣的特征，但它們?nèi)匀蝗狈?shí)際應(yīng)用。此外，在歷史訓(xùn)練數(shù)據(jù)上微調(diào)這些方法在時(shí)間和存儲方面是資源密集型的。在本文中，我們關(guān)注一個(gè)新穎且
2024年02月11日
瀏覽(31)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（6月 30 日論文合集）
檢測任何深度偽裝：分割任何符合人臉的偽裝檢測和定位論文地址：計(jì)算機(jī)視覺的快速發(fā)展刺激了面部偽造技術(shù)的顯著進(jìn)步，引起了致力于檢測偽造和精確定位操縱區(qū)域的研究人員的關(guān)注。盡管如此，在有限的細(xì)粒度像素監(jiān)督標(biāo)簽的情況下，deepfake檢測模型在精確的偽造檢測
2024年02月16日
瀏覽(27)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（7 月 4 日論文合集）
偽像映射：用于目標(biāo)檢測和三維定位的多模式語義映射論文地址：幾何導(dǎo)航是當(dāng)今機(jī)器人領(lǐng)域的一個(gè)成熟的領(lǐng)域，研究重點(diǎn)正在轉(zhuǎn)向更高層次的場景理解，如語義映射。當(dāng)機(jī)器人需要與環(huán)境交互時(shí)，它必須能夠理解周圍環(huán)境的上下文信息。這項(xiàng)工作的重點(diǎn)是分類和定位地圖
2024年02月13日
瀏覽(20)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（12 月 6 日論文合集）
擴(kuò)散-SS3D：半監(jiān)督三維目標(biāo)檢測的擴(kuò)散模型半監(jiān)督目標(biāo)檢測對于三維場景理解至關(guān)重要，有效地解決了獲取大規(guī)模三維邊界框注釋的限制。現(xiàn)有方法通常采用具有偽標(biāo)記的師生框架來利用未標(biāo)記的點(diǎn)云。然而，在多樣化的3D空間中產(chǎn)生可靠的偽標(biāo)簽仍然具有挑戰(zhàn)性。在這項(xiàng)工
2024年02月03日
瀏覽(26)
計(jì)算機(jī)視覺目標(biāo)檢測性能指標(biāo)
目錄精確率（Precision）和召回率（Recall） F1分?jǐn)?shù)（F1 Score） IoU（Intersection over Union） P-R曲線（Precision-Recall Curve）和 AP mAP（mean Average Precision） ? 目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要任務(wù)，其目標(biāo)是在圖像或視頻中識別出物體的位置和類別。為了評估目標(biāo)檢測算法的性能
2024年02月12日
瀏覽(24)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測 | 圖像分割】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測和圖像分割的學(xué)術(shù)速遞（7 月 7 日論文合集）
用于圖像異常檢測的上下文親和度提取以往的無監(jiān)督工業(yè)異常檢測工作主要集中在局部結(jié)構(gòu)異常，如裂紋和顏色污染。雖然在這種異常上實(shí)現(xiàn)了顯著的高檢測性能，但它們面臨著違反遠(yuǎn)程依賴性的邏輯異常，例如放置在錯(cuò)誤位置的正常對象。在本文中，基于以前的知識蒸餾工
2024年02月12日
瀏覽(109)
【計(jì)算機(jī)視覺 | 目標(biāo)檢測 | 圖像分割】arxiv 計(jì)算機(jī)視覺關(guān)于目標(biāo)檢測和圖像分割的學(xué)術(shù)速遞（7 月 17 日論文合集）
Tall：用于深度假冒視頻檢測的縮略圖布局 deepfake對社會和網(wǎng)絡(luò)安全的威脅日益嚴(yán)重，引起了公眾的極大關(guān)注，人們越來越多地致力于deepfake視頻檢測這一關(guān)鍵話題。現(xiàn)有的視頻方法實(shí)現(xiàn)了良好的性能，但計(jì)算密集型。本文介紹了一種簡單而有效的策略–縮略圖布局（TALL），該
2024年02月16日
瀏覽(100)