国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測

這篇具有很好參考價值的文章主要介紹了【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

論文:CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

代碼:https://github.com/tgxs002/CORA

出處:CVPR2023

一、背景

開集目標(biāo)檢測(Open-vocabulary detection,OVD)最近得到了很大的關(guān)注,CLIP 的出現(xiàn)讓開集目標(biāo)檢測有了新的解決方式

CLIP 是學(xué)習(xí)圖像和文本之間的關(guān)系來進(jìn)行匹配的,那么能否將 CLIP 用于解決開集目標(biāo)檢測呢

這里會有兩個問題:

  • 如何將 CLIP 使用到 region-level 的任務(wù)上:

    一個簡單的做法是將 region 扣出來當(dāng)做一個圖像,但這并非好的解決方式,因?yàn)?region 和 image 之間本來就有 gap

  • 如何學(xué)習(xí)可泛化的目標(biāo) proposal:

    ViLD、OV-DETR、Region-CLIP 等都需要使用 RPN 或 class-agnostic 目標(biāo)檢測器來挖掘出沒被提及的類別,但這些 RPN 也都是基于訓(xùn)練數(shù)據(jù)來訓(xùn)練的,不可能將所有目標(biāo)都檢出,所以其實(shí)能檢出的需要的類別也很少

本文中提出了一個基于 DETR 且引入了 CLIP 的方法,且沒有使用額外的 image-text 數(shù)據(jù),來實(shí)現(xiàn)開集目標(biāo)檢測

二、方法

OVD 是一個希望能檢出所有類別的檢測任務(wù),本文提出了 CORA 來解決該任務(wù)

2.1 總體結(jié)構(gòu)

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

如圖 1 所示,給定一個圖像作為輸入:

  • 首先,使用訓(xùn)練好的 CLIP 中的 ResNet backbone 來提出圖像的特征,分類和定位共享這個特征

  • 接著,region classification:給定一個待分類的 region(anchor box 或 box prediction),作者使用 RoIAlign 來得到 region 特征,然后使用 CLIP 的 attention pooling 來得到區(qū)域編碼,可以使用從 CLIP text encoder 得到的 class embedding 來進(jìn)行分類

  • 然后,object localization:對于上面通過 CLIP 得到的圖像特征,會使用 DETR-like encoder 進(jìn)行進(jìn)一步特征提取,然后輸入 DETR-like decoder,anchor box 的 queries 會先使用 CLIP-based region classifier 進(jìn)行分類,然后會根據(jù)預(yù)測的標(biāo)簽進(jìn)行調(diào)整,然后使用 DETR-like decoder 來實(shí)現(xiàn)更好的定位。decoder 也會根據(jù)預(yù)測的 label 來估計(jì) query 的匹配。在訓(xùn)練中,預(yù)測的框會和 gt 進(jìn)行一對一匹配,然后使用 DETR 的方式進(jìn)行訓(xùn)練。推理時,box 的類別直接使用 CLIP-based region classifier 來確定

針對這兩個問題,CORA 也提出了解決方案:

  • 目標(biāo)檢測是識別和定位圖像中的目標(biāo),CLIP 模型是在整個圖像上訓(xùn)練的,有一定的 gap:作者提出了 region prompt,來調(diào)整 region features 以獲得更好的定位
  • 檢測器需要對新類別學(xué)習(xí)目標(biāo)的位置,但標(biāo)注的類別都是基礎(chǔ)類別:作者將 anchor pre-matching 提前了,讓 class-aware 的目標(biāo)定位能夠在 infer 的時候泛化到新的類別

2.2 region prompting

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

如圖 2 所示,給定一個圖像和一系列 RoI,首先對全圖使用 CLIP encoder 的前 3 個 blocks 進(jìn)行編碼,然后使用 RoIAlign pooling

由于 CLIP 對全圖編碼和區(qū)域編碼是有 gap 的,所以作者提出 region prompting 來通過可學(xué)習(xí)的 prompt p ∈ R S × S × C p\in R^{S \times S \times C} pRS×S×C 來擴(kuò)展 region feature,對兩組特征進(jìn)行對齊

  • S:region feature 的空間尺寸
  • C:region features 的維度

給定一個 input region feature f r e g i o n f_{region} fregion?,region prompt 計(jì)算如下:

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

  • ? 表示逐點(diǎn)相加
  • P 是 CLIP 中的 attention pooling

如何優(yōu)化 region prompt:

  • 作者使用 base-class 標(biāo)注的檢測數(shù)據(jù)來訓(xùn)練 region prompt
  • loss 為交叉熵
  • 保持其他參數(shù)凍結(jié),只訓(xùn)練 region prompt

2.3 anchor pre-matching

region prompt 能夠幫助解決 image 和 region 的 gap

為了解決 RPN 在新類別上檢出能力不足的問題,作者提出了 class-aware query-based 目標(biāo)定位器,能夠提升模型在沒見過的類別上的定位能力

如圖 1 所示,給定一個從 CLIP image encoder 得到的視覺特征, object query 會和 class name embedding 進(jìn)行 pre-matched

Anchor Pre-matching:

目標(biāo)定位是使用 DETR-style 的 encoder-decoder 結(jié)構(gòu)實(shí)現(xiàn)的,encoder 用于細(xì)化特征圖,decoder 用于將 object query 解碼到 box

作者使用 DAB-DETR,object query 的類別 c i c_i ci? 是根據(jù)相關(guān)的 anchor box b i b_i bi? 來分配的

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

pre-matching 之后,每個 object query 會根據(jù)預(yù)測的類別來進(jìn)行 class-aware box regression,object query 是有下面得到的:

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

得到模型預(yù)測后,gt 和模型預(yù)測框的匹配是對每個類別分別使用雙邊匹配

對類別 c,假設(shè) gt y c y^c yc 匹配到了 N c N_c Nc? 個預(yù)測框,會通過最小化下面的分布來優(yōu)化 N c N_c Nc? 的排列:

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

  • L m a t c h L_{match} Lmatch?:二值分類 loss,這里使用 focal loss
  • L b o x L_{box} Lbox?:是定位誤差,這里使用 L1 和 GIoU 的加權(quán)和

模型的最終優(yōu)化 loss 如下:

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

三、效果

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺

【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測,多模態(tài),目標(biāo)檢測,人工智能,計(jì)算機(jī)視覺文章來源地址http://www.zghlxwxcb.cn/news/detail-599879.html

到了這里,關(guān)于【多模態(tài)】17、CORA | 將 CLIP 使用到開集目標(biāo)檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【目標(biāo)檢測】Grounding DINO:開集目標(biāo)檢測器(CVPR2023)

    【目標(biāo)檢測】Grounding DINO:開集目標(biāo)檢測器(CVPR2023)

    文章來自清華大學(xué)和IDEA(International Digital Economy Academy) 論文: 《Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection》 github: https://github.com/IDEA-Research/GroundingDINO Grounding DINO,一種開集目標(biāo)檢測方案, 將基于Transformer的檢測器DINO與真值預(yù)訓(xùn)練相結(jié)合 。開集檢

    2024年02月12日
    瀏覽(16)
  • 【計(jì)算機(jī)視覺 | 目標(biāo)檢測】Grounding DINO:開集目標(biāo)檢測論文解讀

    【計(jì)算機(jī)視覺 | 目標(biāo)檢測】Grounding DINO:開集目標(biāo)檢測論文解讀

    介紹一篇較新的目標(biāo)檢測工作: 論文地址為: github 地址為: 作者展示一種開集目標(biāo)檢測方案: Grounding DINO ,將將基于 Transformer 的檢測器 DINO 與真值預(yù)訓(xùn)練相結(jié)合。 開集檢測關(guān)鍵是引入 language 至閉集檢測器,用于開集概念泛化。作者將閉集檢測器分為三個階段,提出一種

    2024年02月10日
    瀏覽(92)
  • 開集目標(biāo)檢測-標(biāo)簽提示目標(biāo)檢測大模型(吊打YOLO系列-自動化檢測標(biāo)注)

    開集目標(biāo)檢測-標(biāo)簽提示目標(biāo)檢測大模型(吊打YOLO系列-自動化檢測標(biāo)注)

    大多數(shù)現(xiàn)有的對象檢測模型都經(jīng)過訓(xùn)練來識別一組有限的預(yù)先確定的類別。將新類添加到可識別對象列表中需要收集和標(biāo)記新數(shù)據(jù),并從頭開始重新訓(xùn)練模型,這是一個耗時且昂貴的過程。該大模型的目標(biāo)是開發(fā)一個強(qiáng)大的系統(tǒng)來檢測由人類語言輸入指定的任意對象,而無需

    2024年01月23日
    瀏覽(24)
  • GroundingDINO(一種開集目標(biāo)檢測算法)服務(wù)化,根據(jù)文本生成檢測框

    GroundingDINO(一種開集目標(biāo)檢測算法)服務(wù)化,根據(jù)文本生成檢測框

    最近發(fā)現(xiàn)一個叫GroundingDINO的開集目標(biāo)檢測算法,所謂開集目標(biāo)檢測就是能檢測的目標(biāo)類別不局限于訓(xùn)練的類別,這個算法可以通過輸入文本的prompt然后輸出對應(yīng)的目標(biāo)框??梢杂脕碜鲱A(yù)標(biāo)注或者其他應(yīng)用,比如我們要訓(xùn)練某個細(xì)分場景的算法時,我們找不到足夠的已經(jīng)標(biāo)注的

    2024年02月06日
    瀏覽(24)
  • 人工智能學(xué)習(xí)07--pytorch20--目標(biāo)檢測:COCO數(shù)據(jù)集介紹+pycocotools簡單使用

    人工智能學(xué)習(xí)07--pytorch20--目標(biāo)檢測:COCO數(shù)據(jù)集介紹+pycocotools簡單使用

    如:天空 coco包含pascal voc 的所有類別,并且對每個類別的標(biāo)注目標(biāo)個數(shù)也比pascal voc的多。 一般使用coco數(shù)據(jù)集預(yù)訓(xùn)練好的權(quán)重來遷移學(xué)習(xí)。 如果僅僅針對目標(biāo)檢測object80類而言,有些圖片并沒有標(biāo)注信息,或者有錯誤標(biāo)注信息。所以在實(shí)際的訓(xùn)練過程中,需要對這些數(shù)據(jù)進(jìn)行

    2024年02月12日
    瀏覽(96)
  • 多模態(tài)(紅外,可見光)目標(biāo)檢測

    多模態(tài)(紅外,可見光)目標(biāo)檢測

    【github】https://github.com/DocF/multispectral-object-detection 基本依賴和yolov5基本相同,當(dāng)然也可以配置在虛擬環(huán)境中 1.2.1 找不到sppf 【參考文章】找不到SPPF錯誤 在models/common.py下找到ssp,將下面這段添加到ssp之前 1.2.2 【參考】報錯解決方法 將下面這段替換utils/loss.py中build_targets函數(shù)

    2024年02月02日
    瀏覽(26)
  • 使用CLIP和LLM構(gòu)建多模態(tài)RAG系統(tǒng)

    使用CLIP和LLM構(gòu)建多模態(tài)RAG系統(tǒng)

    在本文中我們將探討使用開源大型語言多模態(tài)模型(Large Language Multi-Modal)構(gòu)建檢索增強(qiáng)生成(RAG)系統(tǒng)。本文的重點(diǎn)是在不依賴LangChain或LLlama index的情況下實(shí)現(xiàn)這一目標(biāo),這樣可以避免更多的框架依賴。 在人工智能領(lǐng)域,檢索增強(qiáng)生成(retrieve - augmented Generation, RAG)作為一種變革性

    2024年02月02日
    瀏覽(29)
  • 綜述:自動駕駛中的多模態(tài) 3D 目標(biāo)檢測

    綜述:自動駕駛中的多模態(tài) 3D 目標(biāo)檢測

    在駕駛場景中,自動駕駛車輛需要精準(zhǔn)高效的感知運(yùn)算,時刻預(yù)測其所處的駕駛環(huán)境。 其中,感知系統(tǒng)將各種傳感器數(shù)據(jù)轉(zhuǎn)化為語義信息,是自動駕駛系統(tǒng)的核心和不可缺少的組成部分。 圖像具有豐富的語義信息,點(diǎn)云包含深度信息。 兩者具有互補(bǔ)特性,可以提高三維物體

    2024年02月03日
    瀏覽(24)
  • 【多模態(tài)】3、CLIP | OpenAI 出品使用 4 億樣本訓(xùn)練的圖文匹配模型

    【多模態(tài)】3、CLIP | OpenAI 出品使用 4 億樣本訓(xùn)練的圖文匹配模型

    論文:Learning Transferable Visual Models From Natural Language Supervision 代碼:https://github.com/OpenAI/CLIP 官網(wǎng):https://openai.com/research/clip 出處:OpenAI 時間:2021.02 貢獻(xiàn): 基于圖文匹配,不受限于分類類別,有很強(qiáng)的擴(kuò)展性?。。∵@是 CLIP 最炸裂的地方,徹底擺脫了預(yù)定義標(biāo)簽列表了 不僅僅

    2024年02月15日
    瀏覽(22)
  • LoGoNet:基于局部到全局跨模態(tài)融合的精確 3D 目標(biāo)檢測

    LoGoNet:基于局部到全局跨模態(tài)融合的精確 3D 目標(biāo)檢測

    論文地址:https://arxiv.org/abs/2303.03595 論文代碼:https://github.com/sankin97/LoGoNet 激光雷達(dá)傳感器點(diǎn)云通常是稀疏的,無法提供足夠的上下文來區(qū)分遠(yuǎn)處的區(qū)域,從而造成性能次優(yōu)。 激光雷達(dá)-攝像機(jī)融合方法在三維目標(biāo)檢測中表現(xiàn)出了良好的性能。目前先進(jìn)的多模態(tài)方法主要進(jìn)行

    2024年02月09日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包