国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解

這篇具有很好參考價值的文章主要介紹了【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

出發(fā)點是制定一種更加通用的目標(biāo)檢測問題,目的是借助于大量的image-caption數(shù)據(jù)來覆蓋更多的object concept,使得object detection不再受限于帶標(biāo)注數(shù)據(jù)的少數(shù)類別,從而實現(xiàn)更加泛化的object detection,識別出更多novel的物體類別。

一、背景 & 動機

盡管深度神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測方面具有顯著的準(zhǔn)確性,但由于監(jiān)管要求,它們的訓(xùn)練和拓展成本很高。特別是,學(xué)習(xí)更多的對象類別通常需要按比例增加更多的邊界框注釋。

例如Faster RCNN及其令人印象深刻的準(zhǔn)確性,但訓(xùn)練這樣的模型需要昂貴且耗時的人力監(jiān)督,特別是,需要為每個ROI的對象類別手動標(biāo)注至少數(shù)千個邊界框。盡管之前很多機構(gòu)已經(jīng)完成了object detection上benchmark的建立,并且公開了這些有價值的數(shù)據(jù)集,例如Open Images和MSCOCO,這些數(shù)據(jù)集描述了一些有限的對象類別。但如果我們想將目標(biāo)檢測從600個類別擴展到60000個類別,那么我們需要100倍數(shù)據(jù)資源的標(biāo)注,這使得把目標(biāo)檢測拓展到開放世界里變得遙不可及。

然而,人類通過自然監(jiān)督學(xué)會毫不費力地識別和定位物體,即探索視覺世界和傾聽他人描述情況。我們?nèi)祟惥哂薪K生學(xué)習(xí)的能力,我們捕捉到視覺信息后,會將它們與口語聯(lián)系起來,從而產(chǎn)生了豐富的視覺和語義詞匯,這些詞匯不僅可以用于檢測物體,而且可以用來拓展模型的表達(dá)能力。盡管在對象周邊繪制邊界框不是人類自然學(xué)習(xí)的任務(wù),但他們可以通過使用少量例子快速學(xué)習(xí)它,并將其快速泛化到所有類型的對象,而不需要每個對象類的示例,這就是Open Vocabulary Object Detection這一問題的motivation所在。

二、Open-Vocabulary的簡單引入

Open-Vocabulary Object Detection (OVD)可以翻譯為**“面向開放詞匯下的目標(biāo)檢測”,**該任務(wù)和zero-shot object detection非常類似,核心思想都是在可見類(base class)的數(shù)據(jù)上進(jìn)行訓(xùn)練,然后完成對不可見類(unseen/ target)數(shù)據(jù)的識別和檢測。

弱監(jiān)督和zero-shot學(xué)習(xí)技術(shù)已經(jīng)被探索用于在較少監(jiān)督的情況下將對象檢測器擴展到更多類別,但它們還沒有像監(jiān)督模型那樣成功和廣泛應(yīng)用。

在本文中,我們提出了一種新的目標(biāo)檢測問題的公式—Open-Vocabulary Object Detection,它比弱監(jiān)督和zero-shot方法更通用、更實用、更有效。

我們提出了一種新的方法來訓(xùn)練對象檢測器,使用限定對象類別的包圍框注釋,以及以顯著較低的成本覆蓋更多的圖像—標(biāo)題對。

我們表明,所提出的方法可以檢測和定位在訓(xùn)練過程中沒有提供邊界框注釋的對象,其精度明顯高于zero-shot方法。

三、Open-Vocabulary / zero-shot /weakly supervised之間的差異

【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解
比較了一下三種setting,OVD和ZSD的區(qū)別應(yīng)該就是在訓(xùn)練時,OVD可能用到target類的embedding信息,當(dāng)然可能只說這些embedding信息包含在一堆caption中,誰也不知道里面有沒有target信息,肯定不能給target類的bbox信息。而zero-shot完全沒用到,weakly supervised就更直接了,直接利用子集來訓(xùn)練,從而強化泛化能力。

四、論文的核心

Open-Vocabulary工作的核心是利用image-caption數(shù)據(jù)來對視覺編碼器進(jìn)行pre-training。

由于caption中存在著豐富的用于圖像區(qū)域等細(xì)粒度特征得描述單詞和短語,能夠覆蓋更多的物體類別,因此經(jīng)過大規(guī)模image-caption的預(yù)訓(xùn)練,Vision encoder便能夠?qū)W習(xí)到更加泛化的視覺-語義對應(yīng)空間。

因此訓(xùn)練好的vision encoder便可以用于替換faster rcnn中的encoder,提高檢測模型的zero-shot檢測能力。

五、論文流程

【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解
展開討論預(yù)訓(xùn)練流程,整體的預(yù)訓(xùn)練流程有些類似于PixelBert,可參考如下:

  • 第一步:學(xué)習(xí)的視覺與文本的聯(lián)系。通過訓(xùn)練一個現(xiàn)象變換層來把視覺空間的特征轉(zhuǎn)換到文本空間,來充當(dāng)一個V2L(vision to language)的模塊,負(fù)責(zé)把視覺特征變換到文本空間去。輸入的image-caption對首先各自經(jīng)過各自模態(tài)的encoder,圖像則是細(xì)分得到每個區(qū)域的特征,然后進(jìn)一步經(jīng)過V2L變換。之后,兩個模態(tài)的特征concat起來之后送入多模態(tài)的transformer,得到的輸出是視覺區(qū)域特征以及訓(xùn)練好的BERT,這樣的模型具有泛化能力,而圖像encoder是常用的resnet50。
  • 第二步:利用常規(guī)的目標(biāo)檢測框架:Faster RCNN,進(jìn)行模型訓(xùn)練。為了保證延續(xù)性,backbone采用上一階段中訓(xùn)練好的renet50,每個proposal的特征經(jīng)過V2L變換之后又與類別標(biāo)簽的文本特征計算相似度來進(jìn)行分類。事實上就是把回歸問題轉(zhuǎn)換成分類問題。
  • 第三步:把要檢測的新類別加入文本的特征向量中做匹配。

一旦預(yù)訓(xùn)練結(jié)束后,trained vision encoder和trained V2L層,便可以替換至Faster RCNN框架中,通過在base數(shù)據(jù)集上進(jìn)行finetune vision encoder,使其適配ROI區(qū)域特征,固定V2L層,保持其學(xué)習(xí)到的泛化的視覺-語義空間,即可進(jìn)行target類別數(shù)據(jù)的檢測。

總結(jié)來看,OVR-CNN通過在image-caption數(shù)據(jù)集上的預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的文本詞匯和圖像區(qū)域表征,這樣泛化的表征空間覆蓋的物體類別,是遠(yuǎn)超過現(xiàn)階段的帶標(biāo)注的目標(biāo)檢測數(shù)據(jù)集中物體的類別數(shù)。

整個模型框架跟Faster RCNN幾乎完全一樣,只是將最后的cls head換成了V2L,也就是換成了一個將visual feature投影到text embedding space的投影矩陣。

六、模型結(jié)果對比

【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解
可以發(fā)現(xiàn),相較于原有的zero-shot的detection,模型的泛化性能顯然是更強的。

根據(jù)上表,其實我們可以發(fā)現(xiàn):

  • ZSD的檢測效果差(map不高)

主要原因,我認(rèn)為就是對于沒有任何未知類的例子經(jīng)過訓(xùn)練,OVD 應(yīng)該是會有部分未知類通過image-caption dataset 訓(xùn)練可得知,因此從現(xiàn)有基類的特征其實很難推出新類。

  • WSD 定位效果不好

個人分析認(rèn)為,他從沒有注釋的圖片很難學(xué)習(xí)到特征,就很難像OVD那樣通過image-caption那樣,至少有圖像和文本方向的特征,再通過基類的相關(guān)有注釋框的圖片學(xué)習(xí),就能很好的定位。

  • mixed supervision

其實同樣存在上面的缺陷,在基類上進(jìn)行訓(xùn)練,然后使用弱監(jiān)督學(xué)習(xí)轉(zhuǎn)移到目標(biāo)類,這些方法通常會在基類上降低性能相反,Visual grounding和Vision-language transformers 就是來幫助解決作者的設(shè)想,通過 Vision-language transformers 可以提取文本和圖像的特征,Visual grounding 則就是根據(jù)這些特征進(jìn)行定位。

同時我們也發(fā)現(xiàn),利用這種用image-captioning pair模式訓(xùn)練出來的特征,其中每個類別的特征更加顯著,如下圖和zero-shot obejct detection的baseline的對比:

【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解文章來源地址http://www.zghlxwxcb.cn/news/detail-501149.html

到了這里,關(guān)于【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

    論文連接: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models 論文代碼: Code 摘要 Text-to-image diffusion 以文本嵌入作為輸入能生成高質(zhì)量的圖像,這表明 diffusion model 的表征與高級語義概念高度關(guān)聯(lián)。此外, CLIP 能夠賦予圖像準(zhǔn)確地開集預(yù)測(即zero-shot 分類能力),因此

    2024年02月15日
    瀏覽(19)
  • 目標(biāo)檢測(Object Detection)

    目標(biāo)檢測(Object Detection)

    計算機視覺的五大應(yīng)用 物體識別是要分辨出圖片中有什么物體,輸入是圖片,輸出是類別標(biāo)簽和概率。物體檢測算法不僅要檢測圖片中有什么物體,還要輸出物體的外框(x, y, width, height)來定位物體的位置。 object detection,就是在給定的圖片中精確找到物體所在位置,并標(biāo)注

    2024年02月12日
    瀏覽(26)
  • 目標(biāo)檢測【Object Detection】

    目標(biāo)檢測【Object Detection】

    目標(biāo)檢測是計算機視覺中的一個重要問題,它的目的是從圖像或視頻序列中識別出特定的目標(biāo),并將其從背景中分離出來。目標(biāo)檢測的任務(wù)包括: 檢測出圖像或視頻序列中的目標(biāo),例如人、車輛、動物等。 對目標(biāo)進(jìn)行分類,例如將人分為人類、車輛、動物等。 確定目標(biāo)的位

    2023年04月14日
    瀏覽(22)
  • 什么是目標(biāo)檢測--Object Detection

    什么是目標(biāo)檢測--Object Detection

    目標(biāo)檢測,也叫目標(biāo)提取,是一種基于目標(biāo)幾何和統(tǒng)計特征的圖像分割。它將目標(biāo)的分割和識別合二為一,其準(zhǔn)確性和實時性是整個系統(tǒng)的一項重要能力。目標(biāo)檢測不僅要用算法判斷圖片中物品的分類, 還要在圖片中標(biāo)記出它的位置, 用邊框或紅色方框把物品圈起來, 這就

    2024年02月07日
    瀏覽(20)
  • VOC數(shù)據(jù)集介紹以及讀取(目標(biāo)檢測object detection)

    VOC數(shù)據(jù)集介紹以及讀?。繕?biāo)檢測object detection)

    VOC(Visual Object Classes)數(shù)據(jù)集是一個廣泛使用的計算機視覺數(shù)據(jù)集,主要用于目標(biāo)檢測、圖像分割和圖像分類等任務(wù)。VOC數(shù)據(jù)集最初由英國牛津大學(xué)的計算機視覺小組創(chuàng)建,并在PASCAL VOC挑戰(zhàn)賽中使用。 VOC數(shù)據(jù)集包含各種不同類別的標(biāo)記圖像,每個圖像都有與之相關(guān)聯(lián)的邊界

    2024年02月12日
    瀏覽(24)
  • 目標(biāo)檢測(Object Detection)學(xué)習(xí)筆記(概述與傳統(tǒng)算法與基于深度學(xué)習(xí)算法)

    目標(biāo)檢測(Object Detection)學(xué)習(xí)筆記(概述與傳統(tǒng)算法與基于深度學(xué)習(xí)算法)

    本文為課程研討需要,對目標(biāo)檢測算法進(jìn)行理論學(xué)習(xí),無實戰(zhàn)內(nèi)容,歡迎交流探討 目標(biāo)檢測(Object Detection) 的任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),不同于分類和回歸問題,目標(biāo)檢測還需要確定目標(biāo)在圖像中的位置 (定位) ,而確定識別目標(biāo)的類別和位置 (分類

    2024年02月02日
    瀏覽(21)
  • 目標(biāo)檢測(Object Detection):Fast R-CNN,YOLO v3

    目標(biāo)檢測(Object Detection):Fast R-CNN,YOLO v3

    目錄 目標(biāo)檢測(Object Detection) R-CNN SPPNet Fast R-CNN YOLO v1 YOLO v2 YOLO v3 任務(wù)是計算機視覺中非常重要的基礎(chǔ)問題,也是解決圖像分割、目標(biāo)跟蹤、圖像描述等問題的基礎(chǔ)。目標(biāo)檢測是檢測輸入圖像是否存在給定類別的物體,如果存在,輸出物體在圖像中的位置信息(矩形框的坐標(biāo)

    2024年02月11日
    瀏覽(24)
  • 遙感目標(biāo)檢測(3)-DAL(Dynamic Anchor Learning for Object Detection)

    遙感目標(biāo)檢測(3)-DAL(Dynamic Anchor Learning for Object Detection)

    目錄 一、概述 二、背景 三、建議 1、旋轉(zhuǎn)RetinaNet 2、動態(tài)錨框分布 3、匹配敏感損失? 四、實驗 ? ? ? ? 由于選擇正樣本錨框進(jìn)行回歸,不一定能夠定位真實的GT,而部分負(fù)樣本回歸甚至可以回歸到真實的GT,說明相當(dāng)多的負(fù)樣本錨框有著準(zhǔn)確定位的能力,這說明IoU進(jìn)行回歸

    2024年02月16日
    瀏覽(27)
  • opencv dnn模塊 示例(19) 目標(biāo)檢測 object_detection 之 yolox

    opencv dnn模塊 示例(19) 目標(biāo)檢測 object_detection 之 yolox

    YOLOX是曠視科技在2021年發(fā)表,對標(biāo)YOLO v5。YOLOX中引入了當(dāng)年的黑科技主要有三點,decoupled head、anchor-free以及advanced label assigning strategy(SimOTA)。YOLOX的性能如何呢,可以參考原論文圖一如下圖所示。YOLOX比當(dāng)年的YOLO v5略好一點,并且利用YOLOX獲得當(dāng)年的Streaming Perception Challenge第一

    2024年02月06日
    瀏覽(21)
  • 【論文閱讀】Untargeted Backdoor Attack Against Object Detection(針對目標(biāo)檢測的無目標(biāo)后門攻擊)

    論文題目: Untargeted Backdoor Attack Against Object Detection(針對目標(biāo)檢測的無目標(biāo)后門攻擊) 發(fā)表年份: 2023-ICASSP(CCF-B) 作者信息: Chengxiao Luo (清華大學(xué)深圳國際研究生院) Yiming Li(清華大學(xué)深圳國際研究生院) Yong Jiang(清華大學(xué)深圳國際研究生院,鵬程實驗室人工智能研

    2024年02月09日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包