出發(fā)點是制定一種更加通用的目標(biāo)檢測問題,目的是借助于大量的image-caption數(shù)據(jù)來覆蓋更多的object concept,使得object detection不再受限于帶標(biāo)注數(shù)據(jù)的少數(shù)類別,從而實現(xiàn)更加泛化的object detection,識別出更多novel的物體類別。
一、背景 & 動機
盡管深度神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測方面具有顯著的準(zhǔn)確性,但由于監(jiān)管要求,它們的訓(xùn)練和拓展成本很高。特別是,學(xué)習(xí)更多的對象類別通常需要按比例增加更多的邊界框注釋。
例如Faster RCNN及其令人印象深刻的準(zhǔn)確性,但訓(xùn)練這樣的模型需要昂貴且耗時的人力監(jiān)督,特別是,需要為每個ROI的對象類別手動標(biāo)注至少數(shù)千個邊界框。盡管之前很多機構(gòu)已經(jīng)完成了object detection上benchmark的建立,并且公開了這些有價值的數(shù)據(jù)集,例如Open Images和MSCOCO,這些數(shù)據(jù)集描述了一些有限的對象類別。但如果我們想將目標(biāo)檢測從600個類別擴展到60000個類別,那么我們需要100倍數(shù)據(jù)資源的標(biāo)注,這使得把目標(biāo)檢測拓展到開放世界里變得遙不可及。
然而,人類通過自然監(jiān)督學(xué)會毫不費力地識別和定位物體,即探索視覺世界和傾聽他人描述情況。我們?nèi)祟惥哂薪K生學(xué)習(xí)的能力,我們捕捉到視覺信息后,會將它們與口語聯(lián)系起來,從而產(chǎn)生了豐富的視覺和語義詞匯,這些詞匯不僅可以用于檢測物體,而且可以用來拓展模型的表達(dá)能力。盡管在對象周邊繪制邊界框不是人類自然學(xué)習(xí)的任務(wù),但他們可以通過使用少量例子快速學(xué)習(xí)它,并將其快速泛化到所有類型的對象,而不需要每個對象類的示例,這就是Open Vocabulary Object Detection這一問題的motivation所在。
二、Open-Vocabulary的簡單引入
Open-Vocabulary Object Detection (OVD)可以翻譯為**“面向開放詞匯下的目標(biāo)檢測”,**該任務(wù)和zero-shot object detection非常類似,核心思想都是在可見類(base class)的數(shù)據(jù)上進(jìn)行訓(xùn)練,然后完成對不可見類(unseen/ target)數(shù)據(jù)的識別和檢測。
弱監(jiān)督和zero-shot學(xué)習(xí)技術(shù)已經(jīng)被探索用于在較少監(jiān)督的情況下將對象檢測器擴展到更多類別,但它們還沒有像監(jiān)督模型那樣成功和廣泛應(yīng)用。
在本文中,我們提出了一種新的目標(biāo)檢測問題的公式—Open-Vocabulary Object Detection,它比弱監(jiān)督和zero-shot方法更通用、更實用、更有效。
我們提出了一種新的方法來訓(xùn)練對象檢測器,使用限定對象類別的包圍框注釋,以及以顯著較低的成本覆蓋更多的圖像—標(biāo)題對。
我們表明,所提出的方法可以檢測和定位在訓(xùn)練過程中沒有提供邊界框注釋的對象,其精度明顯高于zero-shot方法。
三、Open-Vocabulary / zero-shot /weakly supervised之間的差異
比較了一下三種setting,OVD和ZSD的區(qū)別應(yīng)該就是在訓(xùn)練時,OVD可能用到target類的embedding信息,當(dāng)然可能只說這些embedding信息包含在一堆caption中,誰也不知道里面有沒有target信息,肯定不能給target類的bbox信息。而zero-shot完全沒用到,weakly supervised就更直接了,直接利用子集來訓(xùn)練,從而強化泛化能力。
四、論文的核心
Open-Vocabulary工作的核心是利用image-caption數(shù)據(jù)來對視覺編碼器進(jìn)行pre-training。
由于caption中存在著豐富的用于圖像區(qū)域等細(xì)粒度特征得描述單詞和短語,能夠覆蓋更多的物體類別,因此經(jīng)過大規(guī)模image-caption的預(yù)訓(xùn)練,Vision encoder便能夠?qū)W習(xí)到更加泛化的視覺-語義對應(yīng)空間。
因此訓(xùn)練好的vision encoder便可以用于替換faster rcnn中的encoder,提高檢測模型的zero-shot檢測能力。
五、論文流程
展開討論預(yù)訓(xùn)練流程,整體的預(yù)訓(xùn)練流程有些類似于PixelBert,可參考如下:
- 第一步:學(xué)習(xí)的視覺與文本的聯(lián)系。通過訓(xùn)練一個現(xiàn)象變換層來把視覺空間的特征轉(zhuǎn)換到文本空間,來充當(dāng)一個V2L(vision to language)的模塊,負(fù)責(zé)把視覺特征變換到文本空間去。輸入的image-caption對首先各自經(jīng)過各自模態(tài)的encoder,圖像則是細(xì)分得到每個區(qū)域的特征,然后進(jìn)一步經(jīng)過V2L變換。之后,兩個模態(tài)的特征concat起來之后送入多模態(tài)的transformer,得到的輸出是視覺區(qū)域特征以及訓(xùn)練好的BERT,這樣的模型具有泛化能力,而圖像encoder是常用的resnet50。
- 第二步:利用常規(guī)的目標(biāo)檢測框架:Faster RCNN,進(jìn)行模型訓(xùn)練。為了保證延續(xù)性,backbone采用上一階段中訓(xùn)練好的renet50,每個proposal的特征經(jīng)過V2L變換之后又與類別標(biāo)簽的文本特征計算相似度來進(jìn)行分類。事實上就是把回歸問題轉(zhuǎn)換成分類問題。
- 第三步:把要檢測的新類別加入文本的特征向量中做匹配。
一旦預(yù)訓(xùn)練結(jié)束后,trained vision encoder和trained V2L層,便可以替換至Faster RCNN框架中,通過在base數(shù)據(jù)集上進(jìn)行finetune vision encoder,使其適配ROI區(qū)域特征,固定V2L層,保持其學(xué)習(xí)到的泛化的視覺-語義空間,即可進(jìn)行target類別數(shù)據(jù)的檢測。
總結(jié)來看,OVR-CNN通過在image-caption數(shù)據(jù)集上的預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的文本詞匯和圖像區(qū)域表征,這樣泛化的表征空間覆蓋的物體類別,是遠(yuǎn)超過現(xiàn)階段的帶標(biāo)注的目標(biāo)檢測數(shù)據(jù)集中物體的類別數(shù)。
整個模型框架跟Faster RCNN幾乎完全一樣,只是將最后的cls head換成了V2L,也就是換成了一個將visual feature投影到text embedding space的投影矩陣。
六、模型結(jié)果對比
可以發(fā)現(xiàn),相較于原有的zero-shot的detection,模型的泛化性能顯然是更強的。
根據(jù)上表,其實我們可以發(fā)現(xiàn):
- ZSD的檢測效果差(map不高)
主要原因,我認(rèn)為就是對于沒有任何未知類的例子經(jīng)過訓(xùn)練,OVD 應(yīng)該是會有部分未知類通過image-caption dataset 訓(xùn)練可得知,因此從現(xiàn)有基類的特征其實很難推出新類。
- WSD 定位效果不好
個人分析認(rèn)為,他從沒有注釋的圖片很難學(xué)習(xí)到特征,就很難像OVD那樣通過image-caption那樣,至少有圖像和文本方向的特征,再通過基類的相關(guān)有注釋框的圖片學(xué)習(xí),就能很好的定位。
- mixed supervision
其實同樣存在上面的缺陷,在基類上進(jìn)行訓(xùn)練,然后使用弱監(jiān)督學(xué)習(xí)轉(zhuǎn)移到目標(biāo)類,這些方法通常會在基類上降低性能相反,Visual grounding和Vision-language transformers 就是來幫助解決作者的設(shè)想,通過 Vision-language transformers 可以提取文本和圖像的特征,Visual grounding 則就是根據(jù)這些特征進(jìn)行定位。
同時我們也發(fā)現(xiàn),利用這種用image-captioning pair模式訓(xùn)練出來的特征,其中每個類別的特征更加顯著,如下圖和zero-shot obejct detection的baseline的對比:文章來源:http://www.zghlxwxcb.cn/news/detail-501149.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-501149.html
到了這里,關(guān)于【開放域目標(biāo)檢測】一:Open-Vocabulary Object Detection Using Captions論文講解的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!