1. 論文簡(jiǎn)介
- 論文題目《Detecting Everything in the Open World: Towards Universal Object Detection》
- 發(fā)表情況,CVPR2023
- [論文地址][https://arxiv.org/pdf/2303.11749.pdf]
- [代碼地址][https://github.com/zhenyuw16/UniDetector]
2.背景與摘要
本文旨在解決通用目標(biāo)檢測(cè)問(wèn)題,也即檢測(cè)任意場(chǎng)景、任意類(lèi)別的目標(biāo)。
對(duì)手工標(biāo)注的依賴(lài)、有限的視覺(jué)信息以及開(kāi)放世界中新的物體類(lèi)別,限制了傳統(tǒng)檢測(cè)器的通用性。因此,本文提出 UniDetector,一個(gè)可以識(shí)別開(kāi)放世界中非常多類(lèi)別的通用目標(biāo)檢測(cè)器,其核心要點(diǎn)包括:
- 它通過(guò)圖像和文本空間的對(duì)齊,來(lái)利用多個(gè)來(lái)源以及多種標(biāo)簽空間的圖像進(jìn)行訓(xùn)練,保證有足夠的信息讓模型學(xué)習(xí)到通用的表示能力;
- 它很容易泛化到開(kāi)放世界,同時(shí)可以平衡見(jiàn)過(guò)和未見(jiàn)過(guò)的類(lèi)別,因?yàn)橐曈X(jué)和語(yǔ)言模態(tài)提供了豐富的信息;
- 通過(guò)作者提出的解耦訓(xùn)練方式以及概率校正,模型對(duì)新類(lèi)別的泛化能力可以得到進(jìn)一步提升;
最終,UniDetector 在只有 500 個(gè)類(lèi)別參與訓(xùn)練的情況下,可以檢測(cè)超過(guò) 7000 個(gè)類(lèi)別。模型具有非常強(qiáng)的零樣本泛化能力,平均可以超過(guò)有監(jiān)督基線方法性能的 4%。在 13 個(gè)不同場(chǎng)景的公開(kāi)檢測(cè)數(shù)據(jù)集上,模型只用 3% 的訓(xùn)練數(shù)據(jù)就可以達(dá)到 SOTA 性能。
3. 方法介紹
基本流程包括三個(gè)步驟:
- 大規(guī)模圖像文本對(duì)對(duì)齊的預(yù)訓(xùn)練,文中使用的是 RegionCLIP 預(yù)訓(xùn)練的參數(shù)
- 多標(biāo)簽空間的訓(xùn)練,此步驟使用多種來(lái)源多種標(biāo)簽空間的數(shù)據(jù)集來(lái)訓(xùn)練模型,并且將候選框生成和 RoI 分類(lèi)兩部分進(jìn)行解耦
- 開(kāi)放世界的推理,此步驟通過(guò)概率校正來(lái)平衡基礎(chǔ)類(lèi)別和未知類(lèi)別
3.1 多標(biāo)簽空間訓(xùn)練
為了使用多標(biāo)簽空間的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,作者提出了三種可能的模型結(jié)構(gòu),如下圖所示:
第一種結(jié)構(gòu),每一個(gè)數(shù)據(jù)集(也即一個(gè)標(biāo)簽空間)訓(xùn)練一個(gè)單獨(dú)的模型,測(cè)試的時(shí)候,針對(duì)新類(lèi)別的語(yǔ)言嵌入向量,每個(gè)模型都進(jìn)行推理,然后再進(jìn)行融合得到最終的結(jié)果。
第二種結(jié)構(gòu),將多標(biāo)簽空間統(tǒng)一為一個(gè)標(biāo)簽空間,這樣圖片都可以被看作來(lái)自一個(gè)數(shù)據(jù)集,諸如 Mosaic、Mixup 的技術(shù)手段則可以被用來(lái)提升不同標(biāo)簽空間的信息融合。
第三種稱(chēng)之為分區(qū)結(jié)構(gòu),不同來(lái)源的圖片共享相同的特征提取器,但是有它們各自的分類(lèi)層,測(cè)試時(shí)直接使用測(cè)試標(biāo)簽的類(lèi)別嵌入向量來(lái)進(jìn)行推理。
大規(guī)模數(shù)據(jù)不可避免地都存在長(zhǎng)尾分布,針對(duì)閉集檢測(cè),比如 class-aware sampler (CAS)、 repeat factor sampler (RFS) 之類(lèi)的采樣策略都會(huì)有所幫助。但是,在開(kāi)放世界檢測(cè)問(wèn)題中,最核心的問(wèn)題是未知類(lèi)別,這可以通過(guò)語(yǔ)言嵌入向量來(lái)解決,而長(zhǎng)尾分布的問(wèn)題則可以忽略不計(jì),因此本文直接使用隨機(jī)采樣器。
同樣地,諸如 equalized loss、seesaw loss 之類(lèi)的損失函數(shù)作用也不大,本文直接使用基于 sigmoid 的損失函數(shù),這樣已知類(lèi)別和未知類(lèi)別之間不存在交互。為了避免隨著類(lèi)別數(shù)量的增長(zhǎng)損失值過(guò)大,會(huì)隨機(jī)采樣一定數(shù)目的來(lái)別作為負(fù)例。
3.2 解耦候選框生成和 RoI 分類(lèi)
兩階段的分類(lèi)器包含一個(gè)視覺(jué) backbone 編碼器、一個(gè) RPN 和一個(gè) RoI 分類(lèi)模塊。針對(duì)標(biāo)簽空間 L L L 數(shù)據(jù)集 D D D 中的一張圖片 I I I,模型可以總結(jié)為:
{ z i j } j = 1 L = Φ R o I ° Φ R P N ° Φ b a c k b o n e \{z_{ij}\}_{j=1}^L=\Phi_{RoI}\circ\Phi_{RPN}\circ\Phi_{backbone} {zij?}j=1L?=ΦRoI?°ΦRPN?°Φbackbone?
p i j = 1 / ( 1 + e x p ( ? z i j T e j / τ ) ) p_{ij}=1/(1+exp(-z_{ij}^Te_j/\tau)) pij?=1/(1+exp(?zijT?ej?/τ))
其中, p i j p_{ij} pij? 是第 i i i 個(gè)區(qū)域?qū)?yīng)類(lèi)別 j j j 的概率, e j e_{j} ej? 是類(lèi)別 j j j 的語(yǔ)言嵌入向量。
候選框生成階段是類(lèi)別不可知的預(yù)測(cè)(只預(yù)測(cè)候選框是前景還是背景),所以,很容易擴(kuò)展到未知類(lèi)別。而 RoI 分類(lèi)階段是針對(duì)特定類(lèi)別的,盡管有語(yǔ)言嵌入向量的幫助,它還是會(huì)偏向于已知類(lèi)別。因此,若將這兩個(gè)階段聯(lián)合在一起進(jìn)行訓(xùn)練,分類(lèi)階段對(duì)新類(lèi)別的敏感性將不利于候選框生成階段的通用性,所以作者提出將兩個(gè)階段解耦分別訓(xùn)練來(lái)避免這種沖突。
作者提出了一個(gè) CLN(class-agnostic localization network),來(lái)產(chǎn)生通用的候選框,其包含一個(gè) RPN 和一個(gè) RoI 頭,如下圖所示:
這樣既可以產(chǎn)生候選框,進(jìn)而可以通過(guò) RoI 頭來(lái)對(duì)產(chǎn)生的候選框進(jìn)行微調(diào)。其思想來(lái)源自文章《Learning Open-World Object Proposals without Learning to Classify》,該篇文章的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,但是保留了 RoI 頭里面的與類(lèi)別無(wú)關(guān)的分類(lèi),文中說(shuō)這樣可以提供更強(qiáng)的監(jiān)督信號(hào)。
針對(duì)第 i i i 個(gè)候選框,RPN 出來(lái)的定位置信度為 s i r 1 s_i^{r_1} sir1??,RoI 頭出來(lái)的定位置信度為 s i r 2 s_i^{r_2} sir2??,分類(lèi)得分為 s i c s_i^c sic?,則 CLN 模塊的最終置信度為它們的加權(quán) η i = ( s i c ) α ? ( s i r 1 s i r 2 ) 1 ? α \eta_i = (s_i^c)^\alpha \cdot (s_i^{r_1}s_i^{r_2})^{1-\alpha} ηi?=(sic?)α?(sir1??sir2??)1?α。
3.3 推理
因?yàn)橛?xùn)練階段只見(jiàn)過(guò)已知類(lèi)別,所以訓(xùn)練好的檢測(cè)器還是會(huì)偏向于已知類(lèi)別。為了避免這種偏置問(wèn)題,作者提出了一個(gè)概率校正來(lái)對(duì)預(yù)測(cè)結(jié)果進(jìn)行后處理,其目的是降低已知類(lèi)別的概率增加新的未知類(lèi)別的概率,公式如下所示:
p i j = 1 1 + e x p ( ? z i j T e j / τ ) / π j γ , j ∈ L t e s t p_{ij}=\frac{1}{1+exp(-z_{ij}^Te_j/\tau)}/\pi_j^{\gamma}, j \in L_{test} pij?=1+exp(?zijT?ej?/τ)1?/πjγ?,j∈Ltest?
先驗(yàn)概率 π j \pi_j πj? 記錄了網(wǎng)絡(luò)對(duì)類(lèi)別 j j j 的偏置, π j \pi_j πj? 越大,網(wǎng)絡(luò)更朝著這個(gè)類(lèi)別偏置,校正后其對(duì)應(yīng)的概率變小??梢韵仍跍y(cè)試數(shù)據(jù)上推理一遍,通過(guò)結(jié)果中的類(lèi)別數(shù)量來(lái)獲得 π j \pi_j πj?,如果測(cè)試數(shù)據(jù)數(shù)量太少,也可以使用訓(xùn)練數(shù)據(jù)來(lái)獲取。
最終,第 i i i 個(gè)候選框針對(duì)類(lèi)別 j j j 的得分為 s i j = p i j β η i 1 ? β s_{ij} = p_{ij}^{\beta}{\eta}_i^{1-\beta} sij?=pijβ?ηi1?β?。
4. 實(shí)驗(yàn)與結(jié)果
訓(xùn)練數(shù)據(jù)集從 COCO(80類(lèi))、Object365(365類(lèi))和 OpenImages(500類(lèi))中分別隨機(jī)選取 35K、60K 和 78K 張圖片,測(cè)試時(shí)在 LVIS、ImageNetBoxes 和 VisualGenome 三個(gè)數(shù)據(jù)集上進(jìn)行。其中,LVIS v0.5 驗(yàn)證集包含 5000 張圖片,1230 個(gè)類(lèi)別;LVIS v1 驗(yàn)證集包含 19,809 張圖片,1203 個(gè)類(lèi)別。ImageNetBoxes 包含超過(guò) 3,000 個(gè)類(lèi)別,隨機(jī)選取 20,000 張圖片作為驗(yàn)證集,為了和有監(jiān)督基線方法對(duì)比閉集上的檢測(cè)性能,會(huì)抽取 90,000 張圖片作為訓(xùn)練集。最新版本的 VisualGenome 包含 7,605 個(gè)類(lèi)別,但是由于大部分是機(jī)器標(biāo)注的,噪聲很大,作者選取 5,000 個(gè)沒(méi)出現(xiàn)在訓(xùn)練圖片中的類(lèi)別來(lái)進(jìn)行驗(yàn)證。
從上表可以看到,在 LVIS v0.5 數(shù)據(jù)集上,UniDetector 只使用采樣的 O365 數(shù)據(jù)集訓(xùn)練就超越了用三個(gè)數(shù)據(jù)集訓(xùn)練的 Faster RCNN。而且,F(xiàn)aster RCNN 在 rare 類(lèi)別的表現(xiàn)要遠(yuǎn)遠(yuǎn)低于 frequent 類(lèi)別的表現(xiàn),而 UniDetector 在二者中的表現(xiàn)則更加均衡。
針對(duì)多標(biāo)簽空間訓(xùn)練的三種結(jié)構(gòu),分區(qū)結(jié)構(gòu)明顯要優(yōu)于前兩個(gè)。另外,由于 OImg 數(shù)據(jù)集標(biāo)注噪聲較大,單獨(dú)在 OImg 上訓(xùn)練的模型表現(xiàn)還不如單獨(dú)在 COCO 上訓(xùn)練的模型,但如果在 COOC+O365 的基礎(chǔ)上增加 OImg 數(shù)據(jù)集,反而可以提高模型的泛化能力,這也體現(xiàn)了多標(biāo)簽空間訓(xùn)練對(duì)通用目標(biāo)檢測(cè)帶來(lái)的巨大優(yōu)勢(shì)。
一個(gè)通用的檢測(cè)器不僅能非常好地泛化到開(kāi)放世界檢測(cè)中,其在閉集檢測(cè)中也應(yīng)當(dāng)保持優(yōu)越性能。在 COCO 數(shù)據(jù)集上進(jìn)行 1 × 1\times 1× schedule 的訓(xùn)練,UniDetector 不僅表現(xiàn)超過(guò)基于 CNN 的方法,相比最新基于transformer 的方法也稍有提高。
在 13 個(gè)自然場(chǎng)景(包括無(wú)人機(jī)、水下等)的檢測(cè)數(shù)據(jù)集上,相比 GLIP-T,UniDetector 使用前者大約 3% 的數(shù)據(jù)集,就可以取得更好的結(jié)果(47.3 AP vs 46.5 AP)。
針對(duì)本文提出的 CLN 網(wǎng)絡(luò)以及概率校正模塊,作者分別進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了 CLN 比 OLN 效果更好,而且解耦訓(xùn)練的方式可以進(jìn)一步提升模型性能。
增加概率校正模塊后,模型在新類(lèi)別上的 AP 均有明顯提升。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-636401.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-636401.html
到了這里,關(guān)于Detecting Everything in the Open World: Towards Universal Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!