国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Detecting Everything in the Open World: Towards Universal Object Detection

這篇具有很好參考價(jià)值的文章主要介紹了Detecting Everything in the Open World: Towards Universal Object Detection。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1. 論文簡(jiǎn)介

  • 論文題目《Detecting Everything in the Open World: Towards Universal Object Detection》
  • 發(fā)表情況,CVPR2023
  • [論文地址][https://arxiv.org/pdf/2303.11749.pdf]
  • [代碼地址][https://github.com/zhenyuw16/UniDetector]

2.背景與摘要

本文旨在解決通用目標(biāo)檢測(cè)問(wèn)題,也即檢測(cè)任意場(chǎng)景、任意類(lèi)別的目標(biāo)。
Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

對(duì)手工標(biāo)注的依賴(lài)、有限的視覺(jué)信息以及開(kāi)放世界中新的物體類(lèi)別,限制了傳統(tǒng)檢測(cè)器的通用性。因此,本文提出 UniDetector,一個(gè)可以識(shí)別開(kāi)放世界中非常多類(lèi)別的通用目標(biāo)檢測(cè)器,其核心要點(diǎn)包括:

  • 它通過(guò)圖像和文本空間的對(duì)齊,來(lái)利用多個(gè)來(lái)源以及多種標(biāo)簽空間的圖像進(jìn)行訓(xùn)練,保證有足夠的信息讓模型學(xué)習(xí)到通用的表示能力;
  • 它很容易泛化到開(kāi)放世界,同時(shí)可以平衡見(jiàn)過(guò)和未見(jiàn)過(guò)的類(lèi)別,因?yàn)橐曈X(jué)和語(yǔ)言模態(tài)提供了豐富的信息;
  • 通過(guò)作者提出的解耦訓(xùn)練方式以及概率校正,模型對(duì)新類(lèi)別的泛化能力可以得到進(jìn)一步提升;

最終,UniDetector 在只有 500 個(gè)類(lèi)別參與訓(xùn)練的情況下,可以檢測(cè)超過(guò) 7000 個(gè)類(lèi)別。模型具有非常強(qiáng)的零樣本泛化能力,平均可以超過(guò)有監(jiān)督基線方法性能的 4%。在 13 個(gè)不同場(chǎng)景的公開(kāi)檢測(cè)數(shù)據(jù)集上,模型只用 3% 的訓(xùn)練數(shù)據(jù)就可以達(dá)到 SOTA 性能。

3. 方法介紹

基本流程包括三個(gè)步驟:

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

  • 大規(guī)模圖像文本對(duì)對(duì)齊的預(yù)訓(xùn)練,文中使用的是 RegionCLIP 預(yù)訓(xùn)練的參數(shù)
  • 多標(biāo)簽空間的訓(xùn)練,此步驟使用多種來(lái)源多種標(biāo)簽空間的數(shù)據(jù)集來(lái)訓(xùn)練模型,并且將候選框生成和 RoI 分類(lèi)兩部分進(jìn)行解耦
  • 開(kāi)放世界的推理,此步驟通過(guò)概率校正來(lái)平衡基礎(chǔ)類(lèi)別和未知類(lèi)別

3.1 多標(biāo)簽空間訓(xùn)練

為了使用多標(biāo)簽空間的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,作者提出了三種可能的模型結(jié)構(gòu),如下圖所示:

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

第一種結(jié)構(gòu),每一個(gè)數(shù)據(jù)集(也即一個(gè)標(biāo)簽空間)訓(xùn)練一個(gè)單獨(dú)的模型,測(cè)試的時(shí)候,針對(duì)新類(lèi)別的語(yǔ)言嵌入向量,每個(gè)模型都進(jìn)行推理,然后再進(jìn)行融合得到最終的結(jié)果。

第二種結(jié)構(gòu),將多標(biāo)簽空間統(tǒng)一為一個(gè)標(biāo)簽空間,這樣圖片都可以被看作來(lái)自一個(gè)數(shù)據(jù)集,諸如 Mosaic、Mixup 的技術(shù)手段則可以被用來(lái)提升不同標(biāo)簽空間的信息融合。

第三種稱(chēng)之為分區(qū)結(jié)構(gòu),不同來(lái)源的圖片共享相同的特征提取器,但是有它們各自的分類(lèi)層,測(cè)試時(shí)直接使用測(cè)試標(biāo)簽的類(lèi)別嵌入向量來(lái)進(jìn)行推理。

大規(guī)模數(shù)據(jù)不可避免地都存在長(zhǎng)尾分布,針對(duì)閉集檢測(cè),比如 class-aware sampler (CAS)、 repeat factor sampler (RFS) 之類(lèi)的采樣策略都會(huì)有所幫助。但是,在開(kāi)放世界檢測(cè)問(wèn)題中,最核心的問(wèn)題是未知類(lèi)別,這可以通過(guò)語(yǔ)言嵌入向量來(lái)解決,而長(zhǎng)尾分布的問(wèn)題則可以忽略不計(jì),因此本文直接使用隨機(jī)采樣器。

同樣地,諸如 equalized loss、seesaw loss 之類(lèi)的損失函數(shù)作用也不大,本文直接使用基于 sigmoid 的損失函數(shù),這樣已知類(lèi)別和未知類(lèi)別之間不存在交互。為了避免隨著類(lèi)別數(shù)量的增長(zhǎng)損失值過(guò)大,會(huì)隨機(jī)采樣一定數(shù)目的來(lái)別作為負(fù)例。

3.2 解耦候選框生成和 RoI 分類(lèi)

兩階段的分類(lèi)器包含一個(gè)視覺(jué) backbone 編碼器、一個(gè) RPN 和一個(gè) RoI 分類(lèi)模塊。針對(duì)標(biāo)簽空間 L L L 數(shù)據(jù)集 D D D 中的一張圖片 I I I,模型可以總結(jié)為:

{ z i j } j = 1 L = Φ R o I ° Φ R P N ° Φ b a c k b o n e \{z_{ij}\}_{j=1}^L=\Phi_{RoI}\circ\Phi_{RPN}\circ\Phi_{backbone} {zij?}j=1L?=ΦRoI?°ΦRPN?°Φbackbone?

p i j = 1 / ( 1 + e x p ( ? z i j T e j / τ ) ) p_{ij}=1/(1+exp(-z_{ij}^Te_j/\tau)) pij?=1/(1+exp(?zijT?ej?/τ))

其中, p i j p_{ij} pij? 是第 i i i 個(gè)區(qū)域?qū)?yīng)類(lèi)別 j j j 的概率, e j e_{j} ej? 是類(lèi)別 j j j 的語(yǔ)言嵌入向量。

候選框生成階段是類(lèi)別不可知的預(yù)測(cè)(只預(yù)測(cè)候選框是前景還是背景),所以,很容易擴(kuò)展到未知類(lèi)別。而 RoI 分類(lèi)階段是針對(duì)特定類(lèi)別的,盡管有語(yǔ)言嵌入向量的幫助,它還是會(huì)偏向于已知類(lèi)別。因此,若將這兩個(gè)階段聯(lián)合在一起進(jìn)行訓(xùn)練,分類(lèi)階段對(duì)新類(lèi)別的敏感性將不利于候選框生成階段的通用性,所以作者提出將兩個(gè)階段解耦分別訓(xùn)練來(lái)避免這種沖突。

作者提出了一個(gè) CLN(class-agnostic localization network),來(lái)產(chǎn)生通用的候選框,其包含一個(gè) RPN 和一個(gè) RoI 頭,如下圖所示:

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

這樣既可以產(chǎn)生候選框,進(jìn)而可以通過(guò) RoI 頭來(lái)對(duì)產(chǎn)生的候選框進(jìn)行微調(diào)。其思想來(lái)源自文章《Learning Open-World Object Proposals without Learning to Classify》,該篇文章的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,但是保留了 RoI 頭里面的與類(lèi)別無(wú)關(guān)的分類(lèi),文中說(shuō)這樣可以提供更強(qiáng)的監(jiān)督信號(hào)。

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

針對(duì)第 i i i 個(gè)候選框,RPN 出來(lái)的定位置信度為 s i r 1 s_i^{r_1} sir1??,RoI 頭出來(lái)的定位置信度為 s i r 2 s_i^{r_2} sir2??,分類(lèi)得分為 s i c s_i^c sic?,則 CLN 模塊的最終置信度為它們的加權(quán) η i = ( s i c ) α ? ( s i r 1 s i r 2 ) 1 ? α \eta_i = (s_i^c)^\alpha \cdot (s_i^{r_1}s_i^{r_2})^{1-\alpha} ηi?=(sic?)α?(sir1??sir2??)1?α。

3.3 推理

因?yàn)橛?xùn)練階段只見(jiàn)過(guò)已知類(lèi)別,所以訓(xùn)練好的檢測(cè)器還是會(huì)偏向于已知類(lèi)別。為了避免這種偏置問(wèn)題,作者提出了一個(gè)概率校正來(lái)對(duì)預(yù)測(cè)結(jié)果進(jìn)行后處理,其目的是降低已知類(lèi)別的概率增加新的未知類(lèi)別的概率,公式如下所示:

p i j = 1 1 + e x p ( ? z i j T e j / τ ) / π j γ , j ∈ L t e s t p_{ij}=\frac{1}{1+exp(-z_{ij}^Te_j/\tau)}/\pi_j^{\gamma}, j \in L_{test} pij?=1+exp(?zijT?ej?/τ)1?/πjγ?,jLtest?

先驗(yàn)概率 π j \pi_j πj? 記錄了網(wǎng)絡(luò)對(duì)類(lèi)別 j j j 的偏置, π j \pi_j πj? 越大,網(wǎng)絡(luò)更朝著這個(gè)類(lèi)別偏置,校正后其對(duì)應(yīng)的概率變小??梢韵仍跍y(cè)試數(shù)據(jù)上推理一遍,通過(guò)結(jié)果中的類(lèi)別數(shù)量來(lái)獲得 π j \pi_j πj?,如果測(cè)試數(shù)據(jù)數(shù)量太少,也可以使用訓(xùn)練數(shù)據(jù)來(lái)獲取。

最終,第 i i i 個(gè)候選框針對(duì)類(lèi)別 j j j 的得分為 s i j = p i j β η i 1 ? β s_{ij} = p_{ij}^{\beta}{\eta}_i^{1-\beta} sij?=pijβ?ηi1?β?

4. 實(shí)驗(yàn)與結(jié)果

訓(xùn)練數(shù)據(jù)集從 COCO(80類(lèi))、Object365(365類(lèi))和 OpenImages(500類(lèi))中分別隨機(jī)選取 35K、60K 和 78K 張圖片,測(cè)試時(shí)在 LVIS、ImageNetBoxes 和 VisualGenome 三個(gè)數(shù)據(jù)集上進(jìn)行。其中,LVIS v0.5 驗(yàn)證集包含 5000 張圖片,1230 個(gè)類(lèi)別;LVIS v1 驗(yàn)證集包含 19,809 張圖片,1203 個(gè)類(lèi)別。ImageNetBoxes 包含超過(guò) 3,000 個(gè)類(lèi)別,隨機(jī)選取 20,000 張圖片作為驗(yàn)證集,為了和有監(jiān)督基線方法對(duì)比閉集上的檢測(cè)性能,會(huì)抽取 90,000 張圖片作為訓(xùn)練集。最新版本的 VisualGenome 包含 7,605 個(gè)類(lèi)別,但是由于大部分是機(jī)器標(biāo)注的,噪聲很大,作者選取 5,000 個(gè)沒(méi)出現(xiàn)在訓(xùn)練圖片中的類(lèi)別來(lái)進(jìn)行驗(yàn)證。

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

從上表可以看到,在 LVIS v0.5 數(shù)據(jù)集上,UniDetector 只使用采樣的 O365 數(shù)據(jù)集訓(xùn)練就超越了用三個(gè)數(shù)據(jù)集訓(xùn)練的 Faster RCNN。而且,F(xiàn)aster RCNN 在 rare 類(lèi)別的表現(xiàn)要遠(yuǎn)遠(yuǎn)低于 frequent 類(lèi)別的表現(xiàn),而 UniDetector 在二者中的表現(xiàn)則更加均衡。

針對(duì)多標(biāo)簽空間訓(xùn)練的三種結(jié)構(gòu),分區(qū)結(jié)構(gòu)明顯要優(yōu)于前兩個(gè)。另外,由于 OImg 數(shù)據(jù)集標(biāo)注噪聲較大,單獨(dú)在 OImg 上訓(xùn)練的模型表現(xiàn)還不如單獨(dú)在 COCO 上訓(xùn)練的模型,但如果在 COOC+O365 的基礎(chǔ)上增加 OImg 數(shù)據(jù)集,反而可以提高模型的泛化能力,這也體現(xiàn)了多標(biāo)簽空間訓(xùn)練對(duì)通用目標(biāo)檢測(cè)帶來(lái)的巨大優(yōu)勢(shì)。

一個(gè)通用的檢測(cè)器不僅能非常好地泛化到開(kāi)放世界檢測(cè)中,其在閉集檢測(cè)中也應(yīng)當(dāng)保持優(yōu)越性能。在 COCO 數(shù)據(jù)集上進(jìn)行 1 × 1\times 1× schedule 的訓(xùn)練,UniDetector 不僅表現(xiàn)超過(guò)基于 CNN 的方法,相比最新基于transformer 的方法也稍有提高。

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

在 13 個(gè)自然場(chǎng)景(包括無(wú)人機(jī)、水下等)的檢測(cè)數(shù)據(jù)集上,相比 GLIP-T,UniDetector 使用前者大約 3% 的數(shù)據(jù)集,就可以取得更好的結(jié)果(47.3 AP vs 46.5 AP)。

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

針對(duì)本文提出的 CLN 網(wǎng)絡(luò)以及概率校正模塊,作者分別進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了 CLN 比 OLN 效果更好,而且解耦訓(xùn)練的方式可以進(jìn)一步提升模型性能。

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)

增加概率校正模塊后,模型在新類(lèi)別上的 AP 均有明顯提升。

Detecting Everything in the Open World: Towards Universal Object Detection,目標(biāo)檢測(cè),人工智能,計(jì)算機(jī)視覺(jué)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-636401.html

到了這里,關(guān)于Detecting Everything in the Open World: Towards Universal Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • FutureWarning: In the future `np.object` will be defined as the corresponding NumPy scalar異常解決辦法

    FutureWarning: In the future `np.object` will be defined as the corresponding NumPy scalar異常解決辦法

    AttributeError: module \\\'numpy\\\' has no attribute \\\'object\\\'. 原因:numpy版本問(wèn)題,卸載重新安裝對(duì)應(yīng)的版本 pip uninstall numpy==1.19.2(根據(jù)自己的版本需要,安裝對(duì)應(yīng)的版本)

    2024年02月13日
    瀏覽(24)
  • 《Towards Open Set Deep Networks》:一文搞懂開(kāi)集識(shí)別算法 OpenMax:

    《Towards Open Set Deep Networks》:一文搞懂開(kāi)集識(shí)別算法 OpenMax:

    《Towards Open Set Deep Networks》:https://github.com/abhijitbendale/OSDN 《Meta-Recognition: The Theory and Practice of Recognition Score Analysis》:https://github.com/Vastlab/libMR 說(shuō)明:關(guān)于OpenMax算法的具體實(shí)現(xiàn),有興趣的可以備注來(lái)意q:3270348868 1. 激活向量 AV:即訓(xùn)練(測(cè)試)樣本通過(guò)神經(jīng)網(wǎng)絡(luò)的倒數(shù)第二

    2024年01月20日
    瀏覽(22)
  • 【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles

    【深度學(xué)習(xí) video detect】Towards High Performance Video Object Detection for Mobiles

    盡管在桌面GPU上取得了視頻目標(biāo)檢測(cè)的最近成功,但其架構(gòu)對(duì)于移動(dòng)設(shè)備來(lái)說(shuō)仍然過(guò)于沉重。目前尚不清楚在非常有限的計(jì)算資源下,稀疏特征傳播和多幀特征聚合的關(guān)鍵原則是否適用。在本文中,我們提出了一種適用于移動(dòng)設(shè)備的輕量級(jí)視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)架構(gòu)。我們?cè)谙∈?/p>

    2024年02月13日
    瀏覽(21)
  • 【論文筆記】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

    【論文筆記】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

    原文鏈接:https://arxiv.org/abs/2310.11346 最近,多相機(jī)3D目標(biāo)檢測(cè)(MC3D-Det)多使用BEV方法以進(jìn)行有效的多相機(jī)信息融合,但當(dāng)測(cè)試環(huán)境與訓(xùn)練環(huán)境有很大不同時(shí),這些方法會(huì)有嚴(yán)重的性能下降。 兩種減輕域偏移的方向是域泛化(DG)和無(wú)監(jiān)督域自適應(yīng)(UDA)。DG方法通常解耦并消

    2024年03月14日
    瀏覽(28)
  • 異常檢測(cè):Towards Total Recall in Industrial Anomaly Detection

    異常檢測(cè):Towards Total Recall in Industrial Anomaly Detection

    本篇文章采取的方法是 基于密度的異常檢測(cè)方法 原論文鏈接,2021的一篇異常檢測(cè)論文在MVTec其檢測(cè)準(zhǔn)確率和分割準(zhǔn)確率分別達(dá)到了99.1%和98.1% 研究背景: 能夠發(fā)現(xiàn)工業(yè)制造中零部件存在的缺陷是提高工業(yè)制造質(zhì)量的一個(gè)很重要的環(huán)節(jié)。在使用神經(jīng)網(wǎng)絡(luò)的模型中,盡管為每個(gè)

    2023年04月08日
    瀏覽(15)
  • [論文筆記](méi)小目標(biāo)識(shí)別文獻(xiàn)綜述Towards large-scale small object detection: Survey and Benchmarks

    [論文筆記](méi)小目標(biāo)識(shí)別文獻(xiàn)綜述Towards large-scale small object detection: Survey and Benchmarks

    2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目標(biāo)檢測(cè)= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

    2024年02月10日
    瀏覽(22)
  • 大一統(tǒng)模型 Universal Instance Perception as Object Discovery and Retrieval 論文閱讀筆記

    大一統(tǒng)模型 Universal Instance Perception as Object Discovery and Retrieval 論文閱讀筆記

    寫(xiě)在前面 ??馬上又是一周周末了,開(kāi)始寫(xiě)論文博客啦。 ??這是一篇頂會(huì)文章,標(biāo)題很清楚,就是一個(gè)一統(tǒng)的框架用于解決各種任務(wù)。這類(lèi)文章在 21 年的時(shí)候挺多的,現(xiàn)在倒是不常見(jiàn)了。因?yàn)樾枰馁Y源很多,外部數(shù)據(jù)集也很龐大,一般的小資源團(tuán)隊(duì)基本搞不定。但一旦

    2024年02月04日
    瀏覽(19)
  • 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning

    論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning

    目錄 ?摘要: ?引言 3 問(wèn)題定義 4 CBD 4.1 框架概述 4.2 Model Learning 4.2.1 通過(guò) GCL 進(jìn)行模型預(yù)訓(xùn)練 ?4.2.2 通過(guò)一致性損失進(jìn)行模型微調(diào) ?4.3 在線檢測(cè) 5 實(shí)驗(yàn) 5.1 實(shí)驗(yàn)設(shè)置 5.2 性能比較 5.5 少量檢測(cè)研究 ?6 結(jié)論 https://dl.acm.org/doi/pdf/10.1145/3583780.3615468 ? ????????社交機(jī)器人檢測(cè)正

    2024年02月06日
    瀏覽(26)
  • 【論文速覽】圖像分割領(lǐng)域的通用大模型SegGPT - Segmenting Everything in Context

    【論文速覽】圖像分割領(lǐng)域的通用大模型SegGPT - Segmenting Everything in Context

    代碼地址:https://github.com/baaivision/Painter Demo地址:https://huggingface.co/spaces/BAAI/SegGPT 圖像分割 一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)基礎(chǔ)研究問(wèn)題,在深度學(xué)習(xí)時(shí)代得到了迅猛發(fā)展,對(duì)于不同的分割子問(wèn)題,涌現(xiàn)了很多又快又好的算法。但這些方法都是針對(duì)具體的子任務(wù)進(jìn)行設(shè)計(jì)的,比

    2024年02月07日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包