Title: Augmentation for small object detection
Abstract: In the recent years, object detection has experienced impressive progress. Despite these improvements, there is still a significant gap in the performance between the detection of small and large objects. We analyze the current state-of-the-art model, Mask-RCNN, on a challenging dataset, MS COCO. We show that the overlap between small ground-truth objects and the predicted anchors is much lower than the expected IoU threshold. We conjecture this is due to two factors; (1) only a few images are containing small objects, and (2) small objects do not appear enough even within each image containing them. We thus propose to oversample those images with small objects and augment each of those images by copy-pasting small objects many times. It allows us to trade off the quality of the detector on large objects with that on small objects. We evaluate different pasting augmentation strategies, and ultimately, we achieve 9.7% relative improvement on the instance segmentation and 7.1% on the object detection of small objects, compared to the current state of the art method on MS COCO.
Keywords: NONE
題目:用于小物體檢測的增強(qiáng)
摘要:近年來,物體檢測取得了令人印象深刻的進(jìn)展。盡管有這些改進(jìn),但在檢測小型和大型物體的性能方面仍然存在顯著差距。我們在一個具有挑戰(zhàn)性的數(shù)據(jù)集MS COCO上分析了當(dāng)前最先進(jìn)的模型Mask RCNN。我們發(fā)現(xiàn),小ground-truth objects和predicted anchors之間的重疊遠(yuǎn)低于預(yù)期的IoU閾值。我們推測這是由兩個因素造成的;(1)只有少數(shù)圖像包含小目標(biāo);(2)即使在包含小目標(biāo)的每個圖像中,小目標(biāo)也不會出現(xiàn)得足夠多。因此,我們建議用小目標(biāo)對這些圖像進(jìn)行過采樣,并通過多次復(fù)制粘貼小目標(biāo)來增強(qiáng)這些圖像中的每一個。
關(guān)鍵詞:無
1.引言
檢測圖像中的物體是當(dāng)今計算機(jī)視覺研究的基本任務(wù)之一,因為它通常是許多現(xiàn)實世界應(yīng)用的起點,包括機(jī)器人和自動駕駛汽車、衛(wèi)星和航空圖像分析,以及醫(yī)學(xué)圖像中器官和腫塊的定位。物體檢測這一重要問題最近取得了很大進(jìn)展。MS COCO目標(biāo)檢測競賽排名第一的解決方案。已從2015年的平均精度(AP)0.373提高到2017年的0.525(IoU=.50:.05:.95,這是一個主要的挑戰(zhàn)度量。)在MS COCO實例分割挑戰(zhàn)的背景下,在實例分割問題中也可以觀察到類似的進(jìn)展。盡管有這些改進(jìn),現(xiàn)有的解決方案在小對象方面往往表現(xiàn)不佳,在MS COCO的情況下,小對象的定義如表1所示。小物體和大物體的檢測性能差距明顯。例如,圖 1 列出了在 MS COCO 實例分割挑戰(zhàn)賽中排名靠前的參賽作品。在實例分割任務(wù)中也觀察到類似的問題。例如,請參閱圖2中當(dāng)前最先進(jìn)的模型Mask RCNN的樣本預(yù)測,其中該模型錯過了大多數(shù)小對象。
圖 1:在 MS COCO 實例分割挑戰(zhàn)賽的頂級作品中,小物體的 AP 檢測指標(biāo)比大物體低 2-3 倍。
表1:MS COCO小型、中型和大型目標(biāo)的定義。
圖2:Mask RCNN的樣本預(yù)測,其中許多小物體被系統(tǒng)遺漏,盡管它們在合理的context中清晰可見。
例如,在數(shù)百只鳥中,只有六只被發(fā)現(xiàn)。
注釋:關(guān)于context,讀者這里找到一個很好的解釋,來源:https://zhuanlan.zhihu.com/p/86203866
?
小物體檢測在許多下游任務(wù)中至關(guān)重要。為了安全部署自動駕駛汽車,有必要在汽車的高分辨率場景照片中檢測小型或遠(yuǎn)處的物體。許多物體,如交通標(biāo)志或行人,在高分辨率圖像上通常幾乎看不見。在醫(yī)學(xué)成像中,腫塊和腫瘤的早期檢測對于做出準(zhǔn)確的早期診斷至關(guān)重要,而這些元素的大小往往只有幾個像素。自動工業(yè)檢測也可以通過對材料表面可見的小缺陷進(jìn)行定位,從而受益于小物體檢測。另一個應(yīng)用是衛(wèi)星圖像分析,其中物體,如汽車、船只和房屋,必須進(jìn)行有效的標(biāo)注。平均每個像素的分辨率為 0.5-5 米,這些物體的大小也只有幾個像素。換言之,隨著更復(fù)雜的系統(tǒng)被部署在現(xiàn)實世界中,小對象檢測和分割需要更多的關(guān)注。因此,我們提出了一種改進(jìn)小目標(biāo)檢測的新方法。
?????? 我們通過對包含小物體的圖像進(jìn)行過采樣(oversampling)來解決第一個問題。第二個問題是通過在每個包含小對象的圖像中多次復(fù)制粘貼小對象來解決的。粘貼每個對象時,我們確保粘貼的對象不會與任何現(xiàn)有對象重疊。這增加了小物體位置的多樣性,同時確保這些物體出現(xiàn)在正確的上下文中,如圖3所示。每個圖像中小物體數(shù)量的增加進(jìn)一步解決了少量正匹配錨的問題,我們在第3節(jié)中對其進(jìn)行了定量分析??傮w而言,與當(dāng)前最先進(jìn)的方法Mask R-CNN相比,我們在MS COCO上實現(xiàn)了9.7%的實例分割相對改進(jìn)和7.1%的小對象檢測相對改進(jìn)。?
圖3:通過復(fù)制粘貼小對象進(jìn)行人工增強(qiáng)的示例。從這些例子中我們可以看到,在同一圖像上粘貼小物件,就很有可能獲得周圍環(huán)境的正確信息。
2.相關(guān)工作
目標(biāo)檢測 ?基于區(qū)域的更快卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)、基于區(qū)域的全卷積網(wǎng)絡(luò)(R-FCN)和單次檢測器(SSD)是物體檢測的三種主要方法,它們的區(qū)別在于是否以及在何處附加了區(qū)域建議。Faster R-CNN及其變體旨在幫助處理各種對象尺度,因為differential cropping會將所有建議合并為單一分辨率。然而,這發(fā)生在深度卷積網(wǎng)絡(luò)中,由此產(chǎn)生的裁剪框可能無法與物體完全對齊,這可能會影響其實際性能。SSD最近被擴(kuò)展到去卷積單點檢測器(Deconvolutional Single Shot Detector,DSSD),該檢測器通過解碼器部分中的轉(zhuǎn)置卷積對SSD的低分辨率特征進(jìn)行上采樣,以提高內(nèi)部空間分辨率。類似地,特征金字塔網(wǎng)絡(luò)(FPN)擴(kuò)展了具有解碼器類型子網(wǎng)絡(luò)的Faster R-CNN。
實例分割 ?實例分割超越了對象檢測,需要預(yù)測每個對象的精確掩碼。多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Network Cascades,MNC)構(gòu)建了預(yù)測和掩碼細(xì)化的級聯(lián)(Cascades)。全卷積實例感知語義分割(Fully convolutional instance-aware semantic segmentation, FCIS)是一種全卷積模型,可計算出每個感興趣區(qū)域共享的位置敏感分?jǐn)?shù)圖。[Semantic instance segmentation via deep metric learning]也是一種全卷積方法,學(xué)習(xí)像素嵌入。Mask R-CNN[18]用一個用于預(yù)測掩碼的分支擴(kuò)展了FPN模型,并為對象檢測和實例分割引入了新的differential cropping操作。
小物體檢測 ?小物體可以通過提高輸入圖像分辨率或通過將高分辨率特征與低分辨率圖像的高維特征融合來解決。然而,這種使用更高分辨率的方法增加了計算消耗,并且沒有解決大小對象之間的不平衡問題。相反,使用生成對抗性網(wǎng)絡(luò)(Generative Adversarial Network,GAN)在卷積網(wǎng)絡(luò)中構(gòu)建在交通標(biāo)志和行人檢測的背景下無法區(qū)分大小對象的特征。(Improving small object proposals for company logo detection)根據(jù)區(qū)域建議網(wǎng)絡(luò)中不同的分辨率層使用不同的錨尺度。(Small-objectness sensitive detection based on shifted single shot detector)通過錨框尺寸的正確分?jǐn)?shù)移動圖像特征,以覆蓋它們之間的間隙。有些論文在裁剪小物體提案時添加context。
3. 識別檢測小物體的問題
在本節(jié)中,我們首先概述了MS COCO數(shù)據(jù)集和實驗中使用的對象檢測模型。然后,我們討論了MS COCO數(shù)據(jù)集和訓(xùn)練中使用的錨框匹配過程的問題,這導(dǎo)致了小對象檢測的困難。
3.1 MS COCO
我們對MS COCO檢測數(shù)據(jù)集進(jìn)行了實驗。MS COCO 2017檢測數(shù)據(jù)集包含118287張用于訓(xùn)練的圖像、5000張用于驗證的圖像和40670張測試圖像。來自80個類別的860001和36781個對象使用人工標(biāo)注邊界框和實例掩膜進(jìn)行注釋。??? 在MS COCO檢測挑戰(zhàn)中,主要評估指標(biāo)是平均精度(AP)。通常,AP被定義為所有召回值的真陽性與所有陽性比率的平均值。因為對象既需要定位又需要正確分類,所以只有當(dāng)預(yù)測的掩膜或邊界框的交集和并集(IoU)高于0.5時,正確的分類才算作真陽性檢測。AP得分在80個類別和10個IoU閾值之間取平均值,平均分布在0.5到0.95之間。度量還包括在不同對象尺度上測量的AP。在這項工作中,我們的主要興趣是小物體上的AP。
3.2 Mask R-CNN
對于我們的實驗,我們使用來自具有ResNet-50骨干的Mask R-CNN實現(xiàn),并將線性縮放規(guī)則(linear scaling rule)用于設(shè)置學(xué)習(xí)超參數(shù)。我們使用的訓(xùn)練周期(training schedule)比[Detectron, https://github.com/facebookresearch/Detectron]中的基線更短。我們在四臺 GPU 上對模型進(jìn)行了 36k 次迭代訓(xùn)練,基礎(chǔ)學(xué)習(xí)率為 0.01。在優(yōu)化過程中,我們使用隨機(jī)梯度下降法,動量設(shè)置為 0.9,權(quán)重衰減系數(shù)設(shè)置為 0.0001。在訓(xùn)練過程中,分別經(jīng)過 24k 和 32k 次迭代后,學(xué)習(xí)率以 0.1 的系數(shù)縮減兩次。所有其他參數(shù)均與[Detectron]中的基線掩碼 R-CNN+FPN+ResNet-50 配置相同。
網(wǎng)絡(luò)的區(qū)域建議階段在我們的調(diào)查中尤為重要。我們正在使用特征金字塔網(wǎng)絡(luò)(FPN)來生成對象建議。它可以預(yù)測與15 個錨框相關(guān)的目標(biāo)建議,這些錨框來自 5 種比例(322、642、1282、2562、5122)和 3 種長寬比(1、0.5、2)。如果錨框相對于任何人工標(biāo)注框具有高于0.7的IoU,或者如果錨框相對于地面實況邊界框具有最高IoU,則錨框接收正標(biāo)簽。
3.3 基于MS COCO的Mask R-CNN小目標(biāo)檢測
在MS COCO中,訓(xùn)練集中出現(xiàn)的所有對象中有41.43%是小對象,而中等和大對象分別只有34.4%和24.2%。另一方面,只有大約一半的訓(xùn)練圖像包含任何小對象,而70.07%和82.28%的訓(xùn)練圖像分別包含中對象和大對象。參見表2中的對象計數(shù)和圖像。這證實了小物體檢測問題背后的第一個問題:小物體的例子很少。
第二個問題只要考慮一下每個尺寸類別的總物體面積就一目了然了。只有 1.23% 的注釋像素屬于小型物體。中型物體所占的面積是大型物體的 8 倍還多,占總注釋像素的 10.18%,而大部分像素(82.28%)都被標(biāo)記為大型物體的一部分。在此數(shù)據(jù)集上訓(xùn)練的任何檢測器都無法在圖像和像素中發(fā)現(xiàn)足夠多的小物體。
如本節(jié)前文所述,如果來自區(qū)域提議網(wǎng)絡(luò)的每個預(yù)測錨框具有人工標(biāo)注邊界框的最高IoU,或者如果其對于任何人工標(biāo)注框具有高于0.7的IoU,則其接收正標(biāo)簽。該過程非常支持大對象,因為跨越多個滑動窗口位置的大對象通常具有許多錨框的高IoU,而小對象可能僅與具有低IoU的單個錨框匹配。如表2所示,只有29.96%的正匹配主播與小物體配對,而44.49%的正匹配錨與大物體配對。從另一個角度來看,這意味著每個大對象有2.54個匹配錨,而每個小對象只有一個匹配錨。此外,正如平均最大IoU度量所揭示的那樣,即使是小對象的最佳匹配錨框通常也具有低IoU值。小物體的平均最大IoU僅為0.29,而中型和大型物體的最佳匹配錨的IoU分別高出約兩倍,分別為0.57和0.66。我們在圖5中通過可視化幾個例子來說明這種現(xiàn)象。這些觀察結(jié)果表明,小對象對計算區(qū)域建議損失的貢獻(xiàn)要小得多,這會使整個網(wǎng)絡(luò)偏向于大對象和中等對象。?
?
4. 過采樣和增強(qiáng)
過采樣(Oversampling) 我們通過在訓(xùn)練期間對包含小對象的圖像進(jìn)行過采樣來解決相對較少的圖像的問題。這是一種輕松而直接的方法來緩解MS COCO數(shù)據(jù)集的這一問題,并提高小目標(biāo)檢測的性能。在實驗中,我們改變了過采樣率,并研究了過采樣不僅對小目標(biāo)檢測的影響,而且對檢測中大型目標(biāo)的影響。
增強(qiáng)(Augmentation) ?除了過采樣之外,我們還引入了專注于小對象的數(shù)據(jù)集增強(qiáng)。MS COCO數(shù)據(jù)集中提供的實例分割掩碼允許我們從任何對象的原始位置復(fù)制任何對象。然后將副本粘貼到不同的位置。通過增加每個圖像中小對象的數(shù)量,匹配的錨框的數(shù)量也會增加。這反過來又提高了小物體在訓(xùn)練過程中對RPN損失函數(shù)計算的貢獻(xiàn)。
?????? 在將對象粘貼到新位置之前,我們對其應(yīng)用隨機(jī)變換。我們通過更改對象大小±20%來縮放對象,并將其旋轉(zhuǎn)±15?.我們只考慮未被遮擋的對象,因為粘貼不相交的分割掩膜,其間有看不見的部分,通常會導(dǎo)致圖像不太逼真。我們確保新粘貼的對象不會與任何現(xiàn)有對象重疊,并且距離圖像邊界至少五個像素。
?????? 在圖4中,我們用圖形說明了所提出的增強(qiáng)策略,以及它如何在訓(xùn)練過程中增加匹配錨的數(shù)量,從而更好地檢測小物體。
?
5. 實驗設(shè)置
5.1 過采樣(Oversampling)
在第一組實驗中,我們研究了對包含小物體的圖像進(jìn)行過采樣的效果。我們在2、3和4之間改變過采樣率。為了提高效率,我們離線創(chuàng)建了多個帶有小對象的圖像副本,而不是實際的隨機(jī)過采樣。
5.2 增強(qiáng)(Augmentation)
在第二組實驗中,我們研究了使用增強(qiáng)對小對象檢測和分割的影響。我們復(fù)制并粘貼每個圖像中的所有小對象一次。我們還對小物體的圖像進(jìn)行了過采樣,以研究過采樣和增強(qiáng)策略之間的相互作用。
我們測試了三種設(shè)置。在第一個設(shè)置中,我們將每個帶有小對象的圖像替換為帶有復(fù)制粘貼的小對象的圖片。在第二個設(shè)置中,我們復(fù)制這些增強(qiáng)圖像以模擬過采樣。在最終設(shè)置中,我們保留原始圖像和增強(qiáng)圖像,這相當(dāng)于將帶有小對象的圖像過采樣2倍,同時用更多的小對象增強(qiáng)復(fù)制副本。
5.3 復(fù)制粘貼策略(Copy-Pasting Strategies)
復(fù)制粘貼小對象有不同的方法。我們考慮三種不同的策略。首先,我們在圖像中選擇一個小對象,并將其復(fù)制粘貼到隨機(jī)位置多次。其次,我們選擇許多小對象,并將每個對象復(fù)制粘貼到任意位置。最后,我們在每個圖像中的隨機(jī)位置多次復(fù)制粘貼所有小對象。在所有情況下,我們都使用上面的第三種增強(qiáng)設(shè)置;也就是說,我們保留原始圖像和它的增強(qiáng)副本。
5.4 粘貼算法(Pasting Algorithms)
粘貼小對象的副本時,需要考慮兩件事。首先,我們必須決定粘貼的對象是否會與任何其他對象重疊。盡管我們選擇不引入任何重疊,但我們通過實驗驗證了這是否是一個好的策略。其次,是否執(zhí)行附加過程來平滑粘貼對象的邊緣是一種設(shè)計選擇。我們實驗了與沒有進(jìn)一步處理相比,具有不同濾波器大小的邊界的高斯模糊是否有幫助。
6. 結(jié)果與分析
6.1 Oversampling
通過在訓(xùn)練過程中更頻繁地對小對象圖像進(jìn)行采樣(見表3),可以提高小對象分割和檢測方面的AP。在3×過采樣的情況下觀察到最大的增益,這使小對象的AP增加了1%(對應(yīng)于8.85%的相對改進(jìn))。雖然中等對象尺度上的性能受到的影響較小,但大對象的檢測和分割性能始終受到過采樣的影響,這意味著必須根據(jù)大小對象之間的相對重要性來選擇比率。
6.2 Augmentation
在表4中,我們展示了使用所提出的增強(qiáng)和過采樣策略的不同組合的結(jié)果。當(dāng)我們用包含更多小對象的副本(第二行)將每個圖像替換為小對象時,性能顯著下降。當(dāng)我們將這些增強(qiáng)圖像過采樣2倍時,對小對象的分割和檢測性能恢復(fù)了損失,盡管總體性能仍然比基線差。然而,當(dāng)我們在增強(qiáng)驗證集(而不是原始驗證集)上對這一模型進(jìn)行評估時,我們發(fā)現(xiàn)小對象增強(qiáng)性能(0.161)提高了 38%,這表明訓(xùn)練有素的模型有效地過度擬合了 "粘貼 "的小對象,但并不一定過度擬合了原始的小對象。我們認(rèn)為這是由于粘貼過程中產(chǎn)生的人工痕跡,例如不完美的物體遮罩和與背景的亮度差異,而這些對于神經(jīng)網(wǎng)絡(luò)來說是比較容易發(fā)現(xiàn)的。將超采樣與以 p = 0.5(原始+增強(qiáng))的概率進(jìn)行增強(qiáng)相結(jié)合,原始與增強(qiáng)小物體的比例為 2:1,可獲得最佳效果。這種設(shè)置比單獨過度取樣的結(jié)果更好,證實了所提出的粘貼小物體策略的有效性。
6.3 Copy-Pasting strategies
復(fù)制粘貼單個對象(Copy-pasting of a single object)? 在表5中,我們看到復(fù)制粘貼單個物體會在小物體上產(chǎn)生更好的模型,但代價是在大圖像上的性能會略有下降。這些結(jié)果本身也比兩次過采樣要好。不過,在粘貼一兩次后,性能就會達(dá)到峰值。添加相同對象的次數(shù)越多,性能就越差。
復(fù)制粘貼多個對象(Copy-pasting of a multiple object)? 從表6中可以看出,每個圖像復(fù)制粘貼多個小對象比只復(fù)制粘貼單個對象更好。在這種情況下,我們看到了每個對象最多粘貼三次的好處。
?復(fù)制粘貼所有小對象(Copy-pasting of all small objects)? 最后,表7列出了每個圖像中所有小對象都被復(fù)制粘貼的結(jié)果。我們發(fā)現(xiàn),在對所有對象進(jìn)行一次增強(qiáng)時,在分割和檢測方面都取得了最佳結(jié)果。我們認(rèn)為這背后可能有兩個原因。首先,通過擁有所有小對象的多個副本,原始對象與粘貼的小對象的比例會迅速降低。其次,每個圖像中的對象數(shù)量成倍增加,這導(dǎo)致訓(xùn)練圖像和測試圖像之間的不匹配更加嚴(yán)重。
6.4 Pasting Algorithms
如表8所示,在不考慮其他對象已經(jīng)占據(jù)區(qū)域的情況下隨機(jī)粘貼到圖像中會導(dǎo)致小圖像的性能較差。它證明了我們的設(shè)計選擇是合理的,以避免粘貼的對象和現(xiàn)有對象之間的任何重疊。此外,粘貼對象邊緣的高斯模糊沒有顯示出任何改善,這表明除非采用更復(fù)雜的融合策略,否則最好按原樣粘貼對象。
7. 結(jié)論
?????? 我們研究了小物體檢測問題。我們發(fā)現(xiàn),小物體平均精度差的原因之一是訓(xùn)練數(shù)據(jù)中缺乏小物體的表示。現(xiàn)有的最先進(jìn)的物體檢測器尤其如此,該檢測器需要存在足夠的物體以供預(yù)測錨在訓(xùn)練期間匹配。為了克服這個問題,我們提出了兩種策略來擴(kuò)充原始的MS COCO數(shù)據(jù)庫。首先,我們展示了通過在訓(xùn)練過程中對包含小對象的圖像進(jìn)行過采樣,可以很容易地提高小對象的性能。其次,我們提出了一種基于復(fù)制粘貼小對象的增強(qiáng)算法。我們的實驗證明,與Mask R-CNN在MS COCO上獲得的現(xiàn)有技術(shù)相比,小對象的實例分割和對象檢測分別有9.7%和7.1%的相對改進(jìn)。實驗驗證了所提出的一組增強(qiáng)方法在小物體和大物體的預(yù)測質(zhì)量之間進(jìn)行了權(quán)衡。文章來源:http://www.zghlxwxcb.cn/news/detail-616790.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-616790.html
到了這里,關(guān)于論文閱讀--用于小物體檢測的增強(qiáng)算法的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!