RRNet: A Hybrid Detector for Object Detection in Drone-captured Images
Abstract
我們提出了一種名為RRNet的混合檢測器,用于在城市場景無人機(jī)(UAVs)和無人機(jī)拍攝的圖像中進(jìn)行目標(biāo)檢測。在這種具有挑戰(zhàn)性的任務(wù)中,目標(biāo)通常呈現(xiàn)出各種不同的大小,并且非常密集。因此,我們將anchor free檢測器與re-regression模塊相結(jié)合。通過摒棄prior anchors,我們的模型不再需要對邊界框大小進(jìn)行回歸,從而在密集場景中實(shí)現(xiàn)了更好的多尺度目標(biāo)檢測性能?;跓o錨點(diǎn)的檢測器首先生成coarse boxes,然后在粗略的預(yù)測結(jié)果上應(yīng)用re-regression module,以產(chǎn)生精確的邊界框。此外,我們還引入了自適應(yīng) resampling augmentation strategy來地增強(qiáng)數(shù)據(jù)。我們的實(shí)驗(yàn)表明,RRNet在VisDrone2018數(shù)據(jù)集上顯著優(yōu)于所有最先進(jìn)的檢測器。
1. Introduction
無人機(jī)(UAVs)在學(xué)術(shù)界和實(shí)際應(yīng)用中得到了廣泛采用。因此,我們需要理解和分析由它們捕獲的圖像數(shù)據(jù)。在深度學(xué)習(xí)時代,基于深度神經(jīng)網(wǎng)絡(luò)(DNNs)的目標(biāo)檢測器顯著提高了目標(biāo)檢測的性能。然而,正常自然圖像和無人機(jī)拍攝圖像之間存在許多顯著差異,這些差異使得目標(biāo)檢測成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。首先,這些圖像中的目標(biāo)尺度各異。如圖1a所示,遠(yuǎn)處的目標(biāo)非常小,而近處的目標(biāo)很大。此外,在城市中存在大量密集的場景(例如圖1b),這導(dǎo)致目標(biāo)之間有很多遮擋,使得目標(biāo)檢測更加困難。
當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測器分為兩類。第一類是兩階段檢測器。它們使用region proposal網(wǎng)絡(luò)來確定先前的錨點(diǎn)是目標(biāo)還是背景。 prior anchors是幾個手動定義的潛在邊界框。然后,它們使用兩個head networks將潛在錨點(diǎn)分類到一組類別,并估計(jì)錨點(diǎn)與真實(shí)邊界框之間的偏移量。另一類稱為單階段檢測器。與兩階段檢測器不同,單階段檢測器舍棄了region proposal網(wǎng)絡(luò)。它們直接使用兩個檢測器來預(yù)測先前錨點(diǎn)的類別和偏移量。這兩種類型的檢測器的prior anchors是在低分辨率圖像網(wǎng)格上生成的。每個prior anchors只能根據(jù)IoU(交并比)分配一個對象邊界框。然而,對于由無人機(jī)捕獲的圖像,固定形狀的錨點(diǎn)幾乎無法處理各種尺度的目標(biāo)。最近,提出了另一種類型的檢測器,即無錨點(diǎn)檢測器。它們將邊界框的預(yù)測簡化為 key point和 size estimation。這對于檢測具有不同尺度的目標(biāo)提供了更好的方式。然而,目標(biāo)大小之間的巨大差異(例如從101到103)使得回歸變得困難。
在本論文中,我們提出了一種名為RRNet的混合檢測器。無論對象的尺度如何,對象的中心點(diǎn)始終存在。因此,我們使用兩個檢測器來預(yù)測每個對象的中心點(diǎn)、寬度和高度,而不是使用錨點(diǎn)框。然后,我們將這些中心點(diǎn)和尺寸轉(zhuǎn)換為 coarse bounding boxes。最后,我們將深度特征圖和粗略的邊界框輸入到一個Re-Regression模塊中。Re-Regression模塊可以調(diào)整粗略的邊界框并生成最終準(zhǔn)確的邊界框。
此外,已有的證據(jù)表明,良好的數(shù)據(jù)增強(qiáng)甚至可以在不改變網(wǎng)絡(luò)架構(gòu)的情況下推動深度模型達(dá)到最先進(jìn)的性能。因此,我們提出了一種數(shù)據(jù)增強(qiáng)策略,稱為自適應(yīng)重采樣(AdaResampling)。這個策略可以在圖像上logically增強(qiáng)對象。
我們的實(shí)驗(yàn)表明,所提出的模型在VisDrone2018數(shù)據(jù)集上明顯優(yōu)于現(xiàn)有的最先進(jìn)檢測器。從原理上講,我們的RRNet是一個無錨點(diǎn)檢測器和兩階段檢測器的混合模型。我們認(rèn)為Re-Regression模塊對于取得好的結(jié)果至關(guān)重要。
總結(jié)起來,本論文的主要貢獻(xiàn)如下:
- 我們提出了一種新穎的混合目標(biāo)檢測器,由一個coarse detector和一個re-regression模塊組成,用于在無人機(jī)拍攝的圖像中進(jìn)行目標(biāo)檢測。
- 我們提出了一種自適應(yīng)增強(qiáng)策略,稱為AdaResampling,用于對目標(biāo)進(jìn)行邏輯增強(qiáng)。
- 我們的檢測器在ICCV VisDrone2019目標(biāo)檢測挑戰(zhàn)賽中取得了AP50、AR10和AR100的最佳結(jié)果。
2. Related work
略過文章來源:http://www.zghlxwxcb.cn/news/detail-632980.html
3. AdaResampling
在這一部分,我們介紹了一種自適應(yīng)增強(qiáng)方法,稱為AdaResampling。受到Kisantal等人的啟發(fā),所提出的增強(qiáng)的主要思想是重新采樣confusing objects,并將它們多次貼在圖像上。
圖2a是從COCO數(shù)據(jù)集中采樣的圖像。在這種類型的圖像上隨機(jī)貼上裁剪過的目標(biāo)不會破壞圖像的邏輯性。然而,如圖2b所示,簡單的復(fù)制粘貼增強(qiáng)可能會生成一個非?;闹嚨膱D像。我們注意到存在兩種不匹配。第一種是背景不匹配。例如,用1標(biāo)記的車輛飛在天空中。背景不匹配可能導(dǎo)致模型產(chǎn)生更多的誤檢邊界框。原因是分類器依賴于目標(biāo)特征和上下文特征。分類器可以學(xué)習(xí)背景的先驗(yàn)知識,以輔助自身進(jìn)行分類。第二種是尺度不匹配。如果我們將一個大的目標(biāo)復(fù)制到遠(yuǎn)處的背景中,該目標(biāo)(例如圖2b中的2)將比周圍的其他目標(biāo)大得多。通常,周圍的其他目標(biāo)可以為當(dāng)前目標(biāo)的尺寸回歸提供有用的知識。尺度不匹配會破壞這種知識。
為了消除這兩種不匹配,我們提出了一種自適應(yīng)增強(qiáng)策略,稱為AdaResampling。圖3展示了AdaResampling的流程。
首先,我們將無人機(jī)拍攝的圖像輸入預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò),以獲取prior的道路地圖。由于無人機(jī)拍攝圖像與用于訓(xùn)練分割網(wǎng)絡(luò)的數(shù)據(jù)集之間存在差異,分割網(wǎng)絡(luò)可能會產(chǎn)生噪聲結(jié)果。我們不要求高召回率,而是要求道路區(qū)域的高精度。因此,我們使用eroding algorithm和3×3中值濾波器盡可能地去除偽造的道路區(qū)域。然后,我們根據(jù)道路地圖從有效的位置采樣,以放置增強(qiáng)的目標(biāo)。接下來,裁剪的目標(biāo)通過一個變換函數(shù)進(jìn)行尺寸調(diào)整。高度與寬度的比例是恒定的??s放后的高度可以通過一個簡單的線性函數(shù)計(jì)算:
其中 h(l)、h(s)、y(l) 和 y(s) 分別表示最大和最小目標(biāo)的高度和 y 坐標(biāo)。我們僅使用最大和最小的 k pedestrian來計(jì)算 a。y 是所選有效位置的 y 坐標(biāo)。最后,縮放后的目標(biāo)可以放置在所選的位置。我們定義一個密集系數(shù) d 來控制resampled 目標(biāo)的數(shù)量。resampled 的目標(biāo)數(shù)量 n 可以通過以下公式計(jì)算
Nr 是prior road pixels的數(shù)量。圖3的右側(cè)是通過我們的AdaResampling增強(qiáng)的訓(xùn)練圖像。我們可以看到車輛只能放置在道路上,并且增強(qiáng)的目標(biāo)的尺度是合適的。
4. Re-Regression Net
我們對VisDrone2018數(shù)據(jù)集進(jìn)行了一些統(tǒng)計(jì)數(shù)據(jù)的收集。結(jié)果如圖4所示。
圖4a顯示了所有邊界框的高度和寬度。目標(biāo)的尺寸范圍從101到103像素不等。很難定義一個合適的prior anchors集合來覆蓋這么大的間隔。此外,圖4b顯示了所有邊界框的對角線長度。大多數(shù)目標(biāo)的尺寸小于50×50像素。我們認(rèn)為基于關(guān)鍵點(diǎn)的檢測器更適合小目標(biāo)檢測。因此,我們提出了RRNet。圖5的上半部分顯示了RRNet的架構(gòu)。我們首先將圖像輸入到一些卷積塊中,以獲取初始特征圖。然后,兩個HourGlass塊(HGBlock)提取了具有更多語義信息的robust feature maps。我們將這些特征輸入到兩個獨(dú)立的檢測器中。heatmap detector產(chǎn)生了一個與目標(biāo)中心點(diǎn)相關(guān)的概率熱圖。此外,另一個檢測器將為所有中心點(diǎn)提供尺寸估計(jì)。
4.1. Coarse detector
如圖5所示,粗略檢測器由一個尺寸估計(jì)塊和一個類別預(yù)測塊組成。尺寸估計(jì)部分用于直接預(yù)測每個目標(biāo)的高度和寬度。類別預(yù)測網(wǎng)絡(luò)的操作非常類似于語義分割網(wǎng)絡(luò)。我們?yōu)槊總€像素預(yù)測category-sensitive的中心點(diǎn),并最終應(yīng)用sigmoid激活函數(shù),以獲得每個類別的獨(dú)立概率。
4.2. Re-Regression
我們將熱圖和尺寸預(yù)測轉(zhuǎn)換為粗略的邊界框。最后,我們應(yīng)用re-regress模塊來對這些粗略檢測框進(jìn)行優(yōu)化,生成精細(xì)的邊界框。
Re-Regression模塊允許我們的模型優(yōu)化粗略的邊界框。我們將由HGBlock 2生成的特征圖和粗略的邊界框輸入到Re-Regression模塊中。Re-Regression模塊類似于Faster-RCNN頭部,但不包括分類網(wǎng)絡(luò)。首先,我們使用非極大值抑制(NMS)算法來過濾重復(fù)的邊界框。然后,我們使用ROIalign來對齊特征,并使用兩個卷積層來預(yù)測偏移值。最后,我們將偏移值應(yīng)用于粗略的邊界框,得到最終的預(yù)測。
5. Experiments
我們使用VisDrone2018數(shù)據(jù)集來評估我們的模型。我們報(bào)告了mAP、AP50、AP75和AR1~500等指標(biāo)。
5.1. Data augmentation
與大多數(shù)深度神經(jīng)網(wǎng)絡(luò)類似,我們的基本數(shù)據(jù)增強(qiáng)包括水平翻轉(zhuǎn)和隨機(jī)裁剪。在訓(xùn)練階段,我們的裁剪尺寸為512×512。我們使用提出的AdaResampling方法對行人、步行者、自行車、三輪車、雨篷三輪車和機(jī)動車進(jìn)行增強(qiáng)。密集系數(shù)d被設(shè)置為0.00005。在AdaResampling中使用的預(yù)訓(xùn)練分割網(wǎng)絡(luò)是在Cityscapes數(shù)據(jù)集上預(yù)訓(xùn)練的Deeplabv3 網(wǎng)絡(luò)。
5.2. Network details
表2展示了我們RRNet的詳細(xì)設(shè)置。輸入卷積和HGBlocks(HourGlass塊)遵循HourGlass網(wǎng)絡(luò)的官方設(shè)置。在對粗略邊界框進(jìn)行重新回歸之前,我們首先根據(jù)它們的分類置信度選擇前1500個邊界框。然后,我們使用非最大值抑制(NMS)算法,設(shè)置IoU閾值為0.7,以過濾重復(fù)的邊界框。ROI Align的大小設(shè)置為3。
5.3. Training details
在我們的實(shí)驗(yàn)中,我們采用Adam作為優(yōu)化器。每個mini-batch在每個GPU上有4個圖像,我們在4個GPU上進(jìn)行訓(xùn)練,總共進(jìn)行100,000次迭代,初始學(xué)習(xí)率為2.5e-4,在第60,000次和第80,000次迭代時學(xué)習(xí)率減小10倍。分類的損失函數(shù)是焦點(diǎn)損失(focal loss),回歸使用平滑L1損失。整體的訓(xùn)練目標(biāo)函數(shù)是:
L(d)是粗略檢測器的損失函數(shù),L?是Re-Regression模塊的損失函數(shù)。L(d)和α的設(shè)置遵循CenterNet的方式。與Faster RCNN 類似,L(d)size是應(yīng)用于偏移向量的操作:
5.4. Inference details
在推理階段,我們舍棄第一個檢測器,僅對第二個檢測器進(jìn)行粗略邊界框的預(yù)測。然后,我們對得分最高的1500個粗略檢測框應(yīng)用Re-Regression模塊,接著使用(soft non-maximum suppression)來進(jìn)行后處理。
5.5. Performance
我們在表格1中展示了RRNet與現(xiàn)有最先進(jìn)目標(biāo)檢測器的比較結(jié)果??梢钥闯觯琑RNet在所有最先進(jìn)的基準(zhǔn)模型中表現(xiàn)更好。我們還列出了DPNet-ensemble和ACM-OD的性能,它們是該挑戰(zhàn)賽的第一和第三名。我們的RRNet在AP50和AR方面取得了最高的成績。值得注意的是,我們的RRNet的所有AR都明顯高于其他模型。這些結(jié)果表明一個結(jié)論,即我們的網(wǎng)絡(luò)可以檢測更多的難例。
此外,在表格1中還有一些有趣的結(jié)果?;陉P(guān)鍵點(diǎn)的檢測器(例如CornerNet 、RRNet)的性能優(yōu)于所有基于錨點(diǎn)的檢測器。
6. Ablation study
略過
7. Conclusion
In this paper, we proposed an adaptive resampling augmentation and a hybrid object detector, the RRNet, for object detection on images captured by UAVs or drones. It presents excellent performance on very small objects in a dense scene. Our experiments demonstrated that RRNet outperforms the state-of-the-art. We achieve the highest performance of AP50, AR10, and AR100 in the ICCV VisDrone2019 Object Detection in Images Challenge.文章來源地址http://www.zghlxwxcb.cn/news/detail-632980.html
到了這里,關(guān)于論文閱讀 RRNet: A Hybrid Detector for Object Detection in Drone-captured Images的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!