? ? ? ?無人機(jī)圖像處理中的目標(biāo)檢測(cè)逐漸成為近年來的研究熱點(diǎn)。一般目標(biāo)檢測(cè)算法在應(yīng)用于無人機(jī)場(chǎng)景時(shí)往往會(huì)顯著下降。這是因?yàn)闊o人機(jī)圖像是從高空拍攝的,分辨率高,小物體比例很大。為了在滿足輕量化特性的同時(shí)提高無人機(jī)目標(biāo)檢測(cè)的精度,我們對(duì)YOLOv5s模型進(jìn)行了修改。針對(duì)小目標(biāo)檢測(cè)問題,增加了預(yù)測(cè)頭,以更好地保留小目標(biāo)特征信息。還集成了CBAM注意力模塊,以更好地在密集場(chǎng)景中找到注意力區(qū)域。原有的IOU-NMS在后處理中被NWD-NMS取代,以減輕IOU對(duì)小物體的敏感性。實(shí)驗(yàn)表明,我們的方法在數(shù)據(jù)集Visdrone-2020上具有良好的性能,并且mAP比原來有明顯的改進(jìn)。
------CBAM注意力模塊、IOU-NMS、NWD-NMS(對(duì)于小物體的檢測(cè))
? ? ? ?隨著無人機(jī)技術(shù)的發(fā)展,無人機(jī)的應(yīng)用場(chǎng)景不斷擴(kuò)大,引起了研究人員的極大關(guān)注。無人機(jī)能夠在對(duì)人類相對(duì)危險(xiǎn)的環(huán)境中執(zhí)行任務(wù),并且可以快速輕松地部署。它們?cè)诂F(xiàn)代戰(zhàn)斗中發(fā)揮著極其重要的作用,在民用應(yīng)用中具有更廣闊的視野。[16]無人機(jī)可用于完成戰(zhàn)場(chǎng)偵察監(jiān)視、損害評(píng)估,也可用于災(zāi)害監(jiān)視、交通巡邏和安全監(jiān)控。由于無人機(jī)任務(wù)的特殊性,無人機(jī)圖像的處理相對(duì)困難。因此,無人機(jī)的計(jì)算機(jī)視覺逐漸成為研究的熱點(diǎn)之一。
? ? ? ?目標(biāo)檢測(cè)作為一項(xiàng)經(jīng)典任務(wù),已成為無人機(jī)圖像處理中具有挑戰(zhàn)性的主流。目標(biāo)檢測(cè)可以定位和識(shí)別視頻或圖像中的對(duì)象,幫助我們?cè)谔囟☉?yīng)用場(chǎng)景中進(jìn)行分析并做出適當(dāng)?shù)臎Q策。
? ? ? ?但是,由于無人機(jī)圖像是從高空捕獲的,因此它們與COCO [1]或ImageNet?[2]數(shù)據(jù)集上的圖像有很大不同。由于無人機(jī)捕獲的圖像分辨率高,小物體比例高,通用目標(biāo)檢測(cè)方法在無人機(jī)圖像數(shù)據(jù)集上表現(xiàn)不佳。以 VisDrone-2020 數(shù)據(jù)集為例,該數(shù)據(jù)集中的邊界框大部分尺寸小于 50*50 像素,小物體占多數(shù)。這使得目標(biāo)檢測(cè)算法的檢測(cè)精度大大降低,無法充分利用。
------目標(biāo)檢測(cè)算法的檢測(cè)精度大大降低.
? ? ? ?雖然也有算法部署來提高小物體檢測(cè)的精度,但在檢測(cè)精度和速度之間仍然難以很好地平衡。由于其出色的性能和速度,YOLO?[15]?已成為無人機(jī)平臺(tái)上經(jīng)常使用的優(yōu)越網(wǎng)絡(luò)。以YOLOv5s為例,原始模型在VisDrone-66數(shù)據(jù)集上的檢測(cè)速度可以達(dá)到2020 FPS,但平均精度僅為12.7%。[3]?YOLOv5 系列中其他三個(gè)功能更強(qiáng)大的模型在一定程度上提高了準(zhǔn)確性,但模型大小和推理時(shí)間顯著增加。盡管YOLOv11使用的鑲嵌數(shù)據(jù)增強(qiáng)[5]可以有效解決模型訓(xùn)練中最具挑戰(zhàn)性的小物體問題,但其在VisDrone-2020數(shù)據(jù)集上的精度并不令人滿意。
? ? ? ?因此,針對(duì)數(shù)據(jù)集VisDrone-5中的小目標(biāo)檢測(cè)問題,我們改進(jìn)了YOLOv2020s模型,通過以下三大改進(jìn):1.在骨干網(wǎng)絡(luò)中的C4模塊中增加了一個(gè)CBAM?[3]注意力模塊;2.增加預(yù)測(cè)頭P2,用于小物體檢測(cè);3. 使用NWD-NMS?[5]在后處理過程中過濾邊界框。最后,我們得到的改進(jìn)模型與原來的YOLOv5s模型相比,檢測(cè)準(zhǔn)確率有顯著提高,mAP從32.9%提高到40.7%。與其他方法相比,我們的方法提高了每種物體的檢測(cè)精度,特別是對(duì)于人和電機(jī)等小物體。
? ? ? ?本節(jié)概述了擬議研究工作的相關(guān)工作,包括以下兩個(gè)主要方面:無人機(jī)圖像中的小物體檢測(cè)和目標(biāo)檢測(cè)。
A. 小物體檢測(cè)
? ? ? ?在目標(biāo)檢測(cè)算法開發(fā)的早期階段,為了保證檢測(cè)的精度,大多數(shù)數(shù)據(jù)集由突出的物體組成。近年來,越來越多的學(xué)者關(guān)注小目標(biāo)檢測(cè),并提出了有效的解決方案。目前主流的小目標(biāo)檢測(cè)方法主要分為多尺度特征學(xué)習(xí)、數(shù)據(jù)增強(qiáng)和基于GAN的檢測(cè)。
? ? ? ?多尺度特征學(xué)習(xí)結(jié)合了深層語義信息和淺層表征信息,便于小目標(biāo)的特征提取,提高了小目標(biāo)檢測(cè)的性能。在深度神經(jīng)網(wǎng)絡(luò)中,由于特征信息的丟失,很難在深度特征圖中檢測(cè)小物體。淺層特征圖的感受野較小,但可以獲得更多的空間和詳細(xì)的特征信息。因此,Liu等人[6]提出了一種單點(diǎn)探測(cè)器(SSD)來從特征圖生成不同尺度的預(yù)測(cè),使用淺層特征來檢測(cè)小物體,使用深層特征來檢測(cè)較大的物體。為了獲得更好的特征融合效果,Lin等人[7]提出了一種特征金字塔網(wǎng)絡(luò)(FPN),該網(wǎng)絡(luò)引入自上而下的網(wǎng)絡(luò)結(jié)構(gòu),通過融合相鄰層的特征來實(shí)現(xiàn)特征增強(qiáng)。隨后,許多學(xué)者基于FPN進(jìn)行了許多改進(jìn),這些改進(jìn)顯著提高了檢測(cè)精度。雖然多尺度特征融合可以有效提高小目標(biāo)檢測(cè)的性能,但也增加了額外的計(jì)算工作量,并且難以避免特征融合過程中干擾噪聲的影響,這使得基于多尺度特征的小目標(biāo)檢測(cè)性能難以進(jìn)一步提高。
? ? ? ?數(shù)據(jù)增強(qiáng)策略目前在目標(biāo)檢測(cè)領(lǐng)域具有廣泛的應(yīng)用。數(shù)據(jù)增強(qiáng)的目的是增加數(shù)據(jù)集的多樣性并擴(kuò)大數(shù)據(jù)集的大小,從而提高深度學(xué)習(xí)的性能。針對(duì)小天體樣本在訓(xùn)練數(shù)據(jù)集中占比相對(duì)較少的情況,Kisantal等人[8]提出了一種復(fù)制增強(qiáng)方法,通過復(fù)制粘貼來增加小天體的訓(xùn)練樣本數(shù)量,而Chen等人[9]對(duì)圖像進(jìn)行縮放和拼接,以增加中小型物體的數(shù)量和質(zhì)量,以解決小天體數(shù)量少、小天體少的問題。其中包含的信息。雖然數(shù)據(jù)增強(qiáng)策略在一定程度上解決了信息量小的問題,但計(jì)算復(fù)雜度的增加和對(duì)不同對(duì)象進(jìn)行優(yōu)化的需求使算法設(shè)計(jì)具有挑戰(zhàn)性。
? ? ? ?生成對(duì)抗網(wǎng)絡(luò)(GAN)可以將低分辨率小物體的特征映射到等效于高分辨率物體的特征。Li等人[10]提出了一種用于小物體檢測(cè)的感知GAN模型,該模型通過生成器將感知到的小物體的較差表示轉(zhuǎn)換為類似于大物體的超分辨率表示來欺騙鑒別器。同時(shí),判別器與生成器競(jìng)爭(zhēng)識(shí)別生成的表示,生成器生成的小物體表示必須有利于檢測(cè)。GAN無需特殊結(jié)構(gòu)設(shè)計(jì)即可提高檢測(cè)性能,但難以訓(xùn)練。
------文獻(xiàn)綜述(所參考的前人的研究)
B. 無人機(jī)圖像中的目標(biāo)檢測(cè)
? ? ? ?無人機(jī)航拍圖像通常具有背景復(fù)雜、物體小、視野大的特點(diǎn),使用一般場(chǎng)景數(shù)據(jù)集進(jìn)行訓(xùn)練任務(wù)很難取得滿意的結(jié)果。考慮到無人機(jī)圖像數(shù)據(jù)集的缺乏,近年來學(xué)者們逐漸開始開發(fā)一系列無人機(jī)視覺數(shù)據(jù)集。
? ? ? ?DroneVehicle數(shù)據(jù)集主要面向車輛檢測(cè)和車輛計(jì)數(shù),包含涵蓋白天和黑夜時(shí)間段以及物體遮擋和尺度變化的RGB圖像和紅外圖像。DOTA數(shù)據(jù)集由來自多個(gè)傳感器和平臺(tái)的不同分辨率的航空?qǐng)D像組成,包含不同比例,方向和形狀的對(duì)象。VisDrone 2020 數(shù)據(jù)集由無人機(jī)獲取,包含 10 多個(gè)視頻和 000,2 多個(gè)不同天氣和照明條件下的靜止圖像,并提供場(chǎng)景可見性、對(duì)象類別和遮擋等重要屬性。每張圖像包含大量檢測(cè)到的物體,總共包含6萬個(gè)標(biāo)記框,物體與大量小物體之間存在重疊,使其成為一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集。
注意力模塊? ? ?
? ? ? ?注意力機(jī)制的目的是使模型能夠獲得要關(guān)注的目標(biāo)區(qū)域,并在該部分上賦予更多權(quán)重,這意味著突出顯示重要特征并抑制不相關(guān)的特征。
? ? ? ?Woo等人[4]提出的卷積塊注意力模塊(CBAM)是一個(gè)簡(jiǎn)單有效的前饋卷積神經(jīng)網(wǎng)絡(luò)注意力模塊。如圖2所示,CBAM從輸入特征圖推斷出通道和空間兩個(gè)獨(dú)立維度的注意力圖,并將注意力圖與輸入特征圖相乘,進(jìn)行自適應(yīng)特征細(xì)化。CBAM通過將信道信息聚焦的特征表示與空間信息聚焦的位置信息混合提取信息特征,有效地幫助信息在網(wǎng)絡(luò)中流動(dòng)。CBAM是一種輕量級(jí)的通用模塊,可以集成到任何骨干網(wǎng)絡(luò)中以提高性能。
? ? ? ?CBAM是一種混合域注意力機(jī)制,圖3說明了信道注意力模塊和空間注意力模塊的具體計(jì)算過程。對(duì)于信道注意力模塊,給定輸入特征圖,得到兩個(gè)不同的空間語義描述算子,并在全局平均池化和全局最大池化運(yùn)算后通過共享感知器。將兩個(gè)通道注意力特征向量相加以融合。最后,在激活函數(shù)后得到通道注意力向量。對(duì)于空間注意力模塊,給定輸入特征圖,沿通道維度進(jìn)行全局平均池化和全局最大池化運(yùn)算,分別得到兩個(gè)不同的通道特征描述算子,將兩者拼接在一起,用卷積核7*7進(jìn)行卷積運(yùn)算。最后,得到激活函數(shù)后的空間注意力向量。
作為即插即用的注意力模塊,CBAM可以輕松插入YOLOv5型號(hào)。在本文中,我們選擇將CBAM添加到C3模塊中。C3模塊是從原來的瓶頸CSP模塊改造而來的,該模塊包含三個(gè)標(biāo)準(zhǔn)卷積層和幾個(gè)瓶頸模塊,該模塊作為學(xué)習(xí)殘差特征的主模塊。引入注意力機(jī)制的 YOLOv5 的骨干結(jié)構(gòu)如圖?4?所示。
預(yù)測(cè)頭 P2
? ? ? ?由于 Visdrone 2020 數(shù)據(jù)集包含許多極小的物體,且 YOLOv5 的下采樣乘數(shù)較大,因此更深的特征圖很難學(xué)習(xí)小物體的特征信息。如圖4所示,原始網(wǎng)絡(luò)結(jié)構(gòu)具有P3、P4和P5預(yù)測(cè)頭的分辨率低,缺乏低級(jí)特征表示,使得原始模型難以學(xué)習(xí)小物體的特征。因此,我們?cè)黾恿艘粋€(gè)用于小目標(biāo)檢測(cè)的預(yù)測(cè)頭P2,它與原有的三個(gè)預(yù)測(cè)頭相結(jié)合,以減輕目標(biāo)尺度變化的負(fù)面影響。P2預(yù)測(cè)頭的特征信息僅下采樣<>次,分辨率更高,特征圖信息更完整,對(duì)小目標(biāo)檢測(cè)更有利。雖然添加額外的預(yù)測(cè)頭后計(jì)算工作量增加,導(dǎo)致推理檢測(cè)速度下降,但小目標(biāo)檢測(cè)的性能有所提高。
NWD-NMS
? ? ? ?在目標(biāo)檢測(cè)的預(yù)測(cè)階段,輸出許多候選框,其中許多重疊的預(yù)測(cè)邊界框圍繞同一對(duì)象,因此我們需要通過非極大抑制(NMS)來抑制冗余預(yù)測(cè)邊界框。IOU 在原始 YOLOv5 模型中直接用作度量。首先,根據(jù)其置信水平對(duì)所有預(yù)測(cè)框進(jìn)行排名,并選擇置信水平最高的預(yù)測(cè)框,并刪除所有其他IOU高于預(yù)定義閾值的框,即抑制非最大置信邊界框。此過程以遞歸方式執(zhí)行,直到?jīng)]有一對(duì)邊界框太相似。
? ? ? ?但是,IOU 對(duì)小對(duì)象的敏感性可能導(dǎo)致許多預(yù)測(cè)框的 IOU 值低于預(yù)定義的閾值,從而導(dǎo)致誤報(bào)預(yù)測(cè)。如圖 5?所示,每個(gè)網(wǎng)格表示一個(gè)像素,框 A 表示真實(shí)邊界框,框 B 和 C 表示分別偏離 <> 像素和 <> 個(gè)像素的預(yù)測(cè)邊界框??梢钥闯?,對(duì)于正常大小的物體,微小的位置變化對(duì)IOU的影響并不大。但是,當(dāng)物體尺寸非常小時(shí),較小的位置偏差會(huì)導(dǎo)致IOU顯著降低。因此,基于IOU的NMS對(duì)于小物體檢測(cè)并不理想。
? ? ? ?IOU的本質(zhì)是計(jì)算兩個(gè)樣本集的相似性,因此wang等人[5]建議使用Wasserstein距離來測(cè)量邊界框的相似性,而不是IOU。首先,將邊界框建模為二維高斯分布,然后使用提出的歸一化瓦瑟斯坦距離(NWD)來度量導(dǎo)出的高斯分布的相似性。與IOU相比,NWD在檢測(cè)小物體時(shí)對(duì)不同尺度不敏感,同時(shí)能夠測(cè)量非重疊或相互包含的邊界框之間的相似性。因此,對(duì)于小物體檢測(cè),NWD的性能遠(yuǎn)高于IOU。
? ? ? ?因此,我們將原YOLOv5s模型中的IOU-NMS改為NWD-NMS,可以有效過濾小目標(biāo)的預(yù)測(cè)框,提高小目標(biāo)檢測(cè)的性能。
------論文所提出來的模型,以及模型之中各個(gè)概念、公式等等的理解。
消融實(shí)驗(yàn)
? ? ? ?我們選擇Visdrone-2020數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,研究無人機(jī)視覺中的目標(biāo)檢測(cè)問題。根據(jù)無人機(jī)圖像的特點(diǎn),我們對(duì)YOLOv5s模型進(jìn)行了三點(diǎn)改進(jìn):(1)增加CBAM模塊,(2)增加P2預(yù)測(cè)頭,(3)采用NWD-NMS。我們通過精度、召回率和mAP對(duì)改進(jìn)的模型進(jìn)行綜合評(píng)估。
? ? ? ?我們修改后的方法運(yùn)行時(shí)環(huán)境:CPU 是 Intel i7 11800H,GPU 是 Nvidia RTX3080,操作系統(tǒng)是 Windows。本文采用改進(jìn)的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.01,批量大小設(shè)置為16,學(xué)習(xí)周期數(shù)設(shè)置為300。
? ? ? ?如表I所示,為了驗(yàn)證三種改進(jìn)方法的有效性,我們使用消融實(shí)驗(yàn)進(jìn)行測(cè)試。實(shí)驗(yàn)是通過將每個(gè)模塊分別添加到原始模型中并依次驗(yàn)證每個(gè)模塊的影響來進(jìn)行的。實(shí)驗(yàn)結(jié)果表明,每種改進(jìn)方法對(duì)原始模型都有一定的改進(jìn)效果。首先是增加了CBAM注意力模塊,與原始模型相比,mAP略有改善,推理速度略有提高。然后是最有效的P2預(yù)測(cè)頭,由于P2預(yù)測(cè)頭保留了更豐富的小物體特征信息,并且可以很好地檢測(cè)無人機(jī)圖像中的小物體,因此它大大提高了mAP。雖然增加檢測(cè)頭增加了額外的計(jì)算工作量,但它也很好地提高了小物體的檢測(cè)性能。NWD-NMS的改進(jìn)也在一定程度上提高了mAP,采用<>種改進(jìn)方法得到的最終模型與原始模型相比,mAP有了很大的改進(jìn)。
? ? ? ?實(shí)際場(chǎng)景中的檢測(cè)效果如圖6所示。圖6a顯示了原始YOLOv5s模型的檢測(cè)結(jié)果,可以看出圖像中存在明顯的遺漏和誤檢,例如左上角的卡車被誤檢為汽車,左下角左側(cè)區(qū)域中的小物體未被檢測(cè)到。如圖6b所示,在我們改進(jìn)的模型的檢測(cè)結(jié)果中,一些原本誤檢的物體被糾正,許多以前未檢測(cè)到的低清晰度小物體被檢測(cè)出來。可以看出,我們改進(jìn)的方法在實(shí)際檢測(cè)中仍然非常有效。
? ? ? ?在表II中,我們將我們的方法與其他方法進(jìn)行了比較。我們選擇了委員會(huì)提交的幾種基線算法與我們的方法進(jìn)行比較,毫無疑問,我們修改后的方法比委員會(huì)提交的結(jié)果具有更好的AP。仔細(xì)比較每個(gè)類別的AP,我們可以發(fā)現(xiàn)幾乎每個(gè)類別的AP都有所提高。特別是對(duì)人、汽車、電機(jī)等小物體的檢測(cè)精度。得到了很大的改進(jìn)。這表明我們的方法在小目標(biāo)檢測(cè)問題中起著重要作用。還可以注意到,對(duì)于遮陽篷三輪車、公共汽車等數(shù)量較少的物體,我們做得不夠好。這也是我們的缺點(diǎn),如果這個(gè)問題解決了,我們的精度將進(jìn)一步提高。
總結(jié)文章來源:http://www.zghlxwxcb.cn/news/detail-434192.html
? ? ? ?本文分析了當(dāng)前無人機(jī)捕捉場(chǎng)景中目標(biāo)檢測(cè)算法存在的問題,針對(duì)無人機(jī)圖像中高分辨率、小目標(biāo)占比大的特點(diǎn),對(duì)YOLOv5s模型進(jìn)行了三點(diǎn)改進(jìn)。最終的實(shí)驗(yàn)結(jié)果表明,我們改進(jìn)的模型比原來的模型更適用于Visdrone-2020數(shù)據(jù)集,并且每個(gè)模塊都能很好地提高該數(shù)據(jù)集的目標(biāo)檢測(cè)精度。與其他方法相比,我們的方法在性能方面也更勝一籌,特別是在小物體檢測(cè)方面。此外,這項(xiàng)研究還有一些局限性。首先,通過實(shí)驗(yàn)對(duì)比可以發(fā)現(xiàn),雖然我們的方法對(duì)于小物體檢測(cè)的精度有所提高,但對(duì)于一些標(biāo)簽數(shù)量較少的類別,如遮陽篷三輪車和公共汽車,我們的精度改進(jìn)并不令人滿意。此外,我們的方法僅在 Visdrone-2020 數(shù)據(jù)集上進(jìn)行了驗(yàn)證,這有一些局限性。未來將考慮在更多無人機(jī)場(chǎng)景中的適用性。文章來源地址http://www.zghlxwxcb.cn/news/detail-434192.html
到了這里,關(guān)于《一種改進(jìn)的YOLOv5用于無人機(jī)捕獲場(chǎng)景中的目標(biāo)檢測(cè)》論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!