點擊藍字 關(guān)注我們
關(guān)注并星標(biāo)
從此不迷路
計算機視覺研究院
公眾號ID|計算機視覺研究院
學(xué)習(xí)群|掃碼在主頁獲取加入方式
計算機視覺研究院專欄
Column of Computer Vision Institute
無人機圖像中的目標(biāo)檢測是各個研究領(lǐng)域的重要基礎(chǔ)。然而,無人機圖像帶來了獨特的挑戰(zhàn),包括圖像尺寸大、檢測對象尺寸小、分布密集、實例重疊和照明不足,這些都會影響對象檢測的有效性。
01
前景概要
今天分享中,我們提出了Drone-YOLO,這是一系列基于YOLOv8模型的多尺度無人機圖像目標(biāo)檢測算法,旨在克服與無人機圖像目標(biāo)檢測相關(guān)的特定挑戰(zhàn)。為了解決大場景大小和小檢測對象的問題,我們對YOLOv8模型的頸部組件進行了改進。具體而言,我們采用了三層PAFPN結(jié)構(gòu),并結(jié)合了一個使用大規(guī)模特征圖為小型目標(biāo)量身定制的檢測頭,顯著增強了算法檢測小型目標(biāo)的能力。此外,我們將夾層融合模塊集成到頸部上下分支的每一層中。這種融合機制將網(wǎng)絡(luò)特征與低級特征相結(jié)合,提供了關(guān)于不同層檢測頭處物體的豐富空間信息。我們使用深度可分離進化來實現(xiàn)這種融合,它平衡了參數(shù)成本和大的感受野。在網(wǎng)絡(luò)主干中,我們使用RepVGG模塊作為下采樣層,增強了網(wǎng)絡(luò)學(xué)習(xí)多尺度特征的能力,并優(yōu)于傳統(tǒng)的卷積層。
所提出的Drone-YOLO方法已在消融實驗中進行了評估,并在VisDrone2019數(shù)據(jù)集上與其他最先進的方法進行了比較。結(jié)果表明,我們的Drone-YOLO(L)在目標(biāo)檢測的準(zhǔn)確性方面優(yōu)于其他基線方法。與YOLOv8相比,我們的方法在mAP0.5指標(biāo)上實現(xiàn)了顯著改進,VisDrone2019測試增加了13.4%,VisDrone 2019-val.增加了17.40%。此外,只有5.25M參數(shù)的參數(shù)高效Drone-YOLO(tiny)在數(shù)據(jù)集上的性能與9.66M參數(shù)的基線方法相當(dāng)或更好。這些實驗驗證了Drone-YOLO方法在無人機圖像中目標(biāo)檢測任務(wù)中的有效性。
02
背景
在過去的15年里,隨著無人機控制技術(shù)的逐漸成熟,無人機遙感圖像以其成本效益和易獲取性成為低空遙感研究領(lǐng)域的重要數(shù)據(jù)源。在此期間,深度神經(jīng)網(wǎng)絡(luò)方法得到了廣泛的研究,并逐漸成為圖像分類、目標(biāo)檢測和圖像分割等任務(wù)的最佳方法。然而,目前應(yīng)用的大多數(shù)深度神經(jīng)網(wǎng)絡(luò)模型,如VGG、RESNET、U-NET、PSPNET,主要是使用手動收集的圖像數(shù)據(jù)集開發(fā)和驗證的,如VOC2007、VOC2012、MS-COCO,如下圖所示。
與人工拍攝的真是圖像相比,從無人機獲得的圖像顯示出顯著差異。這些無人機拍攝的圖像如下:
除了這些圖像數(shù)據(jù)特征外,無人機遙感目標(biāo)檢測方法還有兩種常見的應(yīng)用場景。第一個涉及使用大型臺式計算機進行飛行后數(shù)據(jù)處理。無人機飛行后,捕獲的數(shù)據(jù)在臺式計算機上進行處理。第二個涉及飛行過程中的實時處理,無人機上的嵌入式計算機實時同步處理航空圖像數(shù)據(jù)。該應(yīng)用程序通常用于無人機飛行期間的避障和自動任務(wù)規(guī)劃。因此,應(yīng)用神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法需要滿足每個場景的不同要求。對于適用于臺式計算機環(huán)境的方法,需要高檢測精度。對于適用于嵌入式環(huán)境的方法,模型參數(shù)需要在一定范圍內(nèi)才能滿足嵌入式硬件的操作要求。在滿足操作條件后,該方法的檢測精度也需要盡可能高。
因此,無人機遙感圖像中目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)方法需要能夠適應(yīng)這些數(shù)據(jù)的特定特征。它們的設(shè)計應(yīng)滿足飛行后數(shù)據(jù)處理的要求,可以提供高精度和召回率的結(jié)果,或者它們應(yīng)設(shè)計為具有較小規(guī)模參數(shù)的模型,可以部署在嵌入式硬件環(huán)境中,用于無人機上的實時處理。
03
新框架設(shè)計介紹
下圖顯示了我們提出的Drone-YOLO(L)網(wǎng)絡(luò)模型的架構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)是對YOLOv8-l模型的改進。在網(wǎng)絡(luò)的主干部分,我們使用RepVGG結(jié)構(gòu)的重新參數(shù)化卷積模塊作為下采樣層。在訓(xùn)練過程中,這種卷積結(jié)構(gòu)同時訓(xùn)練3×3和1×1卷積。在推理過程中,兩個卷積核被合并為一個3×3卷積層。這種機制使網(wǎng)絡(luò)能夠在不影響推理速度或擴大模型大小的情況下學(xué)習(xí)更穩(wěn)健的特征。在頸部,我們將PAFPN結(jié)構(gòu)擴展到三層,并附加了一個小尺寸的物體檢測頭。通過結(jié)合所提出的三明治融合模塊,從網(wǎng)絡(luò)主干的三個不同層特征圖中提取空間和信道特征。這種優(yōu)化增強了多尺度檢測頭收集待檢測對象的空間定位信息的能力。
如下圖所示,我們提出了sandwich-fusion(SF),這是一種三尺寸特征圖的新融合模塊,它優(yōu)化了目標(biāo)的空間和語義信息,用于檢測頭。該模塊應(yīng)用于頸部自上而下的層。該模塊的靈感來自YOLOv6 3.0【YOLOv6 v3.0: A Full-Scale Reloading】中提出的BiC模型。SF的輸入如圖所示,包括主干較低階段、相應(yīng)階段和較高階段的特征圖。目標(biāo)是平衡低級特征的空間信息和高級特征的語義信息,以優(yōu)化網(wǎng)絡(luò)頭部對目標(biāo)位置的識別和分類。
04
項目落地效果
項目中,我們使用Ubuntu 20.04作為操作系統(tǒng),Python 3.8、PyTorch 1.16.0和Cuda 11.6作為軟件環(huán)境。實驗采用NVIDIA 3080ti圖形卡作為硬件。神經(jīng)網(wǎng)絡(luò)的實現(xiàn)代碼是在Ultralytics 8.0.105版本的基礎(chǔ)上修改的。在項目中的訓(xùn)練、測試和驗證過程中使用的超參數(shù)保持一致。訓(xùn)練epoch被設(shè)置為300,并且輸入到網(wǎng)絡(luò)中的圖像被重新縮放到640×640。在下面列出的一些結(jié)果中,所有YOLOv8和我們提出的Drone-YOLO網(wǎng)絡(luò)都具有來自我們檢測結(jié)果。在這些落地中,這些網(wǎng)絡(luò)都沒有使用預(yù)訓(xùn)練參數(shù)。
在嵌入式應(yīng)用實驗中,我們使用NVIDIA Tegra TX2作為實驗環(huán)境,該環(huán)境具有256核NVIDIA Pascal架構(gòu)GPU,提供1.33 TFLOPS的峰值計算性能和8GB的內(nèi)存。軟件環(huán)境為Ubuntu 18.04 LTS操作系統(tǒng)、NVIDIA JetPack 4.4.1、CUDA 10.2和cuDNN 8.0.0。
在VisDrone2019-test測試效果
基于NVIDIA Tegra TX2的結(jié)果
Drone-YOLO實際效果
?
左邊是Yolov8的結(jié)果,可以看出紅色框中大部分目標(biāo)沒有檢測出來
論文地址:www.mdpi.com/2504-446X/7/8/526
??THE END?
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
計算機視覺研究院學(xué)習(xí)群等你加入!
ABOUT
計算機視覺研究院
計算機視覺研究院主要涉及深度學(xué)習(xí)領(lǐng)域,主要致力于目標(biāo)檢測、目標(biāo)跟蹤、圖像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文算法新框架,提供論文一鍵下載,并分享實戰(zhàn)項目。研究院主要著重”技術(shù)研究“和“實踐落地”。研究院會針對不同領(lǐng)域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養(yǎng)愛動手編程愛動腦思考的習(xí)慣!
?往期推薦?
??
CRAS-YOLO:多類別船舶檢測與分類模型
2PCNet:晝夜無監(jiān)督域自適應(yīng)目標(biāo)檢測(附原代碼)
CVPR2023:零樣本通用分割框架(附源代碼)
改進的檢測算法:用于高分辨率光學(xué)遙感圖像目標(biāo)檢測
小米平板6 Max-Yolo:在便攜終端上實時檢測不再是難題
機場項目:解決飛行物空間大小/縱橫比、速度、遮擋等問題引起的實時目標(biāo)檢測問題
旋轉(zhuǎn)角度目標(biāo)檢測的重要性?。。。ǜ皆凑撐南螺d)
PE-YOLO:解決黑夜中的目標(biāo)檢測難點
YOLO-S:小目標(biāo)檢測的輕量級、精確的類YOLO網(wǎng)絡(luò)
EdgeYOLO:邊緣設(shè)備上實時運行的目標(biāo)檢測器及Pytorch實現(xiàn)
Q-YOLO:用于實時目標(biāo)檢測的高效推理
Yolo算法的演進—YoloCS有效降低特征圖空間復(fù)雜度(附論文下載)
InternImage:探索具有可變形卷積的大規(guī)模視覺基礎(chǔ)模型
首個全量化Vision Transformer的方法FQ-ViT,AI大模型落地不遠了!
YoloV8與ChatGPT互通,這功能是真的強大!
GPT理解的CV:基于Yolov5的半監(jiān)督目標(biāo)檢測
文章來源:http://www.zghlxwxcb.cn/news/detail-727405.htmlConsistent-Teacher:半監(jiān)督目標(biāo)檢測超強SOTA文章來源地址http://www.zghlxwxcb.cn/news/detail-727405.html
到了這里,關(guān)于Drone-YOLO:一種有效的無人機圖像目標(biāo)檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!