一、概括
針對小目標檢測的綜述,分析難點、梳理四大類方法、收集數(shù)據(jù)集、討論未來研究方向。
小目標檢測問題的四種主要解決方案:多尺度表示、上下文信息、超分辨率和區(qū)域提議。
此調(diào)查還收集了相關(guān)的小目標數(shù)據(jù)集。
二、四項難點
- 小目標覆蓋圖像面積小,用于目標檢測的有效特征少,但是常用檢測器對小目標不敏感;
- 小目標散布在圖像的各個區(qū)域,可能出現(xiàn)在邊角,可能與大目標發(fā)生遮擋,而且小目標容易受到圖像噪聲影響;
- 目標檢測常用的AP和mAP指標不適用于小目標,小目標的小偏移將導(dǎo)致IoU的大變化;
- 小目標檢測的數(shù)據(jù)集少,大都是簡單場景的數(shù)據(jù)集,缺乏復(fù)雜場景中的小目標檢測數(shù)據(jù)集;
三、四大類方法
小目標檢測的框架主要分為兩種范式,一種是利用手工特征和淺層分類器,檢測諸如路障或交通標志等對象,但由于特征提取方法較弱,通常性能不佳。另一種采用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)提取圖像特征,然后修改主流的通用目標檢測網(wǎng)絡(luò),以達到準確性和計算成本的良好折衷。提出了許多創(chuàng)新方法,顯著改善了傳統(tǒng)小目標檢測的性能。在圖3中,展示了小目標檢測研究社區(qū)的概覽。
基于每種方法中使用的核心理論,本工作將小目標檢測的研究工作分類為五個類別,即多尺度表示、上下文信息、超分辨率、區(qū)域提議和其他方法。每個類別中表現(xiàn)最佳的模型將被詳細描述,而其他類似模型將簡要說明,以便清楚解釋每個類別。
多尺度表征(Multiscale Representation):
高分辨率的淺層表征利用圖像細節(jié)進行目標定位,低分辨率的深層表征利用語義信息進行目標分類;多尺度表征結(jié)合淺層表征的圖像細節(jié)和深層表征的語義信息完成目標檢測;
上下文信息(Contextual Information):
現(xiàn)實世界中的物體與周圍環(huán)境存在聯(lián)系,利用這種聯(lián)系可以提高目標檢測的準確率;中大目標能為檢測器提供面積足夠大的特征區(qū)域,但是小目標的特征區(qū)域小,需要用周圍環(huán)境信息補充;
圖像超分辨(Super-Resolution):
小目標檢測的困難根源是小目標覆蓋的像素點少,如果可以得到更高分辨率的圖像,這個問題就迎刃而解了;通過構(gòu)建GAN網(wǎng)絡(luò),由原始圖像生成更高分辨率的圖像,對更高分辨率的圖像進行目標檢測即可;
區(qū)域候選(Region Proposal):
常用的目標檢測方法利用預(yù)設(shè)錨框(anchor)代替滑窗遍歷,提升目標檢測效率;但是常用方法針對中大目標設(shè)置錨框,不適用于小目標,所以需要針對小目標設(shè)置錨框;
3.1 多尺度表示
目標檢測包含定位和分類兩項任務(wù),高分辨率的淺層特征圖包含更多的細節(jié)信息,適用于定位任務(wù);
低分辨率的深層特征圖提取整體的語義信息,適用于分類任務(wù);
融合淺層特征圖和深層特征圖,可以完成目標定位任務(wù)。
對比目標檢測的常用方法、金字塔方法、多尺度表征方法。常用方法使用最深層特征圖;金字塔方法使用所有特征圖,但運算復(fù)雜度高且噪聲干擾大;多尺度表征方法改進金字塔方法,選用個別重要的特征圖進行特征融合。
- 多尺度特征融合(Multiple Feature Maps Fusion): MDSSD, DR-CNN, MR-CNN;
- 研究特征層融合的方式(Connect Method of Different Feature Maps): CADNet
3.2 上下文信息
小目標檢測的根本難點在于其覆蓋范圍小,檢測器能感知到的信息有限。對于任意目標,他們存在于特定場景或者與特定目標共存,因此利用小目標的上下文信息,補充小目標提供的有限特征。上下文信息方法利用小目標與其他目標或者背景之間的關(guān)系,提升小目標檢測的準確率。
- ContextNet:針對小目標檢測,利用上下文信息改進R-CNN;網(wǎng)絡(luò)通過Proposal Region Module編碼小目標候選區(qū)域的上下文信息,通過Context Region Module編碼相同中心的更大上下文信息,再合并小目標的候選區(qū)域和包含更多上下文信息的區(qū)域,得到包含上下文信息的小目標區(qū)域特征,利用該特征進行目標檢測;
- Inside-Outside Net:首先通過多層卷積獲得多層級特征,然后利用IRNN模塊獲取上下文信息,合并多層級特征和上下文信息,最后對合并特征進行目標檢測;
- VSSA-Net:首先通過多層卷積獲取多尺度特征,然后將多尺度特征輸入Encoder-Decoder結(jié)構(gòu),利用注意力機制向特征加入上下文信息,最后進行目標檢測;
3.3 圖像超分辨率
由于小目標有限的圖像覆蓋區(qū)域會影響檢測效果,可以通過圖像超分辨率強化包含小目標的低分辨率圖像,得到更高分辨率圖像,對高分辨率圖像進行目標檢測即可。
結(jié)合上圖,使用GAN方法將低分辨率圖像恢復(fù)成高分辨率,首先通過Baseline Detector從輸入圖像得到包含小目標和不包含目標的區(qū)域,GAN中的Generator根據(jù)包含小目標的區(qū)域生成高分辨率圖像,Discriminator比較生成高分辨率圖像和不包含目標區(qū)域,得到具備超分辨率能力的GAN?;贕AN的方法首先生成包含小目標的高分辨率圖像塊,然后檢測這些高分辨率圖像塊。
- 基于圖像超分辨率的方法(Super-Resolution Method): Perceptual GAN, GAN, SOD-MTGAN, JCS-Net
3.4 區(qū)域候選
區(qū)域候選的目的是生成潛在的檢測框,F(xiàn)aster RCNN之前的目標檢測通過滑窗法或者選擇搜索法生成檢測框;Faster RCNN利用先驗信息預(yù)設(shè)錨框(anchor box),然后通過RPN(Region Proporal Network)調(diào)整錨框的位置和尺寸,從而使得錨框和真值框(anchor box & GT box)足夠貼合。RPN在Faster RCNN中起到目標定位的作用。文章來源:http://www.zghlxwxcb.cn/news/detail-845037.html
四、相關(guān)數(shù)據(jù)集
文章來源地址http://www.zghlxwxcb.cn/news/detail-845037.html
- 道路交通數(shù)據(jù)集:Lost_and_Found | STS(瑞典) | Tsinghua-Tencent 100K | GTSDB(德國波鴻) | CURE-TSD;
- 通用場景數(shù)據(jù)集:Small Object Dataset | CURE-OR;
- 單一類別數(shù)據(jù)集:WIDER FACE(多種社交場合下的人臉) | DeepScores(音譜符號);
五、未來研究方向
- 評價指標(Novel Metric for Small Object Detection): 常用的AP/mAP實際上是PR曲線積分,不反應(yīng)PR曲線變化趨勢,也無法反映bbox覆蓋目標的緊密程度;對于小目標,定位精度和bbox覆蓋緊密度很重要,輕微偏移都將影響IoU;考慮到小目標對定位精度的要求,可將預(yù)測值和真值的中心位置作為評價指標;
- 弱監(jiān)督學(xué)習(xí)(Weakly Supervised Object Detection): 小目標檢測的數(shù)據(jù)集不足,不足以支撐通用模型的監(jiān)督學(xué)習(xí);可以嘗試使用數(shù)據(jù)依賴性不高的學(xué)習(xí)方法;
- 權(quán)威數(shù)據(jù)集(Small Object Datasets): 缺乏針對小目標檢測的通用數(shù)據(jù)集;
- 結(jié)合多種方法(Combination of Multiple Kinds of Methods): 可以組合上述四種方法優(yōu)化;
- 視頻中的小目標檢測(Small Object Detection in Videos): 現(xiàn)有目標檢測方法處理單張圖像;相比單張圖像,視頻包含時序信息,可以通過光流、LSTM研究目標在視頻中運動的是時空相關(guān)性;
- 目標檢測框架(High Precision or Real-Time Detection Framework): 平衡目標檢測的準確性和實時性;不同應(yīng)用場景的側(cè)重點不同;
到了這里,關(guān)于【計算機視覺】小目標檢測綜述:A Survey of the Four Pillars for Small Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!