1.YOLOv2概述
對YOLO存在的不足,業(yè)界又推出了YOLOv2。YOLOv2主要通過以下方法對模型進行優(yōu)化:
(1)使用Batch Normalization方法對模型中每一個卷積層的輸入進行歸一化,緩解梯度消失,加快收斂速度,減少了訓練時間,同時提高了平均檢測準確率。
(2)增加Anchors機制,借助訓練集的邊框標簽值,使用k-means聚類的方法生成幾種不同尺寸的Anchors。YOLOv2去掉了YOLO網絡中的全連接層和最后一個池化層,以提高特征的分辨率;在最后一層卷積采樣后使用Anchors機制,旨在提高IoU。訓練時,在每個網格上預置Anchors,以這些Anchors為基準計算損失函數(shù)。
(3)提出一個新的基礎網絡結構:Darknet-19。Darknet-19是一個全卷積網絡,相比YOLO的主體結構,它用一個average pooling層代替全連接層,有利于更好地保留目標的空間位置信息。
(4)采用優(yōu)化的直接位置預測方法,根據設定的Anchors,在網絡最后一個卷積層輸出的特征圖上,對每個網格進行邊框預測,先預測tx、ty、tw、th、to這5個值,然后根據這5個值計算預測邊框的位置信息和置信度。
通過以上改進,YOLOv2在平均檢測準確率和訓練檢測速度方面較YOLO均有明顯的提高。作為一個中間版本,我們了解即可。
2.YOLOv3概述
為了進一步提高性能,人們又提出了YOLOv3。相比前兩個版本,YOLOv3在分類方法、網絡結構方面做了較大改進,具體實現(xiàn)如下:
2.1 新的基礎網絡結構:
Darknet-53。Darknet-53共有75層,使用了一系列3×3、1×1的卷積,其中包括53層卷積層,其余為res層,借鑒ResNet(Residual Network,殘差網絡)的思想,采用跳層連接的方式進一步優(yōu)化網絡性能。Darknet-53的網絡結構如圖所示。
在深度學習中,越是深層次的網絡越容易出現(xiàn)梯度消失,導致網絡退化,即使使用了Batch Normalization等方法,效果依然不太理想。2015年,Kaiming He等人提出ResNet,在當年的ILSVRC比賽中獲得了冠軍。ResNet的主要思想是在網絡結構中增加了“直連通道”,將某層的原始輸出直接傳遞到后面的層中,這種跳層連接結構能減少原始信息在傳遞過程中的損耗,在一定程度上緩解了深度神經網絡中的梯度消失問題。ResNet的原理如圖所示。
在ResNet中,如果用xl和xl+1分別表示第l層的輸入和輸出,Wl表示第l層的權重,F(xiàn)表示該層的殘差函數(shù),則xl和xl+1之間的關系可以表示為:xl+1=xl+F(xl,Wl)。如果網絡以這樣的結構學習到第L層,以xL表示第L層的輸入xL和xl之間的關系可表達為:
從而求得在此反向傳遞過程中損失函數(shù)的梯度:
從上面公式括號里的兩項可以看出,1保證了梯度可以無損地傳遞,第二項的大小由網絡權重決定,并且該項再小也不會導致梯度消失的問題。由此可見,ResNet對原始輸入信息的學習更容易、更準確。
Darknet-53通過引入res層,將整個網絡分成若干個小的ResNet結構單元,通過逐級對殘差的學習來控制梯度的傳播,以此來緩解訓練中的梯度消失。
2.2 采用多尺度預測機制。
YOLOv3沿用了YOLOv2中的Anchors機制,使用k-means方法聚類出9種大小不同的Anchors。為了充分利用這些Anchors,YOLOv3進一步細化網格劃分,將Anchors按大小平均分配給3種scale。
· scale1:在Darknet-53后添加6層卷積層,直接得到用以檢測目標的特征圖,維度為13×13×(B×5+C),對應最大的3種Anchors,適用于大目標檢測。
· sale2:對網絡第79層的輸出進行上采樣,生成26×26×(B×5+C)的特征圖,同時與第61層輸出的特征圖合并,再進行一系列的卷積操作,最終得到的特征圖對應3個中等大小的Anchors,適用于中目標檢測。
· scale3:對網絡第91層的輸出進行上采樣,生成52×52×(B×5+C)的特征圖,先與第36層輸出的特征圖合并,再進行系列卷積,最終得到與3個最小的Anchors對應的特征圖,適用于小目標檢測。通過這樣的改進,YOLOv3相比YOLOv2,在小目標檢測效果上有了較為明顯的提高。
2.3 使用簡單的邏輯回歸進行分類
分類損失函數(shù)采用了binary cross-entropy loss(二值交叉熵損失),而且不再使用softmax進行分類。在softmax分類中,得分最高的預測邊框獲得一個分類,但是在很多情況下(尤其是在對有遮擋或重疊的多目標檢測時)softmax并不適合。文章來源:http://www.zghlxwxcb.cn/news/detail-660236.html
通過不斷的改進與創(chuàng)新,YOLOv3使基于回歸思想的YOLO系列模型的性能達到了一個峰值,最大限度地兼顧了檢測的實時性和準確率,為危險物品的實時檢測和跟蹤、自動駕駛的環(huán)境信息采集等對實時性和準確率要求都較高的應用領域提供了非常有參考、研究價值的可靠模型。文章來源地址http://www.zghlxwxcb.cn/news/detail-660236.html
到了這里,關于OpenCV實例(九)基于深度學習的運動目標檢測(二)YOLOv2概述的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!