一、引言
本文通過估計錨框的離群度定義一個動態(tài)聚焦機制(FM) f(β),β =
L
I
o
U
L
I
o
U
\frac{L_{IoU}}{L_{IoU}}
LIoU?LIoU??。FM通過將小梯度增益分配到具有小β的高質(zhì)量錨框,使錨框回歸能夠?qū)W⒂谄胀ㄙ|(zhì)量的錨框。
同時,該機制將小梯度增益分配給β較大的低質(zhì)量錨箱,有效削弱了低質(zhì)量樣例對錨框回歸的危害。
作者將這種操作稱之為明智的IOU(WIoU)。
二、實現(xiàn)細節(jié)
由于訓練數(shù)據(jù)不可避免地包含低質(zhì)量的例子,距離、橫縱比等幾何因素會加重低質(zhì)量例子的懲罰,從而降低模型的泛化性能。一個好的損失函數(shù)應該在錨盒與目標盒重合良好時弱化幾何因素的懲罰,訓練中較少的干預會使模型獲得更好的泛化能力。在此基礎上構(gòu)建距離注意力,得到具有兩層注意機制的WIoU v1:
R
W
I
o
U
∈
[
1
,
e
)
R_{WIoU}∈[1,e)
RWIoU?∈[1,e),這將顯著放大普通質(zhì)量錨框的
L
I
o
U
L_{IoU}
LIoU?。
L
I
o
U
∈
[
0
,
1
]
L_{IoU}∈[0,1]
LIoU?∈[0,1],這將顯著降低高質(zhì)量錨框的
R
W
I
o
U
R_{WIoU}
RWIoU?,并在錨框與目標框重合良好時,將焦點集中在中心點之間的距離上。
其中
W
g
W_g
Wg?,
H
g
H_g
Hg?是最小的包圍框的大小。為了防止
R
W
I
o
U
R_{WIoU}
RWIoU?產(chǎn)生阻礙收斂的梯度,
W
g
,
H
g
W_g, H_g
Wg?,Hg?從計算圖中分離(上標*表示此操作)。因為它有效地消除了阻礙收斂的因素,所以沒有引入諸如長寬比之類的新指標。
在現(xiàn)有工作中提到的一系列錨框回歸損失中,SIoU收斂速度最快。
對于錨框回歸中的主要情況,所有錨框回歸損失都具有極其相似的收斂速率。由此可見,收斂速度的差異主要來自于不重疊的邊界框。本文提出的基于注意的WIoU v1在這部分有最好的效果。
從焦點損失中學習:為交叉熵設計了一個單調(diào)FM,有效地降低了簡單示例對損失值的貢獻。因此,該模型可以專注于硬例,并獲得分類性能的提高。類似地,本文構(gòu)造
L
W
I
o
U
v
1
L_{WIoUv1}
LWIoUv1?的單調(diào)聚焦系數(shù)
L
I
o
U
γ
?
L^{γ *}_{IoU}
LIoUγ??。
由于聚焦系數(shù)的加入,WIoU v2反向傳播的梯度也發(fā)生了變化:
注意,梯度增益為
r
=
L
I
o
U
γ
?
∈
[
0
,
1
]
r = L^{γ *}_{IoU}∈[0,1]
r=LIoUγ??∈[0,1]。在模型訓練過程中,梯度增益隨著
L
I
o
U
L_{IoU}
LIoU?的減小而減小,導致訓練后期收斂速度較慢。因此,引入
L
I
o
U
L_{IoU}
LIoU?的均值作為歸一化因子:
其中,
L
I
o
U
L_{IoU}
LIoU?是動量為m的運行均值。動態(tài)更新歸一化因子使梯度增益
r
=
(
L
I
o
U
?
L
I
o
U
)
γ
r = (\frac{L^?_{IoU}}{ L_{IoU}})^γ
r=(LIoU?LIoU???)γ總體上處于較高的水平,解決了訓練后期收斂緩慢的問題。
動態(tài)非單調(diào)FM:錨框的離群度由
L
I
o
U
L_{IoU}
LIoU?與
L
I
o
U
L_{IoU}
LIoU?的比值表征:
離群度小意味著錨盒質(zhì)量高。給它分配一個小的梯度增益,以便將BBR集中在普通質(zhì)量的錨盒上。此外,將較小的梯度增益分配給具有較大離群度的錨框?qū)⒂行У胤乐馆^大的有害梯度。利用β構(gòu)造了一個非單調(diào)聚焦系數(shù),并將其應用于WIoU v1:
當
β
=
δ
β = δ
β=δ時,
δ
δ
δ使r = 1。如圖8所示,錨框的離群度滿足β = C (C為常值)時,其梯度增益最大。由于
L
I
o
U
L_{IoU}
LIoU?是動態(tài)的,錨框的質(zhì)量劃分標準也是動態(tài)的,這使得WIoU v3可以在每一個時刻做出最符合當前情況的梯度增益分配策略。
為了防止低質(zhì)量的錨框在訓練早期被落下,初始化
L
I
o
U
=
1
L_{IoU} = 1
LIoU?=1,使
L
I
o
U
L_{IoU}
LIoU? = 1的錨框獲得最高的梯度增益。為了在訓練的早期階段保持這樣的策略,需要設置一個小動量m來延遲
L
I
o
U
L_{IoU}
LIoU?接近真實值的時間。對于數(shù)據(jù)批次數(shù)為n的訓練,我們建議將動量設為:
這個設置使得訓練t周期后的
L
I
o
U
=
0.5
(
1
+
L
I
o
U
?
r
e
a
l
)
L_{IoU} = 0.5(1 + L_{IoU?real})
LIoU?=0.5(1+LIoU?real?)。
在訓練的中后期,WIoU v3會給低質(zhì)量的錨框分配較小的梯度增益,以減少有害的梯度。同時,針對普通質(zhì)量的錨框,提高模型的定位性能。文章來源:http://www.zghlxwxcb.cn/news/detail-521396.html
三、實驗
通過比較BBR的loss版本2和原始版本(下表),單調(diào)FM對SIoU和EIoU的性能都有負面影響。由于這兩者對距離度量的懲罰更強,在單調(diào)調(diào)頻的作用下合成了更大的有害梯度。CIoU和WIoU v1對于距離度量的懲罰較小,這使得它們能夠有效地削弱單調(diào)FM對有害梯度的放大。
此外,作者比較了錨框的回歸結(jié)果(下圖)。具有單調(diào)FM的WIoU v2受到低質(zhì)量示例的影響,導致預測結(jié)果不佳。WIoU v3得益于動態(tài)非單調(diào)調(diào)頻,有效地屏蔽了低質(zhì)量示例的影響,實現(xiàn)了理想的預測。
YOLOv7在訓練過程中的精度變化(上圖)。由于動態(tài)非單調(diào)FM,WIoU v3有效地屏蔽了訓練過程中的許多負面影響,因此模型的精度可以更快地提高。
在將WIoU v3與最先進的BBR損失進行比較后,得到了幾個精度差異較大的類別(表II)。受益于識別低質(zhì)量示例的能力,WIoU v3訓練的模型對某些類別的精度有了很大的提高。與此同時,該模型對飛機和長椅的精度有所下降。
一些飛機的標簽是有爭議的(下圖),一些選定的飛機缺乏突出的特征,如機身。這些例子和低質(zhì)量的例子一樣難學,這部分難學的例子被WIoU v3的FM丟棄了。此外,長凳的標簽有很多錯誤,也有大量的長凳沒有貼上標簽。這對于泛化能力強、檢測到更多長椅的模型來說是不公平的文章來源地址http://www.zghlxwxcb.cn/news/detail-521396.html
到了這里,關(guān)于Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!