MPDIoU: A Loss for Efficient and Accurate Bounding Box
RegressionMPDIoU:一個有效和準(zhǔn)確的邊界框損失回歸函數(shù)
摘要
邊界框回歸(Bounding box regression, BBR)廣泛應(yīng)用于目標(biāo)檢測和實例分割,是目標(biāo)定位的重要步驟。然而,當(dāng)預(yù)測框與邊界框具有相同的縱橫比,但寬度和高度值完全不同時,大多數(shù)現(xiàn)有的邊界框回歸損失函數(shù)都無法優(yōu)化。為了解決上述問題,我們充分挖掘水平矩形的幾何特征,提出了一種新的基于最小點距離的邊界框相似性比較指標(biāo)MPDIoU,該指標(biāo)包含了現(xiàn)有損失函數(shù)中考慮的所有相關(guān)因素,即重疊或不重疊區(qū)域、中心點距離、寬度和高度偏差,同時簡化了計算過程。在此基礎(chǔ)上,我們提出了基于MPDIoU的邊界框回歸損失函數(shù),稱為LMPDIoU。實驗結(jié)果表明,MPDIoU損失函數(shù)應(yīng)用于最先進的實例分割(如YOLACT)和基于PASCAL VOC、MS COCO和IIIT5k訓(xùn)練的目標(biāo)檢測(如YOLOv7)模型,其性能優(yōu)于現(xiàn)有的損失函數(shù)。
關(guān)鍵詞:目標(biāo)檢測,實例分割,邊界框回歸,損失函數(shù)
?1.介紹
目標(biāo)檢測和實例分割是計算機視覺中的兩個重要問題,近年來引起了研究者的廣泛關(guān)注。大多數(shù)最先進的目標(biāo)檢測器(如YOLO系列[1,2,3,4,5,6],Mask R-CNN [7],Dynamic R-CNN[8]和DETR[9])依賴于邊界框回歸(BBR)模塊來確定目標(biāo)的位置。在此基礎(chǔ)上,設(shè)計良好的損失函數(shù)對BBR的成功至關(guān)重要。目前,大多數(shù)BBR的損失函數(shù)可分為兩類:基于n范數(shù)的損失函數(shù)和基于IoU的損失函數(shù)。
然而,現(xiàn)有的邊界框回歸的損失函數(shù)在不同的預(yù)測結(jié)果下具有相同的值,這降低了邊界框回歸的收斂速度和精度。因此,考慮到現(xiàn)有邊界框回歸損失函數(shù)的優(yōu)缺點,受水平矩形幾何特征的啟發(fā),我們嘗試設(shè)計一種新的基于最小點距離的邊界框回歸損失函數(shù)LMPDIoU
,并將MPDIoU作為邊界框回歸過程中比較預(yù)測邊界框與真值邊界框相似度的新標(biāo)準(zhǔn)。我們還提供了一個易于實現(xiàn)的解決方案來計算兩個軸線對齊的矩形之間的MPDIoU,允許它被用作最先進的對象檢測和實例分割算法的評估指標(biāo),我們在一些主流的對象檢測、場景文本識別和實例分割數(shù)據(jù)集(如PASCAL VOC[10]、MS COCO[11]、IIIT5k[12]和MTHv2[13])上進行了測試,以驗證我們提出的MPDIoU的性能。
本文的貢獻可以概括為以下幾點:
1.我們考慮了現(xiàn)有基于IoU的損失和n范數(shù)損失的優(yōu)缺點,提出了一種基于最小點距離的IoU損失,稱為LMPDIoU
,以解決現(xiàn)有損失的問題,并獲得更快的收斂速度和更準(zhǔn)確的回歸結(jié)果。
2.在目標(biāo)檢測、字符級場景文本識別和實例分割任務(wù)上進行了大量的實驗。出色的實驗結(jié)果驗證了所提出的MPDIoU損失函數(shù)的優(yōu)越性。詳細的消融研究顯示了不同設(shè)置的損失函數(shù)和參數(shù)值的影響。
2.相關(guān)工作
2.1.目標(biāo)檢測和實例分割
? ? ? 在過去的幾年里,來自不同國家和地區(qū)的研究人員提出了大量基于深度學(xué)習(xí)的目標(biāo)檢測和實例分割方法。綜上所述,在許多具有代表性的目標(biāo)檢測和實例分割框架中,邊界框回歸已經(jīng)被作為一個基本組成部分[14]。在目標(biāo)檢測的深度模型中,R-CNN系列[15]、[16]、[17]采用兩個或三個邊界框回歸模塊來獲得更高的定位精度,而YOLO系列[2、3、6]和SSD系列[18、19、20]采用一個邊界框回歸模塊來實現(xiàn)更快的推理。RepPoints[21]預(yù)測幾個點來定義一個矩形框。FCOS[22]通過預(yù)測采樣點到邊界框的上、下、左、右的歐氏距離來定位目標(biāo)。
對于實例分割,PolarMask[23]在n個方向上預(yù)測從采樣點到物體邊緣的n條射線的長度來分割一個實例。還有一些檢測器,如RRPN[24]和R2CNN[25],通過旋轉(zhuǎn)角度回歸來檢測任意方向的物體,用于遙感檢測和場景文本檢測。Mask R-CNN[7]在Faster R-CNN[15]上增加了一個額外的實例掩碼分支,而最近最先進的YOLACT[26]在RetinaNet[27]上做了同樣的事情。綜上所述,邊界框回歸是用于目標(biāo)檢測和實例分割的最先進深度模型的關(guān)鍵組成部分。
2.2.場景文本識別
? ? ? ? 為了解決任意形狀的場景文本檢測和識別問題,ABCNet[28]及其改進版本ABCNet v2[29]使用BezierAlign將任意形狀的文本轉(zhuǎn)換為規(guī)則文本。這些方法通過糾錯模塊將檢測和識別統(tǒng)一為端到端的可訓(xùn)練系統(tǒng),取得了很大的進步。[30]提出了RoI Masking來提取任意形狀文本識別的特征。與[30,31]類似,嘗試使用更快的檢測器進行場景文本檢測。AE TextSpotter[32]利用識別結(jié)果通過語言模型指導(dǎo)檢測。受[33]的啟發(fā),[34]提出了一種基于transformer的場景文本識別方法,該方法提供了實例級文本分割結(jié)果。
2.3.邊界框回歸的損失函數(shù)
? ? ? 一開始,在邊界框回歸中廣泛使用的是n范數(shù)損失函數(shù),它非常簡單,但對各種尺度都很敏感。在YOLO v1[35]中,采用平方根w和h來緩解這種影響,而YOLO v3[2]使用2?wh。為了更好地計算真實邊界框與預(yù)測邊界框之間的差異,從Unitbox開始使用IoU loss[36]。為了保證訓(xùn)練的穩(wěn)定性,Bounded-IoU loss[37]引入了IoU的上界。對于訓(xùn)練對象檢測和實例分割的深度模型,基于IoU的度量被認(rèn)為比?n范式更一致[38,37,39]。原始IoU表示預(yù)測邊界框與真實邊界框的相交面積和并集面積之比(如圖1(a)所示),可表示為:
圖1:現(xiàn)有邊界盒回歸指標(biāo)的計算因子包括GIoU、DIoU、CIoU和EIoU
式中,Bgt
為真實邊界框,Bprd
為預(yù)測邊界框。我們可以看到,原來的IoU只計算兩個邊界框的并集面積,無法區(qū)分兩個邊界框不重疊的情況。如式1所示,如果|Bgt∩Bprd|=0
,則IoU(Bgt, Bprd)=0
。在這種情況下,IoU不能反映兩個框是彼此靠近還是彼此很遠。于是,提出了GIoU[39]來解決這一問題。GIoU可以表示為:
其中,C
為覆蓋Bgt
和Bprd
的最小方框(如圖1(a)中黑色虛線框所示),|C|
為方框C
的面積。由于在GIoU損失中引入了懲罰項,在不重疊的情況下,預(yù)測方框會向目標(biāo)方框移動。GIoU損失已被應(yīng)用于訓(xùn)練最先進的目標(biāo)檢測器,如YOLO v3和Faster R-CNN,并取得了比MSE損失和IoU損失更好的性能。但是,當(dāng)預(yù)測邊界框完全被真實邊界框覆蓋時,GIoU將失去有效性。為了解決這一問題,提出了DIoU[40],考慮了預(yù)測邊界框與真實邊界框之間的質(zhì)心點距離。DIoU的公式可以表示為:
其中ρ2(Bgt, Bprd)
為預(yù)測邊界框中心點與真實邊界框中心點之間的歐氏距離(如圖1(b)中紅色虛線所示)。C2
表示最小的封閉矩形的對角線長度(如圖1(b)中所示的黑色虛線)。我們可以看到,LDIoU
的目標(biāo)直接最小化了預(yù)測邊界框中心點與真實邊界框中心點之間的距離。但是,當(dāng)預(yù)測邊界框的中心點與真實邊界框的中心點重合時,會退化為原始IoU。為了解決這一問題,提出了同時考慮中心點距離和縱橫比的CIoU。CIoU的公式可以寫成如下:
但是,從CIoU中定義的縱橫比是相對值,而不是絕對值。針對這一問題,在DIoU的基礎(chǔ)上提出了EIoU[41],其定義如下:
然而,如圖2所示,當(dāng)預(yù)測的邊界框和真實邊界框具有相同的寬高比,但寬度和高度值不同時,上述用于邊界框回歸的損失函數(shù)將失去有效性,這將限制收斂速度和精度。因此,考慮到LGIoU
[39]、LDIoU
[40]、LCIoU
[42]、LEIoU
[41]所具有的優(yōu)點,我們嘗試設(shè)計一種新的損失函數(shù)LMPDIoU
用于邊界框回歸,同時具有更高的邊界框回歸效率和精度。
然而,邊界框回歸的幾何性質(zhì)在現(xiàn)有的損失函數(shù)中并沒有得到充分的利用。因此,我們提出了MPDIoU損失,通過最小化預(yù)測邊界框和真實邊界框之間的左上和右下點距離,以更好地訓(xùn)練目標(biāo)檢測、字符級場景文本識別和實例分割的深度模型。
圖2:具有不同邊界框回歸結(jié)果的兩種情況。綠框表示真實邊界框,紅框表示預(yù)測邊界框。LGIoU
、LDIoU
、LCIoU
這兩種情況的LMPDIoU
值完全相同,但它們的LMPDIoU
3.點距最小的并集交點
在分析了上述基于IoU的損失函數(shù)的優(yōu)缺點后,我們開始思考如何提高邊界框回歸的精度和效率。一般來說,我們使用左上角和右下角點的坐標(biāo)來定義一個唯一的矩形。受邊界框幾何特性的啟發(fā),我們設(shè)計了一種新的基于IoU的度量,稱為MPDIoU,直接最小化預(yù)測邊界框與真實邊界框之間的左上和右下點距離。算法1總結(jié)了MPDIoU的計算。
綜上所述,我們提出的MPDIoU簡化了兩個邊界框之間的相似性比較,可以適應(yīng)重疊或非重疊的邊界框回歸。因此,在2D/3D計算機視覺任務(wù)中使用的所有性能測量中,MPDIoU可以作為IoU的適當(dāng)替代品。在本文中,我們只關(guān)注二維目標(biāo)檢測和實例分割,我們可以很容易地將MPDIoU作為度量和損失。擴展到非軸對齊的3D情況是留給未來的工作。
3.1 MPDIoU邊界框回?fù)p失函數(shù)
在訓(xùn)練階段,模型預(yù)測的每個邊界框Bprd=[xprd, yprd, wprd,hprd]TBprd=[xprd, yprd, wprd,hprd]T
,通過最小化損失函數(shù),迫使其逼近其真實邊界框Bgt=[xgt, ygt, wgt,hgt]T
:
其中Bgt
為真實邊界框的集合,Θ
為深度回歸模型的參數(shù)。L
的典型形式是n-范數(shù),如均方誤差(MSE)損失和Smooth-l1
損失[43],在目標(biāo)檢測中被廣泛采用[44];行人檢測[45,46];場景文本識別[34,47];三維目標(biāo)檢測[48,49];姿態(tài)估計[50,51];以及實例分割[52,26]。然而,最近的研究表明,基于n-范數(shù)的損失函數(shù)與評價度量即IoU(interaction over union)不一致,而是提出了基于IoU的損失函數(shù)[53,37,39]。根據(jù)上一節(jié)MPDIoU的定義,我們定義基于MPDIoU的損失函數(shù)如下:
因此,現(xiàn)有的邊界框回歸損失函數(shù)的所有因子都可以由四個點坐標(biāo)確定。換算公式如下:
其中|C|
表示覆蓋Bgt
和Bprd
的最小封閉矩形面積,(xcgt, ycgt)
和(xcprd, ycprd)
分別表示真實邊界框和預(yù)測邊界框中心點的坐標(biāo)。wgt
和hgt
表示真實邊界框的寬度和高度,wprd
和hprd
表示預(yù)測邊界框的寬度和高度。
由式(10)-式(12)可知,現(xiàn)有損失函數(shù)中考慮的所有因素,如不重疊面積、中心點距離、寬度和高度偏差等,均可由左上點和右下點的坐標(biāo)確定,說明我們提出的LMPDIoU
不僅考慮周到,而且簡化了計算過程。
根據(jù)定理3.1,如果預(yù)測邊界框和真實邊界框的寬高比相同,則在真實邊界框內(nèi)的預(yù)測邊界框的LMPDIoU
值低于在真實邊界框外的預(yù)測框。這一特性保證了邊界框回歸的準(zhǔn)確性,使得預(yù)測的邊界框具有較少的冗余性。
圖3:我們提出的LMPDIoU
的參數(shù)
圖4:具有相同長寬比但不同寬度和高度的預(yù)測邊界框和真實邊界框示例,其中k>1, k∈R
,其中綠色框為真實邊界框,紅色框為預(yù)測框
定理3.1.我們定義一個真實邊界框為Bgt
,兩個預(yù)測邊界框為Bprd1
和Bprd2
。輸入圖像的寬度和高度分別為w和h。假設(shè)Bgt
, Bprd1
和Bprd2
的左上和右下坐標(biāo)分別為(x1gt,y1gt,x2gt, y2gt)
,(x1prd1,y1prd1, x2prd1, y2prd1)
和(x1prd2,y1prd2, x2prd2, y2prd2)
,則Bgt
, Bprd1
和Bprd2
的寬度和高度可以表示為(wgt=y2gt-y1gt,wgt=x2gt-x1gt)
和(wprd1=y2prd1-y1prd1,wprd=y2prd1-y1prd1
和(wprd2=y2prd2-y1prd2,wprd=y2prd2-y1prd2)
。若wprd1=k*wgt,hprd1=k*hgt
,則wprd2=1k*wgt,hprd2=1k*wgt
,其中k>1
和k∈N*
。
Bgt
,Bprd1
和Bprd2
的中心點都是重疊的。則GIoU(Bgt, Bprd1)=GIoU(Bgt, Bprd2)
,DIoU(Bgt, Bprd1)=DIoU(Bgt, Bprd2)
,CIoU(Bgt, Bprd1)=CIoU(Bgt, Bprd2)
,EIoU(Bgt, Bprd1)=EIoU(Bgt, Bprd2)
,但MPDIoUBgt,Bprd1>MPDIoUBgt, Bprd2
。
考慮真實邊界框,Bgt是一個面積大于零的矩形,即Agt>0
. Alg. 2(1)和Alg. 2(6) 中的條件分別保證了預(yù)測區(qū)域Aprd
和交集區(qū)域I
是非負(fù)值,即Aprd≥0
和I≥0
,?Bprd∈R4
。因此聯(lián)合區(qū)域μ>0
;對于任何預(yù)測邊界框Bprd=x1prd,y1prd,x2prd,y2prd∈R4
。這確保了IoU中的分母對于任何預(yù)測值的輸出都不會為零。此外,對于Bprd=x1prd,y1prd,x2prd,y2prd∈R4
的任意值,其并集面積總是大于交集面積,即μ≥I
。因此,LMPDIoU
總是有界的,即0≤LMPDIoU≤3,?Bprd∈R4
。
當(dāng)IoU=0
時LMPDIoU
的情況:對于MPDIoU
損失,我們有LMPDIoU=1-MPDIoU=1+d12d2+d22d2-IoU
。當(dāng)Bgt
與Bprd
不重疊,即IoU=0
時,MPDIoU損失可簡化為LMPDIoU=1-MPDIoU=1+d12d2+d22d2
。在這種情況下,通過最小化LMPDIoU
,我們實際上最小化了d12d2+d22d2
。這一項是0到1之間的歸一化測度,即0≤d12d2+d22d2≤2
。
4.實驗結(jié)果
我們通過將新的邊界框回歸損失LMPDIoU入最流行的2D目標(biāo)檢測器和實例分割模型(如YOLO v7[6]和YOLACT[26])來評估我們的邊界框回歸損失LMPDIoU。為此,我們用LMPDIoU
替換它們的默認(rèn)回歸損失,即我們替換了YOLACT[26]中的l1-smooth
和YOLO v7[6]中的LCIoU
。我們還將基準(zhǔn)損失與LGIoU
進行了比較。
?4.1 實驗設(shè)置
實驗環(huán)境可以概括為:內(nèi)存為32GB,操作系統(tǒng)為windows 11, CPU為Intel i9-12900k,顯卡為NVIDIA Geforce RTX 3090,內(nèi)存為24GB。為了進行公平的比較,所有的實驗都是用PyTorch實現(xiàn)的[54]。
?4.2 數(shù)據(jù)集
我們訓(xùn)練了所有目標(biāo)檢測和實例分割基線,并報告了兩個標(biāo)準(zhǔn)基準(zhǔn)測試的所有結(jié)果,即PASCAL VOC[10]和Microsoft Common Objects in Context (MS COCO 2017)[11]挑戰(zhàn)。他們的培訓(xùn)方案和評估的細節(jié)將在各自的章節(jié)中解釋。
PASCAL VOC 2007&2012: PASCAL Visual Object Classes (VOC)[10]基準(zhǔn)是用于分類、目標(biāo)檢測和語義分割的最廣泛的數(shù)據(jù)集之一,它包含了大約9963張圖像。訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集各占50%,其中來自20個預(yù)定義類別的目標(biāo)用水平邊界框進行標(biāo)注。由于用于實例分割的圖像規(guī)模較小,導(dǎo)致性能較弱,我們只使用MS COCO 2017進行實例分割結(jié)果訓(xùn)練。
MS COCO: MS COCO[11]是一個廣泛使用的圖像字幕、目標(biāo)檢測和實例分割的基準(zhǔn),它包含了來自80個類別的超過50萬個帶標(biāo)注目標(biāo)實例的訓(xùn)練、驗證和測試集的20多萬張圖像。
IIIT5k: IIIT5k[12]是一種流行的帶有字符級注釋的場景文本識別基準(zhǔn),它包含了從互聯(lián)網(wǎng)上收集的5000個裁剪過的單詞圖像。字符類別包括英文字母和數(shù)字。有2000張圖像用于訓(xùn)練,3000張圖像用于測試。
MTHv2: MTHv2[13]是一種流行的帶有字符級標(biāo)注的OCR基準(zhǔn)。漢字種類包括簡體字和繁體字。它包含了3000多幅中國歷史文獻圖像和100多萬漢字。?4.3評價指標(biāo)
在本文中,我們使用了與MS COCO 2018 Challenge[11]相同的性能指標(biāo)來衡量我們的所有結(jié)果,包括針對特定IoU閾值的不同類別標(biāo)簽的平均平均精度(mAP),以確定真陽性和假陽性。我們實驗中使用的目標(biāo)檢測的主要性能指標(biāo)是精度和mAP@0.5:0.95。我們報告IoU閾值的mAP值為0.75,如表中AP75所示。對于實例分割,我們實驗中使用的主要性能度量是AP和AR,它是在不同的IoU閾值上平均mAP和mAR,即IoU ={.5,.55,…, .95}
。
所有的目標(biāo)檢測和實例分割基線也使用MS COCO 2017和PASCAL VOC 2007&2012的測試集進行了評估。結(jié)果將在下一節(jié)中顯示。
4.4 目標(biāo)檢測實驗結(jié)果
訓(xùn)練策略。我們使用了由[6]發(fā)布的YOLO v7的原始Darknet實現(xiàn)。對基準(zhǔn)結(jié)果(使用GIoU loss進行訓(xùn)練),我們在所有實驗中選擇DarkNet-608作為主干,并使用報告的默認(rèn)參數(shù)和每個基準(zhǔn)的迭代次數(shù)嚴(yán)格遵循其訓(xùn)練策略。為了使用GIoU, DIoU, CIoU, EIoU和MPDIoU損失來訓(xùn)練YOLO v7,我們只需將邊界框回歸IoU損失替換為2中解釋的LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失。
圖5:MS COCO 2017[11]和PASCAL VOC 2007[10]測試集的目標(biāo)檢測結(jié)果,使用(從左至右)LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失訓(xùn)練的YOLO v7[6]
表1:使用自身損失LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失訓(xùn)練的YOLO v7[6]的性能比較。結(jié)果報告在PASCAL VOC 2007&2012的測試集上
圖6:使用LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失在PASCAL VOC 2007和2012[10]上訓(xùn)練YOLO v7[6]時的bbox損失和AP值。
按照原始代碼的訓(xùn)練方法,我們在數(shù)據(jù)集的訓(xùn)練集和驗證集上使用每個損失訓(xùn)練YOLOv7[6],最多可達150 epoch。我們將早停機制的patience設(shè)置為5,以減少訓(xùn)練時間,保存性能最好的模型。在PASCAL VOC 2007&2012的測試集上對每個損失使用最佳檢查點的性能進行了評估。結(jié)果見表1。
4.5 字符級場景文本識別的實驗結(jié)果
訓(xùn)練方法。我們在目標(biāo)檢測實驗中使用了類似的訓(xùn)練方案。按照原始代碼的訓(xùn)練協(xié)議,我們在數(shù)據(jù)集的訓(xùn)練集和驗證集上使用每個損失訓(xùn)練YOLOv7[6],最多30個epoch。
使用IIIT5K[12]和MTHv2[55]的測試集對每次損失使用最佳檢查點的性能進行了評估。結(jié)果見表2和表3。
圖7:使用(從左至右) LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失訓(xùn)練的YOLOv7[6]對IIIT5K[12]測試集的字符級場景文本識別結(jié)果。
表2:使用自身損失LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失訓(xùn)練的YOLO v7[6]的性能比較。結(jié)果報告在IIIT5K測試集上。
表3:使用自身損失LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失訓(xùn)練的YOLO v7[6]的性能比較。在MTHv2測試集上報告了結(jié)果
從表2和表3的結(jié)果可以看出,與現(xiàn)有的LGIoU
, LDIoU
, LCIoU
, LEIoU
等回歸損失相比,使用LMPDIoU
作為回歸損失訓(xùn)練YOLO v7可以顯著提高其性能。我們提出的LMPDIoU
在字符級場景文本識別方面表現(xiàn)出色。
4.6 實例分割的實驗結(jié)果
訓(xùn)練方法。我們使用了最新的PyTorch實現(xiàn)的YOLACT[26],由加州大學(xué)發(fā)布。對于基準(zhǔn)結(jié)果(使用LGIoU訓(xùn)練),我們在所有實驗中選擇ResNet-50作為兩個YOLACT的骨干網(wǎng)絡(luò)架構(gòu),并使用報告的默認(rèn)參數(shù)和每個基準(zhǔn)的迭代次數(shù)遵循其訓(xùn)練協(xié)議。為了使用GIoU, DIoU, CIoU, EIoU和MPDIoU損失來訓(xùn)練YOLACT,我們用2中解釋的LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失替換了它們在最后邊界框細化階段的?1-smooth。與YOLO v7實驗類似,我們用我們提出的LMPDIoU
替換了邊界框回歸的原始損失函數(shù)。
如圖8(c)所示,將LGIoU
, LDIoU
, LCIoU
, LEIoU
作為回歸損失,可以略微提高YOLACT在MS COCO 2017上的性能。然而,與使用LMPDIoU
進行訓(xùn)練的情況相比,改進是明顯的,在LMPDIoU
中,我們針對不同的IoU閾值可視化了不同的掩膜AP值,即0.5≤IoU≤0.95。
與上述實驗類似,使用LMPDIoU
作為對現(xiàn)有損失函數(shù)的回歸損失,可以提高檢測精度。如表4所示,我們提出的LMPDIoU
在大多數(shù)指標(biāo)上比現(xiàn)有的損失函數(shù)表現(xiàn)得更好。然而,不同損失之間的改進量比以前的實驗要少。這可能是由幾個因素造成的。首先,YOLACT[26]上的檢測錨框比YOLO v7[6]更密集,導(dǎo)致LMPDIoU
優(yōu)于LIoU的場景更少,例如不重疊的邊界框。其次,現(xiàn)有的邊界框回歸的損失函數(shù)在過去的幾年里得到了改進,這意味著精度的提高是非常有限的,但效率的提高還有很大的空間。
圖8:在MS COCO 2017[11]上使用LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失以及不同IoU閾值下的掩模AP值對YOLACT[26]進行訓(xùn)練迭代時的bbox loss和box AP值
圖9:MS COCO 2017[11]和PASCAL VOC 2007[10]測試集的實例分割結(jié)果,使用(從左至右) LGIoU
, LDIoU
, LCIoU
, LEIoU
和LMPDIoU
損失訓(xùn)練的YOLACT[26]。
我們還比較了不同回歸損失函數(shù)下YOLACT訓(xùn)練期間邊界框損失和AP值的變化趨勢。如圖8(a)、(b)所示,使用LMPDIoU
進行訓(xùn)練的效果優(yōu)于大多數(shù)現(xiàn)有的損失函數(shù)LGIoU
、LDIoU
,準(zhǔn)確率更高,收斂速度更快。雖然邊界框loss和AP值波動較大,但我們提出的LMPDIoU
在訓(xùn)練結(jié)束時表現(xiàn)更好。為了更好地揭示不同損失函數(shù)在實例分割邊界框回歸中的性能,我們提供了一些可視化結(jié)果,如圖5和圖9所示。我們可以看到,與LGIoU
, LDIoU
, LCIoU
, LEIoU
相比,我們基于LMPDIoU
提供了更少冗余和更高精度的實例分割結(jié)果。
表4:YOLACT的實例分割結(jié)果[26]。我們使用LGIoU
, LDIoU
, LCIoU
, LEIoU
對模型進行再訓(xùn)練,并將結(jié)果報告在MS COCO 2017的測試集上[11]。記錄訓(xùn)練期間的FPS和時間
5.結(jié)論
本文引入了一種基于最小點距的MPDIoU度量,用于比較任意兩個邊界框。我們證明了這個新指標(biāo)具有現(xiàn)有基于IoU的指標(biāo)所具有的所有吸引人的屬性,同時簡化了其計算。在2D/3D視覺任務(wù)的所有性能測量中,這將是一個更好的選擇。
我們還提出了一個稱為LMPDIoU
的損失函數(shù)用于邊界框回歸。我們使用常用的性能度量和我們提出的MPDIoU將其應(yīng)用于最先進的目標(biāo)檢測和實例分割算法,從而提高了它們在流行的目標(biāo)檢測、場景文本識別和實例分割基準(zhǔn)(如PASCAL VOC、MS COCO、MTHv2和IIIT5K)上的性能。由于度量的最優(yōu)損失是度量本身,我們的MPDIoU損失可以用作所有需要2D邊界框回歸的應(yīng)用程序的最優(yōu)邊界框回歸損失。文章來源:http://www.zghlxwxcb.cn/news/detail-695519.html
對于未來的工作,我們希望在一些基于目標(biāo)檢測和實例分割的下游任務(wù)上進行進一步的實驗,包括場景文本識別、人物再識別等。通過以上實驗,我們可以進一步驗證我們提出的損失函數(shù)的泛化能力。文章來源地址http://www.zghlxwxcb.cn/news/detail-695519.html
到了這里,關(guān)于MPDIoU: A Loss for Efficient and Accurate Bounding BoxRegression的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!