MPDIoU: A Loss for Efficient and Accurate Bounding BoxRegression

這篇具有很好參考價值的文章主要介紹了MPDIoU: A Loss for Efficient and Accurate Bounding BoxRegression。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

MPDIoU: A Loss for Efficient and Accurate Bounding Box
Regression

MPDIoU:一個有效和準(zhǔn)確的邊界框損失回歸函數(shù)

摘要

邊界框回歸(Bounding box regression, BBR)廣泛應(yīng)用于目標(biāo)檢測和實例分割，是目標(biāo)定位的重要步驟。然而，當(dāng)預(yù)測框與邊界框具有相同的縱橫比，但寬度和高度值完全不同時，大多數(shù)現(xiàn)有的邊界框回歸損失函數(shù)都無法優(yōu)化。為了解決上述問題，我們充分挖掘水平矩形的幾何特征，提出了一種新的基于最小點距離的邊界框相似性比較指標(biāo)MPDIoU，該指標(biāo)包含了現(xiàn)有損失函數(shù)中考慮的所有相關(guān)因素，即重疊或不重疊區(qū)域、中心點距離、寬度和高度偏差，同時簡化了計算過程。在此基礎(chǔ)上，我們提出了基于MPDIoU的邊界框回歸損失函數(shù)，稱為LMPDIoU。實驗結(jié)果表明，MPDIoU損失函數(shù)應(yīng)用于最先進的實例分割(如YOLACT)和基于PASCAL VOC、MS COCO和IIIT5k訓(xùn)練的目標(biāo)檢測(如YOLOv7)模型，其性能優(yōu)于現(xiàn)有的損失函數(shù)。

關(guān)鍵詞:目標(biāo)檢測，實例分割，邊界框回歸，損失函數(shù)

?1.介紹

目標(biāo)檢測和實例分割是計算機視覺中的兩個重要問題，近年來引起了研究者的廣泛關(guān)注。大多數(shù)最先進的目標(biāo)檢測器(如YOLO系列[1,2,3,4,5,6]，Mask R-CNN [7]，Dynamic R-CNN[8]和DETR[9])依賴于邊界框回歸(BBR)模塊來確定目標(biāo)的位置。在此基礎(chǔ)上，設(shè)計良好的損失函數(shù)對BBR的成功至關(guān)重要。目前，大多數(shù)BBR的損失函數(shù)可分為兩類:基于n范數(shù)的損失函數(shù)和基于IoU的損失函數(shù)。

然而，現(xiàn)有的邊界框回歸的損失函數(shù)在不同的預(yù)測結(jié)果下具有相同的值，這降低了邊界框回歸的收斂速度和精度。因此，考慮到現(xiàn)有邊界框回歸損失函數(shù)的優(yōu)缺點，受水平矩形幾何特征的啟發(fā)，我們嘗試設(shè)計一種新的基于最小點距離的邊界框回歸損失函數(shù)LMPDIoU，并將MPDIoU作為邊界框回歸過程中比較預(yù)測邊界框與真值邊界框相似度的新標(biāo)準(zhǔn)。我們還提供了一個易于實現(xiàn)的解決方案來計算兩個軸線對齊的矩形之間的MPDIoU，允許它被用作最先進的對象檢測和實例分割算法的評估指標(biāo)，我們在一些主流的對象檢測、場景文本識別和實例分割數(shù)據(jù)集(如PASCAL VOC[10]、MS COCO[11]、IIIT5k[12]和MTHv2[13])上進行了測試，以驗證我們提出的MPDIoU的性能。

本文的貢獻可以概括為以下幾點:

1.我們考慮了現(xiàn)有基于IoU的損失和n范數(shù)損失的優(yōu)缺點，提出了一種基于最小點距離的IoU損失，稱為LMPDIoU，以解決現(xiàn)有損失的問題，并獲得更快的收斂速度和更準(zhǔn)確的回歸結(jié)果。

2.在目標(biāo)檢測、字符級場景文本識別和實例分割任務(wù)上進行了大量的實驗。出色的實驗結(jié)果驗證了所提出的MPDIoU損失函數(shù)的優(yōu)越性。詳細的消融研究顯示了不同設(shè)置的損失函數(shù)和參數(shù)值的影響。

2.相關(guān)工作

2.1.目標(biāo)檢測和實例分割

? ? ? 在過去的幾年里，來自不同國家和地區(qū)的研究人員提出了大量基于深度學(xué)習(xí)的目標(biāo)檢測和實例分割方法。綜上所述，在許多具有代表性的目標(biāo)檢測和實例分割框架中，邊界框回歸已經(jīng)被作為一個基本組成部分[14]。在目標(biāo)檢測的深度模型中，R-CNN系列[15]、[16]、[17]采用兩個或三個邊界框回歸模塊來獲得更高的定位精度，而YOLO系列[2、3、6]和SSD系列[18、19、20]采用一個邊界框回歸模塊來實現(xiàn)更快的推理。RepPoints[21]預(yù)測幾個點來定義一個矩形框。FCOS[22]通過預(yù)測采樣點到邊界框的上、下、左、右的歐氏距離來定位目標(biāo)。

對于實例分割，PolarMask[23]在n個方向上預(yù)測從采樣點到物體邊緣的n條射線的長度來分割一個實例。還有一些檢測器，如RRPN[24]和R2CNN[25]，通過旋轉(zhuǎn)角度回歸來檢測任意方向的物體，用于遙感檢測和場景文本檢測。Mask R-CNN[7]在Faster R-CNN[15]上增加了一個額外的實例掩碼分支，而最近最先進的YOLACT[26]在RetinaNet[27]上做了同樣的事情。綜上所述，邊界框回歸是用于目標(biāo)檢測和實例分割的最先進深度模型的關(guān)鍵組成部分。

2.2.場景文本識別

? ? ? ? 為了解決任意形狀的場景文本檢測和識別問題，ABCNet[28]及其改進版本ABCNet v2[29]使用BezierAlign將任意形狀的文本轉(zhuǎn)換為規(guī)則文本。這些方法通過糾錯模塊將檢測和識別統(tǒng)一為端到端的可訓(xùn)練系統(tǒng)，取得了很大的進步。[30]提出了RoI Masking來提取任意形狀文本識別的特征。與[30,31]類似，嘗試使用更快的檢測器進行場景文本檢測。AE TextSpotter[32]利用識別結(jié)果通過語言模型指導(dǎo)檢測。受[33]的啟發(fā)，[34]提出了一種基于transformer的場景文本識別方法，該方法提供了實例級文本分割結(jié)果。

2.3.邊界框回歸的損失函數(shù)

? ? ? 一開始，在邊界框回歸中廣泛使用的是n范數(shù)損失函數(shù)，它非常簡單，但對各種尺度都很敏感。在YOLO v1[35]中，采用平方根w和h來緩解這種影響，而YOLO v3[2]使用2?wh。為了更好地計算真實邊界框與預(yù)測邊界框之間的差異，從Unitbox開始使用IoU loss[36]。為了保證訓(xùn)練的穩(wěn)定性，Bounded-IoU loss[37]引入了IoU的上界。對于訓(xùn)練對象檢測和實例分割的深度模型，基于IoU的度量被認(rèn)為比?n范式更一致[38,37,39]。原始IoU表示預(yù)測邊界框與真實邊界框的相交面積和并集面積之比(如圖1(a)所示)，可表示為:

圖1:現(xiàn)有邊界盒回歸指標(biāo)的計算因子包括GIoU、DIoU、CIoU和EIoU

式中，Bgt為真實邊界框，Bprd為預(yù)測邊界框。我們可以看到，原來的IoU只計算兩個邊界框的并集面積，無法區(qū)分兩個邊界框不重疊的情況。如式1所示，如果|Bgt∩Bprd|=0，則IoU(Bgt, Bprd)=0。在這種情況下，IoU不能反映兩個框是彼此靠近還是彼此很遠。于是，提出了GIoU[39]來解決這一問題。GIoU可以表示為：

其中，C為覆蓋Bgt和Bprd的最小方框(如圖1(a)中黑色虛線框所示)，|C|為方框C的面積。由于在GIoU損失中引入了懲罰項，在不重疊的情況下，預(yù)測方框會向目標(biāo)方框移動。GIoU損失已被應(yīng)用于訓(xùn)練最先進的目標(biāo)檢測器，如YOLO v3和Faster R-CNN，并取得了比MSE損失和IoU損失更好的性能。但是，當(dāng)預(yù)測邊界框完全被真實邊界框覆蓋時，GIoU將失去有效性。為了解決這一問題，提出了DIoU[40]，考慮了預(yù)測邊界框與真實邊界框之間的質(zhì)心點距離。DIoU的公式可以表示為:

其中ρ2(Bgt, Bprd)為預(yù)測邊界框中心點與真實邊界框中心點之間的歐氏距離(如圖1(b)中紅色虛線所示)。C2表示最小的封閉矩形的對角線長度(如圖1(b)中所示的黑色虛線)。我們可以看到，LDIoU的目標(biāo)直接最小化了預(yù)測邊界框中心點與真實邊界框中心點之間的距離。但是，當(dāng)預(yù)測邊界框的中心點與真實邊界框的中心點重合時，會退化為原始IoU。為了解決這一問題，提出了同時考慮中心點距離和縱橫比的CIoU。CIoU的公式可以寫成如下:

但是，從CIoU中定義的縱橫比是相對值，而不是絕對值。針對這一問題，在DIoU的基礎(chǔ)上提出了EIoU[41]，其定義如下:

然而，如圖2所示，當(dāng)預(yù)測的邊界框和真實邊界框具有相同的寬高比，但寬度和高度值不同時，上述用于邊界框回歸的損失函數(shù)將失去有效性，這將限制收斂速度和精度。因此，考慮到LGIoU[39]、LDIoU[40]、LCIoU[42]、LEIoU[41]所具有的優(yōu)點，我們嘗試設(shè)計一種新的損失函數(shù)LMPDIoU用于邊界框回歸，同時具有更高的邊界框回歸效率和精度。

然而，邊界框回歸的幾何性質(zhì)在現(xiàn)有的損失函數(shù)中并沒有得到充分的利用。因此，我們提出了MPDIoU損失，通過最小化預(yù)測邊界框和真實邊界框之間的左上和右下點距離，以更好地訓(xùn)練目標(biāo)檢測、字符級場景文本識別和實例分割的深度模型。

圖2:具有不同邊界框回歸結(jié)果的兩種情況。綠框表示真實邊界框，紅框表示預(yù)測邊界框。LGIoU、LDIoU、LCIoU這兩種情況的LMPDIoU值完全相同，但它們的LMPDIoU

3.點距最小的并集交點

在分析了上述基于IoU的損失函數(shù)的優(yōu)缺點后，我們開始思考如何提高邊界框回歸的精度和效率。一般來說，我們使用左上角和右下角點的坐標(biāo)來定義一個唯一的矩形。受邊界框幾何特性的啟發(fā)，我們設(shè)計了一種新的基于IoU的度量，稱為MPDIoU，直接最小化預(yù)測邊界框與真實邊界框之間的左上和右下點距離。算法1總結(jié)了MPDIoU的計算。

綜上所述，我們提出的MPDIoU簡化了兩個邊界框之間的相似性比較，可以適應(yīng)重疊或非重疊的邊界框回歸。因此，在2D/3D計算機視覺任務(wù)中使用的所有性能測量中，MPDIoU可以作為IoU的適當(dāng)替代品。在本文中，我們只關(guān)注二維目標(biāo)檢測和實例分割，我們可以很容易地將MPDIoU作為度量和損失。擴展到非軸對齊的3D情況是留給未來的工作。

3.1 MPDIoU邊界框回?fù)p失函數(shù)

在訓(xùn)練階段，模型預(yù)測的每個邊界框Bprd=[xprd, yprd, wprd,hprd]TBprd=[xprd, yprd, wprd,hprd]T，通過最小化損失函數(shù)，迫使其逼近其真實邊界框Bgt=[xgt, ygt, wgt,hgt]T：

其中Bgt為真實邊界框的集合，Θ為深度回歸模型的參數(shù)。L的典型形式是n-范數(shù)，如均方誤差(MSE)損失和Smooth-l1損失[43]，在目標(biāo)檢測中被廣泛采用[44];行人檢測[45,46];場景文本識別[34,47];三維目標(biāo)檢測[48,49];姿態(tài)估計[50,51];以及實例分割[52,26]。然而，最近的研究表明，基于n-范數(shù)的損失函數(shù)與評價度量即IoU(interaction over union)不一致，而是提出了基于IoU的損失函數(shù)[53,37,39]。根據(jù)上一節(jié)MPDIoU的定義，我們定義基于MPDIoU的損失函數(shù)如下:

因此，現(xiàn)有的邊界框回歸損失函數(shù)的所有因子都可以由四個點坐標(biāo)確定。換算公式如下:

其中|C|表示覆蓋Bgt和Bprd的最小封閉矩形面積，(xcgt, ycgt)和(xcprd, ycprd)分別表示真實邊界框和預(yù)測邊界框中心點的坐標(biāo)。wgt和hgt表示真實邊界框的寬度和高度，wprd和hprd表示預(yù)測邊界框的寬度和高度。

由式(10)-式(12)可知，現(xiàn)有損失函數(shù)中考慮的所有因素，如不重疊面積、中心點距離、寬度和高度偏差等，均可由左上點和右下點的坐標(biāo)確定，說明我們提出的LMPDIoU不僅考慮周到，而且簡化了計算過程。

根據(jù)定理3.1，如果預(yù)測邊界框和真實邊界框的寬高比相同，則在真實邊界框內(nèi)的預(yù)測邊界框的LMPDIoU值低于在真實邊界框外的預(yù)測框。這一特性保證了邊界框回歸的準(zhǔn)確性，使得預(yù)測的邊界框具有較少的冗余性。

圖3:我們提出的LMPDIoU的參數(shù)

圖4:具有相同長寬比但不同寬度和高度的預(yù)測邊界框和真實邊界框示例，其中k>1, k∈R，其中綠色框為真實邊界框，紅色框為預(yù)測框

定理3.1.我們定義一個真實邊界框為Bgt，兩個預(yù)測邊界框為Bprd1和Bprd2。輸入圖像的寬度和高度分別為w和h。假設(shè)Bgt, Bprd1和Bprd2的左上和右下坐標(biāo)分別為(x1gt,y1gt,x2gt, y2gt)，(x1prd1,y1prd1, x2prd1, y2prd1)和(x1prd2,y1prd2, x2prd2, y2prd2)，則Bgt, Bprd1和Bprd2的寬度和高度可以表示為(wgt=y2gt-y1gt,wgt=x2gt-x1gt)和(wprd1=y2prd1-y1prd1,wprd=y2prd1-y1prd1和(wprd2=y2prd2-y1prd2,wprd=y2prd2-y1prd2)。若wprd1=k*wgt,hprd1=k*hgt，則wprd2=1k*wgt,hprd2=1k*wgt，其中k>1和k∈N*。

Bgt,Bprd1和Bprd2的中心點都是重疊的。則GIoU(Bgt, Bprd1)=GIoU(Bgt, Bprd2)，DIoU(Bgt, Bprd1)=DIoU(Bgt, Bprd2)，CIoU(Bgt, Bprd1)=CIoU(Bgt, Bprd2)，EIoU(Bgt, Bprd1)=EIoU(Bgt, Bprd2)，但MPDIoUBgt,Bprd1>MPDIoUBgt, Bprd2。

考慮真實邊界框，Bgt是一個面積大于零的矩形，即Agt>0. Alg. 2(1)和Alg. 2(6) 中的條件分別保證了預(yù)測區(qū)域Aprd和交集區(qū)域I是非負(fù)值，即Aprd≥0和I≥0，?Bprd∈R4。因此聯(lián)合區(qū)域μ>0;對于任何預(yù)測邊界框Bprd=x1prd,y1prd,x2prd,y2prd∈R4。這確保了IoU中的分母對于任何預(yù)測值的輸出都不會為零。此外，對于Bprd=x1prd,y1prd,x2prd,y2prd∈R4的任意值，其并集面積總是大于交集面積，即μ≥I。因此，LMPDIoU總是有界的，即0≤LMPDIoU≤3,?Bprd∈R4。

當(dāng)IoU=0時LMPDIoU的情況:對于MPDIoU損失，我們有LMPDIoU=1-MPDIoU=1+d12d2+d22d2-IoU。當(dāng)Bgt與Bprd不重疊，即IoU=0時，MPDIoU損失可簡化為LMPDIoU=1-MPDIoU=1+d12d2+d22d2。在這種情況下，通過最小化LMPDIoU，我們實際上最小化了d12d2+d22d2。這一項是0到1之間的歸一化測度，即0≤d12d2+d22d2≤2。

4.實驗結(jié)果

我們通過將新的邊界框回歸損失LMPDIoU入最流行的2D目標(biāo)檢測器和實例分割模型(如YOLO v7[6]和YOLACT[26])來評估我們的邊界框回歸損失LMPDIoU。為此，我們用LMPDIoU替換它們的默認(rèn)回歸損失，即我們替換了YOLACT[26]中的l1-smooth和YOLO v7[6]中的LCIoU。我們還將基準(zhǔn)損失與LGIoU進行了比較。
?

4.1 實驗設(shè)置

實驗環(huán)境可以概括為:內(nèi)存為32GB，操作系統(tǒng)為windows 11, CPU為Intel i9-12900k，顯卡為NVIDIA Geforce RTX 3090，內(nèi)存為24GB。為了進行公平的比較，所有的實驗都是用PyTorch實現(xiàn)的[54]。

?4.2 數(shù)據(jù)集

我們訓(xùn)練了所有目標(biāo)檢測和實例分割基線，并報告了兩個標(biāo)準(zhǔn)基準(zhǔn)測試的所有結(jié)果，即PASCAL VOC[10]和Microsoft Common Objects in Context (MS COCO 2017)[11]挑戰(zhàn)。他們的培訓(xùn)方案和評估的細節(jié)將在各自的章節(jié)中解釋。
PASCAL VOC 2007&2012: PASCAL Visual Object Classes (VOC)[10]基準(zhǔn)是用于分類、目標(biāo)檢測和語義分割的最廣泛的數(shù)據(jù)集之一，它包含了大約9963張圖像。訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集各占50%，其中來自20個預(yù)定義類別的目標(biāo)用水平邊界框進行標(biāo)注。由于用于實例分割的圖像規(guī)模較小，導(dǎo)致性能較弱，我們只使用MS COCO 2017進行實例分割結(jié)果訓(xùn)練。
MS COCO: MS COCO[11]是一個廣泛使用的圖像字幕、目標(biāo)檢測和實例分割的基準(zhǔn)，它包含了來自80個類別的超過50萬個帶標(biāo)注目標(biāo)實例的訓(xùn)練、驗證和測試集的20多萬張圖像。
IIIT5k: IIIT5k[12]是一種流行的帶有字符級注釋的場景文本識別基準(zhǔn)，它包含了從互聯(lián)網(wǎng)上收集的5000個裁剪過的單詞圖像。字符類別包括英文字母和數(shù)字。有2000張圖像用于訓(xùn)練，3000張圖像用于測試。
MTHv2: MTHv2[13]是一種流行的帶有字符級標(biāo)注的OCR基準(zhǔn)。漢字種類包括簡體字和繁體字。它包含了3000多幅中國歷史文獻圖像和100多萬漢字。

?4.3評價指標(biāo)

在本文中，我們使用了與MS COCO 2018 Challenge[11]相同的性能指標(biāo)來衡量我們的所有結(jié)果，包括針對特定IoU閾值的不同類別標(biāo)簽的平均平均精度(mAP)，以確定真陽性和假陽性。我們實驗中使用的目標(biāo)檢測的主要性能指標(biāo)是精度和mAP@0.5:0.95。我們報告IoU閾值的mAP值為0.75，如表中AP75所示。對于實例分割，我們實驗中使用的主要性能度量是AP和AR，它是在不同的IoU閾值上平均mAP和mAR，即IoU ={.5,.55,…, .95}。

所有的目標(biāo)檢測和實例分割基線也使用MS COCO 2017和PASCAL VOC 2007&2012的測試集進行了評估。結(jié)果將在下一節(jié)中顯示。

4.4 目標(biāo)檢測實驗結(jié)果

訓(xùn)練策略。我們使用了由[6]發(fā)布的YOLO v7的原始Darknet實現(xiàn)。對基準(zhǔn)結(jié)果(使用GIoU loss進行訓(xùn)練)，我們在所有實驗中選擇DarkNet-608作為主干，并使用報告的默認(rèn)參數(shù)和每個基準(zhǔn)的迭代次數(shù)嚴(yán)格遵循其訓(xùn)練策略。為了使用GIoU, DIoU, CIoU, EIoU和MPDIoU損失來訓(xùn)練YOLO v7，我們只需將邊界框回歸IoU損失替換為2中解釋的LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失。

圖5:MS COCO 2017[11]和PASCAL VOC 2007[10]測試集的目標(biāo)檢測結(jié)果，使用(從左至右)LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失訓(xùn)練的YOLO v7[6]

表1:使用自身損失LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失訓(xùn)練的YOLO v7[6]的性能比較。結(jié)果報告在PASCAL VOC 2007&2012的測試集上

圖6:使用LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失在PASCAL VOC 2007和2012[10]上訓(xùn)練YOLO v7[6]時的bbox損失和AP值。

按照原始代碼的訓(xùn)練方法，我們在數(shù)據(jù)集的訓(xùn)練集和驗證集上使用每個損失訓(xùn)練YOLOv7[6]，最多可達150 epoch。我們將早停機制的patience設(shè)置為5，以減少訓(xùn)練時間，保存性能最好的模型。在PASCAL VOC 2007&2012的測試集上對每個損失使用最佳檢查點的性能進行了評估。結(jié)果見表1。

4.5 字符級場景文本識別的實驗結(jié)果

訓(xùn)練方法。我們在目標(biāo)檢測實驗中使用了類似的訓(xùn)練方案。按照原始代碼的訓(xùn)練協(xié)議，我們在數(shù)據(jù)集的訓(xùn)練集和驗證集上使用每個損失訓(xùn)練YOLOv7[6]，最多30個epoch。

使用IIIT5K[12]和MTHv2[55]的測試集對每次損失使用最佳檢查點的性能進行了評估。結(jié)果見表2和表3。

圖7:使用(從左至右) LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失訓(xùn)練的YOLOv7[6]對IIIT5K[12]測試集的字符級場景文本識別結(jié)果。

表2:使用自身損失LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失訓(xùn)練的YOLO v7[6]的性能比較。結(jié)果報告在IIIT5K測試集上。

表3:使用自身損失LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失訓(xùn)練的YOLO v7[6]的性能比較。在MTHv2測試集上報告了結(jié)果從表2和表3的結(jié)果可以看出，與現(xiàn)有的LGIoU, LDIoU, LCIoU, LEIoU等回歸損失相比，使用LMPDIoU作為回歸損失訓(xùn)練YOLO v7可以顯著提高其性能。我們提出的LMPDIoU在字符級場景文本識別方面表現(xiàn)出色。

4.6 實例分割的實驗結(jié)果

訓(xùn)練方法。我們使用了最新的PyTorch實現(xiàn)的YOLACT[26]，由加州大學(xué)發(fā)布。對于基準(zhǔn)結(jié)果(使用LGIoU訓(xùn)練)，我們在所有實驗中選擇ResNet-50作為兩個YOLACT的骨干網(wǎng)絡(luò)架構(gòu)，并使用報告的默認(rèn)參數(shù)和每個基準(zhǔn)的迭代次數(shù)遵循其訓(xùn)練協(xié)議。為了使用GIoU, DIoU, CIoU, EIoU和MPDIoU損失來訓(xùn)練YOLACT，我們用2中解釋的LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失替換了它們在最后邊界框細化階段的?1-smooth。與YOLO v7實驗類似，我們用我們提出的LMPDIoU替換了邊界框回歸的原始損失函數(shù)。

如圖8(c)所示，將LGIoU, LDIoU, LCIoU, LEIoU作為回歸損失，可以略微提高YOLACT在MS COCO 2017上的性能。然而，與使用LMPDIoU進行訓(xùn)練的情況相比，改進是明顯的，在LMPDIoU中，我們針對不同的IoU閾值可視化了不同的掩膜AP值，即0.5≤IoU≤0.95。

與上述實驗類似，使用LMPDIoU作為對現(xiàn)有損失函數(shù)的回歸損失，可以提高檢測精度。如表4所示，我們提出的LMPDIoU在大多數(shù)指標(biāo)上比現(xiàn)有的損失函數(shù)表現(xiàn)得更好。然而，不同損失之間的改進量比以前的實驗要少。這可能是由幾個因素造成的。首先，YOLACT[26]上的檢測錨框比YOLO v7[6]更密集，導(dǎo)致LMPDIoU優(yōu)于LIoU的場景更少，例如不重疊的邊界框。其次，現(xiàn)有的邊界框回歸的損失函數(shù)在過去的幾年里得到了改進，這意味著精度的提高是非常有限的，但效率的提高還有很大的空間。

圖8:在MS COCO 2017[11]上使用LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失以及不同IoU閾值下的掩模AP值對YOLACT[26]進行訓(xùn)練迭代時的bbox loss和box AP值

圖9:MS COCO 2017[11]和PASCAL VOC 2007[10]測試集的實例分割結(jié)果，使用(從左至右) LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU損失訓(xùn)練的YOLACT[26]。

我們還比較了不同回歸損失函數(shù)下YOLACT訓(xùn)練期間邊界框損失和AP值的變化趨勢。如圖8(a)、(b)所示，使用LMPDIoU進行訓(xùn)練的效果優(yōu)于大多數(shù)現(xiàn)有的損失函數(shù)LGIoU、LDIoU，準(zhǔn)確率更高，收斂速度更快。雖然邊界框loss和AP值波動較大，但我們提出的LMPDIoU在訓(xùn)練結(jié)束時表現(xiàn)更好。為了更好地揭示不同損失函數(shù)在實例分割邊界框回歸中的性能，我們提供了一些可視化結(jié)果，如圖5和圖9所示。我們可以看到，與LGIoU, LDIoU, LCIoU, LEIoU相比，我們基于LMPDIoU提供了更少冗余和更高精度的實例分割結(jié)果。

表4:YOLACT的實例分割結(jié)果[26]。我們使用LGIoU, LDIoU, LCIoU, LEIoU對模型進行再訓(xùn)練，并將結(jié)果報告在MS COCO 2017的測試集上[11]。記錄訓(xùn)練期間的FPS和時間

5.結(jié)論

本文引入了一種基于最小點距的MPDIoU度量，用于比較任意兩個邊界框。我們證明了這個新指標(biāo)具有現(xiàn)有基于IoU的指標(biāo)所具有的所有吸引人的屬性，同時簡化了其計算。在2D/3D視覺任務(wù)的所有性能測量中，這將是一個更好的選擇。

我們還提出了一個稱為LMPDIoU的損失函數(shù)用于邊界框回歸。我們使用常用的性能度量和我們提出的MPDIoU將其應(yīng)用于最先進的目標(biāo)檢測和實例分割算法，從而提高了它們在流行的目標(biāo)檢測、場景文本識別和實例分割基準(zhǔn)(如PASCAL VOC、MS COCO、MTHv2和IIIT5K)上的性能。由于度量的最優(yōu)損失是度量本身，我們的MPDIoU損失可以用作所有需要2D邊界框回歸的應(yīng)用程序的最優(yōu)邊界框回歸損失。

對于未來的工作，我們希望在一些基于目標(biāo)檢測和實例分割的下游任務(wù)上進行進一步的實驗，包括場景文本識別、人物再識別等。通過以上實驗，我們可以進一步驗證我們提出的損失函數(shù)的泛化能力。文章來源地址http://www.zghlxwxcb.cn/news/detail-695519.html

到了這里，關(guān)于MPDIoU: A Loss for Efficient and Accurate Bounding BoxRegression的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！