国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

這篇具有很好參考價(jià)值的文章主要介紹了論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文精讀

摘要(Abstract)

單目三維目標(biāo)檢測(cè)具有成本低的優(yōu)點(diǎn),是自動(dòng)駕駛的一項(xiàng)重要任務(wù)。 由于其固有的不適定特性,其主要表現(xiàn)為缺乏深度信息,因而比傳統(tǒng)的二維情形更具挑
戰(zhàn)性。 二維檢測(cè)的最新進(jìn)展為更好地解決這一問題提供了機(jī)會(huì)。 然而,使一個(gè)通用的自適應(yīng)二維探測(cè)器在這種三維任務(wù)中工作是不簡(jiǎn)單的。 本文以一個(gè)全卷積的單級(jí)檢測(cè)器為例,對(duì)該問題進(jìn)行了研究,并提出了一個(gè)通用框FCOS3D。 具體來說,我們首先將統(tǒng)一定義的7自由度三維目標(biāo)變換到圖像域,將它們解耦為二維和三維屬性。 然后,根據(jù)目標(biāo)的二維尺度將其分配到不同的特征層,并僅根據(jù)訓(xùn)練過程中指定的三維中心進(jìn)行分配。 再者, 在三維中心的基礎(chǔ)上,用二維高斯分布重新定義中心度,以擬合三維目標(biāo)公式。所有這些使得該框架簡(jiǎn)單而有效,擺脫了任何2D檢測(cè)或2D-3D關(guān)聯(lián)先驗(yàn)。 在NeurIPS 2020的Nuscenes 3D檢測(cè)中,我們的解決方案在所有的純視覺方法中排名第一。

論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

圖1: 2D檢測(cè)和單目3D對(duì)象檢測(cè)的說明。 給定輸入的RGB圖像,二維無錨檢測(cè)器需要預(yù)測(cè)從前景點(diǎn)到四個(gè)方框邊的距離。 相比之下,單目3D無錨檢測(cè)器需要預(yù)測(cè)轉(zhuǎn)換后的3D中心、3D大小和物體的方向。

1. 介紹(Introduction)

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)基本問題。 它的目的是識(shí)別圖像中感興趣的對(duì)象,并用相應(yīng)的二維約束檢測(cè)盒預(yù)測(cè)它們的類別。 隨著深度學(xué)習(xí)的快速進(jìn)展,二維物體檢測(cè)近年來得到了很好的探索。 Faster R-CNN[27]、RetinaNet[18]、FCOS[31]等各種模型顯著推動(dòng)了該領(lǐng)域的進(jìn)步,并有益于自動(dòng)駕駛等各種應(yīng)用。 然而,對(duì)于一個(gè)智能代理來說,二維信息不足以感知三維現(xiàn)實(shí)世界。 例如,當(dāng)自動(dòng)駕駛車輛需要在道路上平穩(wěn)、安全地行駛時(shí),它必須擁有周圍物體的精確三維信息,才能做出安全決策。 因此,三維目標(biāo)檢測(cè)在這些機(jī)器人應(yīng)用中變得越來越重要。 大多數(shù)最先進(jìn)的方法[39、14、29、32、41、42]依賴于激光雷達(dá)點(diǎn)云提供的精確3D信息,但在每輛車上安裝昂貴的激光雷達(dá)是一個(gè)沉重的負(fù)擔(dān)。 因此,單目三維目標(biāo)檢測(cè)作為一種簡(jiǎn)單、廉價(jià)的部署環(huán)境,成為當(dāng)今一個(gè)非常有意義的研究課題。

考慮到單目二維和三維目標(biāo)檢測(cè)具有相同的輸入而不同的輸出,單目三維目標(biāo)檢測(cè)的一個(gè)簡(jiǎn)單解決方案是遵循二維領(lǐng)域的做法,增加額外的分量來預(yù)測(cè)目標(biāo)的額外三維屬性。 以前的一些工作[30,20]繼續(xù)預(yù)測(cè)2D盒子,并進(jìn)一步在2D中心和感興趣的區(qū)域上回歸3D屬性。 其他[1,9,2]用對(duì)應(yīng)于每個(gè)2D錨點(diǎn)的3D先驗(yàn)值同時(shí)預(yù)測(cè)2D和3D盒。 另一種基于冗余3D信息[13,16]的方法流預(yù)測(cè)最終優(yōu)化結(jié)果的額外關(guān)鍵點(diǎn)。 總之,如何將三維目標(biāo)分配到具有二維對(duì)應(yīng)關(guān)系的二維域中,并對(duì)其進(jìn)行預(yù)測(cè)是一個(gè)基本的問題。

在本文中,我們采用了一種簡(jiǎn)單而有效的方法,使二維檢測(cè)器能夠預(yù)測(cè)三維定位。 我們首先將一般定義的7自由度三維位置投影到二維圖像上,得到投影的中心點(diǎn),相對(duì)于以前的二維中心,我們將其命名為三維中心。 通過這種投影,三維中心包含2.5D信息,即2D位置及其對(duì)應(yīng)的深度。 2D位置可以進(jìn)一步簡(jiǎn)化為圖像上某一點(diǎn)的2D偏移量,該偏移量作為唯一可以在不同特征級(jí)別之間歸一化的2D屬性,就像在2D檢測(cè)中一樣。 相比之下,深度、3D大小和方向被視為解耦后的3D屬性。 這樣,我們用基于中心的范式對(duì)三維目標(biāo)進(jìn)行變換,避免了任何必要的2D檢測(cè)或2D-3D對(duì)應(yīng)先驗(yàn)。

作為一個(gè)實(shí)際的實(shí)現(xiàn),我們將我們的方法建立在FCOS[31]上,這是一個(gè)簡(jiǎn)單的無錨的全卷積單級(jí)檢測(cè)器。 首先根據(jù)目標(biāo)的二維尺度將其分布到不同的特征層。 然后僅根據(jù)投影的三維中心來分配每個(gè)訓(xùn)練樣本的回歸目標(biāo)。 與用距離表示中心度的FCOS不同,我們用基于三維中心的二維高斯分布來表示三維中心度。 我們?cè)谝粋€(gè)流行的大規(guī)模數(shù)據(jù)集Nuscenes[3]上評(píng)估了我們的方法,并在沒有任何先驗(yàn)信息的情況下在該基準(zhǔn)的相機(jī)跟蹤中獲得了第一名。 而且,我們只需要少2倍的計(jì)算資源,就可以在一天內(nèi)訓(xùn)練一個(gè)性能與以前最好的開源方法CenterNet[38]相當(dāng)?shù)幕€模型,也比它快3倍。 兩者都表明我們的框架是簡(jiǎn)單和高效的。 詳細(xì)的消融研究顯示了每個(gè)組成部分的重要性。

2. 相關(guān)工作(Related Work)

  • 2D目標(biāo)檢測(cè)

二維目標(biāo)檢測(cè)隨著深度學(xué)習(xí)方法的突破,二維目標(biāo)檢測(cè)的研究取得了長(zhǎng)足的進(jìn)展。 根據(jù)初始猜測(cè)的基礎(chǔ),現(xiàn)代方法可分為基于錨點(diǎn)和無錨點(diǎn)兩大分支。 基于錨點(diǎn)的方法[10,27,19,26]受益于預(yù)定義的錨點(diǎn),因?yàn)榛貧w更加容易,同時(shí)有許多超參數(shù)要調(diào)優(yōu)。 相比之下,無錨點(diǎn)方法[12,25,31,15,38]不需要這些先前的設(shè)置,因此更加整潔,具有更好的通用性。 為了簡(jiǎn)單起見,考慮到FCOS對(duì)重疊地面實(shí)況的處理能力和尺度方差問題,本文采用了具有代表性的無錨檢測(cè)器FCOS作為基線。 從另一個(gè)角度看,單目三維檢測(cè)是與二維檢測(cè)密切相關(guān)的一項(xiàng)難度更大的任務(wù)。 但對(duì)二者的聯(lián)系和區(qū)別卻鮮有研究,這使得二者相互孤立,無法從彼此的進(jìn)步中獲益。 本文旨在以FCOS為例,進(jìn)一步在這兩個(gè)任務(wù)之間建立更緊密的聯(lián)系。

  • 單目3維目標(biāo)檢測(cè)

單目三維目標(biāo)檢測(cè)單目三維目標(biāo)檢測(cè)比傳統(tǒng)的二維目標(biāo)檢測(cè)復(fù)雜。 潛在的關(guān)鍵問題是輸入的二維數(shù)據(jù)模型和輸出的三維預(yù)測(cè)不一致。

涉及子網(wǎng)絡(luò)的方法 (Methods involving sub-networks)

第一批作品借助子網(wǎng)絡(luò)輔助三維檢測(cè)。 僅舉幾個(gè)例子,3DOP[4]和MLFusion[36]使用深度估計(jì)網(wǎng)絡(luò),而Deep3Dbox[21]使用2D物體探測(cè)器。 它們嚴(yán)重依賴子網(wǎng)絡(luò)的性能,甚至依賴外部數(shù)據(jù)和預(yù)先訓(xùn)練的模型,使得整個(gè)系統(tǒng)復(fù)雜且不便于訓(xùn)練。

轉(zhuǎn)換成3D表示 (Transform to 3D representations)

另一類方法將輸入的RGB圖像轉(zhuǎn)換為其他3D表示,如體素[28]和點(diǎn)云[35]。 最近的工作[37,23,34,24]遵循這一方法取得了很大進(jìn)展,并顯示出有希望的性能。 然而,它們?nèi)匀灰蕾囉诿芗纳疃葮?biāo)簽,因此不被視為純粹的單目方法。 不同深度傳感器和激光雷達(dá)之間也存在領(lǐng)域差距,這使得它們很難順利地推廣到新的實(shí)踐環(huán)境中。 另外,將這些方法應(yīng)用到現(xiàn)實(shí)場(chǎng)景中,很難處理大量的點(diǎn)云。

端到端的設(shè)計(jì)(End-to-end design like 2D detection)

端到端的設(shè)計(jì),如2D檢測(cè),最近的工作注意到這些缺點(diǎn),并開始設(shè)計(jì)端到端的框架,如2D檢測(cè)器。 例如,M3D-RPN[1]提出了一種具有端到端區(qū)域建議網(wǎng)絡(luò)和深度感知卷積的單級(jí)檢測(cè)器。 SS3D[13]檢測(cè)二維關(guān)鍵點(diǎn),并進(jìn)一步預(yù)測(cè)具有不確定性的物體特征。 Monodis[30]改進(jìn)了多任務(wù)學(xué)習(xí)與解糾纏損失。 這些方法遵循基于錨點(diǎn)的方式,因此需要定義一致的2D和3D錨點(diǎn)。 其中一些還需要多個(gè)培訓(xùn)階段或手工制作的優(yōu)化后階段。 相比之下,無錨方法[38,16,5]不需要對(duì)給定的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。 將它們的簡(jiǎn)單設(shè)計(jì)推廣到具有更多不同類或不同內(nèi)在設(shè)置的更復(fù)雜的情況更方便。 因此,我們選擇遵循這一范式。

然而,這些工作很少研究將一般的二維檢測(cè)器應(yīng)用于單目三維檢測(cè)的關(guān)鍵難點(diǎn)。 在提出它們的新框架時(shí),很少討論其中應(yīng)保留或調(diào)整的內(nèi)容。 相比之下,本文對(duì)這一點(diǎn)進(jìn)行了研究,為將一個(gè)典型的二維檢測(cè)器框架應(yīng)用于密切相關(guān)的任務(wù)提供了參考。 在此基礎(chǔ)上,更深入地了解這兩項(xiàng)任務(wù)之間的聯(lián)系和區(qū)別,也將有利于雙方社區(qū)的進(jìn)一步研究。

3. 方法(Approach)

目標(biāo)檢測(cè)是場(chǎng)景理解中最基本、最具挑戰(zhàn)性的問題之一。 傳統(tǒng)的二維目標(biāo)檢測(cè)的目標(biāo)是預(yù)測(cè)每個(gè)感興趣對(duì)象的二維包圍盒和類別標(biāo)簽。 相比之下,單目三維檢測(cè)需要我們預(yù)測(cè)三維包圍盒,而這些包圍盒需要解耦并轉(zhuǎn)換到二維圖像平面。 本節(jié)將首先概述我們采用的三維目標(biāo)重構(gòu)框架,然后詳細(xì)闡述兩種相應(yīng)的技術(shù)設(shè)計(jì),即二維引導(dǎo)的多級(jí)三維預(yù)測(cè)(2D guided multi-level 3D prediction)和二維高斯分布的三維中心度(3D center-ness with 2D Gaussian distribution)。 這些技術(shù)設(shè)計(jì)共同作用使二維探測(cè)器FCOS具有探測(cè)三維物體的能力。

3.1 框架總覽(Framework Overview)

全卷積單級(jí)檢測(cè)器通常由三個(gè)部分組成:用于特征提取的主干、用于多級(jí)分支構(gòu)造的頸和用于密集預(yù)測(cè)的檢測(cè)頭。 然后我們簡(jiǎn)單地介紹了每一個(gè)。

論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

圖2:我們的檢測(cè)流程的概述。 為了充分利用發(fā)展良好的二維特征提取器,我們基本上遵循典型的二維檢測(cè)器骨干和頸部的設(shè)計(jì)。 對(duì)于檢測(cè)頭,我們首先用基于中心的范式對(duì)三維目標(biāo)進(jìn)行重構(gòu),將其解耦為多任務(wù)學(xué)習(xí)。 對(duì)多級(jí)目標(biāo)分配和中心采樣策略進(jìn)行了相應(yīng)的調(diào)整,使該框架具有更好的處理重疊真實(shí)框和尺度方差問題的能力。

Backbone

我們使用預(yù)訓(xùn)練的Resnet101[11,8]和deformable convolutions[7]進(jìn)行特征提取。 在我們的實(shí)驗(yàn)中,它在精度和效率之間取得了很好的折衷。 我們固定了第一個(gè)卷積塊的參數(shù),以避免更多的內(nèi)存開銷。

Neck

第二個(gè)模塊是特征金字塔網(wǎng)絡(luò)[17],它是在不同尺度上檢測(cè)物體的主要部件。 為了精確的澄清,我們將3到7級(jí)的特征圖表示為P3到P7,如圖所示 2. 我們遵循原始FCOS得到P3到P5,并用兩個(gè)卷積塊對(duì)P5下采樣得到P6和P7。 所有這五個(gè)特征圖都負(fù)責(zé)不同尺度的預(yù)測(cè)。

Detection Head

最后,對(duì)于共享檢測(cè)頭,我們需要處理兩個(gè)關(guān)鍵問題。 首先是如何將目標(biāo)分配到不同的特征層和不同的點(diǎn)。 它是不同探測(cè)器的核心問題之一。 二是如何進(jìn)行架構(gòu)設(shè)計(jì)。 我們遵循RetinaNet[18]和FCOS[31]的常規(guī)設(shè)計(jì)。 每個(gè)共享頭由4個(gè)共享卷積塊和針對(duì)不同目標(biāo)的小頭組成。 在經(jīng)驗(yàn)上,用不同的測(cè)量為回歸目標(biāo)建立額外的分離頭更有效,所以我們?yōu)槊總€(gè)目標(biāo)設(shè)置一個(gè)小頭(圖2)。 到目前為止,我們已經(jīng)介紹了我們網(wǎng)絡(luò)架構(gòu)的總體設(shè)計(jì)。 接下來,我們將更正式地闡述這個(gè)問題,并給出詳細(xì)的訓(xùn)練和推理程序。

Regression Targets

首先,我們回顧了FCOS中用于目標(biāo)檢測(cè)的無錨點(diǎn)方式。 在主干的第 i i i層給出一個(gè)特征映射,表示為 F i ∈ R H × W × C F_i \in \mathbb{R}^{H \times W \times C} Fi?RH×W×C,我們需要根據(jù)該特征映射上的每個(gè)點(diǎn)來預(yù)測(cè)目標(biāo),這些點(diǎn)對(duì)應(yīng)于原始輸入圖像上均勻分布的點(diǎn)。 形式上,對(duì)于特征圖 F i F_i Fi?上的每個(gè)位置 ( x , y ) (x,y) x,y,假設(shè)直到圖層I的總步幅為 s s s,則原始圖像上對(duì)應(yīng)的位置應(yīng)為 ( s x + ? s 2 ? , s y + ? s 2 ? ) \left(s x+\left\lfloor\frac{s}{2}\right\rfloor, s y+\left\lfloor\frac{s}{2}\right\rfloor\right) (sx+?2s??,sy+?2s??)。與基于錨點(diǎn)的檢測(cè)器通過預(yù)先定義的錨點(diǎn)作為參考來回歸目標(biāo)不同,我們直接根據(jù)這些位置來預(yù)測(cè)目標(biāo)。 而且,由于我們不依賴主播,判斷一個(gè)點(diǎn)是否來自前景的標(biāo)準(zhǔn)將不再是主播與地面真理之間的IOU(交集對(duì)并)。 相反,只要點(diǎn)足夠靠近盒子中心,它就可以是前景點(diǎn)。

在二維情況下,模型需要將點(diǎn)的距離回歸到頂/底/左/右,在圖中表示為 t , b , l , r t,b,l,r t,b,l,r 然而,在3D情況下,將距離回歸到3D包圍盒的六個(gè)面是不平凡的。 相反,一個(gè)更直接的實(shí)現(xiàn)是將通常定義的7自由度回歸目標(biāo)轉(zhuǎn)換為2.5D中心和3D大小。 2.5D的中心可以很容易地轉(zhuǎn)換回三維空間與相機(jī)的內(nèi)在矩陣。 對(duì)2.5D中心的回歸可以進(jìn)一步簡(jiǎn)化為分別回歸從中心到特定前景點(diǎn)的偏移量,Δx,Δy及其對(duì)應(yīng)的深度d。 另外,為了預(yù)測(cè)物體的異心方位,我們將其分為角度θ隨周期π和2-bin方向分類兩部分。 第一個(gè)組件自然地用基本的真實(shí)框來模擬我們預(yù)測(cè)的IOU,而第二個(gè)組件側(cè)重于兩個(gè)盒子具有相反方向的對(duì)抗性情況。 利用這種角度編碼,我們的方法在定位精度方面超過了另一種基于中心的框架CenterNet,并將在實(shí)驗(yàn)中進(jìn)行比較。 在圖3中說明了旋轉(zhuǎn)編碼方案。

除了這些與目標(biāo)位置和方向相關(guān)的回歸目標(biāo)外,我們還回歸了一個(gè)類似FCOS的二元目標(biāo)中心度(center-ness) c c c。 它作為一個(gè)軟二值分類器來確定哪些點(diǎn)更接近中心,并幫助抑制那些遠(yuǎn)離目標(biāo)中心的低質(zhì)量預(yù)測(cè)。

綜上所述,回歸分支需要預(yù)測(cè)的對(duì)象是 x 、 y 、 d 、 w 、 l 、 h 、 θ 、 v x 、 v y x、y、d、w、l、h、θ、v_x、v_y x、y、d、w、l、h、θ、vx?、vy?

、方向類 C θ C_θ Cθ?和中心度 c c c,分類分支則需要輸出對(duì)象的類標(biāo)簽和屬性標(biāo)簽(圖2)。

Loss

對(duì)于分類和

不同的回歸目標(biāo),我們分別定義了它們的損失,并以它們的加權(quán)總和作為總損失。 首先,對(duì)于分類分支,我們使用了常用的焦點(diǎn)損失[18],用于對(duì)象分類損失:

L c l s = ? α ( 1 ? p ) γ log ? p L_{c l s}=-\alpha(1-p)^\gamma \log p Lcls?=?α(1?p)γlogp

其中 p p p是預(yù)測(cè)框的類概率。 我們遵循原論文的設(shè)置, α = 0.25 \alpha=0.25 α=0.25 γ = 2 \gamma=2 γ=2。 對(duì)于屬性分類,我們使用一個(gè)簡(jiǎn)單的Softmax分類損失,表示為 L a t t r L_{a t t r} Lattr?

對(duì)于回歸分支,我們對(duì)除中心度外的每個(gè)回歸目標(biāo)使用光滑的 L 1 L_1 L1?損失,并考慮其尺度,給出相應(yīng)的權(quán)重:

L l o c = ∑ b ∈ ( Δ x , Δ y , d , w , l , h , θ , v x , v y ) SmoothL1 ? ( Δ b ) L_{l o c}=\sum_{b \in\left(\Delta x, \Delta y, d, w, l, h, \theta, v_x, v_y\right)} \operatorname{SmoothL1}(\Delta b) Lloc?=b(Δx,Δy,d,w,l,h,θ,vx?,vy?)?SmoothL1(Δb)

其中, Δ x , Δ y , w , l , h , θ \Delta x, \Delta y, w, l, h, \theta Δx,Δy,w,l,h,θ 誤差的權(quán)重為1, d d d 的權(quán)重為0.2, v x , v y v_x, v_y vx?,vy? 的權(quán)重為0.05。 注意,雖然我們使用exp(x)進(jìn)行深度預(yù)測(cè),但我們?nèi)匀辉谠忌疃瓤臻g而不是日志空間中計(jì)算損失。 它的經(jīng)驗(yàn)結(jié)果,更準(zhǔn)確的深度估計(jì)最終。 我們使用Softmax分類損失和二元交叉熵(BCE)損失進(jìn)行方向分類和中心度回歸,分別表示為 L d i r L_{d i r} Ldir? 和。 最后,總損失為:

L = 1 N p o s ( β c l s L c l s + β a t t r L a t t r + β l o c L l o c + β d i r L d i r + β c t L c t ) L=\frac{1}{N_{p o s}}\left(\beta_{c l s} L_{c l s}+\beta_{a t t r} L_{a t t r}+\beta_{l o c} L_{l o c}+\beta_{d i r} L_{d i r}+\beta_{c t} L_{c t}\right) L=Npos?1?(βcls?Lcls?+βattr?Lattr?+βloc?Lloc?+βdir?Ldir?+βct?Lct?)

其中 N pos? N_{\text {pos }} Npos??是預(yù)測(cè)的正樣本, β c l s = β a t t r = β l o c = β d i r = β c t = 1 \beta_{c l s}=\beta_{a t t r}=\beta_{l o c}=\beta_{d i r}=\beta_{c t}=1 βcls?=βattr?=βloc?=βdir?=βct?=1.

Inference

在推理過程中,給定一個(gè)輸入圖像,我們通過框架轉(zhuǎn)發(fā)它,并獲得包含它們的類分?jǐn)?shù)、屬性分?jǐn)?shù)和中心預(yù)測(cè)的包圍盒。 我們將類得分和中心度相乘作為每個(gè)預(yù)測(cè)的置信度,并在鳥視圖中進(jìn)行旋轉(zhuǎn)非最大抑制(NMS)作為大多數(shù)三維檢測(cè)器來得到最終結(jié)果。

論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

圖3:我們利用的旋轉(zhuǎn)編碼方案。 基于2-bin邊界,兩個(gè)方向相反的物體共享相同的旋轉(zhuǎn)偏移量,從而具有相同的sin值。 為了區(qū)分它們,我們從回歸分支中預(yù)測(cè)一個(gè)額外的方向類。

3.2 2D引導(dǎo)的多層次3D預(yù)測(cè)(2D Guided Multi-Level 3D Prediction)

如前所述,要用金字塔網(wǎng)絡(luò)訓(xùn)練一個(gè)檢測(cè)器,我們需要設(shè)計(jì)一個(gè)策略來將目標(biāo)分配到不同的特征級(jí)別。 FCOS[31]在其中討論了兩個(gè)關(guān)鍵問題:1)如何使無錨點(diǎn)檢測(cè)器實(shí)現(xiàn)與基于錨點(diǎn)的檢測(cè)器相似的最佳可能召回(BPR);2)由地面真值盒重疊引起的難以解決的模糊性問題。 原論文中的比較很好地解決了第一個(gè)問題。 結(jié)果表明,通過FPN進(jìn)行多級(jí)預(yù)測(cè)可以改善業(yè)務(wù)流程再造,甚至比基于錨點(diǎn)的方法取得更好的效果。 同樣,這個(gè)問題的結(jié)論在我們的改編框架中也是適用的。 第二個(gè)問題將涉及回歸目標(biāo)的具體設(shè)置,我們接下來將討論這個(gè)問題。

原始的FCOS在不同級(jí)別的特征映射中檢測(cè)不同大小的物體。 與基于錨點(diǎn)的方法不同的是,它不是指定不同大小的錨點(diǎn),而是直接將不同大小的地面真相盒分配到不同層次的特征圖中。 形式上,首先計(jì)算每個(gè)位置在每個(gè)特征層的二維回歸目標(biāo) l ? , r ? , t ? , b ? l^*, r^*, t^*, b^* l?,r?,t?,b?. 位置滿足 max ? ( l ? , r ? , t ? , b ? ) > m i \max \left(l^*, r^*, t^*, b^*\right)>m_i max(l?,r?,t?,b?)>mi? max ? ( l ? , r ? , t ? , b ? ) < m i ? 1 \max \left(l^*, r^*, t^*, b^*\right)<m_{i-1} max(l?,r?,t?,b?)<mi?1?的將被視為負(fù)樣本,其中 m i m_i mi?表示特征級(jí)別為level 1的的最大回歸范圍。 相比較而言,我們?cè)趯?shí)現(xiàn)中也遵循這一準(zhǔn)則,考慮到二維檢測(cè)的規(guī)模與我們需要關(guān)注的區(qū)域有多大直接一致。 然而,在這個(gè)分配步驟中,我們只使用2D檢測(cè)來過濾無意義的目標(biāo)。 完成目標(biāo)分配后,我們的回歸目標(biāo)只包括3D相關(guān)的。 在這里,我們通過計(jì)算投影的三維包圍盒的外矩形來生成二維包圍盒,因此我們不需要任何二維檢測(cè)注釋或先驗(yàn)信息。

接下來,我們將討論如何處理歧義問題。 具體地說,當(dāng)一個(gè)點(diǎn)在同一特征級(jí)別的多個(gè)地面真值盒內(nèi)時(shí),應(yīng)該給它分配哪個(gè)盒子? 通常的方式是根據(jù)二維包圍盒的面積進(jìn)行選擇。 選擇面積較小的框作為此點(diǎn)的目標(biāo)框。 我們稱此方案為基于區(qū)域的準(zhǔn)則。 該方案有一個(gè)明顯的缺點(diǎn):大對(duì)象將被這樣的處理所關(guān)注的較少,這也被我們的實(shí)驗(yàn)(圖4)所驗(yàn)證。 考慮到這一點(diǎn),我們提出了一個(gè)基于距離的準(zhǔn)則,即選擇中心較近的方框作為回歸目標(biāo)。 該方案與自適應(yīng)的基于中心的回歸目標(biāo)定義機(jī)制是一致的。 此外,由于離目標(biāo)中心較近的點(diǎn)可以獲得更全面、更均衡的局部區(qū)域特征,從而容易產(chǎn)生更高質(zhì)量的預(yù)測(cè)結(jié)果,因此這種方法也是合理的。 通過簡(jiǎn)單的驗(yàn)證(圖4),我們發(fā)現(xiàn)該方案顯著提高了大型物體的最佳可能召回率(BPR)和MAP,并提高了整體MAP(約1%),這將在消融研究中呈現(xiàn)。

除了基于中心的模糊處理方法外,我們還使用三維中心來確定前景點(diǎn),即只有足夠靠近中心的點(diǎn)才被視為正樣本。 我們定義了一個(gè)超參數(shù),半徑,來測(cè)量這個(gè)中心部分。 在我們的實(shí)驗(yàn)中,半徑為1.5時(shí),距離小于半徑×步幅的點(diǎn)被認(rèn)為是正的。

最后,我們將不同回歸分支的每個(gè)輸出 x x x替換為6個(gè),以區(qū)分不同特征級(jí)別的共享頭。 這里 s i s_i si?是一個(gè)可訓(xùn)練標(biāo)量,用于調(diào)整特征級(jí)別 i i i的指數(shù)函數(shù)基。 它在檢測(cè)性能方面帶來了微小的改進(jìn)。

3.3 二維高斯分布的三維中心度(3D Center-ness with 2D Gaussian Distribution)

在FCOS的原始設(shè)計(jì)中,中心度C是由二維回歸目標(biāo) l ? , r ? , t ? , b ? : l^*,r^*,t^*,b^*: l?r?,t?,b?:

c = min ? ( l ? , r ? ) max ? ( l ? , r ? ) × min ? ( t ? , b ? ) max ? ( t ? , b ? ) c=\sqrt{\frac{\min \left(l^*, r^*\right)}{\max \left(l^*, r^*\right)} \times \frac{\min \left(t^*, b^*\right)}{\max \left(t^*, b^*\right)}} c=max(l?,r?)min(l?,r?)?×max(t?,b?)min(t?,b?)? ?

由于回歸目標(biāo)改為基于三維中心的范式,我們以投影的三維中心為原點(diǎn),用二維高斯分布定義中心度。 二維高斯分布簡(jiǎn)化為:

c = e ? α ( ( Δ x ) 2 + ( Δ y ) 2 ) c=e^{-\alpha\left((\Delta x)^2+(\Delta y)^2\right)} c=e?α((Δx)2+(Δy)2)

這里用 α α α來調(diào)節(jié)從中心到外圍的光強(qiáng)衰減,在我們的實(shí)驗(yàn)中設(shè)置為2.5。 我們將其作為中心性的基本真理,并從回歸分支中對(duì)其進(jìn)行預(yù)測(cè),以過濾低質(zhì)量的預(yù)測(cè)。 如前所述,該中心度目標(biāo)的范圍為0到1,因此我們使用二進(jìn)制交叉熵(BCE)損失來訓(xùn)練該分支。文章來源地址http://www.zghlxwxcb.cn/news/detail-455112.html

到了這里,關(guān)于論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包