一種提升深度多視角行人檢測(cè)的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection
論文url: https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html
論文簡(jiǎn)述
論文提出了一種用于多視角行人檢測(cè)的深度學(xué)習(xí)模型,旨在提高模型在不同攝像機(jī)數(shù)量、不同攝像機(jī)配置和新場(chǎng)景下的泛化能力。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-846703.html
總體框架圖
輸入
$ {N} $ 個(gè)校準(zhǔn)的RGB攝像頭圖像,圖像尺寸為( 3 , $ {H}{i} $ , $ {W} $),其中 $ {H}{i} $ 和 $ {W} $ 分別代表圖像的高度和寬度。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-846703.html
DropView Regularization
- 操作:在訓(xùn)練過(guò)程中,對(duì)于每批次視角樣本,隨機(jī)選擇一個(gè)或多個(gè)視角進(jìn)行丟棄,即不使用這些視角圖進(jìn)行訓(xùn)練。
- 作用:迫使模型學(xué)習(xí)到不依賴于任何單一視角的特征表示,這一操作也可以看作數(shù)據(jù)增強(qiáng),模擬了在實(shí)際應(yīng)用中可能遇到的攝像頭失效或視角遮擋等情況,從而使模型在面對(duì)不完整數(shù)據(jù)時(shí)仍能保持性能。提高了魯棒性,增強(qiáng)了泛化能力。
特征提取模塊(Feature Extraction)
- 操作:使用ResNet18作為特征提取的主干網(wǎng)絡(luò),并將最后三層的步長(zhǎng)大卷積替換為空洞卷積(dilated convolutions),以獲得更高空間分辨率的特征圖。
- 輸出: $ {N} $ 個(gè)攝像頭視圖的特征,尺寸為( $ {N} $ , $ {C} $ , $ {H}{f} $ , $ {W} $ ),其中 $ {C} $ 是通道數(shù)(特征數(shù)), $ {H}{f} $ 和 $ {W} $ 是提取的特征圖的高度和寬度。
透視變換(Perspective Transformation)
- 對(duì)于每個(gè)視角的特征圖,使用透視變換將其從相機(jī)坐標(biāo)系映射到世界坐標(biāo)系中的地面平面(鳥瞰圖)上。
- 透視變換考慮了相機(jī)的內(nèi)參 $ {K} $ 和外參 $ {[R|t]} $,其中內(nèi)參包括焦距和主點(diǎn)坐標(biāo),外參包括旋轉(zhuǎn)和平移向量。
- 變換過(guò)程中,定義一個(gè)地面平面,通常假設(shè)為 $ {Z=0} $ 的平面,即 $ {W = (X, Y, 0, 1)^T} $ 。每個(gè)像素點(diǎn) $ {(x, y)} $ 從圖像坐標(biāo)系通過(guò)以下變換映射到地面平面坐標(biāo)系:
其中 $ {s} $ 是縮放因子, $ {P} $ 是透視變換矩陣,$ {(X, Y, Z)} $ 是世界坐標(biāo)系中的點(diǎn)。 - 輸出:投影到地面平面上的 $ {N} $ 個(gè)特征圖,尺寸為 $ {(N, C, H_{g}, W_{g})} $ ,其中 $ {H}{g} $ 和 $ {W} $ 是地面平面網(wǎng)格的高度和寬度。
平均池化(Average Pooling)
- 對(duì)所有視圖的投影特征圖進(jìn)行平均池化,得到最終的鳥瞰圖特征表示 $ {F} $ ,尺寸為 $ {(C, H_{g}, W_{g})} $ 。
- 特點(diǎn):在多視角檢測(cè)中,攝像頭的物理排列可能會(huì)變化,但模型應(yīng)該能夠獨(dú)立于特定的攝像頭排列來(lái)檢測(cè)行人。平均池化操作是排列不變的,這意味著無(wú)論攝像頭的輸入順序如何,模型的輸出都是一致的,從而提高了模型的泛化能力。
占用圖預(yù)測(cè)(Occupancy Map Prediction)
- 使用三層空洞卷積層去預(yù)測(cè)行人占用概率圖,輸出尺寸為 $ {(H_{g}, W_{g})} $ 。(參考MVDet)
損失函數(shù)設(shè)計(jì)
- 輸入:模型輸出的概率占用圖 $ {(p)} $ 和真實(shí)標(biāo)注的占用圖 $ {(g)} $ 。
- 結(jié)合KL散度(KLDiv)和皮爾遜交叉相關(guān)系數(shù)(CC)作為損失函數(shù),公式如下:
$ {σ(p,g)} $ 是 $ {p,g} $ 的協(xié)方差, $ {σ(p)} $ 是 $ {p} $ 的標(biāo)準(zhǔn)差, $ {σ(g)} $ 是 $ {g} $ 的標(biāo)準(zhǔn)差。
后記
- 有意思的是該作者不僅僅使用了MultiViewX和WildTrack這兩個(gè)普遍的數(shù)據(jù)集,并且還用GTAV里面的拍照模式采樣了一些樣本。
到了這里,關(guān)于一種提升深度多視角行人檢測(cè)的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!