這一周讀了2021cvpr的《Learning to Filter: Siamese Relation Network for Robust Tracking》。這篇文章的創(chuàng)新點:
- Relation Detector。關(guān)系檢測器。關(guān)系檢測器在本文中以元學(xué)習(xí)的方式執(zhí)行,以獲得從背景中過濾干擾物的能力。
- Refinement Module。x細化模塊(RM),RM的目的是將RD模塊有效的整合到孿生網(wǎng)絡(luò)框架中(本文的孿生網(wǎng)絡(luò)框架是SiamBAN),以產(chǎn)生準確的跟蹤結(jié)果。
- 對比訓(xùn)練策略。
摘要最后提及,本文提出的跟蹤器可以在面對背景雜亂、快速運動和遮擋的情況下獲得準確的跟蹤結(jié)果。
本文提出的Relation Detector結(jié)構(gòu)圖如下圖所示:
1、Relation Detector
在本文中提出了一種新型的關(guān)系檢測器(RD),該檢測器配備了自適應(yīng)非線性比較器,具有很強的判別能力,通過測量與被跟蹤目標的相似關(guān)系來過濾干擾物。由于訓(xùn)練這樣的檢測器需要相同序列的目標樣本,而這些樣本通常是不足的,傳統(tǒng)的訓(xùn)練策略不能很好地發(fā)揮作用,而少采樣學(xué)習(xí)的方式可以克服這一挑戰(zhàn)。因此,本文通過少樣本學(xué)習(xí)來訓(xùn)練網(wǎng)絡(luò),使關(guān)系檢測器能夠轉(zhuǎn)移在大量不同的少量任務(wù)學(xué)習(xí)中獲得的元知識。Relation Detector的結(jié)構(gòu)圖如下圖所示:
?關(guān)系檢測器有三種不同的非線性可學(xué)習(xí)比較器組成,即全局檢測器、局部檢測器和塊檢測器。
?2、Contrastive Training Strategy
與傳統(tǒng)的學(xué)習(xí)框架不同,少樣本學(xué)習(xí)任務(wù)具有每個類別中缺乏標記樣本的特點。它的目的是構(gòu)造一個分類器,通過一些已知的標記樣本作為支持集,為查詢集中的每個樣本x分配一個標簽y。當支持集包含N個不同的類別,每個類別有K個標記樣本時,我們將其定義為N -way K-shot。在我們的訓(xùn)練中,我們定義了目標和非目標兩個類別,我們的實驗是雙向的一次性學(xué)習(xí)。
對比訓(xùn)練樣本的生成。僅僅匹配相同實例的對象是不夠的,因為區(qū)分不同對象的能力也很重要。因此,本文利用訓(xùn)練樣本之間的潛在關(guān)系,構(gòu)造訓(xùn)練三元組(sc, qc, sn),其中sc和sn為正支持圖像和負支持圖像,qc為查詢圖像。Sc和qc是從同一視頻中提取的,sn是從不同視頻中提取的。
在每一次學(xué)習(xí)過程中,不僅對目標類別中的物體進行匹配,還對非目標類別中的干擾物進行區(qū)分,并學(xué)習(xí)測量由輸入三元組生成的不同樣本組合之間的關(guān)系。將正支持的基礎(chǔ)真值定義為sp,并使用pp表示sc和qc生成的正建議。類似地,負支持的基真值記為nn,我們用pn表示由sc和qc生成的負建議。然后我們將它們組合成不同的對,如(sp, pp), (sp, pn), (nn, pp/pn),并保持1:2:1的比例。我們采用MSE損失作為損失函數(shù),計算這些形成的對上的匹配損失。
難例挖掘。在訓(xùn)練初期,使用簡單樣本可以使模型穩(wěn)定收斂。為了進一步增強模型的判別能力,在訓(xùn)練中后期引入了難例挖掘。詳細地說,以兩種不同的方式(在線和離線)執(zhí)行難例挖掘。對于在線方法,首先計算候選區(qū)域與ground-truth之間的union (IoU)交集,然后去除IoU值大于0.2的部分提案。然后從剩余的候選區(qū)域中選擇置信度得分最高的候選區(qū)域作為難例樣本。對于離線方式,在VID , GOT和LaSOT等大規(guī)模數(shù)據(jù)集的預(yù)處理過程中生成一個近似最近鄰查詢的索引表。然后給定被跟蹤對象的圖像,使用索引表在嵌入空間中檢索被跟蹤對象的最近鄰,可以找到N個不同的硬負樣本。
?3、Refinement Module
分類和回歸是基于cnn的跟蹤器的兩大支柱,它們通常是獨立優(yōu)化的,導(dǎo)致它們之間存在不匹配的問題。具體來說,分類置信度最高的位置對應(yīng)的方框不是最準確的,甚至不是跟蹤的目標。本文設(shè)計了一個細化模塊,它有效地將建議的RD集成到Siamese框架中。首先,利用RD的輸出并將其轉(zhuǎn)換為大小為25 × 25 × 1的匹配分數(shù)。接下來,我們將匹配分數(shù)與分類分支的互相關(guān)特征圖進行逐元相乘,通過抑制假陽性位置來過濾背景中的干擾物。然后通過卷積層將精煉的相關(guān)特征傳遞給卷積層,生成精煉的分類置信度分數(shù)。
下圖提供了獲得的置信度圖的一些示例。在細化模塊中,我們將回歸分支和分類分支的信息結(jié)合起來,共同操作來預(yù)測目標位置,從而緩解了不匹配的問題。
?4、損失函數(shù)
?Lmatching表示的是RD檢測器求得得分數(shù)與真值標簽之間得MSE損失。
5、訓(xùn)練和推理
5.1、訓(xùn)練
我們在大規(guī)模數(shù)據(jù)集上訓(xùn)練我們的暹羅關(guān)系網(wǎng)絡(luò),包括ImageNet VID、YouTubeBoundingBoxes、COCO、ImageNet DET、GOT10k[18]和LaSOT。訓(xùn)練輸入是一個圖像三元組,包括從相同序列中提取的模板補丁和搜索補丁,其大小分別為127×127和255×255像素,以及從另一個大小為255×255的序列中提取的負搜索補丁。我們首先從三聯(lián)體的同一序列中選擇兩個patch,在其上最多采集16個陽性樣本和48個陰性樣本,訓(xùn)練分類分支和回歸分支[25,24,4]。然后,使用三元組中的負搜索patch來生成我們的關(guān)系檢測器的訓(xùn)練輸入。此外,我們在epoch 5和epoch 15開始使用在線難例挖掘進行離線。我們的整個網(wǎng)絡(luò)可以端到端進行訓(xùn)練,不需要任何進一步的微調(diào)。文章來源:http://www.zghlxwxcb.cn/news/detail-452012.html
5.2、推理
在推理過程中,以第一幀中目標的patch作為模板,并將其送入骨干提取模板特征fz。在跟蹤過程中對其進行緩存,避免后續(xù)跟蹤中重復(fù)計算。通過精確的ROI池化得到模板的ROI特征[6]。對于后續(xù)幀,我們根據(jù)前一幀的跟蹤結(jié)果裁剪搜索補丁并提取其特征,稱為fx。然后在搜索區(qū)域進行預(yù)測,得到回歸圖P reg?all w×h×4并生成建議。接下來,建議的特征被裁剪并與ROI z的緩存目標ROI特征連接起來。將得到的特征饋送到RD中,以度量提案與目標之間的關(guān)系。我們將此關(guān)系轉(zhuǎn)換為匹配分數(shù)s匹配w×h×1,并使用分類分支中corr cls的相關(guān)圖進行逐元素乘法。通過這種方式,我們將回歸結(jié)果融合到分類分支中,而不是單獨計算它們。然后,我們通過改進的相關(guān)圖f * corr cls生成分類圖P cls?all w×h×2。最后,我們可以通過P reg?all w×h×4和P cls?all w×h×2得到預(yù)測框。文章來源地址http://www.zghlxwxcb.cn/news/detail-452012.html
到了這里,關(guān)于論文閱讀記錄(1)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!