Few-shot object detection的開(kāi)山之作之一 ~~
屬于Metric-based Methods
特征學(xué)習(xí)器使用來(lái)自具有足夠樣本的基本類的訓(xùn)練數(shù)據(jù)來(lái) 提取 可推廣以檢測(cè)新對(duì)象類的meta features。The reweighting module將新類別中的一些support examples轉(zhuǎn)換為全局向量,該全局向量indicates meta features對(duì)于檢測(cè)相應(yīng)物體的重要性或相關(guān)性。這兩個(gè)模塊與detection prediction 一起,基于an episodic few-shot learning scheme和一個(gè)精心設(shè)計(jì)的損失函數(shù)進(jìn)行端到端的訓(xùn)練。通過(guò)大量的實(shí)驗(yàn),我們證明了我們的模型在多個(gè)數(shù)據(jù)集和設(shè)置上,在少樣本目標(biāo)檢測(cè)方面比之前建立良好的基線有很大的優(yōu)勢(shì)。
引入
最近,Meta Learning為類似的問(wèn)題提供了很有希望的解決方案,即少樣本分類。 然而,由于目標(biāo)檢測(cè)不僅涉及到類別預(yù)測(cè),而且涉及到目標(biāo)的定位,因此現(xiàn)有的少樣本分類方法不能直接應(yīng)用于少樣本檢測(cè)問(wèn)題。 以匹配網(wǎng)絡(luò)(Matching networks)和原型網(wǎng)絡(luò)(Prototypical networks)為例,如何構(gòu)建用于匹配和定位的對(duì)象原型尚不清楚,因?yàn)閳D像內(nèi)可能存在無(wú)關(guān)類的分散注意力的對(duì)象或根本沒(méi)有目標(biāo)對(duì)象。(because there may be distracting objects of irrelevant classes within the image or no targeted objects at all.)
我們提出了一種新的檢測(cè)模型,通過(guò)充分利用一些基類的檢測(cè)訓(xùn)練數(shù)據(jù),并根據(jù)一些支持實(shí)例快速調(diào)整檢測(cè)預(yù)測(cè)網(wǎng)絡(luò)來(lái)預(yù)測(cè)新的類,從而提供了few-shot learning能力。 該模型首先從基類中學(xué)習(xí)元特征(這些元特征可推廣到不同對(duì)象類的檢測(cè))。 然后利用幾個(gè)支持實(shí)例來(lái)識(shí)別元特征(這些元特征對(duì)于檢測(cè)新的類是重要的和有鑒別性的,并相應(yīng)地適應(yīng)于將檢測(cè)知識(shí)從基類轉(zhuǎn)移到新的類。)
因此,我們提出的模型引入了一個(gè)新的檢測(cè)框架,包括兩個(gè)模塊,即元特征學(xué)習(xí)器和輕量級(jí)features reweighting 模塊。 給定一個(gè)查詢圖像和幾個(gè)新類的支持圖像,特征學(xué)習(xí)器從查詢圖像中提取元特征。 重新加權(quán)模塊學(xué)習(xí)捕獲支持圖像的全局特征,并將其嵌入到重新加權(quán)系數(shù)中,以調(diào)制查詢圖像元特征。 因此,查詢?cè)卣饔行У亟邮罩С中畔?,并適合于新對(duì)象檢測(cè)。 然后,將適應(yīng)的元特征輸入檢測(cè)預(yù)測(cè)模塊,以預(yù)測(cè)查詢中新對(duì)象的類和邊界盒(圖2)。 特別地,如果有N個(gè)新的類要檢測(cè),重權(quán)模塊將接受N個(gè)支持實(shí)例類,并將它們轉(zhuǎn)換成N個(gè)重權(quán)向量,每個(gè)重權(quán)向量負(fù)責(zé)從相應(yīng)的類中檢測(cè)新的對(duì)象。 通過(guò)這種特定于類的重權(quán)向量,可以識(shí)別出新類的一些重要的、具有鑒別性的元特征,從而有助于檢測(cè)決策,整個(gè)檢測(cè)框架可以有效地學(xué)習(xí)檢測(cè)新類。
元特征學(xué)習(xí)器和重權(quán)重模塊與檢測(cè)預(yù)測(cè)模塊一起進(jìn)行端到端的訓(xùn)練。 為了保證few-shot的泛化能力,整個(gè)few-shot檢測(cè)模型采用兩階段學(xué)習(xí)方案進(jìn)行訓(xùn)練:首先從基類中學(xué)習(xí)元特征和良好的重權(quán)值模塊; 然后微調(diào)檢測(cè)模型以適應(yīng)新類。 為了解決檢測(cè)學(xué)習(xí)中的困難(例如,存在分散注意力的物體),它引入了精心設(shè)計(jì)的損失函數(shù)。
我們提出的few-shot檢測(cè)器在多個(gè)數(shù)據(jù)集和各種設(shè)置下都優(yōu)于競(jìng)爭(zhēng)基線方法。 此外,它還顯示了從一個(gè)數(shù)據(jù)集到另一個(gè)不同的數(shù)據(jù)集的良好可移植性。 我們的貢獻(xiàn)可概括如下:
We design a novel few-shot detection model that 1)learns generalizable meta features; and 2) automatically reweights the features for novel class detection by producing class-specific activating coefficients from a few support samples.
Related work
Few-shot learning
An increasingly popular solution for few-shot learning is meta-learning, which can further be divided into three
categories:
a) Metric learning based. In particular, Matching Networks [39] learn the task of finding the most similar class for the target image among a small set of labeled images. Prototypical Networks [35] extend Matching Networks by producing a linear classifier instead of weighted nearest neighbor for each class. Relation Networks [37] learn a distance metric to compare the target image to a few labeled images.
b) Optimization for fast adaptation. Ravi and Larochelle [28] propose an LSTM meta-learner that is trained to quickly converge a learner classifier in new few-shot tasks. Model-Agnostic Meta-Learning(MAML) [12] optimizes a task-agnostic network so that a few gradient updates on its parameters would lead to good performance on new few-shot tasks.
c) Parameter prediction. Learnet [2] dynamically learns the parameters of factorized weight layers based on a single example of each class to realize one-shot learning.
上面的方法只是為了識(shí)別新的圖像而開(kāi)發(fā)的,還有一些其他的工作試圖學(xué)習(xí)一個(gè)模型can 對(duì)基本圖像和新圖像進(jìn)行分類
Object detection with limited labels
弱監(jiān)督方法考慮了訓(xùn)練對(duì)象檢測(cè)器時(shí)只使用圖像級(jí)標(biāo)記,而不使用bounding box標(biāo)記(獲取代價(jià)更高)的問(wèn)題。 Few example object detection 假設(shè)每類只有幾個(gè)標(biāo)記的bounding box,但依賴于大量的未標(biāo)記圖像來(lái)生成可信的偽標(biāo)記框用于訓(xùn)練。 zero-shot object detection旨在檢測(cè)以前看不到的類別,因此通常需要類之間的關(guān)系等外部信息。 與這些設(shè)置不同的是,我們的few-shot檢測(cè)器為每個(gè)新的類使用非常少的bounding box標(biāo)記(1-10),而不需要未標(biāo)記的圖像或外部知識(shí)。
方法
Feature Reweighting for Detection
我們提出的few-shot檢測(cè)模型在一個(gè)階段檢測(cè)框架中引入了元特征學(xué)習(xí)器D和重權(quán)重模塊M。 在本工作中,我們采用了無(wú)提案檢測(cè)框架YOLOV2。 它 通過(guò)檢測(cè)預(yù)測(cè)模塊P 將每個(gè)錨點(diǎn)的特征直接回歸得到相關(guān)輸出(包括分類得分和框坐標(biāo))。采用YOLOV2的主干(即DarkNet-19)實(shí)現(xiàn)元特征提取器D,并遵循與YOLOV2相同的錨點(diǎn)設(shè)置。 對(duì)于重權(quán)模塊M,我們精心設(shè)計(jì)成一個(gè)輕量級(jí)的CNN,既提高了效率,又簡(jiǎn)化了學(xué)習(xí)。
The meta feature learner
D
D
D 學(xué)習(xí)如何提取輸入查詢圖像的元特征以檢測(cè)新類。
Reweighting module
M
M
M 以支持圖像為輸入,學(xué)習(xí)將支持信息嵌入到 reweighting vectors 中,并相應(yīng)地調(diào)整查詢圖像的每個(gè)元特征的貢獻(xiàn),以用于后續(xù)預(yù)測(cè)模塊
P
P
P。Reweighting module 將激發(fā)一些對(duì)檢測(cè)新類有用的元特征,從而輔助檢測(cè)預(yù)測(cè)。
I
I
I: an input query image
corresponding meta features
F
=
D
(
I
)
,
F
∈
R
w
×
h
×
m
F=D(I), F ∈ R^{w×h×m}
F=D(I),F∈Rw×h×m, The produced meta feature has m feature maps.
I
i
,
S
i
I_i, S_i
Ii?,Si?: the support images and their associated bounding box annotation for class
i
i
i
a class-specific representation:
w
i
=
M
(
I
i
,
S
i
)
∈
R
m
w_i =M(I_i,S_i)∈ R^m
wi?=M(Ii?,Si?)∈Rm:
w
i
w_i
wi? 負(fù)責(zé)reweighting元特征,并突出更重要和相關(guān)的特征,以從類
i
i
i 中檢測(cè)目標(biāo)對(duì)象。
更具體地說(shuō),在獲得class-specific 的reweighting系數(shù)
w
i
w_i
wi?之后,我們的模型應(yīng)用它來(lái)獲得the class-specific feature
F
i
F_i
Fi? for
novel class
i
i
i,方法是:
喂入預(yù)測(cè)模塊
P
P
P 得到the objectness score
o
o
o, bounding box location offsets
(
x
,
y
,
h
,
w
)
(x, y, h, w)
(x,y,h,w), and classification score
c
i
c_i
ci? for each of a set of predefined anchors
Learning Scheme
從基類中學(xué)習(xí)一個(gè)好的元特征學(xué)習(xí)器 D D D和重新加權(quán)模塊 M M M以使它們能夠產(chǎn)生可推廣的元特征和權(quán)重系數(shù)是不簡(jiǎn)單的。 為了保證模型的泛化性能,我們提出了一種新的兩階段學(xué)習(xí)方案,不同于傳統(tǒng)的檢測(cè)模型訓(xùn)練方案。
第一階段是base training。 在這一階段,盡管每個(gè)基類都有豐富的標(biāo)簽,但我們?nèi)匀宦?lián)合訓(xùn)練feature learner D D D、預(yù)測(cè) P P P和重權(quán)值模塊 M M M。 這是為了讓它們以期望的方式進(jìn)行協(xié)調(diào):模型需要學(xué)習(xí) 通過(guò)參考一個(gè)好的reweighting vector來(lái)檢測(cè)感興趣的對(duì)象。 第二階段是few-shot fine-tuning。 在這個(gè)階段,我們在基類和新類上訓(xùn)練模型。 由于新類只有k個(gè)可用,為了平衡基類和新類的樣本,我們也為每個(gè)基類包含k個(gè) bounding boxs。 訓(xùn)練過(guò)程與第一階段相同,只是模型收斂所需的迭代次數(shù)明顯減少。
在兩個(gè)訓(xùn)練階段中,重新加權(quán)系數(shù) depend on 從可用數(shù)據(jù)中隨機(jī)采樣的輸入對(duì)(支持圖像、bounding box)。 經(jīng)過(guò)少量的微調(diào),我們希望得到一個(gè)不需要任何支持輸入就可以直接執(zhí)行檢測(cè)的檢測(cè)模型?。 這是通過(guò)將目標(biāo)類的重新加權(quán)向量設(shè)置為模型預(yù)測(cè)的平均向量來(lái)實(shí)現(xiàn)的,然后將K鏡頭樣本作為輸入。 在此之后,在推理過(guò)程中可以完全移除重新加權(quán)模塊。 因此,我們的模型在原始探測(cè)器上增加了可忽略不計(jì)的額外模型參數(shù)。
Detection loss function: 為了訓(xùn)練少樣本檢測(cè)模型,我們需要仔細(xì)選擇損失函數(shù),特別是對(duì)于類預(yù)測(cè)分支,因?yàn)闃颖緮?shù)很少。 假設(shè)預(yù)測(cè) is made classwisely,使用二進(jìn)制交叉熵?fù)p失似乎是很自然的,如果對(duì)象是目標(biāo)類,則回歸1,否則回歸0。 然而,我們發(fā)現(xiàn)使用這個(gè)損失函數(shù)導(dǎo)致 模型容易輸出冗余的檢測(cè)結(jié)果(例如,將火車檢測(cè)為公共汽車和汽車)。 這是由于對(duì)于一個(gè)特定的感興趣的區(qū)域,N個(gè)類別中只有一個(gè)是 true positive 的。 然而,二元損失 力求 產(chǎn)生平衡的正負(fù)預(yù)測(cè)。 非最大抑制不能幫助消除這些假陽(yáng)性,因?yàn)樗粚?duì)每個(gè)類內(nèi)的預(yù)測(cè)進(jìn)行操作。
為了解決這個(gè)問(wèn)題,我們提出的模型采用了一個(gè)Softmax層來(lái)校準(zhǔn)分類分?jǐn)?shù),自適應(yīng)降低錯(cuò)誤類別的檢測(cè)分?jǐn)?shù)。
其中1(·,i)是當(dāng)前錨方塊是否真的屬于I類的指示函數(shù)。 引入Softmax后,針對(duì)特定錨點(diǎn)的分類得分總和等于1,不太可能的類預(yù)測(cè)將被抑制。
Reweighting module input: 重新加權(quán)模塊的輸入應(yīng)該是感興趣的對(duì)象。 然而,在目標(biāo)檢測(cè)任務(wù)中,一幅圖像可能包含來(lái)自不同類別的多個(gè)目標(biāo)。 為了讓重新加權(quán)模塊知道目標(biāo)類是什么,除了三個(gè)RGB通道之外,我們還包括一個(gè)附加的“掩碼”通道(MI),它只有二進(jìn)制值:在感興趣對(duì)象的邊界框內(nèi)的位置上,值為1,否則為0(參見(jiàn)圖2的左下角)。 如果圖像上存在多個(gè)目標(biāo)對(duì)象,則只使用一個(gè)對(duì)象。 這個(gè)附加的掩碼通道使重加權(quán)模塊知道它應(yīng)該使用圖像的哪一部分信息,以及哪一部分應(yīng)該被認(rèn)為是“背景”。 將掩碼和圖像相結(jié)合作為輸入,不僅提供了感興趣對(duì)象的類別信息,而且還提供了對(duì)檢測(cè)有用的位置信息(由掩碼指示)。 在實(shí)驗(yàn)中,我們還研究了其他輸入形式。
實(shí)驗(yàn)
對(duì)比方法:第一種方法是在基類和新類的圖像上對(duì)檢測(cè)器進(jìn)行訓(xùn)練。 這樣,它就可以從基類中學(xué)習(xí)到適用于檢測(cè)新類的良好特征。 我們把這個(gè)基線稱為 YOLO-joint
。 我們用與我們相同的總迭代來(lái)訓(xùn)練這個(gè)基線模型。 另外兩個(gè)基于Yolo的基線也使用了我們的兩個(gè)訓(xùn)練階段。 特別是,他們用與我們相同的基地訓(xùn)練階段訓(xùn)練原始Yolov2模型; 對(duì)于少量的微調(diào)階段,一個(gè)用與我們相同的迭代來(lái)微調(diào)模型,稱為YOLO-ft
; 一個(gè)訓(xùn)練模型至完全收斂,稱為YOLO-ft-full
。
最后兩個(gè)基線來(lái)自最近的一種少鏡頭檢測(cè)方法,即低鏡頭轉(zhuǎn)移檢測(cè)器(LSTD)[4]。 LSTD依靠背景抑制(BD)和轉(zhuǎn)移知識(shí)(TK)來(lái)獲得新類上的少量檢測(cè)模型。 為了公平比較,我們?cè)赮OLOV2的基礎(chǔ)上重新實(shí)現(xiàn)了BD和TK,對(duì)其進(jìn)行了相同的迭代訓(xùn)練,得到了LSTD(YOLO)
; 并訓(xùn)練它收斂以獲得最后一個(gè)基線LSTD(YOLO)-full
。
AP
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-407788.html
speed
盡管我們的檢測(cè)器是為少樣本場(chǎng)景設(shè)計(jì)的,但它也具有強(qiáng)大的表示能力,并提供良好的元特征,以達(dá)到與原始Yolov2檢測(cè)器在大量樣本上訓(xùn)練的性能相當(dāng)?shù)男阅堋?這為解決少樣本目標(biāo)檢測(cè)問(wèn)題奠定了基礎(chǔ)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-407788.html
到了這里,關(guān)于【論文閱讀】 Few-shot object detection via Feature Reweighting的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!