Title:Grounded Language-Image Pre-training |
Code |
1. 背景
目前的視覺識別任務(wù)通常是在一個(gè)預(yù)先定義好的類別范圍內(nèi)進(jìn)行的,這樣限制了其在真實(shí)場景中的擴(kuò)展。CLIP的出現(xiàn)打破了這一限制,CLIP利用image-text對進(jìn)行訓(xùn)練,從而使得模型可以根據(jù)文字prompt識別任意類別。CLIP適用于分類任務(wù),而GLIP嘗試將這一技術(shù)應(yīng)用于目標(biāo)檢測等更加復(fù)雜的任務(wù)中。
在本文中,作者提出了phrase grounding的概念,意思是讓模型去學(xué)習(xí)圖片和句子短語之間更加精細(xì)的聯(lián)系。
GLIP的主要貢獻(xiàn)如下:
- 將phrase grounding和目標(biāo)檢測任務(wù)統(tǒng)一,將image和text prompt同時(shí)輸入到目標(biāo)檢測網(wǎng)絡(luò)中,prompt中帶有圖片中所有類別的詳細(xì)描述。
- GLIP采用了豐富的預(yù)訓(xùn)練數(shù)據(jù),使得它的預(yù)訓(xùn)練模型可以更輕松地遷移到下游任務(wù)中。預(yù)訓(xùn)練的GLIP在COCO數(shù)據(jù)集上finetune之后達(dá)到了60.8 AP(2017val)和61.5AP(test-dev),超過了目前的SOTA模型。
- One model for all,GLIP可以遷移到多樣化的任務(wù)中。它在不使用額外標(biāo)注的情況下,在coco val2017和LVIS數(shù)據(jù)集上分別達(dá)到了49.8AP和26.9AP。
2. 方法
(1)Unified Formulation
傳統(tǒng)目標(biāo)檢測
一個(gè)典型的目標(biāo)檢測網(wǎng)絡(luò)的結(jié)構(gòu)如下:
- 將圖片輸入到visual encoder E n c I Enc_I EncI? 中提取特征 O O O,visual encoder通常是CNN、Transformer等backbone;
- 將特征 O O O 輸入到classifier C C C 和bbox regressor R R R 中得到分類結(jié)果和bbox回歸結(jié)果;
- 分別計(jì)算分類損失和框回歸損失,整體Loss公式: L = L c l s + L l o c L=L_{cls}+L_{loc} L=Lcls?+Lloc?
上述計(jì)算分類Loss的流程可以用公式表達(dá)為:
其中
T
T
T 代表target;
W
W
W 是分類器參數(shù)。
grounding目標(biāo)檢測
與上述分類器不同,GLIP將目標(biāo)檢測任務(wù)與phrash grounding統(tǒng)一,將目標(biāo)檢測中的每個(gè)region/bbox
與text prompt
進(jìn)行匹配以實(shí)現(xiàn)分類效果。
舉例來說,假設(shè)我們有[person, bicycle, car, ..., toothbrush]
等類別,我們可以設(shè)計(jì)一個(gè)這樣的prompt,其中每一個(gè)類別名字都是一個(gè)phrase:
grounding模型中的分類流程可以用公式表示為:
其中
P
P
P 是language encoder得到的文字特征,
S
g
r
o
u
n
d
S_{ground}
Sground? 的計(jì)算過程如下如圖示:計(jì)算圖像的region和prompt中的word之間的對齊分?jǐn)?shù):
然而,在計(jì)算對齊分?jǐn)?shù)時(shí),一個(gè)短語(phrase)可能包含多個(gè)word tokens,這就導(dǎo)致一個(gè)類別可能對應(yīng)多個(gè)子單詞(sub-words)。針對這個(gè)問題,本文是這樣做的:當(dāng)這些sub-words的phrase與目標(biāo)region匹配時(shí),每個(gè)positive sub-word都與目標(biāo)region所匹配。**例如,吹風(fēng)機(jī)的phrase是“Hair dryer”,那么吹風(fēng)機(jī)的region就會(huì)與“Hair”和“dryer”這兩個(gè)詞都匹配,**如下圖所示:
(2)Language-Aware Deep Fusion
在CLIP等算法中,image和text特征通常只在最后用于計(jì)算對比學(xué)習(xí)的loss,我們稱這樣的算法為late-fusion model。在本文中,作者在image和text特征之間引入了更深層次的融合(deep fusion),在最后幾個(gè)encoder layer中進(jìn)行了image和text的信息融合,如下圖所示:
deep-fused encoder可以用以下公式來表示:
其中, X-MHA代表跨模態(tài)多頭注意力模塊(multi-head attention module),L代表DyHead中DyHeadModule的個(gè)數(shù),BERTLayer是額外添加在預(yù)訓(xùn)練BERT模型之上的層,
O
0
O^0
O0 是vision backbone提取的圖像特征,
P
0
P^0
P0 是language backbone提取的文字特征。
X-MHA是用于跨模態(tài)信息融合的關(guān)鍵模塊 (cross attention) ,它的公式如下所示:
deep-fused有兩個(gè)優(yōu)點(diǎn):
- 提升了phrase grounding的表現(xiàn);
- 使得圖像特征的學(xué)習(xí)與文字特征產(chǎn)生關(guān)聯(lián),從而讓text prompt可以影響到檢測模型的預(yù)測。
(3)Pre-training with Scalable Semantic-Rich Data
- 同時(shí)使用目標(biāo)檢測和grounding數(shù)據(jù);
- 另外通過利用gold data訓(xùn)練教師GLIP,使用這個(gè)教師模型來預(yù)測24M web image-text數(shù)據(jù),為image caption數(shù)據(jù)得到了檢測偽標(biāo)簽;
- 也就是說,GLIP可以同時(shí)利用目標(biāo)檢測數(shù)據(jù)集,grounding數(shù)據(jù)集,image caption數(shù)據(jù)集,極大豐富了訓(xùn)練數(shù)據(jù)量;
3. 實(shí)驗(yàn)
(1)數(shù)據(jù)集簡介
- COCO:目標(biāo)檢測數(shù)據(jù)集,包含80個(gè)常見對象類別;
- LVIS:目標(biāo)檢測和實(shí)例分割數(shù)據(jù)集,涵蓋1203個(gè)對象類別;
- Object365:是一個(gè)大規(guī)模的目標(biāo)檢測數(shù)據(jù)集,總共包含63萬張圖像,覆蓋365個(gè)類別,高達(dá)1000萬框數(shù);
Microsoft COCO Captions 數(shù)據(jù)集:該數(shù)據(jù)集為超過 33 萬張圖片提供了超過 150 萬條人工生成的圖片描述。- Flickr30k:給定了31783張圖像以及158915個(gè)文本注釋,一張圖片對應(yīng)5個(gè)注釋,并將它們與 276K 個(gè)手動(dòng)標(biāo)注的邊界框關(guān)聯(lián)起來。
- Visual Genome(VG)是斯坦福大學(xué)李飛飛組于2016年發(fā)布的大規(guī)模圖片語義理解數(shù)據(jù)集,數(shù)據(jù)集匯總最主要的構(gòu)成是Region Description,每個(gè)region/bbox都有與其對應(yīng)的一句自然語言描述。
- GQA數(shù)據(jù)集包含22,669,678個(gè)問題和113,018張圖片,數(shù)據(jù)集中覆蓋的詞匯量有3,097個(gè),答案類型有1,878個(gè),同時(shí)也包含對應(yīng)的bbox注釋;
- Conceptual Captions (CC)是一個(gè)數(shù)據(jù)集,由約 330 萬張帶有字幕注釋的圖像組成。
- SBU Captions數(shù)據(jù)集最初將圖像字幕作為一個(gè)檢索任務(wù),包含 100 萬個(gè)圖片網(wǎng)址 + 標(biāo)題對。
最后使用的數(shù)據(jù)集有:
- FourODs (2.66M data): 4 detection datasets including Objects365, OpenImages, Visual Genome (excluding COCO images), and ImageNetBoxes
- GoldG (0.8M): human-annotated gold grounding data curated by
MDETR, including Flickr30K, VG Caption and GQA. - Cap4M / Cap24M
(2)GLIP消融實(shí)驗(yàn)
作者設(shè)計(jì)了多個(gè)版本的GLIP用于對比試驗(yàn):
- GLIP-T(A):基于SoTA模型Dynamic Head,將其中的分類損失替換為GLIP的alignment loss,預(yù)訓(xùn)練數(shù)據(jù)為Objects365(66萬人工標(biāo)注數(shù)據(jù));
- GLIP-T(B):在GLIP-T(A)的基礎(chǔ)上加入deep fusion;
- GLIP-T?:在預(yù)訓(xùn)練數(shù)據(jù)中加入GoldG(80萬人工標(biāo)注數(shù)據(jù));
- GLIP-T:加入更多數(shù)據(jù):Cap4M(400萬網(wǎng)上爬取的數(shù)據(jù));
- GLIP-L:基于Swin-Large,并采用更大量的數(shù)據(jù)集,包含:FourODs(2.66M)、GoldG(0.8M)、Cap24M(24M);
由于 Objects365 覆蓋了 COCO 中的所有類別,因此Objects365 預(yù)訓(xùn)練的 DyHead-T 在COCO上表現(xiàn)優(yōu)異,達(dá)到了43.6AP; 若將模型重新構(gòu)建為grounding模型,性能略有下降 (GLIP-T (A)); 添加深度融合將性能提升 2AP (GLIP-T (B)); GoldG數(shù)據(jù)對性能的提升貢獻(xiàn)最大,GLIP-T ? 達(dá)到 46.7 AP。 雖然添加圖像-文本數(shù)據(jù)對 COCO 有輕微或沒有改進(jìn)(GLIP-T 與 GLIP-T ?),作者發(fā)現(xiàn)它對于推廣到稀有種類至關(guān)重要,并在LVIS 實(shí)驗(yàn)中進(jìn)一步展示了這一現(xiàn)象。
文章來源:http://www.zghlxwxcb.cn/news/detail-669772.html
Gold grounding數(shù)據(jù)使 Mini-Val APr (GLIP-T? 與 GLIP-T (B)) 相比提高了 4.2 個(gè)點(diǎn)。這進(jìn)一步表明grounding數(shù)據(jù)對性能的提升有顯著的貢獻(xiàn)。另外,添加圖像-文本數(shù)據(jù)進(jìn)一步提高了 3.1 個(gè)點(diǎn)的性能。因此,基礎(chǔ)數(shù)據(jù)的語義豐富性可能有助于模型識別稀有物體。文章來源地址http://www.zghlxwxcb.cn/news/detail-669772.html
參考
- 如何看待微軟的Grounded Language-Image Pre-training(GLIP)?
到了這里,關(guān)于Grounded Language-Image Pre-training論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!