国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Grounded Language-Image Pre-training論文筆記

這篇具有很好參考價(jià)值的文章主要介紹了Grounded Language-Image Pre-training論文筆記。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Title:Grounded Language-Image Pre-training
Code

1. 背景

目前的視覺識別任務(wù)通常是在一個(gè)預(yù)先定義好的類別范圍內(nèi)進(jìn)行的,這樣限制了其在真實(shí)場景中的擴(kuò)展。CLIP的出現(xiàn)打破了這一限制,CLIP利用image-text對進(jìn)行訓(xùn)練,從而使得模型可以根據(jù)文字prompt識別任意類別。CLIP適用于分類任務(wù),而GLIP嘗試將這一技術(shù)應(yīng)用于目標(biāo)檢測等更加復(fù)雜的任務(wù)中。

在本文中,作者提出了phrase grounding的概念,意思是讓模型去學(xué)習(xí)圖片和句子短語之間更加精細(xì)的聯(lián)系。

GLIP的主要貢獻(xiàn)如下:

  • 將phrase grounding和目標(biāo)檢測任務(wù)統(tǒng)一,將image和text prompt同時(shí)輸入到目標(biāo)檢測網(wǎng)絡(luò)中,prompt中帶有圖片中所有類別的詳細(xì)描述。
  • GLIP采用了豐富的預(yù)訓(xùn)練數(shù)據(jù),使得它的預(yù)訓(xùn)練模型可以更輕松地遷移到下游任務(wù)中。預(yù)訓(xùn)練的GLIP在COCO數(shù)據(jù)集上finetune之后達(dá)到了60.8 AP(2017val)和61.5AP(test-dev),超過了目前的SOTA模型。
  • One model for all,GLIP可以遷移到多樣化的任務(wù)中。它在不使用額外標(biāo)注的情況下,在coco val2017和LVIS數(shù)據(jù)集上分別達(dá)到了49.8AP和26.9AP。

2. 方法

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

(1)Unified Formulation

傳統(tǒng)目標(biāo)檢測

一個(gè)典型的目標(biāo)檢測網(wǎng)絡(luò)的結(jié)構(gòu)如下:

  • 將圖片輸入到visual encoder E n c I Enc_I EncI? 中提取特征 O O O,visual encoder通常是CNN、Transformer等backbone;
  • 將特征 O O O 輸入到classifier C C C 和bbox regressor R R R 中得到分類結(jié)果和bbox回歸結(jié)果;
  • 分別計(jì)算分類損失和框回歸損失,整體Loss公式: L = L c l s + L l o c L=L_{cls}+L_{loc} L=Lcls?+Lloc?

上述計(jì)算分類Loss的流程可以用公式表達(dá)為:

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀
其中 T T T 代表target; W W W 是分類器參數(shù)。

grounding目標(biāo)檢測

與上述分類器不同,GLIP將目標(biāo)檢測任務(wù)與phrash grounding統(tǒng)一,將目標(biāo)檢測中的每個(gè)region/bboxtext prompt進(jìn)行匹配以實(shí)現(xiàn)分類效果。

舉例來說,假設(shè)我們有[person, bicycle, car, ..., toothbrush]等類別,我們可以設(shè)計(jì)一個(gè)這樣的prompt,其中每一個(gè)類別名字都是一個(gè)phrase:

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

grounding模型中的分類流程可以用公式表示為:

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀
其中 P P P 是language encoder得到的文字特征, S g r o u n d S_{ground} Sground? 的計(jì)算過程如下如圖示:計(jì)算圖像的region和prompt中的word之間的對齊分?jǐn)?shù):
Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

然而,在計(jì)算對齊分?jǐn)?shù)時(shí),一個(gè)短語(phrase)可能包含多個(gè)word tokens,這就導(dǎo)致一個(gè)類別可能對應(yīng)多個(gè)子單詞(sub-words)。針對這個(gè)問題,本文是這樣做的:當(dāng)這些sub-words的phrase與目標(biāo)region匹配時(shí),每個(gè)positive sub-word都與目標(biāo)region所匹配。**例如,吹風(fēng)機(jī)的phrase是“Hair dryer”,那么吹風(fēng)機(jī)的region就會(huì)與“Hair”和“dryer”這兩個(gè)詞都匹配,**如下圖所示:

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

(2)Language-Aware Deep Fusion

在CLIP等算法中,image和text特征通常只在最后用于計(jì)算對比學(xué)習(xí)的loss,我們稱這樣的算法為late-fusion model。在本文中,作者在image和text特征之間引入了更深層次的融合(deep fusion),在最后幾個(gè)encoder layer中進(jìn)行了image和text的信息融合,如下圖所示:

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

deep-fused encoder可以用以下公式來表示:

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀
其中, X-MHA代表跨模態(tài)多頭注意力模塊(multi-head attention module),L代表DyHead中DyHeadModule的個(gè)數(shù),BERTLayer是額外添加在預(yù)訓(xùn)練BERT模型之上的層, O 0 O^0 O0 是vision backbone提取的圖像特征, P 0 P^0 P0 是language backbone提取的文字特征。

X-MHA是用于跨模態(tài)信息融合的關(guān)鍵模塊 (cross attention) ,它的公式如下所示:
Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀
deep-fused有兩個(gè)優(yōu)點(diǎn):

  • 提升了phrase grounding的表現(xiàn);
  • 使得圖像特征的學(xué)習(xí)與文字特征產(chǎn)生關(guān)聯(lián),從而讓text prompt可以影響到檢測模型的預(yù)測。

(3)Pre-training with Scalable Semantic-Rich Data

  • 同時(shí)使用目標(biāo)檢測和grounding數(shù)據(jù);
  • 另外通過利用gold data訓(xùn)練教師GLIP,使用這個(gè)教師模型來預(yù)測24M web image-text數(shù)據(jù),為image caption數(shù)據(jù)得到了檢測偽標(biāo)簽;
  • 也就是說,GLIP可以同時(shí)利用目標(biāo)檢測數(shù)據(jù)集,grounding數(shù)據(jù)集,image caption數(shù)據(jù)集,極大豐富了訓(xùn)練數(shù)據(jù)量;

3. 實(shí)驗(yàn)

(1)數(shù)據(jù)集簡介

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

  • COCO:目標(biāo)檢測數(shù)據(jù)集,包含80個(gè)常見對象類別;
  • LVIS:目標(biāo)檢測和實(shí)例分割數(shù)據(jù)集,涵蓋1203個(gè)對象類別;
  • Object365:是一個(gè)大規(guī)模的目標(biāo)檢測數(shù)據(jù)集,總共包含63萬張圖像,覆蓋365個(gè)類別,高達(dá)1000萬框數(shù);
    Microsoft COCO Captions 數(shù)據(jù)集:該數(shù)據(jù)集為超過 33 萬張圖片提供了超過 150 萬條人工生成的圖片描述。
  • Flickr30k:給定了31783張圖像以及158915個(gè)文本注釋,一張圖片對應(yīng)5個(gè)注釋,并將它們與 276K 個(gè)手動(dòng)標(biāo)注的邊界框關(guān)聯(lián)起來。
  • Visual Genome(VG)是斯坦福大學(xué)李飛飛組于2016年發(fā)布的大規(guī)模圖片語義理解數(shù)據(jù)集,數(shù)據(jù)集匯總最主要的構(gòu)成是Region Description,每個(gè)region/bbox都有與其對應(yīng)的一句自然語言描述。
  • GQA數(shù)據(jù)集包含22,669,678個(gè)問題和113,018張圖片,數(shù)據(jù)集中覆蓋的詞匯量有3,097個(gè),答案類型有1,878個(gè),同時(shí)也包含對應(yīng)的bbox注釋;
  • Conceptual Captions (CC)是一個(gè)數(shù)據(jù)集,由約 330 萬張帶有字幕注釋的圖像組成。
  • SBU Captions數(shù)據(jù)集最初將圖像字幕作為一個(gè)檢索任務(wù),包含 100 萬個(gè)圖片網(wǎng)址 + 標(biāo)題對。

最后使用的數(shù)據(jù)集有:

  • FourODs (2.66M data): 4 detection datasets including Objects365, OpenImages, Visual Genome (excluding COCO images), and ImageNetBoxes
  • GoldG (0.8M): human-annotated gold grounding data curated by
    MDETR, including Flickr30K, VG Caption and GQA.
  • Cap4M / Cap24M

(2)GLIP消融實(shí)驗(yàn)

作者設(shè)計(jì)了多個(gè)版本的GLIP用于對比試驗(yàn):

  • GLIP-T(A):基于SoTA模型Dynamic Head,將其中的分類損失替換為GLIP的alignment loss,預(yù)訓(xùn)練數(shù)據(jù)為Objects365(66萬人工標(biāo)注數(shù)據(jù));
  • GLIP-T(B):在GLIP-T(A)的基礎(chǔ)上加入deep fusion;
  • GLIP-T?:在預(yù)訓(xùn)練數(shù)據(jù)中加入GoldG(80萬人工標(biāo)注數(shù)據(jù));
  • GLIP-T:加入更多數(shù)據(jù):Cap4M(400萬網(wǎng)上爬取的數(shù)據(jù));
  • GLIP-L:基于Swin-Large,并采用更大量的數(shù)據(jù)集,包含:FourODs(2.66M)、GoldG(0.8M)、Cap24M(24M);

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

由于 Objects365 覆蓋了 COCO 中的所有類別,因此Objects365 預(yù)訓(xùn)練的 DyHead-T 在COCO上表現(xiàn)優(yōu)異,達(dá)到了43.6AP; 若將模型重新構(gòu)建為grounding模型,性能略有下降 (GLIP-T (A)); 添加深度融合將性能提升 2AP (GLIP-T (B)); GoldG數(shù)據(jù)對性能的提升貢獻(xiàn)最大,GLIP-T ? 達(dá)到 46.7 AP。 雖然添加圖像-文本數(shù)據(jù)對 COCO 有輕微或沒有改進(jìn)(GLIP-T 與 GLIP-T ?),作者發(fā)現(xiàn)它對于推廣到稀有種類至關(guān)重要,并在LVIS 實(shí)驗(yàn)中進(jìn)一步展示了這一現(xiàn)象。

Grounded Language-Image Pre-training論文筆記,# 目標(biāo)檢測,論文閱讀

Gold grounding數(shù)據(jù)使 Mini-Val APr (GLIP-T? 與 GLIP-T (B)) 相比提高了 4.2 個(gè)點(diǎn)。這進(jìn)一步表明grounding數(shù)據(jù)對性能的提升有顯著的貢獻(xiàn)。另外,添加圖像-文本數(shù)據(jù)進(jìn)一步提高了 3.1 個(gè)點(diǎn)的性能。因此,基礎(chǔ)數(shù)據(jù)的語義豐富性可能有助于模型識別稀有物體。文章來源地址http://www.zghlxwxcb.cn/news/detail-669772.html

參考

  • 如何看待微軟的Grounded Language-Image Pre-training(GLIP)?

到了這里,關(guān)于Grounded Language-Image Pre-training論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • BEiT: BERT Pre-Training of Image Transformers 論文筆記

    BEiT: BERT Pre-Training of Image Transformers 論文筆記

    論文名稱: BEiT: BERT Pre-Training of Image Transformers 論文地址:2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代碼地址:unilm/beit at master · microsoft/unilm (github.com) 作者講解:BiLiBiLi 作者PPT:文章資源 首先展示的是我基于這個(gè)算法搭建的網(wǎng)頁 demo ,歡迎體驗(yàn)。https://wangqvq-be

    2024年02月11日
    瀏覽(21)
  • 【NLP經(jīng)典論文精讀】Improving Language Understanding by Generative Pre-Training

    【NLP經(jīng)典論文精讀】Improving Language Understanding by Generative Pre-Training

    chatGPT的初代工作,可以說沒有GPT,就沒有現(xiàn)在的大模型百家爭鳴,本篇文章回顧這篇經(jīng)典論文,思考作者是如何根據(jù)前者的工作在思想上進(jìn)行創(chuàng)新,從而得到通用的模型架構(gòu)。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然語言理解

    2024年02月15日
    瀏覽(251)
  • ChatGPT1論文解讀《Improving Language Understanding by Generative Pre-Training》

    以下是我閱讀完整篇論文做的個(gè)人總結(jié),基本包含了ChatGPT1設(shè)計(jì)的完整框架思路,可以僅看【論文總結(jié)】章節(jié)。 在GPT1實(shí)現(xiàn)的核心架構(gòu)中,包含兩個(gè)階段。 第一階段 在 第一階段 基于一個(gè)包含 7000本書籍 內(nèi)容的海量 未標(biāo)注文本數(shù)據(jù)集 進(jìn)行無監(jiān)督預(yù)訓(xùn)練,該階段引入了一種 T

    2024年02月05日
    瀏覽(31)
  • 論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模態(tài) 論文,利用對比學(xué)習(xí)和動(dòng)量來進(jìn)行圖片與文本信息的上游預(yù)訓(xùn)練。 作者提出問題 簡單的跨模態(tài)比對模型無法確保來自同一模態(tài)的相似輸入保持相似。(模態(tài)內(nèi)部語義信息損失) 全局互信息最大化的操作沒有考慮局部信息和結(jié)構(gòu)信息。 對于上

    2024年04月13日
    瀏覽(28)
  • Re58:讀論文 REALM: Retrieval-Augmented Language Model Pre-Training

    Re58:讀論文 REALM: Retrieval-Augmented Language Model Pre-Training

    諸神緘默不語-個(gè)人CSDN博文目錄 諸神緘默不語的論文閱讀筆記和分類 論文名稱:REALM: Retrieval-Augmented Language Model Pre-Training 模型名稱:Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML論文,作者來自谷歌,關(guān)注RAG+LLM。目標(biāo)是解決純用LM參數(shù)儲(chǔ)存知識就得讓LM尺寸越來

    2024年02月04日
    瀏覽(25)
  • 論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    標(biāo)題:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI ??文章給出了一種新的NLP預(yù)訓(xùn)練模型的訓(xùn)練方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    瀏覽(37)
  • 【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然語言處理(Natural Language Processing,NLP)領(lǐng)域內(nèi)的 預(yù)訓(xùn)練語言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。預(yù)訓(xùn)練語言模型的成功,證明了我們可以從海量的無標(biāo)注文本中學(xué)到潛在的語義信息,而無需為每一項(xiàng)下游NLP任務(wù)單獨(dú)標(biāo)注大量訓(xùn)練數(shù)據(jù)。

    2024年02月14日
    瀏覽(37)
  • 跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 視覺語言預(yù)訓(xùn)練的位置引導(dǎo)文本提示 視覺語言預(yù)訓(xùn)練(VLP)已經(jīng)顯示出將圖像和文本對統(tǒng)一起來的能力,促進(jìn)了各種跨模態(tài)的學(xué)習(xí)任務(wù)。 然而,我們注意到,VLP模型往往缺乏視覺基礎(chǔ)/定位能力,這對許多下游任務(wù)如視覺推理至

    2024年02月11日
    瀏覽(30)
  • 論文閱讀【自然語言處理-預(yù)訓(xùn)練模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    論文閱讀【自然語言處理-預(yù)訓(xùn)練模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART: 用于自然語言生成、翻譯和理解的去噪序列對序列預(yù)訓(xùn)練 【機(jī)構(gòu)】:Facebook AI 【作者】:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye

    2024年02月03日
    瀏覽(43)
  • GPT(Generative Pre-Training)論文解讀及實(shí)現(xiàn)(一)

    GPT(Generative Pre-Training)論文解讀及實(shí)現(xiàn)(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在給定語料上下文環(huán)境下,目標(biāo)時(shí)最大化下面的語言模型,即在給定前 i-1個(gè)詞和參數(shù)θ前提下,使第 i 個(gè)詞出現(xiàn)的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包