国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

這篇具有很好參考價值的文章主要介紹了論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Paper:Grounded Language-Image Pre-training

Code:https://github.com/microsoft/GLIP

簡介:

  • 定位任務(wù)與圖像檢測任務(wù)非常類似,都是去圖中找目標(biāo)物體的位置,目標(biāo)檢測為給出一張圖片找出bounding box,定位為給出一個圖片和文本,根據(jù)文本找出物體。GLIP 模型統(tǒng)一了目標(biāo)檢測(object detection)和定位(grounding)兩個任務(wù),構(gòu)建了一個統(tǒng)一的訓(xùn)練框架,從而將兩個任務(wù)的數(shù)據(jù)集都利用起來。再配合偽標(biāo)簽的技術(shù)來擴(kuò)增數(shù)據(jù),使得訓(xùn)練的數(shù)據(jù)量達(dá)到了前所未有的規(guī)模。在訓(xùn)練完成之后,直接以 zero-shot 的方式在 COCO 數(shù)據(jù)集上進(jìn)行測試,達(dá)到了 49.8 AP。

  • GLIP 進(jìn)行 zero-shot 測試的結(jié)果如下圖所示,不管是給定幾個類別(如 person、pistol、apple等)還是給定一段話(如 ‘there are some holes on the road’)作為文本編碼器的輸入,GLIP 模型都能從圖像中找到對應(yīng)物體的位置。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?如何統(tǒng)一兩個任務(wù):

detection 和 grouding 任務(wù)的目標(biāo)函數(shù)都是由兩部分損失組成,即分類損失和定位損失。定位損失不必多說,直接去計算與標(biāo)注中的 GT 框的距離即可。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?1、而對于分類損失,則有所不同。對于 detection 任務(wù)來說,分類的標(biāo)簽是一個類別單詞,在計算分類損失時,每個區(qū)域框特征與分類頭計算得到 logits,輸出 logits 經(jīng)過 nms 篩選之后,與 GT 計算交叉熵?fù)p失即可。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?對于目標(biāo)檢測,給定一個圖片Img,通過圖像的backbone得到region embedding,O是N*d的一個region embedding,即如果有n個bounding box 每個bounding box embedding的維度就是d。之后再接一個分類頭,判斷bounding box里的物體是哪個類,分類頭W是一個矩陣,維度為c*d,c是有多少個類別,將region embedding與W相乘得最后分類的logits S,之后用mns把bounding box篩選一下再跟groundtruth算交叉熵得到最終的loss。

2、對于 vision grounding 任務(wù)來說,標(biāo)簽是一個句子,不是用分類頭,而是通過文本編碼器得到文本特征,計算文本特征與區(qū)域框特征的相似度,得到匹配分?jǐn)?shù),想看看圖像區(qū)域和句子里的單詞是怎么匹配的。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?給定一個圖片Img,通過圖像的backbone得到region embedding,接下來輸入一個句子至文本編碼器得到文本embedding,之后文本embedding與圖像的region embedding算相似性。

3、作者提出,只要判斷一下兩個任務(wù)中什么時候是 positive match,什么時候是 negative match,就能將兩個任務(wù)統(tǒng)一起來了。理論分析后,作者使用統(tǒng)一過后的框架驗(yàn)證了在 COCO 數(shù)據(jù)集上的指標(biāo),與之前的目標(biāo)檢測框架持平,因此從實(shí)驗(yàn)上也驗(yàn)證了自己的想法。

數(shù)據(jù)集:

既然統(tǒng)一了 detection 和 grounding 兩個任務(wù),最直接的一個利好就是兩邊的數(shù)據(jù)集都可以拿來訓(xùn)練這個統(tǒng)一的框架。即下圖中所示的 O365 和 GoldG 兩個數(shù)據(jù)集。這些數(shù)據(jù)集都是有標(biāo)注的,規(guī)模還不夠大。想要進(jìn)一步獲得更大量的數(shù)據(jù),必須像 CLIP 那樣借助無標(biāo)注的圖像文本對數(shù)據(jù)。但是,目標(biāo)檢測任務(wù)的訓(xùn)練必須要 GT 框,單獨(dú)的圖文對數(shù)據(jù)沒法直接用。作者這里使用了 self-training 中偽標(biāo)簽的方式,使用 O365 和 GoldG 上訓(xùn)練好的 GLIP-T(c) 去在圖文對數(shù)據(jù) Cap4M/ Cap24M 上生成偽標(biāo)簽,直接當(dāng)做 GT 框給 GLIP-T/L 進(jìn)行訓(xùn)練。生成的偽標(biāo)簽肯定有錯誤,但是實(shí)驗(yàn)表明,經(jīng)過擴(kuò)充大量偽標(biāo)簽數(shù)據(jù)訓(xùn)練得到的 GLIP-L 模型仍然會有性能提高。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?模型結(jié)構(gòu):

1、GLIP 模型結(jié)構(gòu)及訓(xùn)練目標(biāo)如下圖所示,模型是以有監(jiān)督的方式進(jìn)行訓(xùn)練,計算得到文本特征和圖像特征的相似度之后,直接與 GT 計算對齊損失(alignment loss)即可,定位損失(Localization loss)也是直接與GT 框計算。

2、模型中間的融合層(fusion)是為了增加圖像編碼器和文本編碼器之間的特征交互,使得最終的圖像-文本聯(lián)合特征空間訓(xùn)練得更好。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?定量實(shí)驗(yàn)結(jié)果:

? ??GLIP 的定量實(shí)驗(yàn)結(jié)果如下圖所示,GLIP 模型可以做 zero-shot 的目標(biāo)檢測,并且能夠達(dá)到 49.8 AP。如果再在 COCO 上進(jìn)行微調(diào),GLIP 的 AP 能夠超過當(dāng)前最好的一些有監(jiān)督方法。

論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)

?GLIPv2

Paper:GLIPv2: Unifying Localization and Vision-Language Understanding

Code:https://github.com/microsoft/GLIP

GLIP 的進(jìn)一步拓展工作 GLIPv2 融合了更多定位相關(guān)的任務(wù)(如檢測、實(shí)例分割)和更多的多模態(tài)相關(guān)的任務(wù)(如問答、字幕生成)。文章來源地址http://www.zghlxwxcb.cn/news/detail-445601.html

到了這里,關(guān)于論文閱讀-(GLIP)Grounded Language-Image Pre-training (目標(biāo)檢測+定位)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [BLIP]-多模態(tài)Language-Image預(yù)訓(xùn)練模型

    [BLIP]-多模態(tài)Language-Image預(yù)訓(xùn)練模型

    論文:https://arxiv.org/pdf/2201.12086.pdf ?代碼:GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo:BLIP - a Hugging Face Space by akhaliq motivation: 從模型角度來看,大多數(shù)方法要么采用基于編碼器的模型,要么采用編碼器

    2024年02月05日
    瀏覽(28)
  • 跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 視覺語言預(yù)訓(xùn)練的位置引導(dǎo)文本提示 視覺語言預(yù)訓(xùn)練(VLP)已經(jīng)顯示出將圖像和文本對統(tǒng)一起來的能力,促進(jìn)了各種跨模態(tài)的學(xué)習(xí)任務(wù)。 然而,我們注意到,VLP模型往往缺乏視覺基礎(chǔ)/定位能力,這對許多下游任務(wù)如視覺推理至

    2024年02月11日
    瀏覽(30)
  • 論文閱讀【自然語言處理-預(yù)訓(xùn)練模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    論文閱讀【自然語言處理-預(yù)訓(xùn)練模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART: 用于自然語言生成、翻譯和理解的去噪序列對序列預(yù)訓(xùn)練 【機(jī)構(gòu)】:Facebook AI 【作者】:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye

    2024年02月03日
    瀏覽(43)
  • 【論文筆記】Improving Language Understanding by Generative Pre-Training

    【論文筆記】Improving Language Understanding by Generative Pre-Training

    背景: 自然語言理解 包括廣泛的不同任務(wù),如文本蘊(yùn)涵、QA問答、語義相似性評估和文檔分類。 問題: 盡管 大型未標(biāo)記文本語料庫 (corpora)非常豐富;但用于 學(xué)習(xí)特定任務(wù)的標(biāo)記數(shù)據(jù) 卻很少,這使得采用傳統(tǒng)的有監(jiān)督深度學(xué)習(xí)方法訓(xùn)練得到的模型表現(xiàn)較差。 解決: 通過

    2024年03月24日
    瀏覽(35)
  • 【NLP經(jīng)典論文精讀】Improving Language Understanding by Generative Pre-Training

    【NLP經(jīng)典論文精讀】Improving Language Understanding by Generative Pre-Training

    chatGPT的初代工作,可以說沒有GPT,就沒有現(xiàn)在的大模型百家爭鳴,本篇文章回顧這篇經(jīng)典論文,思考作者是如何根據(jù)前者的工作在思想上進(jìn)行創(chuàng)新,從而得到通用的模型架構(gòu)。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然語言理解

    2024年02月15日
    瀏覽(251)
  • 【論文筆記】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

    【論文筆記】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

    GitHub 視覺轉(zhuǎn)換器的輸入單元,即圖像補(bǔ)丁,沒有預(yù)先存在的詞匯。 預(yù)測遮罩面片的原始像素往往會在預(yù)訓(xùn)練短程依賴性和高頻細(xì)節(jié)上浪費(fèi)建模能力 輸入編碼:通過tokenizer將輸入的文本中的每個單詞轉(zhuǎn)換為固定維度的向量表示 輸入Transformer 編碼器:使用多層的 Transformer 編碼

    2024年02月11日
    瀏覽(33)
  • BEiT: BERT Pre-Training of Image Transformers 論文筆記

    BEiT: BERT Pre-Training of Image Transformers 論文筆記

    論文名稱: BEiT: BERT Pre-Training of Image Transformers 論文地址:2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代碼地址:unilm/beit at master · microsoft/unilm (github.com) 作者講解:BiLiBiLi 作者PPT:文章資源 首先展示的是我基于這個算法搭建的網(wǎng)頁 demo ,歡迎體驗(yàn)。https://wangqvq-be

    2024年02月11日
    瀏覽(21)
  • ChatGPT1論文解讀《Improving Language Understanding by Generative Pre-Training》

    以下是我閱讀完整篇論文做的個人總結(jié),基本包含了ChatGPT1設(shè)計的完整框架思路,可以僅看【論文總結(jié)】章節(jié)。 在GPT1實(shí)現(xiàn)的核心架構(gòu)中,包含兩個階段。 第一階段 在 第一階段 基于一個包含 7000本書籍 內(nèi)容的海量 未標(biāo)注文本數(shù)據(jù)集 進(jìn)行無監(jiān)督預(yù)訓(xùn)練,該階段引入了一種 T

    2024年02月05日
    瀏覽(30)
  • Re58:讀論文 REALM: Retrieval-Augmented Language Model Pre-Training

    Re58:讀論文 REALM: Retrieval-Augmented Language Model Pre-Training

    諸神緘默不語-個人CSDN博文目錄 諸神緘默不語的論文閱讀筆記和分類 論文名稱:REALM: Retrieval-Augmented Language Model Pre-Training 模型名稱:Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML論文,作者來自谷歌,關(guān)注RAG+LLM。目標(biāo)是解決純用LM參數(shù)儲存知識就得讓LM尺寸越來

    2024年02月04日
    瀏覽(24)
  • 論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    標(biāo)題:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI ??文章給出了一種新的NLP預(yù)訓(xùn)練模型的訓(xùn)練方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    瀏覽(37)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包