国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

2年前作者：完美屁桃分類：Toy博客閱讀(25)違法舉報

這篇具有很好參考價值的文章主要介紹了論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Paper：Grounded Language-Image Pre-training

Code：https://github.com/microsoft/GLIP

簡介：

定位任務(wù)與圖像檢測任務(wù)非常類似，都是去圖中找目標(biāo)物體的位置，目標(biāo)檢測為給出一張圖片找出bounding box，定位為給出一個圖片和文本，根據(jù)文本找出物體。GLIP 模型統(tǒng)一了目標(biāo)檢測（object detection）和定位（grounding）兩個任務(wù)，構(gòu)建了一個統(tǒng)一的訓(xùn)練框架，從而將兩個任務(wù)的數(shù)據(jù)集都利用起來。再配合偽標(biāo)簽的技術(shù)來擴(kuò)增數(shù)據(jù)，使得訓(xùn)練的數(shù)據(jù)量達(dá)到了前所未有的規(guī)模。在訓(xùn)練完成之后，直接以 zero-shot 的方式在 COCO 數(shù)據(jù)集上進(jìn)行測試，達(dá)到了 49.8 AP。
GLIP 進(jìn)行 zero-shot 測試的結(jié)果如下圖所示，不管是給定幾個類別（如 person、pistol、apple等）還是給定一段話（如 ‘there are some holes on the road’）作為文本編碼器的輸入，GLIP 模型都能從圖像中找到對應(yīng)物體的位置。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?如何統(tǒng)一兩個任務(wù)：

detection 和 grouding 任務(wù)的目標(biāo)函數(shù)都是由兩部分損失組成，即分類損失和定位損失。定位損失不必多說，直接去計算與標(biāo)注中的 GT 框的距離即可。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?1、而對于分類損失，則有所不同。對于 detection 任務(wù)來說，分類的標(biāo)簽是一個類別單詞，在計算分類損失時，每個區(qū)域框特征與分類頭計算得到 logits，輸出 logits 經(jīng)過 nms 篩選之后，與 GT 計算交叉熵?fù)p失即可。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?對于目標(biāo)檢測，給定一個圖片Img，通過圖像的backbone得到region embedding，O是N*d的一個region embedding，即如果有n個bounding box 每個bounding box embedding的維度就是d。之后再接一個分類頭，判斷bounding box里的物體是哪個類，分類頭W是一個矩陣，維度為c*d，c是有多少個類別，將region embedding與W相乘得最后分類的logits S，之后用mns把bounding box篩選一下再跟groundtruth算交叉熵得到最終的loss。

2、對于 vision grounding 任務(wù)來說，標(biāo)簽是一個句子，不是用分類頭，而是通過文本編碼器得到文本特征，計算文本特征與區(qū)域框特征的相似度，得到匹配分?jǐn)?shù)，想看看圖像區(qū)域和句子里的單詞是怎么匹配的。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?給定一個圖片Img，通過圖像的backbone得到region embedding，接下來輸入一個句子至文本編碼器得到文本embedding，之后文本embedding與圖像的region embedding算相似性。

3、作者提出，只要判斷一下兩個任務(wù)中什么時候是 positive match，什么時候是 negative match，就能將兩個任務(wù)統(tǒng)一起來了。理論分析后，作者使用統(tǒng)一過后的框架驗(yàn)證了在 COCO 數(shù)據(jù)集上的指標(biāo)，與之前的目標(biāo)檢測框架持平，因此從實(shí)驗(yàn)上也驗(yàn)證了自己的想法。

數(shù)據(jù)集：

既然統(tǒng)一了 detection 和 grounding 兩個任務(wù)，最直接的一個利好就是兩邊的數(shù)據(jù)集都可以拿來訓(xùn)練這個統(tǒng)一的框架。即下圖中所示的 O365 和 GoldG 兩個數(shù)據(jù)集。這些數(shù)據(jù)集都是有標(biāo)注的，規(guī)模還不夠大。想要進(jìn)一步獲得更大量的數(shù)據(jù)，必須像 CLIP 那樣借助無標(biāo)注的圖像文本對數(shù)據(jù)。但是，目標(biāo)檢測任務(wù)的訓(xùn)練必須要 GT 框，單獨(dú)的圖文對數(shù)據(jù)沒法直接用。作者這里使用了 self-training 中偽標(biāo)簽的方式，使用 O365 和 GoldG 上訓(xùn)練好的 GLIP-T（c）去在圖文對數(shù)據(jù) Cap4M/ Cap24M 上生成偽標(biāo)簽，直接當(dāng)做 GT 框給 GLIP-T/L 進(jìn)行訓(xùn)練。生成的偽標(biāo)簽肯定有錯誤，但是實(shí)驗(yàn)表明，經(jīng)過擴(kuò)充大量偽標(biāo)簽數(shù)據(jù)訓(xùn)練得到的 GLIP-L 模型仍然會有性能提高。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?模型結(jié)構(gòu):

1、GLIP 模型結(jié)構(gòu)及訓(xùn)練目標(biāo)如下圖所示，模型是以有監(jiān)督的方式進(jìn)行訓(xùn)練，計算得到文本特征和圖像特征的相似度之后，直接與 GT 計算對齊損失（alignment loss）即可，定位損失（Localization loss）也是直接與GT 框計算。

2、模型中間的融合層（fusion）是為了增加圖像編碼器和文本編碼器之間的特征交互，使得最終的圖像-文本聯(lián)合特征空間訓(xùn)練得更好。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?定量實(shí)驗(yàn)結(jié)果：

? ??GLIP 的定量實(shí)驗(yàn)結(jié)果如下圖所示，GLIP 模型可以做 zero-shot 的目標(biāo)檢測，并且能夠達(dá)到 49.8 AP。如果再在 COCO 上進(jìn)行微調(diào)，GLIP 的 AP 能夠超過當(dāng)前最好的一些有監(jiān)督方法。

論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）

?GLIPv2

Paper：GLIPv2: Unifying Localization and Vision-Language Understanding

Code：https://github.com/microsoft/GLIP

GLIP 的進(jìn)一步拓展工作 GLIPv2 融合了更多定位相關(guān)的任務(wù)（如檢測、實(shí)例分割）和更多的多模態(tài)相關(guān)的任務(wù)（如問答、字幕生成）。文章來源地址http://www.zghlxwxcb.cn/news/detail-445601.html

到了這里，關(guān)于論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[BLIP]-多模態(tài)Language-Image預(yù)訓(xùn)練模型
論文：https://arxiv.org/pdf/2201.12086.pdf ?代碼：GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo：BLIP - a Hugging Face Space by akhaliq motivation：從模型角度來看，大多數(shù)方法要么采用基于編碼器的模型，要么采用編碼器
2024年02月05日
瀏覽(28)
跨模態(tài)檢索論文閱讀：(PTP)Position-guided Text Prompt for Vision-Language Pre-training
(PTP)Position-guided Text Prompt for Vision-Language Pre-training 視覺語言預(yù)訓(xùn)練的位置引導(dǎo)文本提示視覺語言預(yù)訓(xùn)練(VLP)已經(jīng)顯示出將圖像和文本對統(tǒng)一起來的能力，促進(jìn)了各種跨模態(tài)的學(xué)習(xí)任務(wù)。然而，我們注意到，VLP模型往往缺乏視覺基礎(chǔ)/定位能力，這對許多下游任務(wù)如視覺推理至
2024年02月11日
瀏覽(30)
論文閱讀【自然語言處理-預(yù)訓(xùn)練模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART：用于自然語言生成、翻譯和理解的去噪序列對序列預(yù)訓(xùn)練【機(jī)構(gòu)】：Facebook AI 【作者】：Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye
2024年02月03日
瀏覽(43)
【論文筆記】Improving Language Understanding by Generative Pre-Training
背景：自然語言理解包括廣泛的不同任務(wù)，如文本蘊(yùn)涵、QA問答、語義相似性評估和文檔分類。問題：盡管大型未標(biāo)記文本語料庫（corpora）非常豐富；但用于學(xué)習(xí)特定任務(wù)的標(biāo)記數(shù)據(jù) 卻很少，這使得采用傳統(tǒng)的有監(jiān)督深度學(xué)習(xí)方法訓(xùn)練得到的模型表現(xiàn)較差。解決：通過
2024年03月24日
瀏覽(35)
【NLP經(jīng)典論文精讀】Improving Language Understanding by Generative Pre-Training
chatGPT的初代工作，可以說沒有GPT，就沒有現(xiàn)在的大模型百家爭鳴，本篇文章回顧這篇經(jīng)典論文，思考作者是如何根據(jù)前者的工作在思想上進(jìn)行創(chuàng)新，從而得到通用的模型架構(gòu)。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然語言理解
2024年02月15日
瀏覽(251)
【論文筆記】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS
GitHub 視覺轉(zhuǎn)換器的輸入單元，即圖像補(bǔ)丁，沒有預(yù)先存在的詞匯。預(yù)測遮罩面片的原始像素往往會在預(yù)訓(xùn)練短程依賴性和高頻細(xì)節(jié)上浪費(fèi)建模能力輸入編碼：通過tokenizer將輸入的文本中的每個單詞轉(zhuǎn)換為固定維度的向量表示輸入Transformer 編碼器：使用多層的 Transformer 編碼
2024年02月11日
瀏覽(33)
BEiT: BERT Pre-Training of Image Transformers 論文筆記
論文名稱： BEiT: BERT Pre-Training of Image Transformers 論文地址：2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代碼地址：unilm/beit at master · microsoft/unilm (github.com) 作者講解：BiLiBiLi 作者PPT：文章資源首先展示的是我基于這個算法搭建的網(wǎng)頁 demo ，歡迎體驗(yàn)。https://wangqvq-be
2024年02月11日
瀏覽(21)
ChatGPT1論文解讀《Improving Language Understanding by Generative Pre-Training》
以下是我閱讀完整篇論文做的個人總結(jié)，基本包含了ChatGPT1設(shè)計的完整框架思路，可以僅看【論文總結(jié)】章節(jié)。在GPT1實(shí)現(xiàn)的核心架構(gòu)中，包含兩個階段。第一階段在第一階段基于一個包含 7000本書籍內(nèi)容的海量未標(biāo)注文本數(shù)據(jù)集進(jìn)行無監(jiān)督預(yù)訓(xùn)練，該階段引入了一種 T
2024年02月05日
瀏覽(30)
Re58：讀論文 REALM: Retrieval-Augmented Language Model Pre-Training
諸神緘默不語-個人CSDN博文目錄諸神緘默不語的論文閱讀筆記和分類論文名稱：REALM: Retrieval-Augmented Language Model Pre-Training 模型名稱：Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML論文，作者來自谷歌，關(guān)注RAG+LLM。目標(biāo)是解決純用LM參數(shù)儲存知識就得讓LM尺寸越來
2024年02月04日
瀏覽(24)
論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
標(biāo)題：ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者：Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期：2020 期刊：AAAI ??文章給出了一種新的NLP預(yù)訓(xùn)練模型的訓(xùn)練方法，并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE
2024年02月09日
瀏覽(37)