国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

BLIP2原理解讀——大模型論文閱讀筆記二

這篇具有很好參考價值的文章主要介紹了BLIP2原理解讀——大模型論文閱讀筆記二。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一. 論文與代碼

論文:https://arxiv.org/abs/2301.12597
代碼:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

二. 解決問題

端到端訓(xùn)練視覺語言模型需要大尺度模型及大規(guī)模數(shù)據(jù),該過程成本大,本文提出方法基于現(xiàn)有高質(zhì)量視覺模型及語言大模型進(jìn)行聯(lián)合訓(xùn)練,為減少計算量及防止遺忘,作者對預(yù)訓(xùn)練模型進(jìn)行frozen,為了將兩任務(wù)對齊,作者提出Querying Transformer (Q- Former) 預(yù)訓(xùn)練,如圖1,其將有用視覺特征傳遞至LLM輸出目標(biāo)文本。

三. 算法架構(gòu)

BLIP2原理解讀——大模型論文閱讀筆記二
圖一:BLIP-2的算法框架,我們訓(xùn)練了一個輕量級的Q-Former來對齊文本和語言兩個模態(tài)的差距。第一階段從凍結(jié)的圖像編碼中學(xué)習(xí)到圖像的語言表征,第二階段通過凍結(jié)的大語言模型從圖像特征到語言生成。

四. 具體細(xì)節(jié)

  1. 表征學(xué)習(xí)階段
    BLIP2原理解讀——大模型論文閱讀筆記二
    左邊是Q-Former的結(jié)構(gòu),用來學(xué)習(xí)圖片的視覺語言表征,作者使用三個目標(biāo)函數(shù)使模型學(xué)習(xí)到圖片的視覺表征;右邊的self-attention masking策略來控制query-text之間的交互。

  2. 語言生成階段
    BLIP2原理解讀——大模型論文閱讀筆記二
    作者將Q-Former與LLM相連,后去LLM的語言生成能力。如圖,F(xiàn)C層映射輸出的query embedding Z至LLM的text embedding;基于LLM Q-Former提取到的視覺表征作為soft visual prompt,由于Q-Former已經(jīng)預(yù)訓(xùn)練用于提取對文本有用的視覺表征,減輕LLM學(xué)習(xí)視覺-文本對齊的負(fù)擔(dān)。
    作者實驗兩種LLM,decoder-based LLM以及encoder-decoder-based LLM。
    對于decoder-based LLM,作者使用language modeling loss進(jìn)行預(yù)訓(xùn)練,frozen LLM進(jìn)行文本生成;
    對于encoder-decoder-based LLM,使用prefix language modeling loss預(yù)訓(xùn)練,將text分為兩部分,text前半部分與視覺表征concat輸入LLM編碼器,后半部分作為LLM解碼器的生成目標(biāo)。

五. 結(jié)論

BLIP-2是一種通用且計算高效的視覺語言預(yù)訓(xùn)練方案,使用frozen 預(yù)訓(xùn)練圖像編碼器及LLM,在多個視覺語言任務(wù)達(dá)到SOTA,也證明了其在零樣本instructed image-to-text生成能力。

推薦:BLIP2-圖像文本預(yù)訓(xùn)練論文解讀文章來源地址http://www.zghlxwxcb.cn/news/detail-493242.html

到了這里,關(guān)于BLIP2原理解讀——大模型論文閱讀筆記二的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • DALL-E2原理解讀——大模型論文閱讀筆記五

    DALL-E2原理解讀——大模型論文閱讀筆記五

    論文:https://cdn.openai.com/papers/dall-e-2.pdf 項目:https://openai.com/dall-e-2 利用CLIP提取的文本特征,級聯(lián)式的生成圖片。第一階段通過prior將文本特征與圖像特征進(jìn)行對齊,第二階段用擴(kuò)散模型將視覺特征轉(zhuǎn)化為生成圖片。整體來看,DALL-E2就是CLIP與擴(kuò)散模型的結(jié)合,因此作者也將其

    2024年02月11日
    瀏覽(21)
  • 多模態(tài)視覺語言模型:BLIP和BLIP2

    多模態(tài)視覺語言模型:BLIP和BLIP2

    BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation BLIP的總體結(jié)構(gòu)如下所示,主要包括三部分: 單模態(tài)編碼器(Image encoder/Text encoder) :分別進(jìn)行圖像和文本編碼,文本編碼器和BERT一樣在輸入中增加了[CLS]來表征整個句子 Image-grounded text encoder :通

    2024年04月24日
    瀏覽(19)
  • 【論文閱讀】Weighted Boxes Fusion(WBF)模型融合原理解讀

    【論文閱讀】Weighted Boxes Fusion(WBF)模型融合原理解讀

    論文地址:https://arxiv.org/pdf/1910.13302.pdf 代碼地址:GitHub - ZFTurbo/Weighted-Boxes-Fusion: Set of methods to ensemble boxes from different object detection models, including implementation of \\\"Weighted boxes fusion (WBF)\\\" method. 【 原理 】 (1)將所有獲得的候選框按得分進(jìn)行降序排列; (2)選取得分最高的候選框

    2024年02月10日
    瀏覽(27)
  • 多模態(tài)應(yīng)用展望——看圖聊天、BLIP2

    多模態(tài)應(yīng)用展望——看圖聊天、BLIP2

    BLIP2 是 salesforce 公司開源的多模態(tài)模型,其大致的原理,可以類比看圖寫作,當(dāng)前 AI 在文生圖模式之外,也支持圖生文模式,可以將照片中的核心元素識別出來。然后把這些元素作為上下文,交給 ChatGPT 類似的大語言模型進(jìn)行擴(kuò)展寫作和對話。 BLIP2 在線試用地址為:https:/

    2024年02月06日
    瀏覽(15)
  • [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    擴(kuò)散模型近期在圖像生成領(lǐng)域很火, 沒想到很快就被用在了檢測上. 打算對這篇論文做一個筆記. 論文地址: 論文 代碼: 代碼 首先介紹什么是擴(kuò)散模型. 我們考慮生成任務(wù), 即encoder-decoder形式的模型, encoder提取輸入的抽象信息, 并嘗試在decoder中恢復(fù)出來. 擴(kuò)散模型就是這一類中的

    2023年04月08日
    瀏覽(26)
  • 多模態(tài)論文閱讀之BLIP

    多模態(tài)論文閱讀之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    瀏覽(26)
  • VLM 系列——Instruct BLIP——論文解讀

    ? ? Instruct BLIP 全稱《InstructBLIP: Towards General-purpose?Vision-Language Models with Instruction Tuning》,是一個多模態(tài)視覺-文本大語言模型,隸屬BLIP系列第三篇,可以完成:圖像描述、視覺問答、名畫名人等識別(問答、描述)。支持單幅圖片輸入(作為第一個輸入),多輪文本對話。

    2024年01月23日
    瀏覽(30)
  • 多模態(tài)大模型系列論文(ALBEF、BLIP、BLIP-2)

    多模態(tài)大模型系列論文(ALBEF、BLIP、BLIP-2)

    ?視覺-文本 融合任務(wù),如圖文檢索、視覺問答、NLVR (natural language vision reasoning)等 1)沒有對齊視覺的 tokens 和 文字的 tokens, 因此給 多模編碼器進(jìn)行圖文交互學(xué)習(xí)時帶來挑戰(zhàn) 2)訓(xùn)練多模模型,利用到了互聯(lián)網(wǎng)上爬取的數(shù)據(jù),這些數(shù)據(jù)中往往存在大量噪聲,傳統(tǒng)的圖文特征

    2024年02月08日
    瀏覽(42)
  • 萬字長文解讀圖像超分辨率 Real-ESRGAN 論文筆記+代碼閱讀

    萬字長文解讀圖像超分辨率 Real-ESRGAN 論文筆記+代碼閱讀

    目錄 一、介紹 二、重點創(chuàng)新 1.ESRGAN? 2.Real-ESRGAN 三、生成器結(jié)構(gòu) 1.整體結(jié)構(gòu) 2.RRDB結(jié)構(gòu) 四、判別器結(jié)構(gòu) 五、高階退化模型 六、損失函數(shù) 1.生成模型損失函數(shù) 2.判別模型損失函數(shù) ????????超分辨率(Super-Resolution)指通過硬件或軟件的方法提高原有圖像的分辨率,通過一系列低

    2024年02月14日
    瀏覽(30)
  • 【模型壓縮】 LPPN論文閱讀筆記

    【模型壓縮】 LPPN論文閱讀筆記

    LPPN: A Lightweight Network for Fast Phase Picking ?深度學(xué)習(xí)模型的問題在于計算復(fù)雜度較高,在實際數(shù)據(jù)處理中需要面臨較高的處理代價,且需要專用的加速處理設(shè)備,如GPU。隨著數(shù)據(jù)累積,迫切需要設(shè)計一種能夠保證精度的輕量化高速震相拾取模型,以提高處理海量數(shù)據(jù)的效率,這

    2024年02月16日
    瀏覽(58)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包