一. 論文與代碼
論文:https://arxiv.org/abs/2301.12597
代碼:https://github.com/salesforce/LAVIS/tree/main/projects/blip2
二. 解決問題
端到端訓(xùn)練視覺語言模型需要大尺度模型及大規(guī)模數(shù)據(jù),該過程成本大,本文提出方法基于現(xiàn)有高質(zhì)量視覺模型及語言大模型進(jìn)行聯(lián)合訓(xùn)練,為減少計算量及防止遺忘,作者對預(yù)訓(xùn)練模型進(jìn)行frozen,為了將兩任務(wù)對齊,作者提出Querying Transformer (Q- Former) 預(yù)訓(xùn)練,如圖1,其將有用視覺特征傳遞至LLM輸出目標(biāo)文本。
三. 算法架構(gòu)
圖一:BLIP-2的算法框架,我們訓(xùn)練了一個輕量級的Q-Former來對齊文本和語言兩個模態(tài)的差距。第一階段從凍結(jié)的圖像編碼中學(xué)習(xí)到圖像的語言表征,第二階段通過凍結(jié)的大語言模型從圖像特征到語言生成。
四. 具體細(xì)節(jié)
-
表征學(xué)習(xí)階段
左邊是Q-Former的結(jié)構(gòu),用來學(xué)習(xí)圖片的視覺語言表征,作者使用三個目標(biāo)函數(shù)使模型學(xué)習(xí)到圖片的視覺表征;右邊的self-attention masking策略來控制query-text之間的交互。 -
語言生成階段
作者將Q-Former與LLM相連,后去LLM的語言生成能力。如圖,F(xiàn)C層映射輸出的query embedding Z至LLM的text embedding;基于LLM Q-Former提取到的視覺表征作為soft visual prompt,由于Q-Former已經(jīng)預(yù)訓(xùn)練用于提取對文本有用的視覺表征,減輕LLM學(xué)習(xí)視覺-文本對齊的負(fù)擔(dān)。
作者實驗兩種LLM,decoder-based LLM以及encoder-decoder-based LLM。
對于decoder-based LLM,作者使用language modeling loss進(jìn)行預(yù)訓(xùn)練,frozen LLM進(jìn)行文本生成;
對于encoder-decoder-based LLM,使用prefix language modeling loss預(yù)訓(xùn)練,將text分為兩部分,text前半部分與視覺表征concat輸入LLM編碼器,后半部分作為LLM解碼器的生成目標(biāo)。
五. 結(jié)論
BLIP-2是一種通用且計算高效的視覺語言預(yù)訓(xùn)練方案,使用frozen 預(yù)訓(xùn)練圖像編碼器及LLM,在多個視覺語言任務(wù)達(dá)到SOTA,也證明了其在零樣本instructed image-to-text生成能力。文章來源:http://www.zghlxwxcb.cn/news/detail-493242.html
推薦:BLIP2-圖像文本預(yù)訓(xùn)練論文解讀文章來源地址http://www.zghlxwxcb.cn/news/detail-493242.html
到了這里,關(guān)于BLIP2原理解讀——大模型論文閱讀筆記二的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!