国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

圖-文多模態(tài),大模型,預(yù)訓(xùn)練

這篇具有很好參考價(jià)值的文章主要介紹了圖-文多模態(tài),大模型,預(yù)訓(xùn)練。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

參考老師的無敵課程
多模態(tài)任務(wù)是指需要同時(shí)處理兩種或多種不同類型的數(shù)據(jù)(如圖像、文本、音頻等)的任務(wù)。例如,圖像描述(image captioning)就是一種典型的多模態(tài)任務(wù),它需要根據(jù)給定的圖像生成相應(yīng)的文本描述。多模態(tài)任務(wù)在人工智能領(lǐng)域具有重要的意義和應(yīng)用價(jià)值,因?yàn)樗鼈兛梢阅M人類在日常生活中處理多種信息源的能力。

近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,多模態(tài)任務(wù)取得了顯著的進(jìn)步。特別是VIT(Vision Transformer)和CLIP(Contrastive Language–Image Pre-training)這兩種基于Transformer模型的方法,極大地推動(dòng)了多模態(tài)研究的發(fā)展。相比于傳統(tǒng)的基于CNN(Convolutional Neural Network)的方法,Transformer能夠?qū)Σ煌B(tài)的數(shù)據(jù)進(jìn)行統(tǒng)一建模,包括參數(shù)共享和特征融合。這極大地降低了多模態(tài)任務(wù)的復(fù)雜性和計(jì)算成本。

圖-文任務(wù)是指需要同時(shí)處理圖像和文本數(shù)據(jù)的任務(wù),如圖像描述、圖像檢索(image retrieval)、視覺問答(visual question answering)等。就圖-文任務(wù)而言,ViLT首先使用Transformer移除了任務(wù)中目標(biāo)檢測(cè)模塊,參照VIT將多模態(tài)任務(wù)更加優(yōu)雅地解決。隨后學(xué)術(shù)界就如何解決多模態(tài)任務(wù),進(jìn)行了不斷地探究。網(wǎng)絡(luò)結(jié)構(gòu)也進(jìn)行一系列變化,其中,單塔模型使用一個(gè)Transformer對(duì)圖像,文本進(jìn)行特征抽??;雙塔模型則使用兩個(gè)對(duì)應(yīng)網(wǎng)絡(luò)進(jìn)行特征抽?。蛔罱仓鸩秸宫F(xiàn)出統(tǒng)一的模型結(jié)構(gòu),即網(wǎng)絡(luò)參數(shù)共享,可根據(jù)任務(wù)不同選擇合適的模塊進(jìn)行解決。

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺
參考: ViLT,多模態(tài)串講上, 多模態(tài)串講下,albef與blip的高集成庫(LAVIS)

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision (ICML 2021)

突出貢獻(xiàn): 在Image-Text對(duì)齊過程中,移除了目標(biāo)檢測(cè)。

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

算法流程:

  1. 首先使用Word Embedding對(duì)文本編碼得到 E t E_t Et?,使用Linear Projection對(duì)圖像塊進(jìn)行編碼得到 E i E_{i} Ei?。并且在兩個(gè)頭部分別加入分類token。
  2. 隨后向文本編碼與圖像編碼中,加入位置編碼 E p E_p Ep?與模塊編碼 E m E_m Em?,分別提供位置信息與屬于哪個(gè)模態(tài)信息。
  3. E t E_t Et? E i E_i Ei?拼接,得到最終輸入序列 E i n E_{in} Ein?。
    (4) E i n E_{in} Ein?輸入到Transformer Encoder中進(jìn)行信息計(jì)算交互。

損失函數(shù):

  • Image Text Matching: 訓(xùn)練中,會(huì)人為創(chuàng)造一些不匹配的image和text,然后選取序列頭部的token來判斷圖文是否匹配。
  • Masked Language Model: BERT的目標(biāo)函數(shù),隨機(jī)mask一些單詞,然后使用多模態(tài)信息進(jìn)行預(yù)測(cè)。
  • Word Patch Aligment:保證word的特征分布與image的特征分布一致。
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021)

突出貢獻(xiàn): (1)將Language model劈成兩半,并且在多模態(tài)融合前首先進(jìn)行image-text對(duì)齊。(2)使用Momentum Model作為‘老師網(wǎng)絡(luò)’來緩解噪聲數(shù)據(jù)的影響 (one-hot可能存在偏差,Momentum Model可以引入soft-label)。

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

算法流程:

  1. 模型包括一個(gè)image encoder與一個(gè)BERT,并且將BERT對(duì)半劈開,分別進(jìn)行文本特征提?。╰ext encoder)與多模態(tài)融合(multimodal encoder)。
  2. image輸入到image encoder(12層)提取特征,文本輸入text encoder(6層)提取特征。
  3. 得到的文本與圖像特征輸入到multimodal encoder進(jìn)行多模態(tài)融合。

損失函數(shù):

  • Image-Text Contrastive loss: 使用對(duì)比損失來約束image與text的特征,positive靠近,negative遠(yuǎn)離。
  • Image-Text Matching(ITM): 選取對(duì)比計(jì)算中的hard negative,要求網(wǎng)絡(luò)計(jì)算其是否匹配,賦予網(wǎng)絡(luò)具有挑戰(zhàn)的任務(wù)。
  • Masked Language Modeling(MLM): BERT的預(yù)訓(xùn)練函數(shù)。
  • Momentum Model(參考MOCO): 拷貝自原有模型,其參數(shù)移動(dòng)平均更新的很慢: P m o m e n t u m = m ? P m o m e n t u m + ( 1 ? m ) ? P o r i g i n a l P_{momentum}=m * P_{momentum} + (1-m) * P_{original} Pmomentum?=m?Pmomentum?+(1?m)?Poriginal?,模型會(huì)使用KL損失來約束原有網(wǎng)絡(luò)與Momentum Model的輸出。

VLMo - General-purpose Multimodal Pre-training (NeurIPS 2022)

突出貢獻(xiàn): 靈活!既不是單塔模型(擅長(zhǎng)圖文推理),也不是雙塔模型(擅長(zhǎng)圖文檢索),而是使用共享參數(shù)提取圖像文本特征,然后訓(xùn)練幾個(gè)專家,這樣選擇不同的專家就能解決不同的任務(wù),專家就是網(wǎng)絡(luò)中的不同F(xiàn)eed Forward。

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺
圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

算法流程:

  1. 首先預(yù)訓(xùn)練vision。具體來說mask調(diào)圖像塊,然后使用BEiT進(jìn)行重建,訓(xùn)練V-FFN作為視覺專家。
  2. 其次訓(xùn)練language。凍結(jié)V-FFN與共享self-attention參數(shù),使用文本訓(xùn)練語言專家L-FFN。(視覺參數(shù)直接在文本上使用)
  3. 訓(xùn)練vision-language專家VF-FFN。將網(wǎng)絡(luò)都打開,輸入圖像-文本對(duì)來訓(xùn)練所有專家。

損失函數(shù):

  • Image-Text Contrast: 打開V-FFN與L-FFN,模型轉(zhuǎn)化為CLIP,擅長(zhǎng)處理圖文檢索的任務(wù)
  • Image-Text Matching:打開V-FFN與L-FFN,VL-FFN,模型轉(zhuǎn)化為ALBEF,變?yōu)殡p塔結(jié)構(gòu),擅長(zhǎng)處理圖文推理任務(wù)。
  • Masked LM: 打開V-FFN與L-FFN,VL-FFN是,使用BERT的的預(yù)訓(xùn)練函數(shù)(完形填空)訓(xùn)練模型。

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML22)

突出貢獻(xiàn): (ALBEF的后續(xù)) 靈活!出發(fā)點(diǎn)與VLMo一致,都是著重解決image-text任務(wù)中模型復(fù)雜的問題。另外對(duì)存在噪聲的數(shù)據(jù)進(jìn)行了caption filter篩選,得到了更好的數(shù)據(jù)對(duì)。

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

算法流程:

  1. 模型中Text Encoder;Image-grounded Text Encoder 與 Image-grounded Text decoder共享參數(shù),與VLMo一致。
  2. 圖像使用一個(gè)標(biāo)準(zhǔn)的Image Encoder來提取特征,text部分使用針對(duì)不同的任務(wù)來打開或關(guān)閉模型組件參數(shù)。

損失函數(shù):

  • 與ALBEF損失函數(shù)類似,知識(shí)MLM換成了LM(預(yù)測(cè)下一個(gè)詞)。

Caption Filter模塊

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺
  • 收集網(wǎng)絡(luò)上噪聲數(shù)據(jù)( I w I_w Iw?, T w T_w Tw?),以及人工標(biāo)注的數(shù)據(jù)( I h I_h Ih?, T h T_h Th?
  • 使用( I h I_h Ih?, T h T_h Th?)數(shù)據(jù)以及IT,ITM,LM損失函數(shù)訓(xùn)練Filter
  • 使用Filter過濾( I w I_w Iw?, T w T_w Tw?),并且使用Caption生成新數(shù)據(jù)( I w I_w Iw?, T s T_s Ts?)。
  • 最終將人工標(biāo)注數(shù)據(jù)+過濾后的網(wǎng)絡(luò)數(shù)據(jù)+生成的caption數(shù)據(jù)共同訓(xùn)練模型。

CoCa: Contrastive Captioners are Image-Text Foundation Models

突出貢獻(xiàn): (ALBEF的后續(xù)) 大力出奇跡!??!

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks (CVPR 2023)

突出貢獻(xiàn): 大一統(tǒng)!??!損失函數(shù)統(tǒng)一為mask loss; 網(wǎng)絡(luò)統(tǒng)一為Multiway Transformer(開關(guān)可控)。

圖文多模態(tài),深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

將圖像作為單詞(image as a foreign language),所有都是NLP!!!,VLMo負(fù)責(zé)框架統(tǒng)一,Mask model負(fù)責(zé)損失統(tǒng)一。文章來源地址http://www.zghlxwxcb.cn/news/detail-600852.html

到了這里,關(guān)于圖-文多模態(tài),大模型,預(yù)訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包