国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研

這篇具有很好參考價(jià)值的文章主要介紹了【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

一、簡介

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

近來,一種新的學(xué)習(xí)范式 pre-training → Finetuning → Prediction 取得了很大的進(jìn)步,并且在視覺識(shí)別任務(wù)中取得了很好的效果。

使用 pretrained 模型來學(xué)習(xí)豐富的知識(shí),可以加速模型對下游任務(wù)的收斂速度并且提高效果

但是,這種學(xué)習(xí)范式在下游任務(wù)仍然需要很多帶標(biāo)注的數(shù)據(jù),如圖 2 所示

之后,受啟發(fā)與自然語言處理的語言語義廣泛性,研究者提出了新的學(xué)習(xí)范式:vision-language model pretraining and zero-shot prediction

在該范式下,使用超大規(guī)模的 image-text pairs 對 vision-language model(VLM)進(jìn)行預(yù)訓(xùn)練,甚至可以不用微調(diào)直接用于下游任務(wù),如圖 2c。

VLM 模型可以使用 vision-language objective 來從超大規(guī)模的 image-text pairs 中學(xué)習(xí) image 和 text 的對應(yīng)關(guān)聯(lián)。

例如 CLIP,就是使用 image-text 對比學(xué)習(xí)目標(biāo)函數(shù)來將成對兒的 image-text 的編碼距離拉近,將不成對兒的 image-text 編碼距離推遠(yuǎn)。

這樣的學(xué)習(xí)方式能夠允許模型利用大量的來源于網(wǎng)絡(luò)的數(shù)據(jù),并且可以無需訓(xùn)練即可實(shí)現(xiàn)零樣本遷移。

基于此, VLM 有兩條研究方向:

  • 遷移學(xué)習(xí)
  • 知識(shí)蒸餾:如何將 VLM 的能力蒸餾到下游任務(wù),如目標(biāo)檢測和語義分割

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

二、基礎(chǔ)知識(shí)

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2.1 視覺任務(wù)的訓(xùn)練策略

1、傳統(tǒng)的機(jī)器視覺:

主要靠手工提取特征來作為圖像特征,如 SIFT 等,無法適應(yīng)復(fù)雜的任務(wù)

2、從頭訓(xùn)練的深度學(xué)習(xí)和預(yù)測

設(shè)計(jì)深度的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行圖像特征的提取,如 ResNet 使用殘差連接實(shí)現(xiàn)了很好的特征提取,在 1000-class ImageNet 分類任務(wù)上獲得了優(yōu)于人類的結(jié)果

3、有監(jiān)督預(yù)訓(xùn)練,微調(diào)和預(yù)測

有監(jiān)督的預(yù)訓(xùn)練如圖 2a 所示,使用大量的數(shù)據(jù)訓(xùn)練了模型, 然后使用微調(diào)的方法遷移到其他數(shù)據(jù)集上去,能夠加速模型的收斂并且?guī)椭@得更好的效果

4、無監(jiān)督預(yù)訓(xùn)練、微調(diào)和預(yù)測

有監(jiān)督的訓(xùn)練需要大量的監(jiān)督數(shù)據(jù),會(huì)帶來一些困難,所以有方法使用了無監(jiān)督訓(xùn)練,讓模型從無標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)有用的信息,如圖 2b 所示??梢允褂?image inpainting 來學(xué)習(xí)上下文信息,使用 masked image modeling 來建模 patch 間的關(guān)系。使用對比學(xué)習(xí)來學(xué)習(xí)更豐富的特征。由于其在預(yù)訓(xùn)練階段不需要大量的帶標(biāo)簽數(shù)據(jù),所以能使用更多的數(shù)據(jù)來學(xué)習(xí)到更多更有用的特征。

5、VLM pre-training 和 zero-shot prediction

和 pre-training、fine-tuning 相比,這種方式更能利用超大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)

2.2 VLM 基礎(chǔ)

給定 image-text pairs,首先使用 text encoder 和 image encoder 來抽取 image 和 text 特征,然后學(xué)習(xí) vision-language 之間的關(guān)系,通過大量的 image-text 關(guān)系的學(xué)習(xí),VLM 模型已經(jīng)見過非常多的數(shù)據(jù),就可以在未見過的數(shù)據(jù)上使用 image 和 text 的匹配來進(jìn)行 zero-shot 的任務(wù)

2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)

VLM 預(yù)訓(xùn)練模型是從 N 個(gè) image-text pairs 中學(xué)習(xí)圖像和文本的特征

VLM 一般由兩部分組成:

  • image encoder:對圖像進(jìn)行編碼
  • text encoder:對文本進(jìn)行編碼

1、學(xué)習(xí)圖像編碼特征

一般有兩種網(wǎng)絡(luò)結(jié)構(gòu):

  • CNN-based:ResNet 等

    【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

  • Transformer-based:ViT 等(如圖 5 所示)

    【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2、學(xué)習(xí)文本編碼特征

一般 Transformer 都是 encoder-decoder 結(jié)構(gòu),如圖 6,encoder 有 6 個(gè) blocks,decoder 也有 6 個(gè) blocks

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2.2.2 預(yù)訓(xùn)練目標(biāo)函數(shù)

1、對比學(xué)習(xí)目標(biāo)函數(shù)

① Image contrastive learning :

主要通過學(xué)習(xí)具有區(qū)分能力的 image features 來讓 query image 和其 positive keys 拉近距離

給定一個(gè) batch B B B 的數(shù)據(jù),對比學(xué)習(xí)目標(biāo)函數(shù)形式一般如下:

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

  • z i I z_i^I ziI?:query embedding,即圖像的編碼特征也就是查詢的特征編碼
  • { z j I } j = 1 , j ! = i B + 1 \{z_j^I\}_{j=1, j!=i}^{B+1} {zjI?}j=1,j!=iB+1?:key embedding,文本編碼特征,
  • z + I z_+^I z+I? z i I z_i^I ziI? 的 positive key,每個(gè) query embedding 只會(huì)有一個(gè)與之匹配的正樣本,其他的都是負(fù)樣本
  • τ \tau τ:溫度超參,越大則分布越平緩,會(huì)縮小不同樣本的差距,越小則分布越尖銳,會(huì)增大輸出的差距。
  • 當(dāng) query 和唯一配對兒的正樣本特征更相似,且和其他負(fù)樣本都不相似的時(shí)候,loss 的值會(huì)比較低,反之 loss 會(huì)高

② Image-Text Contrastive Learning:

主要為了推近成對兒的 image 和 text 的距離,推遠(yuǎn)不成對兒的 image 和 text 距離,學(xué)習(xí)更好的 image-text 表達(dá)。

一般都是通過最小化對稱的 image-text infoNCE loss 來實(shí)現(xiàn),該 loss 能夠通過 image 和 text 編碼特征的內(nèi)積來衡量 image 和 text 的相似程度,如圖 7 所示:

L i n f o N C E I T = L I → T + L T → I L_{infoNCE}^{IT} = L_{I\to T} + L_{T\to I} LinfoNCEIT?=LIT?+LTI?

  • L I → T L_{I\to T} LIT?:是 query image 和 text key 的對比
  • L T → I L_{T\to I} LTI?:是 query text 和 image key 的對比

假設(shè)給定一個(gè) batch B B B image-text pairs:

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

  • z I z^I zI :image embedding
  • z T z^T zT:text embedding

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

③ Image-Text-Label Contrastive Learning

Image-Text-Label Contrastive Learning 引入有監(jiān)督的對比學(xué)習(xí)到 image-text 對比學(xué)習(xí)中

定義如下:

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能
【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

  • y 是 ( z I , z T ) (z^I, z^T) (zI,zT) 的類別標(biāo)簽

  • image-text-label infoNCE loss: 【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能
    即會(huì)將 image、text、classification label 編碼到一個(gè)相同的特征空間,如圖 8 所示,能夠同時(shí)使用有監(jiān)督的基于 image label 的預(yù)訓(xùn)練和無監(jiān)督的基于 image-text pairs 的 VLM 預(yù)訓(xùn)練

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2、生成式目標(biāo)函數(shù)

① Masked Image Modelling

② Masked Language Modelling

③ Masked Cross-Modal Modelling

3、對齊目標(biāo)函數(shù)

對齊目標(biāo)函數(shù)是通過 global image-text matching 或 local region-word matching 來對齊 image-text pair

① Image-text matching

實(shí)現(xiàn)全局的 image 和 text 的關(guān)聯(lián)學(xué)習(xí),可以使用 score function S ( . ) S(.) S(.) 來衡量 image 和 text 之間的 alignment probability

二分類 loss 如下:

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

  • p=1:image 和 text 是一對兒
  • p=0:image 和 text 不是一對兒

加上給定一個(gè) batch 的 image-text pairs,F(xiàn)LAVA[83] 通過分類器(binary classification loss)來實(shí)現(xiàn)對 image 和 text 的匹配

② Region-word matching

對 local cross-modal 關(guān)聯(lián)建模(對 image region 和 word 建模),主要針對密集預(yù)測,如目標(biāo)檢測, loss 如下:

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

  • ( r I , w T ) (r^I, w^T) (rI,wT) 是 region-word pair
  • p=1 表示 region 和 word 是一對
  • p=0 表示 region 和 word 不是一對
  • S r ( . ) S^r(.) Sr(.) 表示 image region 和 word 之間的相似程度

例如 GLIP、FIBER、DetCLIP,使用 region-word alignment score 代替了 object classification logits,regional visual features 和 token-wise 特征的關(guān)聯(lián)如圖 12 所示。
【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2.2.3 評估和下游任務(wù)

1、zero-shot prediction

① 圖像分類:是為了將圖像分類到預(yù)定義的類別中。

VLM 通過對比 image 和 text 的編碼特征來實(shí)現(xiàn) zero-shot 圖像分類,prompt 一般使用 “a photo of a [label]”

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

② 語義分割

VLM 模型通過對比 image pixels 和 text 的編碼特征來實(shí)現(xiàn) zero-shot 預(yù)測

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

③ 目標(biāo)檢測

VLM 模型通過對比 object proposal 和 text 的 embedding 來實(shí)現(xiàn)目標(biāo)檢測

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

④ image-text 檢索

2、Linear Probing

Linear Probing 也被用于 VLM 模型的評估,就是凍結(jié)預(yù)訓(xùn)練的 VLM,然后訓(xùn)練一個(gè) linear classifier 來對 VLM-encoded embedding 進(jìn)行分類,評估 VLM 的表達(dá)特征。

2.3 數(shù)據(jù)集

1、Image-text dataset

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2、輔助數(shù)據(jù)集

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

三、遷移學(xué)習(xí)

  • 有監(jiān)督遷移學(xué)習(xí)
  • 少樣本監(jiān)督遷移學(xué)習(xí)
  • 無監(jiān)督遷移學(xué)習(xí)

3.1 使用 prompt tuning 實(shí)現(xiàn)遷移學(xué)習(xí)

受啟發(fā)于 NLP,VLM 也使用了 prompt learning 方法來實(shí)現(xiàn)對下游任務(wù)的適配

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

1、使用 text prompt tuning 進(jìn)行遷移學(xué)習(xí)

CoOp[38] 使用 learnable word vectors 來為每個(gè)類別學(xué)習(xí),將類別標(biāo)簽 [label] 擴(kuò)展到了句子,‘[V]1, [V]2, …, [V]m, [label]’,其中 [V] 表示 learnable word vectors(通過最小化分類 loss 來優(yōu)化),如圖 13 所示。

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

2、使用 visual prompt tuning 來進(jìn)行遷移學(xué)習(xí)

比如 VP[168] 使用可學(xué)習(xí)的圖像干擾 v 來修正輸入圖像 x I x^I xI,變?yōu)? x I + v x^I+v xI+v,通過調(diào)整 v 來最小化 loss

visual prompt tuning 能夠?qū)?pixel-level 帶入下游任務(wù),有利于密集預(yù)測任務(wù)

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

3、使用 Text-Visual prompt tuning 來進(jìn)行遷移學(xué)習(xí)

如 UDP 同時(shí)優(yōu)化 text 和 image prompt

3.2 通過特征適應(yīng)來進(jìn)行遷移學(xué)習(xí)

四、VLM 的知識(shí)蒸餾

VLM 的只是蒸餾是將 VLM 的通用的、魯棒的知識(shí)蒸餾到 task-specific 模型上

4.1 目標(biāo)檢測的知識(shí)蒸餾

開集目標(biāo)檢測是為了檢測出任意文本描述的東西

一些 VLM 如 CLIP 是在超大尺度的 image-text pair 上訓(xùn)練的,能夠覆蓋很多的類別詞匯

  • 如 ViLD 將 VLM 的知識(shí)蒸餾到了一個(gè)兩階段檢測器上
  • HierKD 提出了層級 global-local 知識(shí)整理
  • RKD 提出了 region-based 知識(shí)整理,能夠?qū)R region-level 和 image-level 的編碼特征

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能

4.2 語義分割的知識(shí)蒸餾

【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研,多模態(tài),AIGC,深度學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-582081.html

到了這里,關(guān)于【多模態(tài)】13、Vision-Language 模型在視覺任務(wù)中的調(diào)研的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----論文閱讀

    Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----論文閱讀

    Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試 主頁:https://varybase.github.io/ 部分內(nèi)容參考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA 官網(wǎng):https://openai.com/research/clip (要了解的建議看這個(gè),篇幅少點(diǎn),論文中大量篇幅是介紹實(shí)驗(yàn)的) 論

    2024年02月03日
    瀏覽(18)
  • (詳細(xì)版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    (詳細(xì)版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Haoran Wei1?, Lingyu Kong2?, Jinyue Chen2, Liang Zhao1, Zheng Ge1?, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 背景: 隨著大規(guī)模視覺-語言模型(LVLMs)的興起,它們在多個(gè)領(lǐng)域展現(xiàn)出了卓

    2024年02月02日
    瀏覽(19)
  • 論文精讀:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    論文精讀:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

    Status: Reading Author: Chunrui Han, Haoran Wei, Jianjian Sun, Jinrong Yang, Jinyue Chen, Liang Zhao, Lingyu Kong, Xiangyu Zhang, Zheng Ge Institution: 中國科學(xué)院大學(xué), 華中科技大學(xué), 曠視科技(MEGVII Technology) Publisher: arXiv Publishing/Release Date: December 11, 2023 Score /5: ?????? Type: Paper Link: https://arxiv.org/abs/

    2024年02月01日
    瀏覽(28)
  • 論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的問題 之前的來自目標(biāo)數(shù)據(jù)集的標(biāo)記數(shù)據(jù)(有監(jiān)督學(xué)習(xí))可能會(huì)限制可伸縮性。 動(dòng)機(jī) 通過無監(jiān)督提示學(xué)習(xí)(UPL)方法,以避免提示工程,同時(shí)提高類clip視覺語言模型的遷移性能。 主張top-k而不是top-p 注:top-k是指挑選概率最大的k個(gè),top-p是指挑選預(yù)測概率大于p的那些數(shù)據(jù) 看

    2024年04月23日
    瀏覽(70)
  • 論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模態(tài) 論文,利用對比學(xué)習(xí)和動(dòng)量來進(jìn)行圖片與文本信息的上游預(yù)訓(xùn)練。 作者提出問題 簡單的跨模態(tài)比對模型無法確保來自同一模態(tài)的相似輸入保持相似。(模態(tài)內(nèi)部語義信息損失) 全局互信息最大化的操作沒有考慮局部信息和結(jié)構(gòu)信息。 對于上

    2024年04月13日
    瀏覽(28)
  • 【論文閱讀】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

    【論文閱讀】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

    提出了一種針對視覺語言模型的新型越獄框架? 論文地址:https://arxiv.org/abs/2311.05608 代碼地址:?GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts ?1.Motivation VLM可以分為三個(gè)模塊: 語言模塊:是一個(gè)預(yù)先訓(xùn)練的LLM, 已經(jīng)安全對齊 。 視覺模塊:是

    2024年02月03日
    瀏覽(27)
  • 【視頻異常檢測】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 論文閱讀

    【視頻異常檢測】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 論文閱讀

    文章信息: 發(fā)表于:AAAI(CCF A) 原文鏈接:https://arxiv.org/abs/2308.11681 源碼鏈接:https://github.com/nwpu-zxr/VadCLIP 最近,對比語言-圖像預(yù)訓(xùn)練(CLIP)模型在各種圖像級任務(wù)中取得了巨大成功,展現(xiàn)了學(xué)習(xí)豐富語義的強(qiáng)大視覺表示能力。一個(gè)開放且值得探討的問題是如何高效地將這樣一

    2024年03月19日
    瀏覽(31)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP這一類方法只能進(jìn)行圖片級別的視覺和文本對齊; 也有一些方法利用預(yù)訓(xùn)練的目標(biāo)檢測器進(jìn)行目標(biāo)級別的視覺和文本對齊,但是只能編碼目標(biāo)內(nèi)部的特征,無法有效表達(dá)多目標(biāo)上下文關(guān)聯(lián); 本文致力于進(jìn)行多粒度(

    2024年02月09日
    瀏覽(26)
  • [BLIP]-多模態(tài)Language-Image預(yù)訓(xùn)練模型

    [BLIP]-多模態(tài)Language-Image預(yù)訓(xùn)練模型

    論文:https://arxiv.org/pdf/2201.12086.pdf ?代碼:GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation demo:BLIP - a Hugging Face Space by akhaliq motivation: 從模型角度來看,大多數(shù)方法要么采用基于編碼器的模型,要么采用編碼器

    2024年02月05日
    瀏覽(28)
  • BMVC 23丨多模態(tài)CLIP:用于3D場景問答任務(wù)的對比視覺語言預(yù)訓(xùn)練

    BMVC 23丨多模態(tài)CLIP:用于3D場景問答任務(wù)的對比視覺語言預(yù)訓(xùn)練

    來源:投稿 作者:橡皮 編輯:學(xué)姐 論文鏈接:https://arxiv.org/abs/2306.02329 訓(xùn)練模型將常識(shí)性語言知識(shí)和視覺概念從 2D 圖像應(yīng)用到 3D 場景理解是研究人員最近才開始探索的一個(gè)有前景的方向。然而,2D 提煉知識(shí)是否可以為下游 3D 視覺語言任務(wù)(例如 3D 問答)提供有用的表示仍

    2024年02月04日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包