国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

多模態(tài)論文閱讀之VLMo

這篇具有很好參考價值的文章主要介紹了多模態(tài)論文閱讀之VLMo。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Title

VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts

Motivation

  1. CLIP和ALIGN都采用dual-encoder的方式分別編碼圖像和文本,模態(tài)之間的交互采用cosine similarity ,這種方法對retrieval tasks(檢索任務(wù))及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后來一系列的tasks,采用的fusion encoder 的方式,即一開始分來images and text 然后采用transformer的encoder 做cross-modal 的intersection,這樣的architecture 彌補了dual encoder architecture的drawback,But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有沒**有一種融合上述兩種架構(gòu)的方法呢?**做檢索任務(wù)的時候用 dual-encoder架構(gòu),做classfication的時候用fusion encoder,所以本文提出了Mixture-of-Modality-Experts
  2. VLMo的訓(xùn)練loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一樣的。提出了一個stagewise的預(yù)訓(xùn)練方法分別vision 和NLP中的large-scale corpus:首先在vision上訓(xùn)練好,再預(yù)訓(xùn)練language experts on text-only data,最后將模型用于vision-language pre-training。

Contribution

  1. 模型上的改進:Mixture-of-Modality-Experts
  2. 訓(xùn)練方式上的改進:分階段模型預(yù)訓(xùn)練

Model

多模態(tài)論文閱讀之VLMo,論文閱讀,論文筆記文章來源地址http://www.zghlxwxcb.cn/news/detail-742463.html

  1. 模型中所有的multi-head self-Attention都是share weights的
  2. 模型inference的時候很靈活,要做那個任務(wù),切換到那個架構(gòu)上就行。
  3. 分階段訓(xùn)練策略
    多模態(tài)論文閱讀之VLMo,論文閱讀,論文筆記

Expertiments

  1. 比ALBEF性能好很多
  2. 在更大的數(shù)據(jù)集上訓(xùn)練,數(shù)據(jù)變得更好。

Summary

  1. 就是把transformer里的encoder中的FFN分為了幾個FFN

到了這里,關(guān)于多模態(tài)論文閱讀之VLMo的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 多模態(tài)論文閱讀之BLIP

    多模態(tài)論文閱讀之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    瀏覽(26)
  • 論文閱讀-NOLANet多模態(tài)偽造檢測

    論文閱讀-NOLANet多模態(tài)偽造檢測

    一、論文信息: 題目: Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模態(tài)偽造檢測——視覺+頻譜+語音) 作者團隊: 會議:AIPR 2020 二、背景與創(chuàng)新 背景: 合成視頻威脅到數(shù)字媒體的信任與隱私,許多deepfake檢測方法使用單幀視頻,

    2023年04月14日
    瀏覽(70)
  • 論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    參考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文強調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異,然后利用這些差異來指導(dǎo)我們對級聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后,對未來可能的研究方向進行了探討

    2024年02月02日
    瀏覽(26)
  • 論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    非核心 原文鏈接:基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述 - 中國知網(wǎng) (cnki.net) 深度學(xué)習(xí)完成多模態(tài)情感分析綜述。主要介紹 多模態(tài)情感分析 的概念、背景、意義??偨Y(jié)了 多模態(tài)融合技術(shù)和交互技術(shù) ,討論多模態(tài)情感分析 未來發(fā)展 。 目前經(jīng)典的多模態(tài)情感分析研究已經(jīng)

    2024年02月04日
    瀏覽(39)
  • [論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

    [論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測的多模態(tài)VoxelNet 論文網(wǎng)址:MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標(biāo)檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模

    2024年02月07日
    瀏覽(137)
  • CoFSM基于共現(xiàn)尺度空間的多模態(tài)遙感圖像匹配方法--論文閱讀記錄

    CoFSM基于共現(xiàn)尺度空間的多模態(tài)遙感圖像匹配方法--論文閱讀記錄

    目錄 論文 Multi-Modal Remote Sensing Image Matching?Considering Co-Occurrence Filter 參考論文:SIFT系列論文, SIFT? ? Distinctive Image Features?from Scale-Invariant Keypoints,作者:David G. Lowe 快速樣本共識算法FSC:A Novel Point-Matching Algorithm Based on Fast?Sample Consensus for Image Registration ,Digital Object Ident

    2024年04月24日
    瀏覽(35)
  • 圖像融合論文閱讀:CoCoNet: 基于多層特征集成的耦合對比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合

    圖像融合論文閱讀:CoCoNet: 基于多層特征集成的耦合對比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合

    @article{liu2023coconet, title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion}, author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin}, journal={International Journal of Computer Vision}, pages={1–28}, year={2023}, publisher={Springer} } 論文級

    2024年02月04日
    瀏覽(20)
  • 多模態(tài)表征—CLIP及中文版Chinese-CLIP:理論講解、代碼微調(diào)與論文閱讀

    多模態(tài)表征—CLIP及中文版Chinese-CLIP:理論講解、代碼微調(diào)與論文閱讀

    我之前一直在使用CLIP/Chinese-CLIP,但并未進行過系統(tǒng)的疏導(dǎo)。這次正好可以詳細解釋一下。相比于CLIP模型,Chinese-CLIP更適合我們的應(yīng)用和微調(diào),因為原始的CLIP模型只支持英文,對于我們的中文應(yīng)用來說不夠友好。Chinese-CLIP很好地彌補了這方面的不足,它使用了大量的中文-文

    2024年03月15日
    瀏覽(24)
  • 遙感圖像多模態(tài)檢索AMFMN(支持關(guān)鍵詞、句子對圖像的檢索)論文閱讀、環(huán)境搭建、模型測試、模型訓(xùn)練

    遙感圖像多模態(tài)檢索AMFMN(支持關(guān)鍵詞、句子對圖像的檢索)論文閱讀、環(huán)境搭建、模型測試、模型訓(xùn)練

    1、摘要背景 遙感跨模態(tài)文本圖像檢索以其靈活的輸入和高效的查詢等優(yōu)點受到了廣泛的關(guān)注。然而, 傳統(tǒng)的方法忽略了遙感圖像多尺度和目標(biāo)冗余的特點,導(dǎo)致檢索精度下降 。為了解決遙感多模態(tài)檢索任務(wù)中的多尺度稀缺性和目標(biāo)冗余問題,提出了一種新的 非對稱多模態(tài)

    2024年03月17日
    瀏覽(34)
  • 【論文閱讀】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲諷檢測,多模態(tài),跨模態(tài),圖神經(jīng)網(wǎng)絡(luò)

    【論文閱讀】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲諷檢測,多模態(tài),跨模態(tài),圖神經(jīng)網(wǎng)絡(luò)

    本博客系博主根據(jù)個人理解所寫,非逐字逐句翻譯,預(yù)知詳情,請參閱論文原文。 發(fā)表地點: ACL 2022; 論文下載鏈接: Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network - ACL Anthology 代碼鏈接: https://github.com/HITSZ-HLT/CMGCN; 隨著在線發(fā)布包含多模態(tài)信息的博客的流行,

    2024年02月17日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包