国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

多模態(tài)論文閱讀之VLMo

2年前作者：幸運的小菜鳥分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了多模態(tài)論文閱讀之VLMo。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Title

VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts

Motivation

CLIP和ALIGN都采用dual-encoder的方式分別編碼圖像和文本，模態(tài)之間的交互采用cosine similarity ，這種方法對retrieval tasks(檢索任務(wù))及其有效；但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后來一系列的tasks，采用的fusion encoder 的方式，即一開始分來images and text 然后采用transformer的encoder 做cross-modal 的intersection，這樣的architecture 彌補了dual encoder architecture的drawback，But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有沒**有一種融合上述兩種架構(gòu)的方法呢？**做檢索任務(wù)的時候用 dual-encoder架構(gòu)，做classfication的時候用fusion encoder，所以本文提出了Mixture-of-Modality-Experts
VLMo的訓(xùn)練loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一樣的。提出了一個stagewise的預(yù)訓(xùn)練方法分別vision 和NLP中的large-scale corpus：首先在vision上訓(xùn)練好，再預(yù)訓(xùn)練language experts on text-only data，最后將模型用于vision-language pre-training。

Contribution

模型上的改進：Mixture-of-Modality-Experts
訓(xùn)練方式上的改進：分階段模型預(yù)訓(xùn)練

Model

多模態(tài)論文閱讀之VLMo,論文閱讀,論文筆記文章來源地址http://www.zghlxwxcb.cn/news/detail-742463.html

模型中所有的multi-head self-Attention都是share weights的
模型inference的時候很靈活，要做那個任務(wù)，切換到那個架構(gòu)上就行。
分階段訓(xùn)練策略

Expertiments

比ALBEF性能好很多
在更大的數(shù)據(jù)集上訓(xùn)練，數(shù)據(jù)變得更好。

Summary

就是把transformer里的encoder中的FFN分為了幾個FFN

到了這里，關(guān)于多模態(tài)論文閱讀之VLMo的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

多模態(tài)論文閱讀之BLIP
BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度：clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have
2024年02月06日
瀏覽(26)
論文閱讀-NOLANet多模態(tài)偽造檢測
一、論文信息：題目： Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning（多模態(tài)偽造檢測——視覺+頻譜+語音）作者團隊：會議：AIPR 2020 二、背景與創(chuàng)新背景：合成視頻威脅到數(shù)字媒體的信任與隱私，許多deepfake檢測方法使用單幀視頻，
2023年04月14日
瀏覽(70)
論文閱讀：multimodal remote sensing survey 遙感多模態(tài)綜述
參考： From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords：multimodal remote sensing 本文強調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異，然后利用這些差異來指導(dǎo)我們對級聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后，對未來可能的研究方向進行了探討
2024年02月02日
瀏覽(26)
論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述
非核心原文鏈接：基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述 - 中國知網(wǎng) (cnki.net) 深度學(xué)習(xí)完成多模態(tài)情感分析綜述。主要介紹多模態(tài)情感分析的概念、背景、意義?？偨Y(jié)了多模態(tài)融合技術(shù)和交互技術(shù) ，討論多模態(tài)情感分析未來發(fā)展。目前經(jīng)典的多模態(tài)情感分析研究已經(jīng)
2024年02月04日
瀏覽(39)
[論文閱讀]MVX-Net——基于3D目標(biāo)檢測的多模態(tài)VoxelNet
MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測的多模態(tài)VoxelNet 論文網(wǎng)址：MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標(biāo)檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模
2024年02月07日
瀏覽(137)
CoFSM基于共現(xiàn)尺度空間的多模態(tài)遙感圖像匹配方法--論文閱讀記錄
目錄論文 Multi-Modal Remote Sensing Image Matching?Considering Co-Occurrence Filter 參考論文：SIFT系列論文， SIFT? ? Distinctive Image Features?from Scale-Invariant Keypoints，作者：David G. Lowe 快速樣本共識算法FSC：A Novel Point-Matching Algorithm Based on Fast?Sample Consensus for Image Registration ，Digital Object Ident
2024年04月24日
瀏覽(35)
圖像融合論文閱讀：CoCoNet: 基于多層特征集成的耦合對比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合
@article{liu2023coconet, title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion}, author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin}, journal={International Journal of Computer Vision}, pages={1–28}, year={2023}, publisher={Springer} } 論文級
2024年02月04日
瀏覽(20)
多模態(tài)表征—CLIP及中文版Chinese-CLIP：理論講解、代碼微調(diào)與論文閱讀
我之前一直在使用CLIP/Chinese-CLIP，但并未進行過系統(tǒng)的疏導(dǎo)。這次正好可以詳細解釋一下。相比于CLIP模型，Chinese-CLIP更適合我們的應(yīng)用和微調(diào)，因為原始的CLIP模型只支持英文，對于我們的中文應(yīng)用來說不夠友好。Chinese-CLIP很好地彌補了這方面的不足，它使用了大量的中文-文
2024年03月15日
瀏覽(24)
遙感圖像多模態(tài)檢索AMFMN（支持關(guān)鍵詞、句子對圖像的檢索）論文閱讀、環(huán)境搭建、模型測試、模型訓(xùn)練
1、摘要背景遙感跨模態(tài)文本圖像檢索以其靈活的輸入和高效的查詢等優(yōu)點受到了廣泛的關(guān)注。然而，傳統(tǒng)的方法忽略了遙感圖像多尺度和目標(biāo)冗余的特點，導(dǎo)致檢索精度下降。為了解決遙感多模態(tài)檢索任務(wù)中的多尺度稀缺性和目標(biāo)冗余問題，提出了一種新的非對稱多模態(tài)
2024年03月17日
瀏覽(34)
【論文閱讀】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲諷檢測，多模態(tài)，跨模態(tài)，圖神經(jīng)網(wǎng)絡(luò)
本博客系博主根據(jù)個人理解所寫，非逐字逐句翻譯，預(yù)知詳情，請參閱論文原文。發(fā)表地點： ACL 2022；論文下載鏈接： Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network - ACL Anthology 代碼鏈接： https://github.com/HITSZ-HLT/CMGCN；隨著在線發(fā)布包含多模態(tài)信息的博客的流行，
2024年02月17日
瀏覽(30)