Title
VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts文章來源:http://www.zghlxwxcb.cn/news/detail-742463.html
Motivation
- CLIP和ALIGN都采用dual-encoder的方式分別編碼圖像和文本,模態(tài)之間的交互采用cosine similarity ,這種方法對retrieval tasks(檢索任務(wù))及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后來一系列的tasks,采用的fusion encoder 的方式,即一開始分來images and text 然后采用transformer的encoder 做cross-modal 的intersection,這樣的architecture 彌補了dual encoder architecture的drawback,But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有沒**有一種融合上述兩種架構(gòu)的方法呢?**做檢索任務(wù)的時候用 dual-encoder架構(gòu),做classfication的時候用fusion encoder,所以本文提出了Mixture-of-Modality-Experts
- VLMo的訓(xùn)練loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一樣的。提出了一個stagewise的預(yù)訓(xùn)練方法分別vision 和NLP中的large-scale corpus:首先在vision上訓(xùn)練好,再預(yù)訓(xùn)練language experts on text-only data,最后將模型用于vision-language pre-training。
Contribution
- 模型上的改進:Mixture-of-Modality-Experts
- 訓(xùn)練方式上的改進:分階段模型預(yù)訓(xùn)練
Model
文章來源地址http://www.zghlxwxcb.cn/news/detail-742463.html
- 模型中所有的multi-head self-Attention都是share weights的
- 模型inference的時候很靈活,要做那個任務(wù),切換到那個架構(gòu)上就行。
- 分階段訓(xùn)練策略
Expertiments
- 比ALBEF性能好很多
- 在更大的數(shù)據(jù)集上訓(xùn)練,數(shù)據(jù)變得更好。
Summary
- 就是把transformer里的encoder中的FFN分為了幾個FFN
到了這里,關(guān)于多模態(tài)論文閱讀之VLMo的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!