視覺語言任務(wù)是當(dāng)今自然語言處理(NLP)和計算機(jī)視覺領(lǐng)域的熱門話題。大多數(shù)現(xiàn)有方法都基于預(yù)訓(xùn)練模型,這些模型使用后期融合方法融合下游任務(wù)的多模態(tài)輸入。然而,這種方法通常需要在訓(xùn)練期間進(jìn)行特定的數(shù)據(jù)注釋,并且對于許多多模態(tài)任務(wù)來說,滿足這一要求仍然非常困難和昂貴。Microsoft研究人員最近發(fā)表的一篇論文提出了一種新的視覺語言預(yù)訓(xùn)練模型,用于圖像 - 文本聯(lián)合嵌入,ImageBERT,它在MSCOCO(圖像檢索任務(wù))和Flickr 30k(文本檢索)數(shù)據(jù)集上都實(shí)現(xiàn)了SOTA性能。
與Google的BERT(來自變壓器的雙向編碼器表示)語言模型一樣,ImageBERT是基于Transformer的。它采用不同的模態(tài)(文本和視覺標(biāo)記)作為輸入,通過嵌入層編碼到不同的嵌入中。然后將這些嵌入輸入多層雙向自注意力轉(zhuǎn)換器,該轉(zhuǎn)換器訓(xùn)練跨模態(tài)轉(zhuǎn)換器來建模圖像和文本之間的關(guān)系。
ImageBERT模型架構(gòu)
數(shù)據(jù)的數(shù)量和質(zhì)量對于視覺語言任務(wù)的跨模型預(yù)訓(xùn)練至關(guān)重要,因此研究人員開發(fā)了一種弱監(jiān)督方法,用于從互聯(lián)網(wǎng)收集大規(guī)模圖像文本數(shù)據(jù),以提高預(yù)訓(xùn)練性能。他們的大規(guī)模weAk監(jiān)督圖像文本(LAIT)數(shù)據(jù)集包括10萬個視覺語言對(圖像+描述),并用于預(yù)訓(xùn)練ImageBERT模型。
弱監(jiān)督數(shù)據(jù)收集管道
在LAIT之后,研究人員在第二階段對公共數(shù)據(jù)集概念標(biāo)題(最廣泛使用的圖像文本預(yù)訓(xùn)練數(shù)據(jù))和SBU標(biāo)題(SBU標(biāo)題照片數(shù)據(jù)集)對模型進(jìn)行了預(yù)訓(xùn)練。該模型同時在研究人員設(shè)計的四個任務(wù)上進(jìn)行預(yù)訓(xùn)練,以對文本和視覺內(nèi)容及其相互關(guān)系進(jìn)行建模:
**任務(wù)1:**掩蔽語言建模(MLM) –這與BERT培訓(xùn)中的MLM相同。它提出了一個新的預(yù)訓(xùn)練目標(biāo),并能夠訓(xùn)練深度雙向嵌入。
**任務(wù)2:**屏蔽對象分類 (MOC) – MLM 任務(wù)的擴(kuò)展。
**任務(wù)3:**屏蔽區(qū)域特征回歸 (MRFR) – 與 MOC 類似,此任務(wù)還通過更精確的對象特征預(yù)測工作對視覺內(nèi)容進(jìn)行建模。
**任務(wù)4:**圖像文本匹配 (ITM) – 學(xué)習(xí)圖像-文本對齊的任務(wù)。
實(shí)驗(yàn)結(jié)果表明,多階段預(yù)訓(xùn)練方法比單階段預(yù)訓(xùn)練方法取得了更好的效果。研究人員還進(jìn)行了微調(diào),并將預(yù)訓(xùn)練的ImageBERT模型與SOTA方法在圖像檢索和文本檢索任務(wù)上進(jìn)行了比較,其中ImageBERT在MSCOCO和Flickr30k數(shù)據(jù)集上都獲得了最佳結(jié)果。
研究人員希望他們的新模型和數(shù)據(jù)集能夠進(jìn)一步推進(jìn)跨模態(tài)預(yù)訓(xùn)練的研究和發(fā)展。文章來源:http://www.zghlxwxcb.cn/news/detail-653163.html
論文ImageBERT:使用大規(guī)模弱監(jiān)督圖像文本數(shù)據(jù)的跨模態(tài)預(yù)訓(xùn)練發(fā)表在arXiv上。文章來源地址http://www.zghlxwxcb.cn/news/detail-653163.html
到了這里,關(guān)于Microsoft 圖像BERT,基于大規(guī)模圖文數(shù)據(jù)的跨模態(tài)預(yù)訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!