原文鏈接
Multi-modal Semantic Understanding
with Contrastive Cross-modal Feature Alignment
主要內(nèi)容
這篇文章的主要內(nèi)容是關(guān)于多模態(tài)語(yǔ)義理解的研究,特別是通過對(duì)比學(xué)習(xí)進(jìn)行跨模態(tài)特征對(duì)齊的方法。文章提出了一種新的CLIP(Contrastive Language-Image Pre-training)引導(dǎo)的對(duì)比學(xué)習(xí)方法,用于多模態(tài)特征對(duì)齊(CLFA,CLIP-guided Contrastive-Learning-based Feature Alignment)。這種方法旨在將不同模態(tài)(如圖像和文本)提取的特征投影到統(tǒng)一的深度空間中,以實(shí)現(xiàn)跨模態(tài)的深度信息交互。
文章首先介紹了多模態(tài)語(yǔ)義理解的背景和重要性,特別是在社交媒體平臺(tái)上進(jìn)行情感分析和諷刺檢測(cè)的任務(wù)。然后,文章指出了以往研究中使用的雙編碼器結(jié)構(gòu)的局限性,即它們分別對(duì)圖像和文本進(jìn)行編碼,但未能學(xué)習(xí)跨模態(tài)特征對(duì)齊,這使得跨模態(tài)深度信息交互變得困難。
為了解決這個(gè)問題,文章提出了CLFA方法,該方法利用BERT對(duì)文本進(jìn)行編碼,ViT(Vision Transformer)對(duì)圖像進(jìn)行編碼,并借用CLIP作為教師模型,通過對(duì)比學(xué)習(xí)實(shí)現(xiàn)文本和圖像特征的語(yǔ)義對(duì)齊。文章還設(shè)計(jì)了一個(gè)多任務(wù)學(xué)習(xí)架構(gòu),將特征對(duì)齊作為一個(gè)輔助任務(wù)來(lái)促進(jìn)主要的分類任務(wù)。
文章通過在公開的多模態(tài)情感分析(MMSA)和多模態(tài)諷刺檢測(cè)(MMSD)數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn),證明了所提出模型的有效性。實(shí)驗(yàn)結(jié)果顯示,CLFA模型在這些任務(wù)上顯著優(yōu)于多個(gè)基線模型,并且與包含外部知識(shí)的模型相比也取得了可比的結(jié)果。此外,文章還展示了CLFA方法在不同的跨模態(tài)聚合方法中的有效性,并且可以與其他基于知識(shí)的模型結(jié)合以獲得更高的性能。
模型圖
文章提出的CLFA模型的總體結(jié)構(gòu)如上。文本和圖像輸入被分別饋送到BERT(Devlin等人,2019)和ViT(Dosovitskiy等人,2021)中,以獲得它們各自的表示。然后通過對(duì)比學(xué)習(xí),在CLIP表示的指導(dǎo)下,將文本和圖像的不同表示投影到同一深度空間中,這是促進(jìn)主要分類任務(wù)的子任務(wù)。然后,將文本和圖像特征輸入到交叉關(guān)注層中進(jìn)行多模態(tài)融合,然后輸入到分類層中預(yù)測(cè)結(jié)果。
技術(shù)細(xì)節(jié)
表示使用bert和vision transformer對(duì)文本和圖片分別編碼
使用CLIP得到文本和圖像的編碼,用于指導(dǎo)二者特征對(duì)齊,T為文本數(shù)據(jù),I為圖像數(shù)據(jù)
使用bert和vision transformer分別對(duì)句子和圖像進(jìn)行編碼,并使用MLP使得維度與CLIP輸出維度對(duì)齊
構(gòu)建對(duì)比學(xué)習(xí)損失函數(shù)(以圖像的為例),sim表示余弦相似度。
得到圖像對(duì)比學(xué)習(xí)的損失函數(shù)。
同理也能得到文本的
因此最終圖像-文本對(duì)比學(xué)習(xí)的損失函數(shù)為:
最后的cross attention:
Q文本信息,K、V是圖像信息,得到的h經(jīng)過FNN進(jìn)行最后的分類了,不過這里疊了3層。
因此,算上分類的損失函數(shù),最終的損失函數(shù)長(zhǎng)這樣:
α為參數(shù),調(diào)節(jié)損失函數(shù)之間的平衡。
實(shí)驗(yàn)結(jié)果
MMSD(多模態(tài)諷刺檢測(cè))實(shí)驗(yàn)結(jié)果如下
多模態(tài)情感分析(MMSA)實(shí)驗(yàn)結(jié)果如下:
還有信息融合不同方法的實(shí)驗(yàn),這里不展示了。
還有知識(shí)增強(qiáng)的實(shí)驗(yàn)(MMSD):
融入知識(shí)(OCR結(jié)果,和單詞情感),最后的cross attention三層改動(dòng)如下:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-848042.html
第一層:
文本的自注意力
然后采用與CMGCN相同的方式(Liang et al,2022)融入單詞情感:
第二層:
第三層(融入OCR結(jié)果):文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-848042.html
到了這里,關(guān)于論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!