国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原文鏈接

Multi-modal Semantic Understanding
with Contrastive Cross-modal Feature Alignment

主要內(nèi)容

這篇文章的主要內(nèi)容是關(guān)于多模態(tài)語(yǔ)義理解的研究,特別是通過對(duì)比學(xué)習(xí)進(jìn)行跨模態(tài)特征對(duì)齊的方法。文章提出了一種新的CLIP(Contrastive Language-Image Pre-training)引導(dǎo)的對(duì)比學(xué)習(xí)方法,用于多模態(tài)特征對(duì)齊(CLFA,CLIP-guided Contrastive-Learning-based Feature Alignment)。這種方法旨在將不同模態(tài)(如圖像和文本)提取的特征投影到統(tǒng)一的深度空間中,以實(shí)現(xiàn)跨模態(tài)的深度信息交互。

文章首先介紹了多模態(tài)語(yǔ)義理解的背景和重要性,特別是在社交媒體平臺(tái)上進(jìn)行情感分析和諷刺檢測(cè)的任務(wù)。然后,文章指出了以往研究中使用的雙編碼器結(jié)構(gòu)的局限性,即它們分別對(duì)圖像和文本進(jìn)行編碼,但未能學(xué)習(xí)跨模態(tài)特征對(duì)齊,這使得跨模態(tài)深度信息交互變得困難。

為了解決這個(gè)問題,文章提出了CLFA方法,該方法利用BERT對(duì)文本進(jìn)行編碼,ViT(Vision Transformer)對(duì)圖像進(jìn)行編碼,并借用CLIP作為教師模型,通過對(duì)比學(xué)習(xí)實(shí)現(xiàn)文本和圖像特征的語(yǔ)義對(duì)齊。文章還設(shè)計(jì)了一個(gè)多任務(wù)學(xué)習(xí)架構(gòu),將特征對(duì)齊作為一個(gè)輔助任務(wù)來(lái)促進(jìn)主要的分類任務(wù)。

文章通過在公開的多模態(tài)情感分析(MMSA)和多模態(tài)諷刺檢測(cè)(MMSD)數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn),證明了所提出模型的有效性。實(shí)驗(yàn)結(jié)果顯示,CLFA模型在這些任務(wù)上顯著優(yōu)于多個(gè)基線模型,并且與包含外部知識(shí)的模型相比也取得了可比的結(jié)果。此外,文章還展示了CLFA方法在不同的跨模態(tài)聚合方法中的有效性,并且可以與其他基于知識(shí)的模型結(jié)合以獲得更高的性能。

模型圖

論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
文章提出的CLFA模型的總體結(jié)構(gòu)如上。文本和圖像輸入被分別饋送到BERT(Devlin等人,2019)和ViT(Dosovitskiy等人,2021)中,以獲得它們各自的表示。然后通過對(duì)比學(xué)習(xí),在CLIP表示的指導(dǎo)下,將文本和圖像的不同表示投影到同一深度空間中,這是促進(jìn)主要分類任務(wù)的子任務(wù)。然后,將文本和圖像特征輸入到交叉關(guān)注層中進(jìn)行多模態(tài)融合,然后輸入到分類層中預(yù)測(cè)結(jié)果。

技術(shù)細(xì)節(jié)

論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
表示使用bert和vision transformer對(duì)文本和圖片分別編碼

論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
使用CLIP得到文本和圖像的編碼,用于指導(dǎo)二者特征對(duì)齊,T為文本數(shù)據(jù),I為圖像數(shù)據(jù)

論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
使用bert和vision transformer分別對(duì)句子和圖像進(jìn)行編碼,并使用MLP使得維度與CLIP輸出維度對(duì)齊

論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
構(gòu)建對(duì)比學(xué)習(xí)損失函數(shù)(以圖像的為例),sim表示余弦相似度。
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
得到圖像對(duì)比學(xué)習(xí)的損失函數(shù)。

同理也能得到文本的

因此最終圖像-文本對(duì)比學(xué)習(xí)的損失函數(shù)為:
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
最后的cross attention:
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
Q文本信息,K、V是圖像信息,得到的h經(jīng)過FNN進(jìn)行最后的分類了,不過這里疊了3層。

因此,算上分類的損失函數(shù),最終的損失函數(shù)長(zhǎng)這樣:
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
α為參數(shù),調(diào)節(jié)損失函數(shù)之間的平衡。

實(shí)驗(yàn)結(jié)果

MMSD(多模態(tài)諷刺檢測(cè))實(shí)驗(yàn)結(jié)果如下
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
多模態(tài)情感分析(MMSA)實(shí)驗(yàn)結(jié)果如下:
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
還有信息融合不同方法的實(shí)驗(yàn),這里不展示了。

還有知識(shí)增強(qiáng)的實(shí)驗(yàn)(MMSD):
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
融入知識(shí)(OCR結(jié)果,和單詞情感),最后的cross attention三層改動(dòng)如下:

第一層:
文本的自注意力
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
然后采用與CMGCN相同的方式(Liang et al,2022)融入單詞情感:
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
第二層:
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀
第三層(融入OCR結(jié)果):
論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment,論文閱讀,論文閱讀文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-848042.html

到了這里,關(guān)于論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

    CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

    論文標(biāo)題:Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection 論文作者:Ziwei Chen, Linmei Hu, Weixin Li, Yingxia Shao, Liqiang Nie 論文來(lái)源:ACL 2023,Paper 代碼來(lái)源:未公布 目錄 引入 貢獻(xiàn) 基本知識(shí)介紹 因果圖 因果關(guān)系的干預(yù) 反事實(shí)推理與因果效應(yīng) 方法 虛假新聞檢測(cè)的

    2024年02月08日
    瀏覽(31)
  • 論文閱讀綜述:自動(dòng)駕駛感知的多模態(tài)傳感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    論文閱讀綜述:自動(dòng)駕駛感知的多模態(tài)傳感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    題目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自動(dòng)駕駛感知的多模態(tài)傳感器融合:綜述 鏈接 :https://arxiv.org/abs/2202.02703 只翻譯了個(gè)人認(rèn)為比較重要的東西,有些官方話就省了。這篇文章通俗易懂,不過綜述都是標(biāo)記文獻(xiàn)[xx]干了啥,其實(shí)咱也不知道他具體是咋

    2023年04月08日
    瀏覽(30)
  • 【提示學(xué)習(xí)論文六】MaPLe: Multi-modal Prompt Learning論文原理

    【提示學(xué)習(xí)論文六】MaPLe: Multi-modal Prompt Learning論文原理

    這篇文章于2023年發(fā)表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,F(xiàn)ahad Shahbaz Khan。 研究發(fā)現(xiàn)Clip的問題:在單個(gè)分支(語(yǔ)言或視覺)中使用prompt來(lái)調(diào)整表示是次優(yōu)的,它不能在下游任務(wù)上靈活地動(dòng)態(tài)調(diào)整兩個(gè)

    2024年01月22日
    瀏覽(45)
  • 【論文筆記】Multi-modal Facial Affective Analysis based on Masked Autoencoder

    【論文筆記】Multi-modal Facial Affective Analysis based on Masked Autoencoder

    論文鏈接:https://arxiv.org/abs/2303.10849 代碼:https://github.com/FuxiVirtualHuman/ABAW5 基本自譯,沒有使用翻譯軟件進(jìn)行大段翻譯。包含很多意譯的部分。 不確定的地方有問號(hào)標(biāo)注。 “問題:\\\"部分是一些前置知識(shí)的補(bǔ)充,不是論文內(nèi)容。 介紹ABAW這個(gè)比賽:識(shí)別情感表現(xiàn)(高質(zhì)量、大

    2024年04月26日
    瀏覽(25)
  • MaPLe: Multi-modal Prompt Learning

    本文也是LLM系統(tǒng)的文章,主要是面向多模態(tài)的大語(yǔ)言模型,針對(duì)《MaPLe: Multi-modal Prompt Learning》的翻譯。 CLIP等預(yù)先訓(xùn)練的視覺語(yǔ)言(V-L)模型對(duì)下游任務(wù)表現(xiàn)出了出色的泛化能力。但是,它們對(duì)輸入文本提示的選擇很敏感,需要仔細(xì)選擇提示模板才能執(zhí)行良好的操作。受自然

    2024年02月09日
    瀏覽(27)
  • DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀

    DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀

    原文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 該論文設(shè)計(jì)了一種 新的零樣本學(xué)習(xí)范式,通過遷移語(yǔ)言模型中的先驗(yàn)語(yǔ)義知識(shí),與視覺模型的特征感知能力進(jìn)行對(duì)齊,以增強(qiáng)后者對(duì)于未見過圖像的識(shí)別能力。 零樣本學(xué)習(xí)(ZSL)旨在預(yù)測(cè)在訓(xùn)練期間從未出現(xiàn)樣本的未

    2024年01月17日
    瀏覽(33)
  • Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors

    Multi-Modal 3D Object Detection in Long Range and Low-Resolution Conditions of Sensors

    多模態(tài)長(zhǎng)距離低分辨率傳感器條件下的3D物體檢測(cè) 慕尼黑工業(yè)大學(xué)計(jì)算機(jī)、信息與技術(shù)學(xué)院 - 信息學(xué) 隨著自動(dòng)駕駛車輛和智能交通系統(tǒng)的興起,強(qiáng)大的3D物體檢測(cè)變得至關(guān)重要。這些系統(tǒng)通常面臨由于遠(yuǎn)距離和遮擋的物體,或低分辨率傳感器導(dǎo)致的數(shù)據(jù)稀疏性的挑戰(zhàn),這可能

    2024年02月21日
    瀏覽(42)
  • 【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介紹了一種名為“M3Care”的模型,旨在處理多模態(tài)醫(yī)療保健數(shù)據(jù)中的缺失模態(tài)問題。這個(gè)模型是端到端的,能夠補(bǔ)償病人缺失模態(tài)的信息,以執(zhí)行臨床分析。M3Care不是生成原始缺失數(shù)據(jù),而是在潛在空間中估計(jì)缺失模態(tài)的任務(wù)相關(guān)信息,利用來(lái)自具有相似未缺失模態(tài)的

    2024年02月04日
    瀏覽(50)
  • 【論文閱讀】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    【論文閱讀】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    論文鏈接:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness | IEEE Journals Magazine | IEEE Xplore 代碼:?GitHub - Linfeng-Tang/SuperFusion: This is official Pytorch implementation of \\\"SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness\\\" 圖像融合的重要性:由于攝影環(huán)境

    2024年03月19日
    瀏覽(22)
  • 【論文閱讀筆記】A literature survey of MR-based brain tumor segmentation with missing modalities

    【論文閱讀筆記】A literature survey of MR-based brain tumor segmentation with missing modalities

    Zhou T, Ruan S, Hu H. A literature survey of MR-based brain tumor segmentation with missing modalities[J]. Computerized Medical Imaging and Graphics, 2023, 104: 102167. 這篇文獻(xiàn)綜述重點(diǎn)探討了在磁共振成像(MRI)用于腦腫瘤分割時(shí)面臨的一項(xiàng)主要挑戰(zhàn):部分MRI模態(tài)的缺失(本文將范圍限定為 在訓(xùn)練期間可以使用

    2024年01月19日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包