国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

這篇具有很好參考價值的文章主要介紹了【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【開放源碼】

【論文概述】

本文提出了一種名為“標(biāo)簽輔助變換器編碼器(TATE)網(wǎng)絡(luò)”的新型多模態(tài)情感分析方法,旨在解決在不確定的多模態(tài)數(shù)據(jù)中部分模態(tài)缺失的問題。該方法通過引入一個標(biāo)簽編碼模塊來處理單個或多個模態(tài)的缺失情況,引導(dǎo)網(wǎng)絡(luò)注意力集中于缺失的模態(tài)。此外,還采用了一種新的空間投影模式來對齊共同的向量,并使用變換器編碼器-解碼器網(wǎng)絡(luò)來學(xué)習(xí)缺失模態(tài)的特征。實驗表明,該模型在CMU-MOSI和IEMOCAP數(shù)據(jù)集上比幾個基準(zhǔn)模型表現(xiàn)更好,顯示了該方法的有效性和優(yōu)越性。

【模型結(jié)構(gòu)】

主要工作流程如下:對于一個給定的視頻片段,假設(shè)視覺模態(tài)和聽覺模態(tài)缺失,首先將這些缺失的模態(tài)標(biāo)記為0,然后提取剩余的原始特征。之后,被掩蔽的多模態(tài)表示通過兩個分支進(jìn)行處理:1)一個分支由預(yù)訓(xùn)練模型編碼,該模型是用所有完整模態(tài)數(shù)據(jù)訓(xùn)練的;2)另一個分支通過標(biāo)簽編碼模塊和公共空間投影模塊來獲取對齊的特征向量。然后,更新的表示由Transformer編碼器處理,并計算預(yù)訓(xùn)練向量和編碼器輸出之間的前向相似性損失。同時,編碼輸出被輸入到分類器中進(jìn)行情感預(yù)測。最后,計算反向重構(gòu)損失和標(biāo)簽恢復(fù)損失以指導(dǎo)聯(lián)合表示學(xué)習(xí)。

【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities,多模態(tài)與缺失模態(tài),深度學(xué)習(xí),論文閱讀,筆記

  • Tag Encoding
【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities,多模態(tài)與缺失模態(tài),深度學(xué)習(xí),論文閱讀,筆記

為了確定不確定的缺失模態(tài),采用標(biāo)簽編碼模塊來標(biāo)記,并將網(wǎng)絡(luò)的注意力引導(dǎo)到這些缺失的模態(tài)上。采用4位數(shù)字(“0”或“1”)來標(biāo)記缺失的模態(tài)。如果輸入的部分模態(tài)丟失,將第一個數(shù)字設(shè)置為“0”,否則設(shè)置為“1”。此外,最后三位數(shù)字用于標(biāo)記相應(yīng)的視覺、聽覺和文本模態(tài)。設(shè)置標(biāo)簽的好處是雙重的:1)標(biāo)簽編碼模塊可以覆蓋單個和多個模態(tài)缺失條件;以及2)編碼的標(biāo)簽可以互補地輔助聯(lián)合表示的學(xué)習(xí)。

  • Common Space Projection

    首先基于以下線性變換獲得自相關(guān)公共空間:

    C v = [ W v a E v ∥ W v t E v ] , C a = [ W v a E a ∥ W t a E a ] , C t = [ W v t E t ∥ W t a E t ] , \begin{array}{l} C_{v}=\left[W_{v a} E_{v} \| W_{v t} E_{v}\right], \\ C_{a}=\left[W_{v a} E_{a} \| W_{t a} E_{a}\right], \\ C_{t}=\left[W_{v t} E_{t} \| W_{t a} E_{t}\right], \end{array} Cv?=[Wva?Ev?Wvt?Ev?],Ca?=[Wva?Ea?Wta?Ea?],Ct?=[Wvt?Et?Wta?Et?],?

    其中 W v a W_{v a} Wva?, W v t W_{v t} Wvt? W t a W_{t a} Wta?均為權(quán)重矩陣, ∣ ∣ || ∣∣表示垂直連接操作。然后,將所有公共向量和編碼標(biāo)簽連接起來,最終獲得公共聯(lián)合表示: E all? E_{\text {all }} Eall??

    E all? = [ C v ∥ C a ∥ C t ∥ E tag? ] E_{\text {all }}=\left[C_{v}\left\|C_{a}\right\| C_{t} \| E_{\text {tag }}\right] Eall??=[Cv?Ca?Ct?Etag??]

    【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities,多模態(tài)與缺失模態(tài),深度學(xué)習(xí),論文閱讀,筆記

特征融合大多用MLP映射或者直接transformer交叉自注意力,這里這種方式有點耳目一新,感覺應(yīng)該很輕量級。

  • Transformer Encoder-Decoder

    這部分沒有什么好說的

  • Training Objective

    L total? = L cls? + λ 1 L forward? + λ 2 L backward? + λ 3 L tag? \mathcal{L}_{\text {total }}=\mathcal{L}_{\text {cls }}+\lambda_{1} \mathcal{L}_{\text {forward }}+\lambda_{2} \mathcal{L}_{\text {backward }}+\lambda_{3} \mathcal{L}_{\text {tag }} Ltotal??=Lcls??+λ1?Lforward??+λ2?Lbackward??+λ3?Ltag??

其中, L cls? \mathcal{L}_{\text {cls }} Lcls??是分類損失, L forward? \mathcal{L}_{\text {forward }} Lforward??是前向差分損失, L backward? \mathcal{L}_{\text {backward }} Lbackward??是, L tag? \mathcal{L}_{\text {tag }} Ltag??是標(biāo)簽恢復(fù)損失。

? 1.前向損失:由預(yù)訓(xùn)練輸出和Transformer編碼器輸出之間的差計算。論文中使用JS散度。
? 2.后向重構(gòu)損失:用于監(jiān)督聯(lián)合公共向量重建。因此,類似于前向差分損失,計算Transformer解碼器輸出(JS散度)和更新的公共聯(lián)合表示之間的JS發(fā)散損失。

? 3.分類損失:交叉熵

? 4.標(biāo)簽重建損失:論文中標(biāo)簽是用來標(biāo)記缺失的模態(tài),希望網(wǎng)絡(luò)能夠更多地關(guān)注它們。為了更好地指導(dǎo)附著標(biāo)簽的重建,論文采用一個標(biāo)簽恢復(fù)的過程來指導(dǎo)。使用平均絕對誤差(MAE)損失的原因是MAE對絕對函數(shù)的離群值不太敏感。因此,采用MAE來計算 E t a g E_{t a g} Etag? D o u t D_{o u t} Dout?最后四位之間的損失。

【小結(jié)】

本文是關(guān)于多模態(tài)情感分析方面的,與研究方向不同,不再贅述。本文值得借鑒的方式就是標(biāo)簽融入的方式,以及損失函數(shù)的構(gòu)建,可以用于缺失模態(tài)醫(yī)學(xué)影像。至于Common Space Projection方式,融合多模態(tài)特征是否比Transformer更好,需要實驗驗證,但可以肯定的是,計算代價低得多。文章來源地址http://www.zghlxwxcb.cn/news/detail-798054.html

到了這里,關(guān)于【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 《Aspect-Sentiment-Multiple-Opinion Triplet Extraction》論文閱讀

    《Aspect-Sentiment-Multiple-Opinion Triplet Extraction》論文閱讀

    文章地址: https://arxiv.org/abs/2110.07303v1 ??目前的關(guān)于ASTE三元組提取的方面級情感分析論文大多關(guān)注于簡單的句式,比如一個方面實體僅有一個意見詞加以修飾,但在一些情況下,由于我們通常會對事物的不同的屬性做出不同的評價,因此對于某一個事物的最終情感將取決于

    2024年01月21日
    瀏覽(21)
  • 《Hierarchical Sequence Labeling Model for Aspect Sentiment Triplet Extraction》論文閱讀

    《Hierarchical Sequence Labeling Model for Aspect Sentiment Triplet Extraction》論文閱讀

    文章地址: https://link.springer.com/chapter/10.1007/978-3-030-60450-9_52 ??在這篇文章中作者提出了一個繼承性的序列標(biāo)注模型( hierarchical sequence labeling model, HSLM)以端到端的方式識別文本語句中所含有的方面級情感三元組(ASTE)。該模型主要有三個部分組成:方面級序列標(biāo)注模塊、

    2024年01月16日
    瀏覽(25)
  • 論文閱讀:Multimodal Graph Transformer for Multimodal Question Answering

    論文閱讀:Multimodal Graph Transformer for Multimodal Question Answering

    論文名 :Multimodal Graph Transformer for Multimodal Question Answering 論文鏈接 盡管 Transformer模型 在視覺和語言任務(wù)中取得了成功,但它們經(jīng)常隱式地從大量數(shù)據(jù)中學(xué)習(xí)知識,而不能直接利用結(jié)構(gòu)化的輸入數(shù)據(jù)。另一方面, 結(jié)構(gòu)化學(xué)習(xí)方法 ,如集成先驗信息的圖神經(jīng)網(wǎng)絡(luò)(gnn),幾乎無法

    2024年02月04日
    瀏覽(21)
  • 論文閱讀之Reasoning Implicit Sentiment with Chain-of-Thought Prompting

    論文閱讀之Reasoning Implicit Sentiment with Chain-of-Thought Prompting

    本文主要對2023ACL論文《Reasoning Implicit Sentiment with Chain-of-Thought Prompting》主要內(nèi)容進(jìn)行介紹。 雖然情緒分析任務(wù)中通常根據(jù)輸入文本中的關(guān)鍵意見表達(dá)來確定給定目標(biāo)的情緒極性,但在隱式情緒分析(ISA)中,意見線索通常是隱含或者模糊的。因此,檢測隱含情緒需要常識和

    2024年03月22日
    瀏覽(46)
  • [論文閱讀]Multimodal Virtual Point 3D Detection

    [論文閱讀]Multimodal Virtual Point 3D Detection

    多模態(tài)虛擬點3D檢測 論文網(wǎng)址:MVP 論文代碼:MVP 方法MVP方法的核心思想是將RGB圖像中的2D檢測結(jié)果轉(zhuǎn)換為虛擬的3D點,并將這些虛擬點與原始的Lidar點云合并。具體步驟如下: (1) 使用2D檢測器(如CenterNet)在RGB圖像中檢測物體。 (2) 將檢測到的物體掩模投影到Lidar點云中,創(chuàng)建與

    2024年02月03日
    瀏覽(15)
  • 論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    參考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文強調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異,然后利用這些差異來指導(dǎo)我們對級聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后,對未來可能的研究方向進(jìn)行了探討

    2024年02月02日
    瀏覽(26)
  • 論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進(jìn)行介紹。 大型語言模型(LLM)通過利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而,現(xiàn)有的CoT研究主要集中在語言模態(tài)上。

    2024年03月14日
    瀏覽(79)
  • [閱讀筆記23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS

    [閱讀筆記23][JAM]JOINTLY TRAINING LARGE AUTOREGRESSIVE MULTIMODAL MODELS

    這篇論文是24年1月發(fā)表的,然后是基于的RA-CM3和CM3Leon這兩篇論文。它所提出的JAM結(jié)構(gòu)系統(tǒng)地融合了現(xiàn)有的文本模型和圖像生成模型。 主要有兩點貢獻(xiàn),第一點是提出了融合兩個模型的方法,第二點是為混合模型精心設(shè)計的指令微調(diào)策略。 下圖是一個示例,再給出問題回答時

    2024年04月26日
    瀏覽(15)
  • 論文閱讀 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds LiDAR

    論文閱讀 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds LiDAR

    題目:2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds ECCV 2022。建議打開csdn右側(cè)目錄欄,部分個人理解和覺得重要內(nèi)容有加粗表示,其余內(nèi)容主要是機器翻譯。如果對整個領(lǐng)域比較熟悉直接從第三章開始看就行。 主要貢獻(xiàn):2D先驗輔助語義分割 (2DPASS)+多尺度融合到單知

    2024年01月25日
    瀏覽(20)
  • 【論文閱讀】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    【論文閱讀】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    paper:Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation ????????現(xiàn)有的自監(jiān)督醫(yī)學(xué)圖像分割通常會遇到域偏移問題(也就是說,預(yù)訓(xùn)練的輸入分布不同于微調(diào)的輸入分布)和/或多模態(tài)問題(也就是說,它僅基于單模態(tài)數(shù)據(jù),無法利

    2024年02月03日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包