Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【開放源碼】
【論文概述】
本文提出了一種名為“標(biāo)簽輔助變換器編碼器(TATE)網(wǎng)絡(luò)”的新型多模態(tài)情感分析方法,旨在解決在不確定的多模態(tài)數(shù)據(jù)中部分模態(tài)缺失的問題。該方法通過引入一個標(biāo)簽編碼模塊來處理單個或多個模態(tài)的缺失情況,引導(dǎo)網(wǎng)絡(luò)注意力集中于缺失的模態(tài)。此外,還采用了一種新的空間投影模式來對齊共同的向量,并使用變換器編碼器-解碼器網(wǎng)絡(luò)來學(xué)習(xí)缺失模態(tài)的特征。實驗表明,該模型在CMU-MOSI和IEMOCAP數(shù)據(jù)集上比幾個基準(zhǔn)模型表現(xiàn)更好,顯示了該方法的有效性和優(yōu)越性。
【模型結(jié)構(gòu)】
主要工作流程如下:對于一個給定的視頻片段,假設(shè)視覺模態(tài)和聽覺模態(tài)缺失,首先將這些缺失的模態(tài)標(biāo)記為0,然后提取剩余的原始特征。之后,被掩蔽的多模態(tài)表示通過兩個分支進(jìn)行處理:1)一個分支由預(yù)訓(xùn)練模型編碼,該模型是用所有完整模態(tài)數(shù)據(jù)訓(xùn)練的;2)另一個分支通過標(biāo)簽編碼模塊和公共空間投影模塊來獲取對齊的特征向量。然后,更新的表示由Transformer編碼器處理,并計算預(yù)訓(xùn)練向量和編碼器輸出之間的前向相似性損失。同時,編碼輸出被輸入到分類器中進(jìn)行情感預(yù)測。最后,計算反向重構(gòu)損失和標(biāo)簽恢復(fù)損失以指導(dǎo)聯(lián)合表示學(xué)習(xí)。
- Tag Encoding

為了確定不確定的缺失模態(tài),采用標(biāo)簽編碼模塊來標(biāo)記,并將網(wǎng)絡(luò)的注意力引導(dǎo)到這些缺失的模態(tài)上。采用4位數(shù)字(“0”或“1”)來標(biāo)記缺失的模態(tài)。如果輸入的部分模態(tài)丟失,將第一個數(shù)字設(shè)置為“0”,否則設(shè)置為“1”。此外,最后三位數(shù)字用于標(biāo)記相應(yīng)的視覺、聽覺和文本模態(tài)。設(shè)置標(biāo)簽的好處是雙重的:1)標(biāo)簽編碼模塊可以覆蓋單個和多個模態(tài)缺失條件;以及2)編碼的標(biāo)簽可以互補地輔助聯(lián)合表示的學(xué)習(xí)。
-
Common Space Projection
首先基于以下線性變換獲得自相關(guān)公共空間:
C v = [ W v a E v ∥ W v t E v ] , C a = [ W v a E a ∥ W t a E a ] , C t = [ W v t E t ∥ W t a E t ] , \begin{array}{l} C_{v}=\left[W_{v a} E_{v} \| W_{v t} E_{v}\right], \\ C_{a}=\left[W_{v a} E_{a} \| W_{t a} E_{a}\right], \\ C_{t}=\left[W_{v t} E_{t} \| W_{t a} E_{t}\right], \end{array} Cv?=[Wva?Ev?∥Wvt?Ev?],Ca?=[Wva?Ea?∥Wta?Ea?],Ct?=[Wvt?Et?∥Wta?Et?],?
其中 W v a W_{v a} Wva?, W v t W_{v t} Wvt?和 W t a W_{t a} Wta?均為權(quán)重矩陣, ∣ ∣ || ∣∣表示垂直連接操作。然后,將所有公共向量和編碼標(biāo)簽連接起來,最終獲得公共聯(lián)合表示: E all? E_{\text {all }} Eall??
E all? = [ C v ∥ C a ∥ C t ∥ E tag? ] E_{\text {all }}=\left[C_{v}\left\|C_{a}\right\| C_{t} \| E_{\text {tag }}\right] Eall??=[Cv?∥Ca?∥Ct?∥Etag??]
特征融合大多用MLP映射或者直接transformer交叉自注意力,這里這種方式有點耳目一新,感覺應(yīng)該很輕量級。
-
Transformer Encoder-Decoder
這部分沒有什么好說的
-
Training Objective
L total? = L cls? + λ 1 L forward? + λ 2 L backward? + λ 3 L tag? \mathcal{L}_{\text {total }}=\mathcal{L}_{\text {cls }}+\lambda_{1} \mathcal{L}_{\text {forward }}+\lambda_{2} \mathcal{L}_{\text {backward }}+\lambda_{3} \mathcal{L}_{\text {tag }} Ltotal??=Lcls??+λ1?Lforward??+λ2?Lbackward??+λ3?Ltag??
其中, L cls? \mathcal{L}_{\text {cls }} Lcls??是分類損失, L forward? \mathcal{L}_{\text {forward }} Lforward??是前向差分損失, L backward? \mathcal{L}_{\text {backward }} Lbackward??是, L tag? \mathcal{L}_{\text {tag }} Ltag??是標(biāo)簽恢復(fù)損失。
? 1.前向損失:由預(yù)訓(xùn)練輸出和Transformer編碼器輸出之間的差計算。論文中使用JS散度。
? 2.后向重構(gòu)損失:用于監(jiān)督聯(lián)合公共向量重建。因此,類似于前向差分損失,計算Transformer解碼器輸出(JS散度)和更新的公共聯(lián)合表示之間的JS發(fā)散損失。
? 3.分類損失:交叉熵
? 4.標(biāo)簽重建損失:論文中標(biāo)簽是用來標(biāo)記缺失的模態(tài),希望網(wǎng)絡(luò)能夠更多地關(guān)注它們。為了更好地指導(dǎo)附著標(biāo)簽的重建,論文采用一個標(biāo)簽恢復(fù)的過程來指導(dǎo)。使用平均絕對誤差(MAE)損失的原因是MAE對絕對函數(shù)的離群值不太敏感。因此,采用MAE來計算 E t a g E_{t a g} Etag?和 D o u t D_{o u t} Dout?最后四位之間的損失。
【小結(jié)】文章來源:http://www.zghlxwxcb.cn/news/detail-798054.html
本文是關(guān)于多模態(tài)情感分析方面的,與研究方向不同,不再贅述。本文值得借鑒的方式就是標(biāo)簽融入的方式,以及損失函數(shù)的構(gòu)建,可以用于缺失模態(tài)醫(yī)學(xué)影像。至于Common Space Projection方式,融合多模態(tài)特征是否比Transformer更好,需要實驗驗證,但可以肯定的是,計算代價低得多。文章來源地址http://www.zghlxwxcb.cn/news/detail-798054.html
到了這里,關(guān)于【論文閱讀筆記】Tag-assisted multimodal sentiment analysis under uncertain missing modalities的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!