Modality Complementariness Towards Understanding Multi modal Robustness
本文討論了模態(tài)互補(bǔ)性在多模態(tài)魯棒性中的重要性,并基于信息論提出了一種數(shù)據(jù)集層面量化度量,用于量化不同模態(tài)之間有多少互補(bǔ)信息,以及這些信息對預(yù)測標(biāo)簽有多大貢獻(xiàn)。該指標(biāo)基于互信息神經(jīng)估計(jì)器(MINE)來計(jì)算。提出了一個(gè)兩階段pipeline,分成數(shù)據(jù)生成階段和度量計(jì)算階段。在數(shù)據(jù)生成階段,作者生成具有受控模態(tài)互補(bǔ)性的數(shù)據(jù)集。在度量計(jì)算階段,作者使用生成的數(shù)據(jù)集計(jì)算度量并分析結(jié)果。,并通過實(shí)驗(yàn)驗(yàn)證了其有效性。此外,本文還討論了各種相關(guān)主題,如變壓器、對抗性示例和深度學(xué)習(xí)模型。
這篇論文的主要貢獻(xiàn)是提供了一個(gè)統(tǒng)一且可操作的方法來評估和優(yōu)化多模態(tài)學(xué)習(xí)系統(tǒng),以及提出了一些有趣且具有啟發(fā)性的發(fā)現(xiàn),例如:不同任務(wù)下最佳模態(tài)組合可能不同;單一模態(tài)可能包含足夠或過剩信息;增加噪聲或缺失值可以提高某些情況下的互補(bǔ)性等。本文還為量化多模態(tài)和缺失模態(tài)或噪聲模態(tài)的貝葉斯錯誤率之間的差異提供了理論保證。
這篇論文的局限性或未來方向有:
這篇論文的理論分析框架只適用于多模態(tài)分類任務(wù),對于其他類型的多模態(tài)任務(wù),如生成、檢索、對話等,還需要進(jìn)一步擴(kuò)展和驗(yàn)證。
這篇論文的指標(biāo)計(jì)算依賴于互信息神經(jīng)估計(jì)器(MINE),而MINE本身可能存在一些問題,如估計(jì)偏差、不穩(wěn)定性、超參數(shù)敏感性等,這些問題可能影響到指標(biāo)的準(zhǔn)確性和可靠性。
這篇論文的實(shí)驗(yàn)設(shè)置較為簡單,只考慮了兩種模態(tài)(視覺和語言)以及兩種噪聲類型(高斯噪聲和缺失值),對于更復(fù)雜和更真實(shí)的多模態(tài)場景,還需要進(jìn)行更多的探索和分析。
互信息神經(jīng)估計(jì)器(MINE)是一種基于神經(jīng)網(wǎng)絡(luò)的方法,用于估計(jì)高維連續(xù)隨機(jī)變量之間的互信息。互信息是衡量兩個(gè)隨機(jī)變量之間相關(guān)性的一個(gè)指標(biāo),它等于兩個(gè)隨機(jī)變量的聯(lián)合分布與邊緣分布之間的KL散度1。MINE利用了一個(gè)重要的定理,即最大化一個(gè)函數(shù)關(guān)于聯(lián)合分布和邊緣分布的期望差等價(jià)于最大化該函數(shù)與互信息之間的下界23。因此,MINE可以通過梯度下降來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),使其輸出接近互信息的下界,并且具有線性可擴(kuò)展性、靈活性和強(qiáng)一致性。
MINE的優(yōu)勢有:
它可以有效地估計(jì)高維連續(xù)隨機(jī)變量之間的互信息,而不需要對分布做任何假設(shè)或近似。
它可以通過梯度下降來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),使其輸出接近互信息的下界,而不需要計(jì)算復(fù)雜的積分或優(yōu)化問題。
它具有線性可擴(kuò)展性、靈活性和強(qiáng)一致性,即它可以處理任意維度和樣本大小的數(shù)據(jù),并且在樣本趨于無窮時(shí),它的估計(jì)值會收斂到真實(shí)值。
MINE的缺點(diǎn)有:
它依賴于一個(gè)超參數(shù),即神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和激活函數(shù),這些選擇可能影響到估計(jì)值的準(zhǔn)確性和穩(wěn)定性。
它可能存在一些估計(jì)偏差,即它的估計(jì)值可能低于或高于真實(shí)值,這取決于神經(jīng)網(wǎng)絡(luò)的初始化和訓(xùn)練過程。
它可能受到樣本相關(guān)性、噪聲、離群點(diǎn)等因素的干擾,導(dǎo)致估計(jì)值不準(zhǔn)確或不可靠。
有很多方法可以估計(jì)互信息,其中一些常見的有:
直接方法:這種方法通過呈現(xiàn)來自p(S)的刺激,并從重復(fù)呈現(xiàn)相同刺激來估計(jì)hΔ(R|S),從而估計(jì)hΔ?和hΔ(R|S)。由于估計(jì)p(R|S)所需的數(shù)據(jù)量通常很大,因此大多數(shù)研究者采用一些技術(shù)來給I(S;R)設(shè)置上下界。
基于k最近鄰的方法:這種方法通過利用k最近鄰距離來估計(jì)熵和互信息,不需要對數(shù)據(jù)進(jìn)行分箱或假設(shè)分布的形式。它具有非參數(shù)性、魯棒性和一致性,但也存在一些缺點(diǎn),如高維空間中距離度量的困難、超參數(shù)k的選擇和樣本相關(guān)性的影響。
基于幾何k最近鄰的方法:這種方法是基于k最近鄰的方法的改進(jìn),它通過在流形上定義距離度量來克服高維空間中歐氏距離失效的問題。它利用了流形學(xué)習(xí)中的局部線性嵌入(LLE)算法,將數(shù)據(jù)映射到一個(gè)低維空間,然后在該空間中使用k最近鄰算法來估計(jì)互信息。、
論文的3.1節(jié)主要講了多模態(tài)互補(bǔ)性度量(Modality Complementarity Metric),這是一個(gè)用來評估多模態(tài)數(shù)據(jù)中不同模態(tài)之間信息互補(bǔ)程度的指標(biāo)。該指標(biāo)基于信息熵(Entropy)和互信息(Mutual Information)的概念,可以反映出多模態(tài)數(shù)據(jù)中每個(gè)模態(tài)對整體信息的貢獻(xiàn)和冗余。該指標(biāo)可以用來預(yù)測多模態(tài)模型在不同場景下的魯棒性,例如缺失某個(gè)模態(tài)、某個(gè)模態(tài)受到噪聲或?qū)构舻?br> 論文的3.2節(jié)主要講了多模態(tài)互補(bǔ)性度量的理論分析(Theoretical Analysis of Modality Complementarity Metric),這是一個(gè)用來證明該指標(biāo)與多模態(tài)魯棒性之間關(guān)系的數(shù)學(xué)推導(dǎo)。該分析基于貝葉斯風(fēng)險(xiǎn)(Bayesian Risk)和最小化期望損失(Minimizing Expected Loss)的原則,給出了在不同場景下,多模態(tài)互補(bǔ)性度量與多模態(tài)模型性能之間的上下界。該分析表明,當(dāng)某個(gè)模態(tài)缺失或受到噪聲或?qū)构魰r(shí),多模態(tài)互補(bǔ)性度量越高,多模態(tài)模型的性能下降越小。
這篇論文的3.3節(jié)主要討論了如何在真實(shí)世界的多模態(tài)數(shù)據(jù)集上計(jì)算模態(tài)互補(bǔ)性度量,并展示了不同數(shù)據(jù)集的模態(tài)互補(bǔ)性和多模態(tài)魯棒性之間的關(guān)系。
論文中的圖2顯示了在不同設(shè)置下,模態(tài)互補(bǔ)性和多模態(tài)魯棒性之間的關(guān)系。模態(tài)互補(bǔ)性是一種度量每種模態(tài)對其他模態(tài)增加多少信息的指標(biāo)。多模態(tài)魯棒性是指一個(gè)模型在某些模態(tài)缺失或受損時(shí)能夠表現(xiàn)良好的能力。
圖2的作用是說明論文的主要思想:模態(tài)互補(bǔ)性影響多模態(tài)魯棒性?;パa(bǔ)性越高,模型對缺失或噪聲模態(tài)越敏感?;パa(bǔ)性越低,模型對這種情況越魯棒 。
I(X; Y, Z)表示X和(Y, Z)之間的互信息,即X減少了對(Y, Z)的不確定性的程度。它等于(Y, Z)的熵減去給定X時(shí)(Y, Z)的熵。
I(Z; Y, X) 表示 Z 和 (Y, X) 之間的模態(tài)互補(bǔ)性,即 Z 在 (Y, X) 缺失或受損時(shí)能夠減少對 (Y, X) 的不確定性的程度。它等于 (Y, X) 的熵減去給定 Z 時(shí) (Y, X) 的熵。
I(X; Y, Z) 表示給定 (Y, Z) 時(shí) X 的多模態(tài)魯棒性,即 X 在 (Y, Z) 存在且可靠時(shí)能夠減少對 (Y, Z) 的不確定性的程度。它等于 (Y, Z) 的熵減去給定 X 時(shí) (Y, Z) 的熵。
4.2節(jié)主要講了一種用于計(jì)算模態(tài)互補(bǔ)性度量的實(shí)用流程。該流程包括三個(gè)步驟:1) 使用互信息神經(jīng)估計(jì)器 (MINE) (Belghazi et al., 2018) 來估計(jì)不同模態(tài)之間的互信息;2) 使用條件熵神經(jīng)估計(jì)器 (CENE) 來估計(jì)給定一個(gè)或多個(gè)模態(tài)時(shí),另一個(gè)模態(tài)的條件熵;3) 使用公式 (4) 來計(jì)算模態(tài)互補(bǔ)性度量。該流程可以處理任意數(shù)量和類型的模態(tài),并且可以在真實(shí)世界的多模態(tài)數(shù)據(jù)集上運(yùn)行。
公式 (4) 定義了模態(tài)互補(bǔ)性度量 (MCM) 作為不同模態(tài)之間的互信息和條件熵的函數(shù)。MCM 可以看作是一個(gè)模態(tài)在其他模態(tài)缺失或受損時(shí)能夠提供的有用信息的比例。MCM 的值越高,表示一個(gè)模態(tài)對其他模態(tài)的補(bǔ)充程度越高,也就意味著多模態(tài)模型在面對缺失或噪聲干擾時(shí)更容易受到影響。
這種方法的目的是為了定量地評估多模態(tài)數(shù)據(jù)集中不同模態(tài)之間的互補(bǔ)性,從而揭示互補(bǔ)性對多模態(tài)模型魯棒性的影響。作者認(rèn)為,現(xiàn)有的多模態(tài)學(xué)習(xí)理論和實(shí)踐中忽略了這一重要因素,導(dǎo)致了一些矛盾的結(jié)論。因此,他們提出了一個(gè)基于信息論的分析框架和一個(gè)基于神經(jīng)網(wǎng)絡(luò)估計(jì)器的計(jì)算流程,來探索互補(bǔ)性在不同任務(wù)和數(shù)據(jù)集上的變化,并與多模態(tài)模型在缺失、噪聲和對抗攻擊等情況下的表現(xiàn)進(jìn)行比較。
On Uni modal Feature Learning in Multi modal Learning
多模態(tài)數(shù)據(jù)的特征抽象為1)單模態(tài)特征(可以從單模態(tài)訓(xùn)練中學(xué)習(xí))和2)配對特征(只能從跨模態(tài)交互中學(xué)習(xí))。多模態(tài)聯(lián)合訓(xùn)練有望在保證單模態(tài)特征學(xué)習(xí)的基礎(chǔ)上受益于跨模態(tài)交互。然而,目前的后期融合訓(xùn)練方法仍然存在對每個(gè)模態(tài)上的單模態(tài)特征學(xué)習(xí)不足的問題,并且證明了這一現(xiàn)象確實(shí)損害了模型的泛化能力。針對一個(gè)多模態(tài)任務(wù),根據(jù)單模態(tài)和成對特征的分布,從單模態(tài)集成(UME)和提出的單模態(tài)教師(UMT)中選擇有針對性的后期融合學(xué)習(xí)方法。我們證明,在一個(gè)簡單的指導(dǎo)策略下,我們可以在多模態(tài)數(shù)據(jù)集上獲得與其他復(fù)雜的后期融合或中間融合方法
單模態(tài)先驗(yàn)有意義的多模態(tài)任務(wù)。理想情況下,我們希望多模態(tài)聯(lián)合訓(xùn)練能夠在保證學(xué)習(xí)足夠多的單模態(tài)特征的基礎(chǔ)上,通過跨模態(tài)交互來學(xué)習(xí)成對特征。
雖然多模態(tài)聯(lián)合訓(xùn)練為跨模態(tài)交互提供了學(xué)習(xí)配對特征的機(jī)會,但該模型容易飽和并忽略了難以學(xué)習(xí)但對泛化很重要的單模態(tài)特征
然而,最近的后期融合方法仍然存在學(xué)習(xí)每個(gè)模態(tài)的單模態(tài)表示不足的問題。我們將這種現(xiàn)象稱為模態(tài)懶惰,并在圖1中加以說明。我們從理論上描述了模態(tài)懶惰,并證明它確實(shí)損害了模型的泛化能力,特別是當(dāng)單模態(tài)特征在給定任務(wù)中占主導(dǎo)地位時(shí)。
我們關(guān)注單模態(tài)特征的學(xué)習(xí),根據(jù)單模態(tài)特征和配對特征的分布,從Uni-ModalEnsemble (UME)和提出的uni-modal Teacher (UMT)中選擇有針對性的后期融合訓(xùn)練方法。如果單模態(tài)特征和成對特征都是必要的,則UMT是有效的,它可以幫助多模態(tài)模型通過單模態(tài)蒸餾更好地學(xué)習(xí)單模態(tài)特征;如果兩種模態(tài)都具有較強(qiáng)的單模態(tài)特征,且成對特征不夠重要,則采用UME,它結(jié)合了單模態(tài)模型的預(yù)測,完全避免了對單模態(tài)特征的學(xué)習(xí)不足。我們還提供了一個(gè)經(jīng)驗(yàn)技巧來決定使用哪一個(gè)。
聯(lián)合訓(xùn)練優(yōu)缺點(diǎn):一方面,聯(lián)合訓(xùn)練導(dǎo)致單模態(tài)特征學(xué)習(xí)不足(Modality lazy)。另一方面,它允許模態(tài)之間的交互,以學(xué)習(xí)單模態(tài)特征以外的表示,即成對特征?;诖耍覀兲峁┝硕嗄B(tài)后期融合學(xué)習(xí)的指導(dǎo)。最后,我們對情態(tài)懶惰進(jìn)行了理論分析,并對我們的解決方案進(jìn)行了論證。
視覺問答(VQA) (Agrawal等人,2018)是一個(gè)反例。具體來說,相同的圖像與不同的文本問題可能有完全不同的標(biāo)簽,使得檢查其單模態(tài)準(zhǔn)確性毫無意義。
對單模態(tài)模型的預(yù)測結(jié)果進(jìn)行平均,預(yù)訓(xùn)練的單模態(tài)編碼器上訓(xùn)練一個(gè)多模態(tài)線性分類器,其中模態(tài)可以通過線性層相互作用,樸素融合,沒有使用精心設(shè)計(jì)的技巧 跨模態(tài)交互作用。
對于一個(gè)多模態(tài)任務(wù),如果單模態(tài)特征和配對特征都是必要的,那么Uni-ModalTeacher (UMT)是有效的;如果兩種模態(tài)都具有強(qiáng)烈的單模態(tài)特征,同時(shí)成對特征不重要,簡單地結(jié)合單模態(tài)模型的預(yù)測就可以很好地實(shí)現(xiàn),這種方法被稱為單模態(tài)集成(UME)。
φ′miis是對單模態(tài)數(shù)據(jù)進(jìn)行監(jiān)督預(yù)訓(xùn)練的編碼器。φmi是一個(gè)沒有預(yù)訓(xùn)練的隨機(jī)初始編碼器。Lmulti是多模態(tài)預(yù)測和標(biāo)簽之間的損失。Ldistill是單模態(tài)蒸餾損失。
單模態(tài)蒸餾發(fā)生在融合前,late-fusion
從單模態(tài)模型中提取知識可以幫助多模態(tài)模型更好地學(xué)習(xí)單模態(tài)特征,這發(fā)生在特征級。UMT的框架如圖1和圖4所示。請注意,對于特定的模態(tài),我們在單模態(tài)模型和多模態(tài)模型中使用相同的backbone。
如果兩種模式都有強(qiáng)烈的單模態(tài)特征,聯(lián)合訓(xùn)練弊大于利。結(jié)合單模態(tài)模型的預(yù)測,避免了單模態(tài)特征的學(xué)習(xí)不足。首先,我們可以獨(dú)立地訓(xùn)練單模態(tài)模型。然后,我們可以通過加權(quán)單模態(tài)模型的預(yù)測給出最終輸出。簡單的集成方法被稱為單模態(tài)集成(UME)。我們證明了UME可以在某些多模態(tài)數(shù)據(jù)集上表現(xiàn)出具有競爭力的性能。
決定使用哪種方法的經(jīng)驗(yàn)Trick。我們可以在單模態(tài)預(yù)訓(xùn)練編碼器上訓(xùn)練一個(gè)多模態(tài)線性分類器,并將其與單模態(tài)模型的平均預(yù)測進(jìn)行比較。如果分類器的性能更好,則意味著我們可以從該任務(wù)中的跨模態(tài)交互中受益,我們可以選擇UMT,在保證改善單模態(tài)特征學(xué)習(xí)的同時(shí),保留跨模態(tài)交互;反之,簡單的跨模態(tài)交互弊大于利,因?yàn)槊總€(gè)模態(tài)都有很強(qiáng)的單模態(tài)特征,我們可以選擇UME,它完全避免了模態(tài)懶惰。
證明:從特征學(xué)習(xí)角度證明模態(tài)惰性確實(shí)對多模態(tài)的泛化性有害
多模態(tài)聯(lián)合訓(xùn)練可以比單模態(tài)訓(xùn)練學(xué)習(xí)更多的特征,但所學(xué)習(xí)的特征不一定有用,甚至?xí)p害模型的泛化。定理3.4指出,在單模態(tài)集成中,與單模態(tài)訓(xùn)練相比,訓(xùn)練過程學(xué)習(xí)到的單模態(tài)特征更少,這損害了模型的泛化。這種現(xiàn)象被稱為模態(tài)懶惰文章來源:http://www.zghlxwxcb.cn/news/detail-481835.html
UMT,Bm1特征學(xué)自模態(tài)xm1,在多模態(tài)訓(xùn)練方法中,假設(shè)訓(xùn)練程序在模態(tài)x m1中學(xué)習(xí)了km1的單模態(tài)特征,在模態(tài)x m2中學(xué)習(xí)了km2的單模態(tài)特征,并學(xué)習(xí)了kpa的配對特征
考慮一個(gè)新的測試點(diǎn),然后對于每個(gè) δ > 0,如果以下不等式成立:
其中 ?(δ) = p 8(kpa + bm1 ? km1 + bm2 ? km2) log(1/δ),則概率 至少為 1 ? δ,單模態(tài)集成優(yōu)于多模態(tài)訓(xùn)練方法概率測試點(diǎn)
數(shù)量懶惰表示在簡單的多模態(tài)訓(xùn)練中學(xué)習(xí)到的特征數(shù)量少于單模態(tài)訓(xùn)練。
單模態(tài)懶惰表明,由于數(shù)量懶惰,多模態(tài)訓(xùn)練的編碼器比單模態(tài)訓(xùn)練的編碼器性能差,這符合第3.1節(jié)的實(shí)驗(yàn)結(jié)果。
性能懶惰比較了多模態(tài)聯(lián)合訓(xùn)練方法和單模態(tài)集合的性能,表明當(dāng)單模態(tài)特征占主導(dǎo)地位時(shí),結(jié)合單模態(tài)的預(yù)測更有效。文章來源地址http://www.zghlxwxcb.cn/news/detail-481835.html
到了這里,關(guān)于兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!