国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

這篇具有很好參考價(jià)值的文章主要介紹了兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Modality Complementariness Towards Understanding Multi modal Robustness

本文討論了模態(tài)互補(bǔ)性在多模態(tài)魯棒性中的重要性,并基于信息論提出了一種數(shù)據(jù)集層面量化度量,用于量化不同模態(tài)之間有多少互補(bǔ)信息,以及這些信息對預(yù)測標(biāo)簽有多大貢獻(xiàn)。該指標(biāo)基于互信息神經(jīng)估計(jì)器(MINE)來計(jì)算。提出了一個(gè)兩階段pipeline,分成數(shù)據(jù)生成階段和度量計(jì)算階段。在數(shù)據(jù)生成階段,作者生成具有受控模態(tài)互補(bǔ)性的數(shù)據(jù)集。在度量計(jì)算階段,作者使用生成的數(shù)據(jù)集計(jì)算度量并分析結(jié)果。,并通過實(shí)驗(yàn)驗(yàn)證了其有效性。此外,本文還討論了各種相關(guān)主題,如變壓器、對抗性示例和深度學(xué)習(xí)模型。
這篇論文的主要貢獻(xiàn)是提供了一個(gè)統(tǒng)一且可操作的方法來評估和優(yōu)化多模態(tài)學(xué)習(xí)系統(tǒng),以及提出了一些有趣且具有啟發(fā)性的發(fā)現(xiàn),例如:不同任務(wù)下最佳模態(tài)組合可能不同;單一模態(tài)可能包含足夠或過剩信息;增加噪聲或缺失值可以提高某些情況下的互補(bǔ)性等。本文還為量化多模態(tài)和缺失模態(tài)或噪聲模態(tài)的貝葉斯錯誤率之間的差異提供了理論保證。

這篇論文的局限性或未來方向有:
這篇論文的理論分析框架只適用于多模態(tài)分類任務(wù),對于其他類型的多模態(tài)任務(wù),如生成、檢索、對話等,還需要進(jìn)一步擴(kuò)展和驗(yàn)證。
這篇論文的指標(biāo)計(jì)算依賴于互信息神經(jīng)估計(jì)器(MINE),而MINE本身可能存在一些問題,如估計(jì)偏差、不穩(wěn)定性、超參數(shù)敏感性等,這些問題可能影響到指標(biāo)的準(zhǔn)確性和可靠性。
這篇論文的實(shí)驗(yàn)設(shè)置較為簡單,只考慮了兩種模態(tài)(視覺和語言)以及兩種噪聲類型(高斯噪聲和缺失值),對于更復(fù)雜和更真實(shí)的多模態(tài)場景,還需要進(jìn)行更多的探索和分析。
互信息神經(jīng)估計(jì)器(MINE)是一種基于神經(jīng)網(wǎng)絡(luò)的方法,用于估計(jì)高維連續(xù)隨機(jī)變量之間的互信息。互信息是衡量兩個(gè)隨機(jī)變量之間相關(guān)性的一個(gè)指標(biāo),它等于兩個(gè)隨機(jī)變量的聯(lián)合分布與邊緣分布之間的KL散度1。MINE利用了一個(gè)重要的定理,即最大化一個(gè)函數(shù)關(guān)于聯(lián)合分布和邊緣分布的期望差等價(jià)于最大化該函數(shù)與互信息之間的下界23。因此,MINE可以通過梯度下降來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),使其輸出接近互信息的下界,并且具有線性可擴(kuò)展性、靈活性和強(qiáng)一致性。
MINE的優(yōu)勢有:

它可以有效地估計(jì)高維連續(xù)隨機(jī)變量之間的互信息,而不需要對分布做任何假設(shè)或近似。
它可以通過梯度下降來訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),使其輸出接近互信息的下界,而不需要計(jì)算復(fù)雜的積分或優(yōu)化問題。
它具有線性可擴(kuò)展性、靈活性和強(qiáng)一致性,即它可以處理任意維度和樣本大小的數(shù)據(jù),并且在樣本趨于無窮時(shí),它的估計(jì)值會收斂到真實(shí)值。
MINE的缺點(diǎn)有:

它依賴于一個(gè)超參數(shù),即神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和激活函數(shù),這些選擇可能影響到估計(jì)值的準(zhǔn)確性和穩(wěn)定性。
它可能存在一些估計(jì)偏差,即它的估計(jì)值可能低于或高于真實(shí)值,這取決于神經(jīng)網(wǎng)絡(luò)的初始化和訓(xùn)練過程。
它可能受到樣本相關(guān)性、噪聲、離群點(diǎn)等因素的干擾,導(dǎo)致估計(jì)值不準(zhǔn)確或不可靠。
有很多方法可以估計(jì)互信息,其中一些常見的有:

直接方法:這種方法通過呈現(xiàn)來自p(S)的刺激,并從重復(fù)呈現(xiàn)相同刺激來估計(jì)hΔ(R|S),從而估計(jì)hΔ?和hΔ(R|S)。由于估計(jì)p(R|S)所需的數(shù)據(jù)量通常很大,因此大多數(shù)研究者采用一些技術(shù)來給I(S;R)設(shè)置上下界。
基于k最近鄰的方法:這種方法通過利用k最近鄰距離來估計(jì)熵和互信息,不需要對數(shù)據(jù)進(jìn)行分箱或假設(shè)分布的形式。它具有非參數(shù)性、魯棒性和一致性,但也存在一些缺點(diǎn),如高維空間中距離度量的困難、超參數(shù)k的選擇和樣本相關(guān)性的影響。
基于幾何k最近鄰的方法:這種方法是基于k最近鄰的方法的改進(jìn),它通過在流形上定義距離度量來克服高維空間中歐氏距離失效的問題。它利用了流形學(xué)習(xí)中的局部線性嵌入(LLE)算法,將數(shù)據(jù)映射到一個(gè)低維空間,然后在該空間中使用k最近鄰算法來估計(jì)互信息。、

論文的3.1節(jié)主要講了多模態(tài)互補(bǔ)性度量(Modality Complementarity Metric),這是一個(gè)用來評估多模態(tài)數(shù)據(jù)中不同模態(tài)之間信息互補(bǔ)程度的指標(biāo)。該指標(biāo)基于信息熵(Entropy)和互信息(Mutual Information)的概念,可以反映出多模態(tài)數(shù)據(jù)中每個(gè)模態(tài)對整體信息的貢獻(xiàn)和冗余。該指標(biāo)可以用來預(yù)測多模態(tài)模型在不同場景下的魯棒性,例如缺失某個(gè)模態(tài)、某個(gè)模態(tài)受到噪聲或?qū)构舻?br> 論文的3.2節(jié)主要講了多模態(tài)互補(bǔ)性度量的理論分析(Theoretical Analysis of Modality Complementarity Metric),這是一個(gè)用來證明該指標(biāo)與多模態(tài)魯棒性之間關(guān)系的數(shù)學(xué)推導(dǎo)。該分析基于貝葉斯風(fēng)險(xiǎn)(Bayesian Risk)和最小化期望損失(Minimizing Expected Loss)的原則,給出了在不同場景下,多模態(tài)互補(bǔ)性度量與多模態(tài)模型性能之間的上下界。該分析表明,當(dāng)某個(gè)模態(tài)缺失或受到噪聲或?qū)构魰r(shí),多模態(tài)互補(bǔ)性度量越高,多模態(tài)模型的性能下降越小。
這篇論文的3.3節(jié)主要討論了如何在真實(shí)世界的多模態(tài)數(shù)據(jù)集上計(jì)算模態(tài)互補(bǔ)性度量,并展示了不同數(shù)據(jù)集的模態(tài)互補(bǔ)性和多模態(tài)魯棒性之間的關(guān)系。

論文中的圖2顯示了在不同設(shè)置下,模態(tài)互補(bǔ)性和多模態(tài)魯棒性之間的關(guān)系。模態(tài)互補(bǔ)性是一種度量每種模態(tài)對其他模態(tài)增加多少信息的指標(biāo)。多模態(tài)魯棒性是指一個(gè)模型在某些模態(tài)缺失或受損時(shí)能夠表現(xiàn)良好的能力。
兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

圖2的作用是說明論文的主要思想:模態(tài)互補(bǔ)性影響多模態(tài)魯棒性?;パa(bǔ)性越高,模型對缺失或噪聲模態(tài)越敏感?;パa(bǔ)性越低,模型對這種情況越魯棒 。
I(X; Y, Z)表示X和(Y, Z)之間的互信息,即X減少了對(Y, Z)的不確定性的程度。它等于(Y, Z)的熵減去給定X時(shí)(Y, Z)的熵。
I(Z; Y, X) 表示 Z 和 (Y, X) 之間的模態(tài)互補(bǔ)性,即 Z 在 (Y, X) 缺失或受損時(shí)能夠減少對 (Y, X) 的不確定性的程度。它等于 (Y, X) 的熵減去給定 Z 時(shí) (Y, X) 的熵。
I(X; Y, Z) 表示給定 (Y, Z) 時(shí) X 的多模態(tài)魯棒性,即 X 在 (Y, Z) 存在且可靠時(shí)能夠減少對 (Y, Z) 的不確定性的程度。它等于 (Y, Z) 的熵減去給定 X 時(shí) (Y, Z) 的熵。

4.2節(jié)主要講了一種用于計(jì)算模態(tài)互補(bǔ)性度量的實(shí)用流程。該流程包括三個(gè)步驟:1) 使用互信息神經(jīng)估計(jì)器 (MINE) (Belghazi et al., 2018) 來估計(jì)不同模態(tài)之間的互信息;2) 使用條件熵神經(jīng)估計(jì)器 (CENE) 來估計(jì)給定一個(gè)或多個(gè)模態(tài)時(shí),另一個(gè)模態(tài)的條件熵;3) 使用公式 (4) 來計(jì)算模態(tài)互補(bǔ)性度量。該流程可以處理任意數(shù)量和類型的模態(tài),并且可以在真實(shí)世界的多模態(tài)數(shù)據(jù)集上運(yùn)行。
兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

公式 (4) 定義了模態(tài)互補(bǔ)性度量 (MCM) 作為不同模態(tài)之間的互信息和條件熵的函數(shù)。MCM 可以看作是一個(gè)模態(tài)在其他模態(tài)缺失或受損時(shí)能夠提供的有用信息的比例。MCM 的值越高,表示一個(gè)模態(tài)對其他模態(tài)的補(bǔ)充程度越高,也就意味著多模態(tài)模型在面對缺失或噪聲干擾時(shí)更容易受到影響。
這種方法的目的是為了定量地評估多模態(tài)數(shù)據(jù)集中不同模態(tài)之間的互補(bǔ)性,從而揭示互補(bǔ)性對多模態(tài)模型魯棒性的影響。作者認(rèn)為,現(xiàn)有的多模態(tài)學(xué)習(xí)理論和實(shí)踐中忽略了這一重要因素,導(dǎo)致了一些矛盾的結(jié)論。因此,他們提出了一個(gè)基于信息論的分析框架和一個(gè)基于神經(jīng)網(wǎng)絡(luò)估計(jì)器的計(jì)算流程,來探索互補(bǔ)性在不同任務(wù)和數(shù)據(jù)集上的變化,并與多模態(tài)模型在缺失、噪聲和對抗攻擊等情況下的表現(xiàn)進(jìn)行比較。

On Uni modal Feature Learning in Multi modal Learning

多模態(tài)數(shù)據(jù)的特征抽象為1)單模態(tài)特征(可以從單模態(tài)訓(xùn)練中學(xué)習(xí))和2)配對特征(只能從跨模態(tài)交互中學(xué)習(xí))。多模態(tài)聯(lián)合訓(xùn)練有望在保證單模態(tài)特征學(xué)習(xí)的基礎(chǔ)上受益于跨模態(tài)交互。然而,目前的后期融合訓(xùn)練方法仍然存在對每個(gè)模態(tài)上的單模態(tài)特征學(xué)習(xí)不足的問題,并且證明了這一現(xiàn)象確實(shí)損害了模型的泛化能力。針對一個(gè)多模態(tài)任務(wù),根據(jù)單模態(tài)和成對特征的分布,從單模態(tài)集成(UME)和提出的單模態(tài)教師(UMT)中選擇有針對性的后期融合學(xué)習(xí)方法。我們證明,在一個(gè)簡單的指導(dǎo)策略下,我們可以在多模態(tài)數(shù)據(jù)集上獲得與其他復(fù)雜的后期融合或中間融合方法
單模態(tài)先驗(yàn)有意義的多模態(tài)任務(wù)。理想情況下,我們希望多模態(tài)聯(lián)合訓(xùn)練能夠在保證學(xué)習(xí)足夠多的單模態(tài)特征的基礎(chǔ)上,通過跨模態(tài)交互來學(xué)習(xí)成對特征。
兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

雖然多模態(tài)聯(lián)合訓(xùn)練為跨模態(tài)交互提供了學(xué)習(xí)配對特征的機(jī)會,但該模型容易飽和并忽略了難以學(xué)習(xí)但對泛化很重要的單模態(tài)特征
然而,最近的后期融合方法仍然存在學(xué)習(xí)每個(gè)模態(tài)的單模態(tài)表示不足的問題。我們將這種現(xiàn)象稱為模態(tài)懶惰,并在圖1中加以說明。我們從理論上描述了模態(tài)懶惰,并證明它確實(shí)損害了模型的泛化能力,特別是當(dāng)單模態(tài)特征在給定任務(wù)中占主導(dǎo)地位時(shí)。
我們關(guān)注單模態(tài)特征的學(xué)習(xí),根據(jù)單模態(tài)特征和配對特征的分布,從Uni-ModalEnsemble (UME)和提出的uni-modal Teacher (UMT)中選擇有針對性的后期融合訓(xùn)練方法。如果單模態(tài)特征和成對特征都是必要的,則UMT是有效的,它可以幫助多模態(tài)模型通過單模態(tài)蒸餾更好地學(xué)習(xí)單模態(tài)特征;如果兩種模態(tài)都具有較強(qiáng)的單模態(tài)特征,且成對特征不夠重要,則采用UME,它結(jié)合了單模態(tài)模型的預(yù)測,完全避免了對單模態(tài)特征的學(xué)習(xí)不足。我們還提供了一個(gè)經(jīng)驗(yàn)技巧來決定使用哪一個(gè)。
聯(lián)合訓(xùn)練優(yōu)缺點(diǎn):一方面,聯(lián)合訓(xùn)練導(dǎo)致單模態(tài)特征學(xué)習(xí)不足(Modality lazy)。另一方面,它允許模態(tài)之間的交互,以學(xué)習(xí)單模態(tài)特征以外的表示,即成對特征?;诖耍覀兲峁┝硕嗄B(tài)后期融合學(xué)習(xí)的指導(dǎo)。最后,我們對情態(tài)懶惰進(jìn)行了理論分析,并對我們的解決方案進(jìn)行了論證。
視覺問答(VQA) (Agrawal等人,2018)是一個(gè)反例。具體來說,相同的圖像與不同的文本問題可能有完全不同的標(biāo)簽,使得檢查其單模態(tài)準(zhǔn)確性毫無意義。
兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

對單模態(tài)模型的預(yù)測結(jié)果進(jìn)行平均,預(yù)訓(xùn)練的單模態(tài)編碼器上訓(xùn)練一個(gè)多模態(tài)線性分類器,其中模態(tài)可以通過線性層相互作用,樸素融合,沒有使用精心設(shè)計(jì)的技巧 跨模態(tài)交互作用。

對于一個(gè)多模態(tài)任務(wù),如果單模態(tài)特征和配對特征都是必要的,那么Uni-ModalTeacher (UMT)是有效的;如果兩種模態(tài)都具有強(qiáng)烈的單模態(tài)特征,同時(shí)成對特征不重要,簡單地結(jié)合單模態(tài)模型的預(yù)測就可以很好地實(shí)現(xiàn),這種方法被稱為單模態(tài)集成(UME)。
兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

φ′miis是對單模態(tài)數(shù)據(jù)進(jìn)行監(jiān)督預(yù)訓(xùn)練的編碼器。φmi是一個(gè)沒有預(yù)訓(xùn)練的隨機(jī)初始編碼器。Lmulti是多模態(tài)預(yù)測和標(biāo)簽之間的損失。Ldistill是單模態(tài)蒸餾損失。
單模態(tài)蒸餾發(fā)生在融合前,late-fusion
從單模態(tài)模型中提取知識可以幫助多模態(tài)模型更好地學(xué)習(xí)單模態(tài)特征,這發(fā)生在特征級。UMT的框架如圖1和圖4所示。請注意,對于特定的模態(tài),我們在單模態(tài)模型和多模態(tài)模型中使用相同的backbone。
如果兩種模式都有強(qiáng)烈的單模態(tài)特征,聯(lián)合訓(xùn)練弊大于利。結(jié)合單模態(tài)模型的預(yù)測,避免了單模態(tài)特征的學(xué)習(xí)不足。首先,我們可以獨(dú)立地訓(xùn)練單模態(tài)模型。然后,我們可以通過加權(quán)單模態(tài)模型的預(yù)測給出最終輸出。簡單的集成方法被稱為單模態(tài)集成(UME)。我們證明了UME可以在某些多模態(tài)數(shù)據(jù)集上表現(xiàn)出具有競爭力的性能。
決定使用哪種方法的經(jīng)驗(yàn)Trick。我們可以在單模態(tài)預(yù)訓(xùn)練編碼器上訓(xùn)練一個(gè)多模態(tài)線性分類器,并將其與單模態(tài)模型的平均預(yù)測進(jìn)行比較。如果分類器的性能更好,則意味著我們可以從該任務(wù)中的跨模態(tài)交互中受益,我們可以選擇UMT,在保證改善單模態(tài)特征學(xué)習(xí)的同時(shí),保留跨模態(tài)交互;反之,簡單的跨模態(tài)交互弊大于利,因?yàn)槊總€(gè)模態(tài)都有很強(qiáng)的單模態(tài)特征,我們可以選擇UME,它完全避免了模態(tài)懶惰。
證明:從特征學(xué)習(xí)角度證明模態(tài)惰性確實(shí)對多模態(tài)的泛化性有害
多模態(tài)聯(lián)合訓(xùn)練可以比單模態(tài)訓(xùn)練學(xué)習(xí)更多的特征,但所學(xué)習(xí)的特征不一定有用,甚至?xí)p害模型的泛化。定理3.4指出,在單模態(tài)集成中,與單模態(tài)訓(xùn)練相比,訓(xùn)練過程學(xué)習(xí)到的單模態(tài)特征更少,這損害了模型的泛化。這種現(xiàn)象被稱為模態(tài)懶惰
兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))

UMT,Bm1特征學(xué)自模態(tài)xm1,在多模態(tài)訓(xùn)練方法中,假設(shè)訓(xùn)練程序在模態(tài)x m1中學(xué)習(xí)了km1的單模態(tài)特征,在模態(tài)x m2中學(xué)習(xí)了km2的單模態(tài)特征,并學(xué)習(xí)了kpa的配對特征
考慮一個(gè)新的測試點(diǎn),然后對于每個(gè) δ > 0,如果以下不等式成立:
其中 ?(δ) = p 8(kpa + bm1 ? km1 + bm2 ? km2) log(1/δ),則概率 至少為 1 ? δ,單模態(tài)集成優(yōu)于多模態(tài)訓(xùn)練方法概率測試點(diǎn)
數(shù)量懶惰表示在簡單的多模態(tài)訓(xùn)練中學(xué)習(xí)到的特征數(shù)量少于單模態(tài)訓(xùn)練。
單模態(tài)懶惰表明,由于數(shù)量懶惰,多模態(tài)訓(xùn)練的編碼器比單模態(tài)訓(xùn)練的編碼器性能差,這符合第3.1節(jié)的實(shí)驗(yàn)結(jié)果。
性能懶惰比較了多模態(tài)聯(lián)合訓(xùn)練方法和單模態(tài)集合的性能,表明當(dāng)單模態(tài)特征占主導(dǎo)地位時(shí),結(jié)合單模態(tài)的預(yù)測更有效。文章來源地址http://www.zghlxwxcb.cn/news/detail-481835.html

到了這里,關(guān)于兩篇2023 ICLR多模態(tài)論文分享(模態(tài)互補(bǔ)性對多模態(tài)魯棒性影響 與 對多模表示學(xué)習(xí)有效的單模學(xué)習(xí))的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實(shí)現(xiàn)開集目標(biāo)檢測(ICLR2022)

    【多模態(tài)】18、ViLD | 通過對視覺和語言知識蒸餾來實(shí)現(xiàn)開集目標(biāo)檢測(ICLR2022)

    論文:Open-vocabulary Object Detection via Vision and Language Knowledge Distillation 代碼:https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild 效果: 在 zero-shot 測試下,coco 達(dá)到了 36.6 AP,PASCAL VOC 達(dá)到了 72.2AP,Object365 達(dá)到了 11.8AP 本文提出了 Vision and Language knowledge Distillation(

    2024年02月14日
    瀏覽(24)
  • 【圖-注意力筆記,篇章2】Graphormer 和 GraphFormers論文筆記之兩篇經(jīng)典Graph Transformer來入門

    【圖-注意力筆記,篇章2】Graphormer 和 GraphFormers論文筆記之兩篇經(jīng)典Graph Transformer來入門

    說明: 本文僅供學(xué)習(xí),未經(jīng)同意請勿轉(zhuǎn)載 筆記時(shí)間:2022年08月 博客公開時(shí)間:2023年3月2日 前面我們大致的了解了Graph Transformer是什么,以及它與GNN、Transformer的差別,關(guān)聯(lián)。如果對這方面不是很熟悉的朋友可以看一下【圖-注意力筆記,篇章1】一份PPT帶你快速了解Graph Trans

    2023年04月25日
    瀏覽(20)
  • 分享AIGC前沿論文系列二 面向區(qū)域級圖像理解的端到端多模態(tài)大模型GPT4RoI

    分享AIGC前沿論文系列二 面向區(qū)域級圖像理解的端到端多模態(tài)大模型GPT4RoI

    面向區(qū)域級圖像理解的端到端多模態(tài)大模型 帶來了超越圖像級理解的全新對話和交互體驗(yàn) 進(jìn)行絲滑的人機(jī)互動,不僅僅是文字級別的人機(jī)互動 本文提出對感興趣區(qū)域進(jìn)行Instruction Tuning,并提出GPT4RoI: 一種區(qū)域級視覺-語言模型,帶來了超越圖像級理解的全新對話和交互體驗(yàn),

    2024年02月15日
    瀏覽(27)
  • ICLR 2023 | 達(dá)摩院開源輕量人臉檢測DamoFD

    ICLR 2023 | 達(dá)摩院開源輕量人臉檢測DamoFD

    ????????本文介紹我們被機(jī)器學(xué)習(xí)頂級國際會議ICLR 2023接收的論文 “DamoFD: Digging into Backbone Design on Face Detection\\\" 論文鏈接:https://openreview.net/pdf?id=NkJOhtNKX91 開源代碼(歡迎點(diǎn)贊、收藏、轉(zhuǎn)發(fā)三連啊~~~):https://github.com/ly19965/EasyFace/tree/master/face_project/face_detection/DamoFD ????

    2023年04月15日
    瀏覽(19)
  • 頂會論文投稿經(jīng)驗(yàn)分享-筆記【CVPR 2023預(yù)講會】

    視頻鏈接:Panel: 頂會論文投稿經(jīng)驗(yàn)分享與大模型時(shí)代下的科研_嗶哩嗶哩_bilibili 嘉賓: 王琦,上海交通大學(xué)計(jì)算機(jī)系博士生 任星宇,上海交通大學(xué)博士三年級研究生 李逸軒,上海交通大學(xué)2022級碩士研究生 官同坤,上海交通大學(xué)2023級博士生 李逸軒:不管是對比實(shí)驗(yàn)、主圖、

    2023年04月23日
    瀏覽(31)
  • 【ICLR 2023】詳細(xì)解讀DiffEdit:基于擴(kuò)散模型的圖像編輯革命性成果

    Diffusion Models專欄文章匯總:入門與實(shí)戰(zhàn) 前言: ICLR 2023的第一輪rebuttal已經(jīng)放榜,這次的ICLR出現(xiàn)了非常多的diffusion models論文,很多工作都非常有創(chuàng)意,值得詳細(xì)解讀。這篇要介紹的是DiffEdit,這個(gè)工作取得了所有審稿人的accept肯定,無論是論文還是實(shí)驗(yàn)效果都非常優(yōu)秀,能夠

    2024年02月11日
    瀏覽(21)
  • ICLR 2023 | GeneFace:高可泛化高保真度的說話人視頻合成

    ICLR 2023 | GeneFace:高可泛化高保真度的說話人視頻合成

    ?PaperWeekly 原創(chuàng) ·?作者 | ?葉振輝 單位 |? 浙江大學(xué)博士生 研究方向 |? 語音合成、說話人視頻合成 語音驅(qū)動的說話人視頻合成(Audio-driven Talking Face Generation)是虛擬人領(lǐng)域的一個(gè)熱門話題,它旨在根據(jù)一段輸入的語音,合成對應(yīng)的目標(biāo)人臉說話視頻。高質(zhì)量的說話人視頻需

    2024年02月11日
    瀏覽(21)
  • [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    作者提出 Long-tailed Prompt Tuning (LPT) ,通過 prompt learning 來解決長尾問題,包括 (1) 使用 shared prompt 學(xué)習(xí) general features 并將預(yù)訓(xùn)練模型 adapt 到 target domain;(2) 使用 group-specific prompts 學(xué)習(xí) group-specific features 來提高模型的 fine-grained discriminative ability 作者首先通過對比 VPT (Visual Prom

    2024年02月11日
    瀏覽(63)
  • ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

    ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

    成電研一er本周論文詳細(xì)解讀 全文1w字+,請耐心閱讀,望對你的研究有所幫助! 論文下載鏈接:https://arxiv.org/abs/2103.01197v2 發(fā)布時(shí)間信息: [v1] Mon, 1 Mar 2021 18:43:48 UTC (2,119 KB) [v2] Tue, 22 Mar 2022 21:31:37 UTC (2,678 KB) 深度學(xué)習(xí)已經(jīng)從用單一隱藏狀態(tài)表示示例的方法轉(zhuǎn)向了使用豐富結(jié)

    2024年02月04日
    瀏覽(20)
  • [論文評析]mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018,

    [論文評析]mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018,

    采用ERM訓(xùn)練的模型往往存在泛化能力差的情形-可能是在簡單的記憶樣本, 對于噪聲干擾的魯棒性很差. 這篇論文 提出了一種新的數(shù)據(jù)增廣方法-Mixup , 這里主要介紹該方法的使用, 及其提出的緣由. 簡單易句話來講, Mixup實(shí)際上就是在訓(xùn)練集的樣本對之間進(jìn)行插值(Input和Output同時(shí)

    2024年02月06日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包