国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

這篇具有很好參考價(jià)值的文章主要介紹了CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文標(biāo)題:Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection
論文作者:Ziwei Chen, Linmei Hu, Weixin Li, Yingxia Shao, Liqiang Nie
論文來源:ACL 2023,Paper
代碼來源:未公布


目錄
  • 引入
    • 貢獻(xiàn)
  • 基本知識(shí)介紹
    • 因果圖
    • 因果關(guān)系的干預(yù)
    • 反事實(shí)推理與因果效應(yīng)
  • 方法
    • 虛假新聞檢測(cè)的因果圖
    • 用因果干預(yù)進(jìn)行去混淆訓(xùn)練
    • 用反事實(shí)推理減輕圖像偏見
    • 訓(xùn)練與推理

引入

為了明確地解釋數(shù)據(jù)偏差,我們首先將假新聞檢測(cè)的過程表述為如圖(a)所示的因果圖。
除了多模態(tài)假新聞檢測(cè)方法關(guān)注的融合特征\(C\)對(duì)新聞標(biāo)簽\(Y\)的影響外,另外兩條邊分別從文本特征\(T\)和圖像特征\(I\)出發(fā),指向\(Y\)

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

一般來說,假新聞的發(fā)布者會(huì)盡力編造令人困惑的文字,或者使用一定的技術(shù)偽造假圖像。這使得文本和圖像可以單獨(dú)影響新聞標(biāo)簽。

\(T \rightarrow Y\)文本的語言特征具有明顯的情感偏好
CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

圖中不難看出:假新聞更喜歡使用負(fù)面情緒的語言詞來激起讀者的情緒。這使得模型可能容易依賴這些表達(dá)心理情緒的語言特征作為判斷新聞?wù)鎸?shí)性的捷徑。但對(duì)訓(xùn)練集和測(cè)試集進(jìn)行分析發(fā)現(xiàn)這些心理語言詞匯的出現(xiàn)頻率存在顯著差異,證明了這種捷徑似乎是不可靠的證據(jù)。如圖(b)所示,其中\(U\)表示混雜因素(即文本中的心理語言特征),存在一條后門路徑\(T←U→Y\),該路徑將引入文本特征和新聞標(biāo)簽之間的虛假相關(guān)性。
為了消除心理語言偏差,采用后門調(diào)整來計(jì)算訓(xùn)練階段的因果效應(yīng)。

\(I \rightarrow Y\)共享同一圖像的兩個(gè)不同的新聞片段可能具有相反的標(biāo)簽。
這表明,有時(shí)即使圖像是真實(shí)的,文字也可能是捏造的。雖然可以利用圖像作為一種額外的方式來提供更多的檢測(cè)證據(jù),但是僅僅根據(jù)圖像特征來推斷新聞的真實(shí)性是不可靠的。所以有必要消除圖像偏見。
可以使用反事實(shí)推理,通過想象一個(gè)反事實(shí)的世界(圖(c)),其中,除了圖像特征\(I\),文本特征\(T\)和融合特征\(C\)都沒有給出(由參考值\(t^?\)\(c^?\)表示),如此,可以通過計(jì)算\(I\)對(duì)\(Y\)的直接因果效應(yīng)來估計(jì)偏差,我們可以通過從對(duì)\(Y\)的總影響中減去它來進(jìn)行消除偏差。

貢獻(xiàn)

  • 分析了假新聞檢測(cè)數(shù)據(jù)的每種模式,并確定了文本和圖像偏見中潛在的心理語言偏見,在此基礎(chǔ)上,提出了一種基于因果干預(yù)和反事實(shí)推理的多模態(tài)假新聞脫偏框架(CCD);
  • 為了解決圖像偏見,我們采用反事實(shí)推理來追求間接因果效應(yīng)作為推理預(yù)測(cè);
  • 因果框架CCD可以應(yīng)用于任何以圖像和文本特征作為輸入的假新聞檢測(cè)模型。我們?cè)谌齻€(gè)強(qiáng)基線模型上實(shí)施了所提出的框架,并在兩個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了CCD的有效性。

基本知識(shí)介紹

因果圖

一種概率圖模型,用于描述變量之間如何相互作用,由變量集\(\mathcal{N}\)和兩個(gè)節(jié)點(diǎn)之間的因果關(guān)系\(\mathcal E\)組成的有向無環(huán)圖\(G = \{ \mathcal N, \mathcal E \}\)表示。如圖所示,\(X→Y\)表示\(X\)\(Y\)的原因,\(U\)是混雜因素。
CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

因果關(guān)系的干預(yù)

因果干預(yù)是在存在混雜因素的情況下,尋求一個(gè)變量對(duì)另一個(gè)變量的真實(shí)因果關(guān)系。在因果圖中,對(duì)變量的干預(yù)操作會(huì)刪除指向它的所有邊,這樣它的父節(jié)點(diǎn)就不再導(dǎo)致它。

帶do-calculus的后門調(diào)整提供了一種在沒有額外混雜因素的情況下計(jì)算干預(yù)分布的工具。以上圖為例,根據(jù)貝葉斯定理可推導(dǎo)出調(diào)整公式如下,其中\(u\)表示混動(dòng)因子\(U\)的值:

\[P(Y \mid d o(X))=\sum_{u} P(Y \mid X, u) P(u) \tag{1} \]

反事實(shí)推理與因果效應(yīng)

反事實(shí)推理是一種統(tǒng)計(jì)推理方法,用于推斷與事實(shí)世界不同的假設(shè)條件下的結(jié)果。下圖顯示了一個(gè)用于估計(jì)和消除\(X\)對(duì)\(Y\)的直接影響的抽象設(shè)置。
CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

圖(a)是實(shí)際世界,其中\(Y\)的計(jì)算為\(Y_{x, Z_{x}}=Y(X=x, Z=Z(X=x))\)

基于圖(a)和圖(b),將\(X=x\)對(duì)\(Y\)的總效應(yīng)(TE)定義為:

\[\mathrm{TE}=Y_{x, Z_{x}}-Y_{x^{*}, Z_{x^{*}}} \tag{2} \]

這可以看作是X在兩種不同處理下的兩種潛在結(jié)果的比較,即\(X=x\)\(X=x^{*}\)
總效應(yīng)(TE)可以分解為自然直接效應(yīng)(NDE)和總間接效應(yīng)(TIE)之和,即TE = NDE + TIE。
當(dāng)中介變量\(Z\)被阻斷時(shí),NDE表示\(X\)對(duì)\(Y\)的自然直接影響(圖(c)):

\[\mathrm{NDE}=Y_{x, Z_{x^{*}}}-Y_{x^{*}, Z_{x^{*}}} \tag{3} \]

\(Y_{x, Z_{x^{*}}}\)是在反事實(shí)世界下計(jì)算的,其中\(X\)可以同時(shí)設(shè)為不同的值\(x\)\(x^?\)(圖(c))。因此可以得到TIE (\(X\)對(duì)\(Y\)的總間接效應(yīng)):

\[\mathrm{TIE}=\mathrm{TE}-\mathrm{NDE}=Y_{x, Z_{x}}-Y_{x, Z_{x^{*}}} \tag{4} \]

我們使用TIE作為去偏結(jié)果進(jìn)行推理。


方法

在本節(jié)中,首先將假新聞檢測(cè)任務(wù)制定為因果圖,以清楚地描述因素之間的因果關(guān)系。然后,提出了CCD框架,通過因果干預(yù)消除心理語言偏見,并通過反事實(shí)推理推導(dǎo)出圖像特征的直接因果效應(yīng)(即圖像偏見)

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

虛假新聞檢測(cè)的因果圖

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

因果圖如圖(a)所示,其中每個(gè)分支都可以通過一個(gè)基本的假新聞檢測(cè)模型來實(shí)現(xiàn)。該模型的抽象格式應(yīng)為:

\[Y_{t, i, c}=Y(T=t, I=i, C=c) \tag{5} \]

其中,\(c=f(T=t, I=i)\),\(f(·)\)為基線假新聞檢測(cè)模型中的特征聚合函數(shù)。

那么對(duì)標(biāo)簽\(y\)的總影響(TE)可以寫成:

\[\mathrm{TE}=Y_{t, i, c}-Y_{t^{*}, i^{*}, c^{*}} \tag{6} \]

如之前所述,“*”狀態(tài)被定義為阻斷來自文本和圖像的信號(hào)的狀態(tài),即\(t\)\(i\)不給定(void值)。為了方便實(shí)現(xiàn),使用用標(biāo)量值0填充的張量來表示參考值\(t^?\)\(i^?\)。這樣,輸入就不包含任何語義信息。

通過具有融合函數(shù)的模型集成計(jì)算預(yù)測(cè)值:

\[\begin{aligned} Y_{t, i, c} & =Y(T=t, I=i, C=c) \\ & =\mathcal{F}\left(Y_{t}, Y_{i}, Y_{c}\right) \\ & =Y_{c}+\tanh \left(Y_{t}\right)+\tanh \left(Y_{i}\right) \end{aligned} \tag{7} \]

其中,\(\mathcal{F}(·)\)是得到最終預(yù)測(cè)的融合函數(shù)。采用非線性融合策略以獲得更好的表示能力,任何可微算術(shù)二進(jìn)制運(yùn)算都可以用作融合函數(shù)\(\mathcal{F}(·)\),下表給出了不同融合函數(shù)的影響。
CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

用因果干預(yù)進(jìn)行去混淆訓(xùn)練

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

如圖(b)所示,存在一個(gè)未觀察到的混雜因素\(U\)(即文本的心理語言詞),它通過學(xué)習(xí)似然\(P(Y|T)\)導(dǎo)致文本特征與新聞標(biāo)簽之間的虛假關(guān)聯(lián)。
為了明確說明混淆因素的影響,我們使用貝葉斯定理:

\[\begin{aligned} P(Y \mid T) & =\sum_{u} P(Y \mid T, u) P(u \mid T) \\ & \propto \sum_{u} P(Y \mid T, u) P(T \mid u) P(u) \end{aligned} \tag{8} \]

接下來,在\(T→Y\)分支進(jìn)行去混淆訓(xùn)練,利用后門調(diào)整對(duì)\(T\)進(jìn)行do-calculus,計(jì)算出相應(yīng)的干預(yù)分布。
由于邊緣\(U→T\)已經(jīng)被截?cái)啵覀兛梢缘玫剑?/p>

\[\begin{aligned} Y_{t} & =P(Y \mid d o(T)) \\ & =\sum_{u} P(Y \mid T, u) P(u) \end{aligned} \tag{9} \]

要估算\(Y_{t}\),給定文本特征表示\(t\)和混淆表示\(u\),公式(9)可以變?yōu)?span id="n5n3t3z" class="math inline">\(\sum_{\mathbf{u}} P(y \mid \mathbf{t}, \mathbf{u}) P(\mathbf{u})\),其中\(P(y \mid \mathbf{t}, \mathbf{u})\)是一個(gè)新聞特征學(xué)習(xí)模型\(g(·)\)的預(yù)測(cè)輸出:

\[P(y \mid \mathbf{t}, \mathbf{u})=\sigma(g(\mathbf{t}, \mathbf{u})) \tag{10} \]

其中\(\sigma(·)\)是sigmoid函數(shù)。

綜上,公式(9)的實(shí)現(xiàn)可以正式定義為:

\[\begin{aligned} P(Y \mid d o(T)) & =\mathbb{E}_{u}[P(Y \mid T, u)] \\ & =\mathbb{E}_{u}[\sigma(g(\mathbf{t}, \mathbf{u}))] \end{aligned} \tag{11} \]

由于直接計(jì)算\(\mathbb{E}_{u}\)需要非常多的采樣,可以應(yīng)用歸一化加權(quán)幾何平均(NWGM)通過將外部期望移動(dòng)到sigmo函數(shù)中來近似上述期望:

\[P(Y \mid d o(T)) \stackrel{\text { NWGM }}{\approx} \sigma\left(\mathbb{E}_{u}[g(\mathbf{t}, \mathbf{u})]\right) \tag{12} \]

我們采用線性模型來近似條件概率,即\(Y\)在條件\(T\)\(U\)下的概率。我們建立模型\(g(\mathbf{t}, \mathbf{u})=\mathbf{W}_{t} \mathbf{t}+\mathbf{W}_{u} \cdot h(\mathbf{u})\),其中\(h(\mathbf{u})\)\(\mathbf{u}\)的特征變換,\(\mathbf{W}_{t}\)\(\mathbf{W}_{u}\)為可學(xué)習(xí)的權(quán)重參數(shù)。在這樣的情況下,\(\mathbb{E}_{u}[g(\mathbf{t}, \mathbf{u})] = \mathbf{W}_{t} \mathbf{t} + \mathbb{E}_{u}[h(\mathbf{u})]\)。

為了計(jì)算\(\mathbb{E}_{u}[h(\mathbf{u})]\),我們將\(h(\mathbf{u})\)實(shí)現(xiàn)為縮放的點(diǎn)積注意力。

我們將\(U\)近似為一個(gè)固定的混雜字典 \(\mathbf{D}_{u}=\left[\mathbf{u}_{1}, \mathbf{u}_{2}, \ldots, \mathbf{u}_{N}\right] \in \mathbb{R}^{N \times d_{u}}\) ,其中\(N\)為單詞類別數(shù),\(d_u\)為隱藏特征維數(shù)。那么,我們有

\[\mathbb{E}_{u}[h(\mathbf{u})]=\sum_{u}\left[\operatorname{softmax}\left(\frac{\mathbf{Q}^{T} \mathbf{K}}{\sqrt{d_{m}}}\right) \odot \mathbf{D}_{u}\right] P(\mathbf{u}) \tag{13} \]

其中,\(\mathbf{Q}=\mathbf{W}_{q} \mathbf{t}, \mathbf{K}=\mathbf{W}_{k} \mathbf{D}_{u}\)\(\mathbf{W}_{q}\)\(\mathbf{W}_{k}\)是可學(xué)習(xí)的權(quán)重參數(shù)),\(d_m\)表示比例因子,\(P(\mathbf{u})\)表示先驗(yàn)統(tǒng)計(jì)概率,\(⊙\)是元素積。

用反事實(shí)推理減輕圖像偏見

上一節(jié)已經(jīng)成功去除了心理語言偏見,但虛假新聞檢測(cè)模型中仍然存在圖像偏見。

為了減輕僅圖像的偏見,我們提出了反事實(shí)推理,通過阻止\(T\)\(C\)的影響來估計(jì)\(I\)對(duì)\(Y\)的直接因果效應(yīng)。

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

圖(c)顯示了假新聞檢測(cè)的反事實(shí)世界的因果圖,它描述了當(dāng)\(I\)被設(shè)置為不同值\(i\)\(i^?\)時(shí)的場(chǎng)景。我們也將\(T\)設(shè)為它的參考值\(t^?\),因此當(dāng)\(T = t^?\)\(I = i^?\)時(shí),\(C\)將獲得值\(c^?\)。這樣,\(T\)\(C\)的輸入被阻塞,模型只能依靠給定的圖像\(i\)進(jìn)行檢測(cè)。于是,我們可以得到\(I\)對(duì)\(Y\)的自然直接效應(yīng)(NDE),即圖像偏置:

\[\mathrm{NDE}=Y_{t^{*}, i, c^{*}}-Y_{t^{*}, i^{*}, c^{*}} \tag{14} \]

此外,可以通過從總效應(yīng)TE中減去NDE來消除偏置:

\[\mathrm{TIE}=\mathrm{TE}-\mathrm{NDE}=Y_{t, i, c}-Y_{t^{*}, i, c^{*}} \tag{15} \]

TIE是我們用于推理的去偏結(jié)果。

訓(xùn)練與推理

CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

本圖說明了我們提出的CCD框架的訓(xùn)練和推理。

對(duì)于訓(xùn)練階段,我們計(jì)算每個(gè)分支的損失,包括基礎(chǔ)多模態(tài)假新聞檢測(cè)分支(\(Loss_{FND}\)),純文本檢測(cè)分支(\(loss_T\))和純圖像檢測(cè)分支(\(Loss_I\))。
因此,我們最小化了一個(gè)多任務(wù)訓(xùn)練目標(biāo)來學(xué)習(xí)模型參數(shù),其公式為:

\[\operatorname{Loss}=\operatorname{Loss}_{F N D}+\alpha \operatorname{Loss}_{T}+\beta \operatorname{Loss}_{I} \tag{16} \]

其中\(Loss_{FND}\)是指與公式(7)中\(\mathcal{F}(Y_{t}, Y_{i}, Y_{c})\)預(yù)測(cè)相關(guān)的交叉熵?fù)p失。純文本和純圖像損失\(loss_T\)\(Loss_I\)是與\(Y_t\)\(Y_i\)預(yù)測(cè)相關(guān)的交叉熵?fù)p失。\(α\)\(β\)是權(quán)衡超參數(shù)。

在推理階段,我們使用去偏效應(yīng)進(jìn)行推理,其實(shí)現(xiàn)為:文章來源地址http://www.zghlxwxcb.cn/news/detail-710149.html

\[\begin{align} \mathrm{TIE} & =Y_{t, i, c}-Y_{t^{*}, i, c^{*}} \tag{17} \\ & =\mathcal{F}\left(Y_{t}, Y_{i}, Y_{c}\right)-\mathcal{F}\left(Y_{t^{*}}, Y_{i}, Y_{c^{*}}\right) \tag{18} \end{align} \]

到了這里,關(guān)于CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 圖神經(jīng)網(wǎng)絡(luò)論文筆記(一)——北郵:基于學(xué)習(xí)解糾纏因果子結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)去偏

    圖神經(jīng)網(wǎng)絡(luò)論文筆記(一)——北郵:基于學(xué)習(xí)解糾纏因果子結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)去偏

    作者 :范少華 研究方向 :圖神經(jīng)網(wǎng)絡(luò) 論文標(biāo)題 : 基于學(xué)習(xí)解耦因果子結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)去偏 論文鏈接 :https://arxiv.org/pdf/2209.14107.pdf ? ? ? ? https://doi.org/10.48550/arXiv.2209.14107 ??大多數(shù)圖神經(jīng)網(wǎng)絡(luò)(GNNs)通過學(xué)習(xí)輸入圖和標(biāo)簽之間的相關(guān)性來預(yù)測(cè)不可見圖的標(biāo)簽。然而,

    2024年02月07日
    瀏覽(12)
  • 多模態(tài)論文閱讀之BLIP

    多模態(tài)論文閱讀之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    瀏覽(26)
  • 多模態(tài)論文閱讀之VLMo

    多模態(tài)論文閱讀之VLMo

    VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts CLIP和ALIGN都采用 dual-encoder 的方式分別編碼圖像和文本,模態(tài)之間的交互采用cosine similarity ,這種方法對(duì)retrieval tasks(檢索任務(wù))及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classficatio

    2024年02月06日
    瀏覽(21)
  • 論文閱讀-NOLANet多模態(tài)偽造檢測(cè)

    論文閱讀-NOLANet多模態(tài)偽造檢測(cè)

    一、論文信息: 題目: Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模態(tài)偽造檢測(cè)——視覺+頻譜+語音) 作者團(tuán)隊(duì): 會(huì)議:AIPR 2020 二、背景與創(chuàng)新 背景: 合成視頻威脅到數(shù)字媒體的信任與隱私,許多deepfake檢測(cè)方法使用單幀視頻,

    2023年04月14日
    瀏覽(70)
  • 論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    非核心 原文鏈接:基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述 - 中國(guó)知網(wǎng) (cnki.net) 深度學(xué)習(xí)完成多模態(tài)情感分析綜述。主要介紹 多模態(tài)情感分析 的概念、背景、意義??偨Y(jié)了 多模態(tài)融合技術(shù)和交互技術(shù) ,討論多模態(tài)情感分析 未來發(fā)展 。 目前經(jīng)典的多模態(tài)情感分析研究已經(jīng)

    2024年02月04日
    瀏覽(38)
  • 論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    參考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文強(qiáng)調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異,然后利用這些差異來指導(dǎo)我們對(duì)級(jí)聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后,對(duì)未來可能的研究方向進(jìn)行了探討

    2024年02月02日
    瀏覽(26)
  • [論文閱讀]MVX-Net——基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet

    [論文閱讀]MVX-Net——基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet 論文網(wǎng)址:MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點(diǎn)云特征結(jié)合,從而提高3D目標(biāo)檢測(cè)的性能。論文的主要內(nèi)容和貢獻(xiàn)總結(jié)如下: 提出了兩種簡(jiǎn)單有效的多模

    2024年02月07日
    瀏覽(136)
  • CoFSM基于共現(xiàn)尺度空間的多模態(tài)遙感圖像匹配方法--論文閱讀記錄

    CoFSM基于共現(xiàn)尺度空間的多模態(tài)遙感圖像匹配方法--論文閱讀記錄

    目錄 論文 Multi-Modal Remote Sensing Image Matching?Considering Co-Occurrence Filter 參考論文:SIFT系列論文, SIFT? ? Distinctive Image Features?from Scale-Invariant Keypoints,作者:David G. Lowe 快速樣本共識(shí)算法FSC:A Novel Point-Matching Algorithm Based on Fast?Sample Consensus for Image Registration ,Digital Object Ident

    2024年04月24日
    瀏覽(34)
  • 圖像融合論文閱讀:CoCoNet: 基于多層特征集成的耦合對(duì)比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合

    圖像融合論文閱讀:CoCoNet: 基于多層特征集成的耦合對(duì)比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合

    @article{liu2023coconet, title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion}, author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin}, journal={International Journal of Computer Vision}, pages={1–28}, year={2023}, publisher={Springer} } 論文級(jí)

    2024年02月04日
    瀏覽(20)
  • 多模態(tài)表征—CLIP及中文版Chinese-CLIP:理論講解、代碼微調(diào)與論文閱讀

    多模態(tài)表征—CLIP及中文版Chinese-CLIP:理論講解、代碼微調(diào)與論文閱讀

    我之前一直在使用CLIP/Chinese-CLIP,但并未進(jìn)行過系統(tǒng)的疏導(dǎo)。這次正好可以詳細(xì)解釋一下。相比于CLIP模型,Chinese-CLIP更適合我們的應(yīng)用和微調(diào),因?yàn)樵嫉腃LIP模型只支持英文,對(duì)于我們的中文應(yīng)用來說不夠友好。Chinese-CLIP很好地彌補(bǔ)了這方面的不足,它使用了大量的中文-文

    2024年03月15日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包