国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀筆記—— Multi-attentional Deepfake Detection

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀筆記—— Multi-attentional Deepfake Detection。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Multi-attentional Deepfake Detection

  • 來源:CVPR 2021
  • 作者:Hanqing Zhao1 Wenbo Zhou1,? Dongdong Chen2 Tianyi Wei1 Weiming Zhang1,? Nenghai Yu1
  • 單位:University of Science and Technology of China1 Microsoft Cloud AI2
  • 郵箱:{zhq2015@mail, welbeckz@, bestwty@mail, zhangwm@, ynh@}.ustc.edu.cn
    cddlyf@gmail.com
  • 論文原地址:Multi-attentional Deepfake Detection

背景

DF大多二分類
人們提出了各種人臉偽造方法[19、41、21、31、32、44、28、38]。
為了降低風(fēng)險(xiǎn),已經(jīng)提出了許多深度偽造檢測(cè)方法[27,34,22,33,26,45]。其中大多數(shù)將深度偽造檢測(cè)建模為普通的二元分類問題(真/假)?;旧?,他們通常首先使用骨干網(wǎng)絡(luò)提取可疑圖像的全局特征,然后將其輸入二值分類器以區(qū)分真假圖像。
細(xì)粒度分類領(lǐng)域 多注意力網(wǎng)絡(luò)

創(chuàng)新

1.首先,為了使網(wǎng)絡(luò)關(guān)注不同的潛在偽像區(qū)域,我們?cè)O(shè)計(jì)了多注意頭,利用深度語(yǔ)義特征來預(yù)測(cè)多個(gè)空間注意圖。
2.其次,為了防止細(xì)微的差異在深層中消失,我們對(duì)從淺層獲得的紋理特征進(jìn)行增強(qiáng),然后將低級(jí)紋理特征和高級(jí)語(yǔ)義特征聚合作為每個(gè)局部部分的表示。
3.最后,通過雙線性注意力池層將每個(gè)局部部分的特征表示獨(dú)立池化,并融合為整個(gè)圖像的特征表示。
我們進(jìn)一步提出了一種新的注意力引導(dǎo)數(shù)據(jù)增強(qiáng)機(jī)制。
同時(shí),我們引入了一個(gè)新的區(qū)域獨(dú)立性損失,以鼓勵(lì)不同的注意力頭關(guān)注不同的局部部分。

貢獻(xiàn)

  • 我們將深度偽造檢測(cè)重新表述為細(xì)粒度分類任務(wù),為該領(lǐng)域帶來了新的視角。
  • 我們提出了一種新的多關(guān)注網(wǎng)絡(luò)架構(gòu),從多個(gè)人臉關(guān)注區(qū)域中捕獲局部判別特征。為了訓(xùn)練該網(wǎng)絡(luò),我們還引入了區(qū)域獨(dú)立損失,并設(shè)計(jì)了一個(gè)注意力引導(dǎo)的數(shù)據(jù)增強(qiáng)機(jī)制,以對(duì)抗學(xué)習(xí)的方式輔助網(wǎng)絡(luò)訓(xùn)練。
  • 大量的實(shí)驗(yàn)表明,我們的方法優(yōu)于傳統(tǒng)的二元分類基線,并達(dá)到了最先進(jìn)的檢測(cè)性能。

方法

論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
注意區(qū)域是分開的,并對(duì)不同的判別特征作出反應(yīng)。

我們將深度假檢測(cè)定義為一個(gè)細(xì)粒度的分類問題,并提出了一種新的多注意深度假檢測(cè)網(wǎng)絡(luò)。
1)多個(gè)空間注意頭,使網(wǎng)絡(luò)關(guān)注不同的局部部分;
2)紋理特征增強(qiáng)塊,放大淺層特征中的細(xì)微偽影;
3)在注意圖的引導(dǎo)下,對(duì)低層次的紋理特征和高層次的語(yǔ)義特征進(jìn)行聚合
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
三部分組成框架:
1.Attention Module 用于生成多個(gè)注意圖的注意模塊;
2.Texture Enhancement Block 用于提取和增強(qiáng)紋理信息的紋理增強(qiáng)塊;
3.Bilinear Attention Pooling 一種雙向雙線性注意力池方法用于紋理和語(yǔ)義特征的聚合。淺層提取特征紋理矩陣,保留深層語(yǔ)義特征。

目前,真?zhèn)尾町惓4嬖诰植考?xì)微處,單注意力網(wǎng)絡(luò)不易捕捉。
在我們的框架中,局部注意力池取代了當(dāng)前深度偽造檢測(cè)方法常用的全局平均池。
多注意力框架——》解決細(xì)粒度分類問題
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
在紋理特征增強(qiáng)部分:我們首先應(yīng)用局部平均池化對(duì)特定層SLt的特征映射進(jìn)行下采樣,得到池化的特征映射D。與空間圖像的紋理表示類似,我們?cè)谔卣骷?jí)定義殘差來表示紋理信息,如下所示:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
這里T包含了fSLt (I)的大部分紋理信息。然后我們使用一個(gè)密集連接的3層卷積塊對(duì)T進(jìn)行增強(qiáng),輸出記為F∈RCF ×Hs×Ws,定義為“文本特征圖”。

雙線性注意力池化(Bilinear Attention Pooling):在得到注意圖A和紋理特征圖F之后,我們使用雙線性注意池(BAP)來獲得特征圖。我們?cè)跍\特征映射和深特征映射中雙向使用BAP。為了提取淺層紋理特征,我們首先使用雙線性插值將不匹配的注意圖調(diào)整為與特征圖相同的尺度。然后,分別將紋理特征圖F與每個(gè)注意圖Ak進(jìn)行逐元相乘,得到部分紋理特征圖Fk。

在這一步的最后,局部紋理特征映射Fk在全局池化后被輸入到分類器中。然而,考慮到不同區(qū)域范圍之間的差異,如果使用傳統(tǒng)的全局平均池化,則池化的特征向量會(huì)受到注意圖強(qiáng)度的影響,違背了關(guān)注紋理信息的目的。

為了解決這個(gè)問題,我們?cè)O(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)化的平均池化:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
然后將歸一化的注意力特征vk∈R1×N疊加在一起,得到紋理特征矩陣P∈RM×CF,將其輸入到分類器中。

注意圖正則化的區(qū)域獨(dú)立性損失

由于缺乏細(xì)粒度的級(jí)別標(biāo)簽,訓(xùn)練一個(gè)多注意力網(wǎng)絡(luò)很容易陷入網(wǎng)絡(luò)退化的情況。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
如圖4所示,不同的注意圖傾向于集中在同一區(qū)域,這不利于網(wǎng)絡(luò)捕獲給定輸入的豐富信息。此外,對(duì)于不同的輸入圖像,我們希望每個(gè)注意圖都位于固定的語(yǔ)義區(qū)域,例如不同圖像中的注意圖A1聚焦于眼睛,A2聚焦于嘴巴。因此,每個(gè)注意圖捕獲信息的隨機(jī)性將會(huì)降低。
為了實(shí)現(xiàn)這些目標(biāo),我們提出了一個(gè)區(qū)域獨(dú)立損失,它有助于減少注意圖之間的重疊,并保持不同輸入的一致性。
我們應(yīng)用BAP對(duì)3.2節(jié)中得到的池化特征映射D,得到一個(gè)“語(yǔ)義特征向量”:V∈RM×N,通過修改[15]中的中心損失,定義區(qū)域獨(dú)立損失如下:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
B為批大小,M為關(guān)注數(shù),min為特征與對(duì)應(yīng)的特征中心之間的余量,當(dāng)yi為0和1時(shí)取不同的值。Mout是每個(gè)特征中心之間的距離。c∈RM×N為V的特征中心,定義如下,每次迭代更新:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
其中α為特征中心的更新速率,在每個(gè)訓(xùn)練歷元后衰減α。LRIL的第一部分是類內(nèi)損失,它使V靠近特征中心c,第二部分是類間損失,它排斥分散的特征中心。我們通過計(jì)算每批V的梯度來優(yōu)化c??紤]到偽人臉是通過多種方法生成的,因此偽人臉的紋理模式應(yīng)該比真實(shí)人臉更加多樣化,因此我們將偽人臉的部分特征從真實(shí)人臉的特征中心限制在鄰域,但邊緣較大。這樣,我們?cè)陬悆?nèi)給出了更大的余量來搜索假人臉中的有用信息。
對(duì)于我們框架的目標(biāo)函數(shù),我們將這種區(qū)域獨(dú)立損失與傳統(tǒng)的交叉熵?fù)p失結(jié)合起來:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
LCE是交叉熵?fù)p失,λ1和λ2是這兩項(xiàng)的平衡權(quán)值。我們?cè)趯?shí)驗(yàn)中默認(rèn)設(shè)置λ1 = λ2 = 1。

注意力引導(dǎo)的數(shù)據(jù)增強(qiáng)

在區(qū)域獨(dú)立性損失的約束下,減少了不同關(guān)注區(qū)域的重疊。然而,盡管不同的注意區(qū)域可以很好地分開,注意圖仍然可能對(duì)相同的區(qū)別特征做出反應(yīng)。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
在圖5中,注意區(qū)域并不重疊,但它們都對(duì)輸入人臉的地標(biāo)有強(qiáng)烈的反應(yīng)。為了迫使不同的注意圖關(guān)注不同的信息,我們提出了注意引導(dǎo)數(shù)據(jù)增強(qiáng)(attention Guided Data Augmentation, AGDA)機(jī)制
對(duì)于每個(gè)訓(xùn)練樣本,隨機(jī)選擇一個(gè)注意圖Ak來指導(dǎo)數(shù)據(jù)增強(qiáng)過程,并將其歸一化為增強(qiáng)圖A?k∈RH×W。然后使用高斯模糊生成退化圖像。最后,我們使用A * k作為原始圖像和退化圖像的權(quán)值:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
注意力引導(dǎo)下的數(shù)據(jù)增強(qiáng)有助于從兩個(gè)方面訓(xùn)練模型。首先,它可以在某些區(qū)域添加模糊,以確保模型從其他區(qū)域?qū)W習(xí)到更魯棒的特征。AGDA可以抹去最明顯的區(qū)別區(qū)域,這迫使不同的注意力地圖將他們的反應(yīng)集中在不同的目標(biāo)上。此外,AGDA機(jī)制可以防止單一注意區(qū)域過度擴(kuò)張,鼓勵(lì)注意塊探索各種注意區(qū)域劃分形式。

實(shí)驗(yàn)

RetinaFace取幀380 × 380
我們?cè)谑?中設(shè)置超參數(shù)α = 0.05,每個(gè)歷元后衰減0.9。式3中的類間裕度設(shè)為0.2。真實(shí)圖像和假圖像的類內(nèi)距min分別為0.05和0.1。我們通過實(shí)驗(yàn)選擇注意圖M、SLa和SLt的數(shù)量。在AGDA中,我們?cè)O(shè)置調(diào)整因子0.3和高斯模糊σ = 7。我們的模型是用Adam優(yōu)化器[20]訓(xùn)練的,學(xué)習(xí)率為0.001,權(quán)重衰減為1e6。我們?cè)赽atch size為48的4個(gè)RTX 2080Ti gpu上訓(xùn)練我們的模型。

在本文中,我們采用了EfficientNet-b4[39]作為我們的多注意力框架的骨干網(wǎng)絡(luò)。
EfficientNet-b4能夠以僅一半的FLOPs實(shí)現(xiàn)與XceptionNet[3]相當(dāng)?shù)男阅?。effentnet共有7個(gè)主要層,分別由L1L7表示。
如上所述,我們觀察到來自網(wǎng)絡(luò)淺層的紋理特征傾向于保留細(xì)微的偽像,因此我們選擇L2和L3作為SLt的候選。相反,我們希望注意圖關(guān)注輸入的不同區(qū)域,這在一定程度上需要高級(jí)語(yǔ)義信息的引導(dǎo)。因此,我們使用更深階段L4和L5作為SLa的候選階段。
通過默認(rèn)設(shè)置M = 1,我們?cè)贔F++(HQ)上訓(xùn)練四種組合的模型。從表1的結(jié)果中,我們發(fā)現(xiàn)當(dāng)將L2用于SLt,將L5用于SLa時(shí),模型達(dá)到最佳性能。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
分別在FF++[34]和DFDC[9]上評(píng)估了性能。進(jìn)一步評(píng)估了Celeb-DF[25]上的跨數(shù)據(jù)集性能。采用ACC(準(zhǔn)確度)和AUC(接收機(jī)工作特性曲線下面積)作為評(píng)價(jià)指標(biāo)。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
FaceForensics++ ,在訓(xùn)練過程中,我們將原始幀放大4倍,以達(dá)到真假標(biāo)簽的平衡。
我們采用EfficientNet-B4作為框架的主干,在LQ上訓(xùn)練模型時(shí),參數(shù)由HQ上的預(yù)訓(xùn)練參數(shù)初始化,以加快收斂速度。對(duì)比結(jié)果如表2所示。

然而,由于F3 -Net是專門為高壓縮深度假視頻檢測(cè)而設(shè)計(jì)的方法,在LQ版本上,與F3 -Net[33]相比,性能下降了1.5%。這主要是因?yàn)镕F++(LQ)中的視頻是高度壓縮的,會(huì)造成紋理信息的嚴(yán)重?fù)p失,這對(duì)我們的紋理增強(qiáng)設(shè)計(jì)是一個(gè)災(zāi)難。
我們的框架對(duì)高壓縮率敏感,這會(huì)模糊空間域的大部分有用信息。
DFDC 我們只與比賽團(tuán)隊(duì)的獲勝方法相比。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
Celeb-DF的跨數(shù)據(jù)集評(píng)價(jià):
我們?cè)u(píng)估了框架的可轉(zhuǎn)移性,該框架在FF++(HQ)上進(jìn)行了多種偽造方法的培訓(xùn),但在Celeb-DF上進(jìn)行了測(cè)試[25]。
我們?yōu)槊總€(gè)視頻采樣30幀來計(jì)算幀級(jí)AUC分?jǐn)?shù)。
我們的方法比大多數(shù)現(xiàn)有方法具有更好的可移植性。Two-branch[26]在可移植性方面達(dá)到了最先進(jìn)的性能,但其數(shù)據(jù)集內(nèi)AUC遠(yuǎn)遠(yuǎn)落后于我們。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
在FF++上訓(xùn)練對(duì)Celeb-DF (AUC(%))的跨數(shù)據(jù)集評(píng)價(jià)。其他一些方法的結(jié)果直接引自[26]。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
不同注意圖數(shù)量對(duì)FF++(HQ) (Acc %)和CelebDF (AUC %)的消融結(jié)果。
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
然后驗(yàn)證了該設(shè)計(jì)在AGDA中的有效性。如前所述,我們模糊原始圖像以降低輸入的選定區(qū)域。因此,AGDA的策略可以看作是一種“軟注意力投放”。在這一部分中,我們又選擇了“硬注意刪除”,即通過二元注意掩碼BM直接擦除選定區(qū)域的像素:
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
論文閱讀筆記—— Multi-attentional Deepfake Detection,論文閱讀,筆記
在本實(shí)驗(yàn)中我們將注意力下降閾值設(shè)為θd = 0.5。本消融研究的比較結(jié)果如表6所示。結(jié)果表明,區(qū)域獨(dú)立性損失(RIL)和注意力引導(dǎo)數(shù)據(jù)增強(qiáng)(軟注意力下降)對(duì)改進(jìn)框架的性能都有顯著的貢獻(xiàn)。

note:
conducive adj. 有助的,有益的
beneficial helpful useful advantageous profitable

To achieve these goals, we propose a … which helps to reduce the … among sths and keep the consistency for different inputs.

we substitute A with B 用b代替a
we substitute the regional independence loss with Additive Angular Margin softmax(AMS)
我們用AMS代替區(qū)域無(wú)關(guān)損失

注:本文僅用于學(xué)習(xí)交流,歡迎一起探討。文章來源地址http://www.zghlxwxcb.cn/news/detail-836533.html

到了這里,關(guān)于論文閱讀筆記—— Multi-attentional Deepfake Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【NLP】Label prompt for multi-label text classification論文閱讀筆記

    【NLP】Label prompt for multi-label text classification論文閱讀筆記

    ? ? ? ? 寫于來XXXX公司實(shí)習(xí)的最后一個(gè)月,預(yù)祝自己實(shí)習(xí)順利結(jié)束~ Paper address: Label prompt for multi-label text classification | Applied Intelligence ( Applied Intelligence 2023) ???????? 在多標(biāo)簽分類任務(wù)中,在復(fù)雜且未知的標(biāo)簽空間中直接對(duì)標(biāo)簽之間的相關(guān)性進(jìn)行建模是相當(dāng)具有挑戰(zhàn)性的。

    2024年02月02日
    瀏覽(25)
  • 【論文閱讀筆記】PraNet: Parallel Reverse Attention Network for Polyp Segmentation

    【論文閱讀筆記】PraNet: Parallel Reverse Attention Network for Polyp Segmentation

    PraNet: Parallel Reverse Attention Network for Polyp Segmentation PraNet:用于息肉分割的并行反向注意力網(wǎng)絡(luò) 2020年發(fā)表在MICCAI Paper Code 結(jié)腸鏡檢查是檢測(cè)結(jié)直腸息肉的有效技術(shù),結(jié)直腸息肉與結(jié)直腸癌高度相關(guān)。在臨床實(shí)踐中,從結(jié)腸鏡圖像中分割息肉是非常重要的,因?yàn)樗鼮樵\斷和手術(shù)

    2024年01月20日
    瀏覽(29)
  • BMR論文閱讀筆記(Bootstrapping Multi-view Representations for Fake News Detection)

    BMR論文閱讀筆記(Bootstrapping Multi-view Representations for Fake News Detection)

    論文標(biāo)題:Bootstrapping Multi-view Representations for Fake News Detection 論文作者:Qichao Ying, Xiaoxiao Hu, Yangming Zhou, Zhenxing Qian, Dan Zeng, Shiming Ge 論文來源:AAAI 2023,Paper 代碼來源:Code 基于深度學(xué)習(xí)的多模態(tài) 虛假新聞檢測(cè) (Fake News Detection, FND)一直飽受關(guān)注,本文發(fā)現(xiàn)以往關(guān)于多模態(tài)FND的研

    2024年02月05日
    瀏覽(26)
  • 論文閱讀1--A Survey on Incomplete Multi-view Clustering(不完全多視圖聚類的調(diào)查)閱讀筆記

    論文閱讀1--A Survey on Incomplete Multi-view Clustering(不完全多視圖聚類的調(diào)查)閱讀筆記

    目錄 寫在前面(知識(shí)補(bǔ)充) 0.Abstract 1.Introduction 2. FUNDAMENTALS AND PRELIMINARY CONCEPTS 3. MATRIX FACTORIZATION BASED IMC(基于矩陣分解的IMC) 4. KERNEL LEARNING BASED IMC(基于內(nèi)核學(xué)習(xí)的IMC) 5.GRAPH LEARNING BASED IMC(基于圖學(xué)習(xí)的IMC) 6.DEEP LEARNING BASED IMC(基于深度學(xué)習(xí)的IMC) 7. EXPERIMENTS(實(shí)驗(yàn)部分)

    2024年02月05日
    瀏覽(23)
  • 論文閱讀筆記《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    論文閱讀筆記《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    1.簡(jiǎn)介 在3D人體姿態(tài)估計(jì)中存在遮擋和模糊問題,使用多相機(jī)可能會(huì)緩解這些困難,因?yàn)椴煌囊暯强梢匝a(bǔ)償這些遮擋并用于相互一致性。目前的3D人體姿態(tài)估計(jì)中大多數(shù)都是單視角的,有一部分是多視角的,但是他們的方法依賴于相機(jī)之間的相對(duì)位置,這要用到相機(jī)的外參。

    2024年02月04日
    瀏覽(31)
  • 【論文閱讀筆記】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

    【論文閱讀筆記】Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers--A multi-institut

    Müller-Franzes G, Müller-Franzes F, Huck L, et al. Fibroglandular Tissue Segmentation in Breast MRI using Vision Transformers–A multi-institutional evaluation[J]. arXiv preprint arXiv:2304.08972, 2023.【代碼開放】 本文創(chuàng)新點(diǎn)一般,只做簡(jiǎn)單總結(jié) 【論文概述】 本文介紹了一項(xiàng)關(guān)于乳房MRI中纖維腺體組織分割的研究,主

    2024年02月03日
    瀏覽(22)
  • 論文閱讀筆記—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L

    論文閱讀筆記—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L

    來源:ACM MM 2021 作者:Yihao Huang1, Qing Guo2?, Felix Juefei-Xu3, Lei Ma4, Weikai Miao1, Yang Liu2,5, Geguang Pu1 單位:1East China Normal University, China 2Nanyang Technological University, Singapore 3Alibaba Group, USA 4University of Alberta, Canada 5 Zhejiang Sci-Tech University, China 郵箱:Yihao Huang’s email: huangyihao22@gmail.com ;

    2024年02月01日
    瀏覽(52)
  • 【論文閱讀筆記】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

    【論文閱讀筆記】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

    Wang H, Chen Y, Ma C, et al. Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15878-15887. 【論文概述】 本文的核心思想是提出一種名為“共享-特定特征建模(ShaSpec)”的方法,用于處理多模態(tài)學(xué)習(xí)中

    2024年01月19日
    瀏覽(28)
  • CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

    CCD多模態(tài)去偏框架 論文閱讀筆記(Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection)

    論文標(biāo)題:Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection 論文作者:Ziwei Chen, Linmei Hu, Weixin Li, Yingxia Shao, Liqiang Nie 論文來源:ACL 2023,Paper 代碼來源:未公布 目錄 引入 貢獻(xiàn) 基本知識(shí)介紹 因果圖 因果關(guān)系的干預(yù) 反事實(shí)推理與因果效應(yīng) 方法 虛假新聞檢測(cè)的

    2024年02月08日
    瀏覽(31)
  • [論文閱讀筆記20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    [論文閱讀筆記20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

    論文地址: https://arxiv.org/pdf/2303.10404.pdf 代碼: 未開源 目前是MOT20的第二名 這篇文章著力于解決 長(zhǎng)時(shí) 跟蹤的問題. 當(dāng)前大多數(shù)方法只能依靠Re-ID特征來進(jìn)行長(zhǎng)時(shí)跟蹤, 也就是軌跡長(zhǎng)期丟失后的再識(shí)別. 然而, Re-ID特征并不總是有效的. 尤其是在擁擠和極度遮擋的情況下. 為此, 這篇

    2024年02月16日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包