Multi-attentional Deepfake Detection
- 來源:CVPR 2021
- 作者:Hanqing Zhao1 Wenbo Zhou1,? Dongdong Chen2 Tianyi Wei1 Weiming Zhang1,? Nenghai Yu1
- 單位:University of Science and Technology of China1 Microsoft Cloud AI2
- 郵箱:{zhq2015@mail, welbeckz@, bestwty@mail, zhangwm@, ynh@}.ustc.edu.cn
cddlyf@gmail.com - 論文原地址:Multi-attentional Deepfake Detection
背景
DF大多二分類
人們提出了各種人臉偽造方法[19、41、21、31、32、44、28、38]。
為了降低風(fēng)險(xiǎn),已經(jīng)提出了許多深度偽造檢測(cè)方法[27,34,22,33,26,45]。其中大多數(shù)將深度偽造檢測(cè)建模為普通的二元分類問題(真/假)?;旧?,他們通常首先使用骨干網(wǎng)絡(luò)提取可疑圖像的全局特征,然后將其輸入二值分類器以區(qū)分真假圖像。
細(xì)粒度分類領(lǐng)域 多注意力網(wǎng)絡(luò)
創(chuàng)新
1.首先,為了使網(wǎng)絡(luò)關(guān)注不同的潛在偽像區(qū)域,我們?cè)O(shè)計(jì)了多注意頭,利用深度語(yǔ)義特征來預(yù)測(cè)多個(gè)空間注意圖。
2.其次,為了防止細(xì)微的差異在深層中消失,我們對(duì)從淺層獲得的紋理特征進(jìn)行增強(qiáng),然后將低級(jí)紋理特征和高級(jí)語(yǔ)義特征聚合作為每個(gè)局部部分的表示。
3.最后,通過雙線性注意力池層將每個(gè)局部部分的特征表示獨(dú)立池化,并融合為整個(gè)圖像的特征表示。
我們進(jìn)一步提出了一種新的注意力引導(dǎo)數(shù)據(jù)增強(qiáng)機(jī)制。
同時(shí),我們引入了一個(gè)新的區(qū)域獨(dú)立性損失,以鼓勵(lì)不同的注意力頭關(guān)注不同的局部部分。
貢獻(xiàn)
- 我們將深度偽造檢測(cè)重新表述為細(xì)粒度分類任務(wù),為該領(lǐng)域帶來了新的視角。
- 我們提出了一種新的多關(guān)注網(wǎng)絡(luò)架構(gòu),從多個(gè)人臉關(guān)注區(qū)域中捕獲局部判別特征。為了訓(xùn)練該網(wǎng)絡(luò),我們還引入了區(qū)域獨(dú)立損失,并設(shè)計(jì)了一個(gè)注意力引導(dǎo)的數(shù)據(jù)增強(qiáng)機(jī)制,以對(duì)抗學(xué)習(xí)的方式輔助網(wǎng)絡(luò)訓(xùn)練。
- 大量的實(shí)驗(yàn)表明,我們的方法優(yōu)于傳統(tǒng)的二元分類基線,并達(dá)到了最先進(jìn)的檢測(cè)性能。
方法
注意區(qū)域是分開的,并對(duì)不同的判別特征作出反應(yīng)。
我們將深度假檢測(cè)定義為一個(gè)細(xì)粒度的分類問題,并提出了一種新的多注意深度假檢測(cè)網(wǎng)絡(luò)。
1)多個(gè)空間注意頭,使網(wǎng)絡(luò)關(guān)注不同的局部部分;
2)紋理特征增強(qiáng)塊,放大淺層特征中的細(xì)微偽影;
3)在注意圖的引導(dǎo)下,對(duì)低層次的紋理特征和高層次的語(yǔ)義特征進(jìn)行聚合
三部分組成框架:
1.Attention Module 用于生成多個(gè)注意圖的注意模塊;
2.Texture Enhancement Block 用于提取和增強(qiáng)紋理信息的紋理增強(qiáng)塊;
3.Bilinear Attention Pooling 一種雙向雙線性注意力池方法用于紋理和語(yǔ)義特征的聚合。淺層提取特征紋理矩陣,保留深層語(yǔ)義特征。
目前,真?zhèn)尾町惓4嬖诰植考?xì)微處,單注意力網(wǎng)絡(luò)不易捕捉。
在我們的框架中,局部注意力池取代了當(dāng)前深度偽造檢測(cè)方法常用的全局平均池。
多注意力框架——》解決細(xì)粒度分類問題
在紋理特征增強(qiáng)部分:我們首先應(yīng)用局部平均池化對(duì)特定層SLt的特征映射進(jìn)行下采樣,得到池化的特征映射D。與空間圖像的紋理表示類似,我們?cè)谔卣骷?jí)定義殘差來表示紋理信息,如下所示:
這里T包含了fSLt (I)的大部分紋理信息。然后我們使用一個(gè)密集連接的3層卷積塊對(duì)T進(jìn)行增強(qiáng),輸出記為F∈RCF ×Hs×Ws,定義為“文本特征圖”。
雙線性注意力池化(Bilinear Attention Pooling):在得到注意圖A和紋理特征圖F之后,我們使用雙線性注意池(BAP)來獲得特征圖。我們?cè)跍\特征映射和深特征映射中雙向使用BAP。為了提取淺層紋理特征,我們首先使用雙線性插值將不匹配的注意圖調(diào)整為與特征圖相同的尺度。然后,分別將紋理特征圖F與每個(gè)注意圖Ak進(jìn)行逐元相乘,得到部分紋理特征圖Fk。
在這一步的最后,局部紋理特征映射Fk在全局池化后被輸入到分類器中。然而,考慮到不同區(qū)域范圍之間的差異,如果使用傳統(tǒng)的全局平均池化,則池化的特征向量會(huì)受到注意圖強(qiáng)度的影響,違背了關(guān)注紋理信息的目的。
為了解決這個(gè)問題,我們?cè)O(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)化的平均池化:
然后將歸一化的注意力特征vk∈R1×N疊加在一起,得到紋理特征矩陣P∈RM×CF,將其輸入到分類器中。
注意圖正則化的區(qū)域獨(dú)立性損失
由于缺乏細(xì)粒度的級(jí)別標(biāo)簽,訓(xùn)練一個(gè)多注意力網(wǎng)絡(luò)很容易陷入網(wǎng)絡(luò)退化的情況。
如圖4所示,不同的注意圖傾向于集中在同一區(qū)域,這不利于網(wǎng)絡(luò)捕獲給定輸入的豐富信息。此外,對(duì)于不同的輸入圖像,我們希望每個(gè)注意圖都位于固定的語(yǔ)義區(qū)域,例如不同圖像中的注意圖A1聚焦于眼睛,A2聚焦于嘴巴。因此,每個(gè)注意圖捕獲信息的隨機(jī)性將會(huì)降低。
為了實(shí)現(xiàn)這些目標(biāo),我們提出了一個(gè)區(qū)域獨(dú)立損失,它有助于減少注意圖之間的重疊,并保持不同輸入的一致性。
我們應(yīng)用BAP對(duì)3.2節(jié)中得到的池化特征映射D,得到一個(gè)“語(yǔ)義特征向量”:V∈RM×N,通過修改[15]中的中心損失,定義區(qū)域獨(dú)立損失如下:
B為批大小,M為關(guān)注數(shù),min為特征與對(duì)應(yīng)的特征中心之間的余量,當(dāng)yi為0和1時(shí)取不同的值。Mout是每個(gè)特征中心之間的距離。c∈RM×N為V的特征中心,定義如下,每次迭代更新:
其中α為特征中心的更新速率,在每個(gè)訓(xùn)練歷元后衰減α。LRIL的第一部分是類內(nèi)損失,它使V靠近特征中心c,第二部分是類間損失,它排斥分散的特征中心。我們通過計(jì)算每批V的梯度來優(yōu)化c??紤]到偽人臉是通過多種方法生成的,因此偽人臉的紋理模式應(yīng)該比真實(shí)人臉更加多樣化,因此我們將偽人臉的部分特征從真實(shí)人臉的特征中心限制在鄰域,但邊緣較大。這樣,我們?cè)陬悆?nèi)給出了更大的余量來搜索假人臉中的有用信息。
對(duì)于我們框架的目標(biāo)函數(shù),我們將這種區(qū)域獨(dú)立損失與傳統(tǒng)的交叉熵?fù)p失結(jié)合起來:
LCE是交叉熵?fù)p失,λ1和λ2是這兩項(xiàng)的平衡權(quán)值。我們?cè)趯?shí)驗(yàn)中默認(rèn)設(shè)置λ1 = λ2 = 1。
注意力引導(dǎo)的數(shù)據(jù)增強(qiáng)
在區(qū)域獨(dú)立性損失的約束下,減少了不同關(guān)注區(qū)域的重疊。然而,盡管不同的注意區(qū)域可以很好地分開,注意圖仍然可能對(duì)相同的區(qū)別特征做出反應(yīng)。
在圖5中,注意區(qū)域并不重疊,但它們都對(duì)輸入人臉的地標(biāo)有強(qiáng)烈的反應(yīng)。為了迫使不同的注意圖關(guān)注不同的信息,我們提出了注意引導(dǎo)數(shù)據(jù)增強(qiáng)(attention Guided Data Augmentation, AGDA)機(jī)制。
對(duì)于每個(gè)訓(xùn)練樣本,隨機(jī)選擇一個(gè)注意圖Ak來指導(dǎo)數(shù)據(jù)增強(qiáng)過程,并將其歸一化為增強(qiáng)圖A?k∈RH×W。然后使用高斯模糊生成退化圖像。最后,我們使用A * k作為原始圖像和退化圖像的權(quán)值:
注意力引導(dǎo)下的數(shù)據(jù)增強(qiáng)有助于從兩個(gè)方面訓(xùn)練模型。首先,它可以在某些區(qū)域添加模糊,以確保模型從其他區(qū)域?qū)W習(xí)到更魯棒的特征。AGDA可以抹去最明顯的區(qū)別區(qū)域,這迫使不同的注意力地圖將他們的反應(yīng)集中在不同的目標(biāo)上。此外,AGDA機(jī)制可以防止單一注意區(qū)域過度擴(kuò)張,鼓勵(lì)注意塊探索各種注意區(qū)域劃分形式。
實(shí)驗(yàn)
RetinaFace取幀380 × 380
我們?cè)谑?中設(shè)置超參數(shù)α = 0.05,每個(gè)歷元后衰減0.9。式3中的類間裕度設(shè)為0.2。真實(shí)圖像和假圖像的類內(nèi)距min分別為0.05和0.1。我們通過實(shí)驗(yàn)選擇注意圖M、SLa和SLt的數(shù)量。在AGDA中,我們?cè)O(shè)置調(diào)整因子0.3和高斯模糊σ = 7。我們的模型是用Adam優(yōu)化器[20]訓(xùn)練的,學(xué)習(xí)率為0.001,權(quán)重衰減為1e6。我們?cè)赽atch size為48的4個(gè)RTX 2080Ti gpu上訓(xùn)練我們的模型。
在本文中,我們采用了EfficientNet-b4[39]作為我們的多注意力框架的骨干網(wǎng)絡(luò)。
EfficientNet-b4能夠以僅一半的FLOPs實(shí)現(xiàn)與XceptionNet[3]相當(dāng)?shù)男阅?。effentnet共有7個(gè)主要層,分別由L1L7表示。
如上所述,我們觀察到來自網(wǎng)絡(luò)淺層的紋理特征傾向于保留細(xì)微的偽像,因此我們選擇L2和L3作為SLt的候選。相反,我們希望注意圖關(guān)注輸入的不同區(qū)域,這在一定程度上需要高級(jí)語(yǔ)義信息的引導(dǎo)。因此,我們使用更深階段L4和L5作為SLa的候選階段。
通過默認(rèn)設(shè)置M = 1,我們?cè)贔F++(HQ)上訓(xùn)練四種組合的模型。從表1的結(jié)果中,我們發(fā)現(xiàn)當(dāng)將L2用于SLt,將L5用于SLa時(shí),模型達(dá)到最佳性能。
分別在FF++[34]和DFDC[9]上評(píng)估了性能。進(jìn)一步評(píng)估了Celeb-DF[25]上的跨數(shù)據(jù)集性能。采用ACC(準(zhǔn)確度)和AUC(接收機(jī)工作特性曲線下面積)作為評(píng)價(jià)指標(biāo)。
FaceForensics++ ,在訓(xùn)練過程中,我們將原始幀放大4倍,以達(dá)到真假標(biāo)簽的平衡。
我們采用EfficientNet-B4作為框架的主干,在LQ上訓(xùn)練模型時(shí),參數(shù)由HQ上的預(yù)訓(xùn)練參數(shù)初始化,以加快收斂速度。對(duì)比結(jié)果如表2所示。
然而,由于F3 -Net是專門為高壓縮深度假視頻檢測(cè)而設(shè)計(jì)的方法,在LQ版本上,與F3 -Net[33]相比,性能下降了1.5%。這主要是因?yàn)镕F++(LQ)中的視頻是高度壓縮的,會(huì)造成紋理信息的嚴(yán)重?fù)p失,這對(duì)我們的紋理增強(qiáng)設(shè)計(jì)是一個(gè)災(zāi)難。
我們的框架對(duì)高壓縮率敏感,這會(huì)模糊空間域的大部分有用信息。
DFDC 我們只與比賽團(tuán)隊(duì)的獲勝方法相比。
Celeb-DF的跨數(shù)據(jù)集評(píng)價(jià):
我們?cè)u(píng)估了框架的可轉(zhuǎn)移性,該框架在FF++(HQ)上進(jìn)行了多種偽造方法的培訓(xùn),但在Celeb-DF上進(jìn)行了測(cè)試[25]。
我們?yōu)槊總€(gè)視頻采樣30幀來計(jì)算幀級(jí)AUC分?jǐn)?shù)。
我們的方法比大多數(shù)現(xiàn)有方法具有更好的可移植性。Two-branch[26]在可移植性方面達(dá)到了最先進(jìn)的性能,但其數(shù)據(jù)集內(nèi)AUC遠(yuǎn)遠(yuǎn)落后于我們。
在FF++上訓(xùn)練對(duì)Celeb-DF (AUC(%))的跨數(shù)據(jù)集評(píng)價(jià)。其他一些方法的結(jié)果直接引自[26]。
不同注意圖數(shù)量對(duì)FF++(HQ) (Acc %)和CelebDF (AUC %)的消融結(jié)果。
然后驗(yàn)證了該設(shè)計(jì)在AGDA中的有效性。如前所述,我們模糊原始圖像以降低輸入的選定區(qū)域。因此,AGDA的策略可以看作是一種“軟注意力投放”。在這一部分中,我們又選擇了“硬注意刪除”,即通過二元注意掩碼BM直接擦除選定區(qū)域的像素:
在本實(shí)驗(yàn)中我們將注意力下降閾值設(shè)為θd = 0.5。本消融研究的比較結(jié)果如表6所示。結(jié)果表明,區(qū)域獨(dú)立性損失(RIL)和注意力引導(dǎo)數(shù)據(jù)增強(qiáng)(軟注意力下降)對(duì)改進(jìn)框架的性能都有顯著的貢獻(xiàn)。
note:
conducive adj. 有助的,有益的
beneficial helpful useful advantageous profitable
To achieve these goals, we propose a … which helps to reduce the … among sths and keep the consistency for different inputs.
we substitute A with B 用b代替a
we substitute the regional independence loss with Additive Angular Margin softmax(AMS)
我們用AMS代替區(qū)域無(wú)關(guān)損失文章來源:http://www.zghlxwxcb.cn/news/detail-836533.html
注:本文僅用于學(xué)習(xí)交流,歡迎一起探討。文章來源地址http://www.zghlxwxcb.cn/news/detail-836533.html
到了這里,關(guān)于論文閱讀筆記—— Multi-attentional Deepfake Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!