一、論文信息
論文題目:FCD-Net: Learning to Detect Multiple Types of Homologous Deepfake Face Images
作者團(tuán)隊(duì):Ruidong Han , Xiaofeng Wang , Ningning Bai, Qin Wang, Zinian Liu, and Jianru Xue (西安理工大學(xué),西安交通大學(xué))
論文網(wǎng)址:FCD-Net: Learning to Detect Multiple Types of Homologous Deepfake Face Images | IEEE Journals & Magazine | IEEE Xplore
發(fā)表期刊:IEEE Transactions on Information Forensics and Security
二、動(dòng)機(jī)與貢獻(xiàn)
動(dòng)機(jī):目前沒(méi)有一種方法可以檢測(cè)到多種類型的同源深度偽造圖像(對(duì)同一張圖片用不同偽造方法生成)。
貢獻(xiàn):
-
提出了一種基于多分類任務(wù)的深度偽造人臉圖像檢測(cè)方法,該方法可以檢測(cè)整個(gè)人臉合成、人臉交換、人臉屬性處理和真實(shí)人臉圖像。該方法基于一個(gè)設(shè)計(jì)良好的網(wǎng)絡(luò)框架,包括面部突觸顯著性模塊(FSS)、輪廓細(xì)節(jié)特征提取模塊(CDFE)和區(qū)分特征融合模塊(DFF)三個(gè)模塊。
-
該網(wǎng)絡(luò)框架在相似層時(shí)參數(shù)較輕,且具有較高的檢測(cè)精度,對(duì)內(nèi)容保留操作具有較強(qiáng)的魯棒性。方法的泛化效果優(yōu)于其他SOTA方法。
-
創(chuàng)建了一個(gè)新的數(shù)據(jù)集。該數(shù)據(jù)集由真實(shí)人臉圖像和三種深度偽造人臉圖像(全人臉合成、人臉交換、人臉屬性處理)組成,這些真實(shí)圖像通過(guò)不同的深度偽造技術(shù)生成,我們稱之為同源深度偽造人臉圖像數(shù)據(jù)集HDFD。
三、方法
1、網(wǎng)絡(luò)框架:該方法基于一種新的網(wǎng)絡(luò)框架FCD-Net,該框架由面部突觸顯著性模塊(FSS)、輪廓細(xì)節(jié)特征提取模塊(CDFE)和區(qū)分特征融合模塊(DFF)三個(gè)模塊組成。
2、設(shè)計(jì)動(dòng)機(jī):
-
1)目前的深度偽造檢測(cè)網(wǎng)絡(luò)模型一般采用標(biāo)準(zhǔn)卷積來(lái)實(shí)現(xiàn)圖像特征提取,由于降采樣會(huì)導(dǎo)致重要的局部細(xì)節(jié)信息的丟失;2)標(biāo)準(zhǔn)卷積的單一尺寸在一定程度上限制了特征提取的能力;3)深度偽檢測(cè)的類間差異遠(yuǎn)遠(yuǎn)小于模式識(shí)別領(lǐng)域的分類差異。因此,標(biāo)準(zhǔn)卷積很難獲得全面、準(zhǔn)確的特征信息?!?gt;利用多尺度深度可分離卷積的方法構(gòu)建FSS模塊,通過(guò)不同尺度的卷積核對(duì)多尺度圖像特征進(jìn)行聚合,提取出更豐富的詳細(xì)特征,提高特征映射的分辨率。
-
反向殘差結(jié)構(gòu)可以在保證網(wǎng)絡(luò)性能的同時(shí)大大降低網(wǎng)絡(luò)參數(shù),因此我們?cè)O(shè)計(jì)了集成了反向殘差和CBAM的CDFE模塊,該模塊由多個(gè)子模塊即CDi組成。CBAM可以增強(qiáng)特性中的有用信息,并過(guò)濾掉不重要的信息。多CDs的級(jí)聯(lián)不僅加深了網(wǎng)絡(luò)深度,提取高語(yǔ)義特征,更加關(guān)注關(guān)鍵面部特征,而且與殘差結(jié)構(gòu)相比,參數(shù)更低,效率更高。
-
目前深度偽造檢測(cè)方法中使用的全局平均池造成的信息丟失,我們對(duì)空間金字塔池方法進(jìn)行了改進(jìn),并在網(wǎng)絡(luò)的全連接層之前使用DFF模型避免失去可區(qū)分的差異特征。利用DFF,該網(wǎng)絡(luò)可以更加關(guān)注特征的全面性,提高深度偽檢測(cè)的分類能力和魯棒性。
A. Facial Synaptic Saliency Module, FSS(面部突觸顯著性模塊)
①動(dòng)機(jī):考慮到深度可分離卷積具有在保持檢測(cè)精度的情況下可以大大減少網(wǎng)絡(luò)參數(shù)和計(jì)算量的優(yōu)點(diǎn),我們通過(guò)在網(wǎng)絡(luò)中引入多尺度的深度可分離卷積來(lái)設(shè)計(jì)FSS模塊。
②組成:FSS由三個(gè)平行的分支組成,每個(gè)分支包含兩個(gè)深度可分離的卷積層。第一層使用的內(nèi)核分別是7×7、5×5和3×3,padding分別為3、2和1,步幅為1。第2層的內(nèi)核分別為5×5、3×3、1×1,padding分別為2、1、0,步幅為2。每個(gè)分支第一層用于提取特征,第二層用于過(guò)濾前一層引入的噪聲。這樣,就可以提高特征融合的有效性。
③作用:由于FSS通過(guò)聚合多尺度的圖像特征信息來(lái)捕獲不同尺度的感受野,因此我們的網(wǎng)絡(luò)可以提取出更豐富的詳細(xì)特征和更清晰的面部特征。對(duì)于類間間隙較小的偽造圖像,F(xiàn)SS可以提取任何圖像分辨率下的特征,獲得通道上“最有價(jià)值”的特征分布,提高特征圖的分辨率,忽略背景信息。
④特征可視化:使用FSS提取的人臉特征圖比標(biāo)準(zhǔn)卷積更清晰。我們的方法提供檢測(cè)多種偽造類型的鑒別性特點(diǎn)。其原因是兩層深度可分離卷積結(jié)構(gòu)具有較強(qiáng)的詳細(xì)特征表示和去噪能力,提高了人臉特征信息的豐富性。
B. Contour Detail Feature Extraction Module, CDFE(輪廓細(xì)節(jié)特征提取模塊)
①設(shè)計(jì)動(dòng)機(jī):為了減少網(wǎng)絡(luò)參數(shù),提高計(jì)算效果,避免了更深層次網(wǎng)絡(luò)的梯度消失或爆炸,我們采用了反向殘差結(jié)構(gòu)。為了提取能夠突出面部特征詳細(xì)信息的特征,我們?cè)诜聪驓埐罱Y(jié)構(gòu)中引入了一種注意機(jī)制,以關(guān)注有價(jià)值的特征而忽略背景信息。因此,我們?cè)O(shè)計(jì)了CDFE來(lái)整合反向殘差結(jié)構(gòu)和CBAM。
②組成:CDFE包括8個(gè)級(jí)聯(lián)CD,每張CD包含兩個(gè)與內(nèi)核1×1的標(biāo)準(zhǔn)卷積,一個(gè)與內(nèi)核3×3的深度(DW)卷積,一個(gè)CBAM和一個(gè)與1×1標(biāo)準(zhǔn)卷積的瓶頸結(jié)構(gòu)。8個(gè)CD子模塊分為四組,即CD1、CD2、CD3和CD4,分別包含1個(gè)、3個(gè)、3個(gè)和1個(gè)CD子模塊。
③作用:利用級(jí)聯(lián)CD獲取不同大小的特征圖,以更加關(guān)注關(guān)鍵的面部特征,并可以提取深層圖像特征信息,獲得高級(jí)的語(yǔ)義特征。
④特征可視化:使用CDFE可以提取出更清晰的面部特征和輪廓信息,如圖8(b)~(f)所示。這說(shuō)明CDFE可以忽略背景信息,增強(qiáng)可識(shí)別的特征。
C. Distinguishing Feature Fusion Module, DFF(區(qū)分特征融合模塊)
①設(shè)計(jì)動(dòng)機(jī):為了避免全局平均池化導(dǎo)致的重要信息丟失,將DFF模塊設(shè)置在全連接層之前。
②作用:DFF是一種基于SPP(空間金字塔池化)的改進(jìn)池化方法,它將局部特征映射到不同維度空間并將其融合,可以生成固定大小的特征向量,有效地提取多尺度信息,防止區(qū)分差異特征的減少。
③結(jié)構(gòu)說(shuō)明
D. Training Optimization Strategy
1、損失函數(shù):
①使用多分類損失Softmax
②訓(xùn)練損失函數(shù)變化圖示:人臉交換、人臉屬性操縱、整個(gè)人臉合成和真實(shí)人臉圖像都很明顯。然而,我們可以看到,面部屬性處理與真實(shí)的人臉圖像之間存在部分重疊,這會(huì)導(dǎo)致檢測(cè)精度的下降。
2、優(yōu)化器: 使用AdamW優(yōu)化器。
3、學(xué)習(xí)率: 使用余弦衰減的學(xué)習(xí)率與warm-up策略。
四、實(shí)驗(yàn)
A. 數(shù)據(jù)集與預(yù)處理流程
①數(shù)據(jù)集組成:
(1)真實(shí)的人臉圖像來(lái)自FFHQ ,偽造的圖像是由我們自己通過(guò)StyleGAN、FaceAPP和深度偽造(FaceSwap)從真實(shí)的圖像中生成的。我們將這種偽造的圖像定義為同源的深度偽造。
(2)HDFD由四種類型的圖像組成,它們是真實(shí)的人臉圖像、整個(gè)人臉合成、人臉交換和人臉屬性操作,每個(gè)類別包含8000張圖像。
(3)四種類型的圖像按9:1的比例分為訓(xùn)練集和驗(yàn)證集(測(cè)試集),其中訓(xùn)練集包含28800張圖像(每類別7200張圖像),驗(yàn)證集(測(cè)試集)包含3200張圖像(每類別800張圖像)。
B. 實(shí)驗(yàn)結(jié)果準(zhǔn)確度
C. 性能分析
①為了探究AUC的變化,我們定義了一個(gè)新的評(píng)價(jià)指標(biāo)DR(%),它反映了AUC的下降率。模型的泛化性和魯棒性隨著DR的降低而提高。
泛化性:
①重新組織了一個(gè)名為Collacted的數(shù)據(jù)集,該數(shù)據(jù)集包含四種類型的人臉圖像(真實(shí)人臉圖像、整個(gè)人臉合成圖像、人臉屬性操作圖像和人臉交換圖像)進(jìn)行測(cè)試。收集到的數(shù)據(jù)集包括3200張圖像,每一種深度偽造包含800張圖像。其中,真實(shí)的人臉圖像從社交網(wǎng)絡(luò)下載,整個(gè)人臉合成圖像(由ProGAN生成)來(lái)自DFFD,人臉屬性操作圖像(由AttGAN生成)來(lái)自文獻(xiàn)[57]提供的數(shù)據(jù),人臉交換圖像來(lái)自FF++數(shù)據(jù)集。
魯棒性:
①為了研究該方法的魯棒性,我們分別通過(guò)添加鹽和胡椒噪聲、高斯噪聲、高斯模糊和JPEG壓縮來(lái)對(duì)測(cè)試數(shù)據(jù)集的圖像進(jìn)行處理。
②ACC和AUC的值遠(yuǎn)高于其他SOTA方法,而DR的值也低于其他SOTA方法。這表明,我們的方法對(duì)鹽和胡椒噪聲和高斯噪聲都具有魯棒性。
③發(fā)現(xiàn)Meso4和DSP-FWA在魯棒性方面相對(duì)最優(yōu),但它們的網(wǎng)絡(luò)層較少。因此,我們推斷淺層低級(jí)特征對(duì)于圖像JPEG壓縮的魯棒性檢測(cè)至關(guān)重要,因?yàn)闇\層網(wǎng)絡(luò)可以捕獲更豐富的感知特征。這為我們下一步提高圖像JPEG壓縮的魯棒性提供了很大的靈感,我們可以通過(guò)根據(jù)不同權(quán)重的模塊設(shè)計(jì),有效地將淺層低級(jí)感知特征與深層高級(jí)語(yǔ)義特征融合。
D. 消融實(shí)驗(yàn)
①即使圖像經(jīng)過(guò)了后處理(添加噪聲),F(xiàn)SS的引入也顯著提高了ACC和AUC指標(biāo)。這表明FSS在降采樣過(guò)程中有提取高分辨率的面部特征和濾波噪聲的能力。CDFE和DFF對(duì)提高該方法的泛化性起著重要的作用。
五、總結(jié)
①工作總結(jié):本研究中,我們提出了一種基于多種類型的同源深度偽造人臉圖像檢測(cè)的多分類方法。它可以檢測(cè)真實(shí)的人臉圖像、整個(gè)人臉合成、人臉交換和人臉屬性處理。該方法基于一個(gè)設(shè)計(jì)良好的網(wǎng)絡(luò)模型FCD-Net,由FSS、CDFE和DFF組成。
②具體:FSS的作用是獲得不同尺度的接受域,提高網(wǎng)絡(luò)提取更清晰的面部特征的全面性和豐富性的能力,同時(shí)大大減少網(wǎng)絡(luò)參數(shù)和計(jì)算量。利用CDFE技術(shù)提高了網(wǎng)絡(luò)提取關(guān)鍵信息,特別是面部特征和輪廓信息的能力,從而提高了人臉深度造假的檢測(cè)精度。采用不同的DFF池化內(nèi)核進(jìn)行池化后融合,不僅提取了總體特征,而且提高了該方法的魯棒性。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-742395.html
③展望討論:還測(cè)試了自然偽造的圖像(非面孔)。結(jié)果表明,該方法不僅局限于檢測(cè)偽造的人臉圖像,還可以檢測(cè)其他自然偽造圖像。這是因?yàn)榧賵D像(無(wú)論是人臉圖像還是自然圖像)都有偽造的痕跡,而我們的模型捕捉了這些不同的特征來(lái)區(qū)分真實(shí)圖像和假圖像。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-742395.html
到了這里,關(guān)于論文閱讀-FCD-Net: 學(xué)習(xí)檢測(cè)多類型同源深度偽造人臉圖像的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!