圖片無法加載可參考閱讀:知乎文章
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Ry2Qw8uO-1685675351028)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MWFkNzMyZjcyYTE4YzJkM2MxYzVlMTQ1MzQzNDAxNTZfc01xTFVyMks3SnJFTFNWVFd1WHB2dmFIblpuT2o3ZWxfVG9rZW46RDZtaGJDRXpob2doNUN4U2h5VmNBZWdobkpkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
如何識別 AI 生成圖片?or 如何識別 AIGC 圖?or 如何識別 AI 換臉?or AI生成圖偽造檢測?
類似的說法有很多種,總之就是利用AI技術(shù)來鑒別一張圖是不是AI生成的,這種AI技術(shù)就是本文的內(nèi)容。
朋友好,我是卷了又沒卷,薛定諤的卷的AI算法工程師「陳城南」~ 擔任某大廠的算法工程師,帶來最新的前沿AI知識和工具,歡迎大家交流~,后續(xù)我還會分享更多 AI 有趣工具和實用玩法,包括 ChatGPT、AI繪圖等。
- 公眾號「陳城南」或 加「cchengnan113」備注AI交流群
- 知乎賬號「陳城南」
視覺AIGC識別
現(xiàn)階段視覺AIGC(AI-generated Content,人工智能生產(chǎn)內(nèi)容)主要包括圖片(Image)和視頻(Video),視頻的本質(zhì)是連續(xù)的圖片幀,忽略其音頻信息的情況下,視頻生成則是圖片生成的延伸。因此,視覺AIGC識別主要聚焦在AIG圖片的識別。
在AIGC這個概念爆火之前,圖片生成的應(yīng)用一直存在,比如利用GAN進行AI換臉等。因為AI繪圖和ChatGPT等大規(guī)模語言模型(LLMs)分別在兩個領(lǐng)域表現(xiàn)出驚人的效果并成功出圈,AIGC這一概念才開始被大家熟知。本文所說的「視覺AIGC識別」則同時包含AI換臉等前AIGC時代的檢測,也包含Midjourney、SD等AI繪圖場景的識別。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kz4DFNG7-1685675351030)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MzkwZmRmODRmYmU0YjI1ZmYzOTM5ZGEzNzU4ODI2ODRfZFFXaEZlZk5VWUdqd2RYRzFBR0VZWHlEVTVQcFVjZGdfVG9rZW46Tk9tM2JxUWxkb0hOZFZ4a3hLUWN6ZFRvbk5iXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
由于AI換臉等人臉偽造技術(shù)在應(yīng)用和負面影響上較大,技術(shù)相對成熟,其識別難度也較大,識別的相關(guān)研究也便相對集中。因此,本文根據(jù)已有的研究工作調(diào)研,將視覺AIGC識別粗略劃分為:
- 人臉偽造檢測(Face Forgery Detection):包含人臉的AIG圖片/視頻的檢測,例如AI換臉、人臉操控等。此類方法主要關(guān)注帶有人臉相關(guān)的檢測方法,檢測方法可能會涉及人臉信息的先驗。
- AIG整圖檢測(AI Generated-images Detection):檢測一整張圖是否由AI生成,檢測更加的泛化。這類方法相對更關(guān)注生成圖與真實圖更通用的底層區(qū)別,通常專注于整張圖,比如近年爆火的SD、Midjounery的繪圖;
- 其他類型假圖檢測(Others types of Fake Image Detection):此類方法更偏向于 局部偽造、綜合偽造等一系列更復雜的圖片造假,當然人臉偽造也屬于局部、復雜,但是是人臉場景。將AIG圖與真實圖拼湊、合成的圖片識別也屬于這一類。
這三種類型之間劃分并不明晰,很多方法同時具有多種檢測能力,可劃分為多種類型。嚴格意義上說AIG整圖和其他造假圖檢測類型可能都會包含人臉信息,但三種類型方法往往技術(shù)出發(fā)點也不同。
生成式模型總覽
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-3zEeoTBe-1685675351033)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmM0Y2Y5YzViOWYwZWRkNGYwZGJkNjQ2MjQ1YjhkZjJfa25TYVd0YjJLUFF1bTdKZ0VCSnc3cERENjlhMEE4djVfVG9rZW46Qkd1RmJ5QjZkbzhUc0J4YTloU2NaUUFQbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
圖片生成模型比較受歡迎的主要有3種基礎(chǔ)架構(gòu)[0],變分自動編碼器VAE系列(Variational Automatic Encoder)、對抗生成網(wǎng)絡(luò)GAN系列(Generation Adversarial Network)和擴散模型DM系列(Diffusion Model)。其中AI繪圖以2020年的去噪擴散概率模型DDPM(Denoising Diffusion Probabilistic Model)為一個較大的里程碑,在此之前的生成模型主要以GAN居多。當下最火的開源AI繪畫模型 Stable Diffusion 則為擴散模型,據(jù)悉 MidJourney 是變形注意力GAN的變體[1]。
人臉偽造檢測(Face Forgery Detection)
特指包含涉及人臉相關(guān)內(nèi)容生成的圖片/視覺生成,例如AI換臉、人臉操控等;
人臉偽裝圖生成
了解人臉偽裝檢測技術(shù)前,需要先了解人臉造假圖片生成的技術(shù)有哪些,不同的生成技術(shù)/場景可能有不同的檢測方法。基于論文ForgeryNet[2]中的內(nèi)容,人臉偽裝圖片生成的相關(guān)方法(截止2021年前)可以總結(jié)如下:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Gw4ly6We-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTJkMjc3ZDliYjliZTg0ZGY5ZWIxODY5ZjZjZDM1Y2Zfd2ticXo1Yk9Wam0xNWl4VVlpMkt4S3BuTFZGTFhKS1lfVG9rZW46Q2lNOWJkNWUxb0Y4SDd4WGIxZGM1YjlMblNjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
其中,StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)
人臉偽裝圖根據(jù)身份信息是否更改劃分為身份信息不變類和身份替換類。
身份不變類偽造圖在圖片修改/生成時不修改圖片中人物的身份信息,包括:
- 人臉編輯:編輯人臉的外部屬性,如年齡、性別或種族等。
-
人臉再制定:保留源主體的身份,但操縱其口部或表情等固有屬性;
- https://github.com/harlanhong/awesome-talking-head-generation
- https://github.com/Rudrabha/Wav2Lip
身份替換類偽造圖在圖片修改時同時改變其中人的身份信息:
- 人臉轉(zhuǎn)移:它將源臉部的身份感知和身份不相關(guān)的內(nèi)容(例如表情和姿勢)轉(zhuǎn)移到目標臉部,換臉也換表情等等,相當于把自己臉貼在別人的頭上;
- 換臉:它將源臉部的身份信息轉(zhuǎn)移到目標臉部,同時保留身份不相關(guān)的內(nèi)容。即換臉,但不換表情,自己的臉在別人臉上做不變的事情;
- 人臉堆疊操作(FSM):指一些方法的集合,其中部分方法將目標圖的身份和屬性轉(zhuǎn)移到源圖上,而其他方法則在轉(zhuǎn)移身份后修改交換后圖的屬性,多種方法的復合;
偽造圖檢測方法
本部分主要為相關(guān)檢查方法的部分論文簡介。
【綜述】GAN-generated Faces Detection: A Survey and New Perspectives
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-j5cJQrcI-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmUyYTNlMmFiMTk3ZjA4ZWY2OTk1MjcxZjBiYjkzYTFfRlRWd3h6a0kwR0U4a0FlZ09CbVBrWnhJYVdsbkJCeGZfVG9rZW46QXJyUmJnOTRPb2RTckN4aDIxQWNFTVgzbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
Arxiv 2023 工作,介紹了DL方法、物理學方法(Physical-based Methods)、生理學方法(Physiological-based Methods)的檢測方法,同時給出了不同生成模型的時間線(上圖)。文章指出根據(jù)調(diào)研顯示,GAN-face現(xiàn)在AI檢測性能高于人,因為有些圖一眼看過去非常真,人的識別準確率也只有50%~60%。在這三類方法中
- DL方法的圖片識別(分類)可解釋性不太行,如果人看不出來,AI識別出來但又沒有原因,比較難解釋;
- 基于物理的方法通過尋找人工信息或面部與物理世界之間的不一致,例如透視中的照明和反射,來識別gan-face;
- 基于生理學的方法研究人臉的語義方面[14],包括對稱性、虹膜顏色、瞳孔形狀等線索,其中識別的偽像用于暴露gan人臉。
-
作者還給出了歸類的不同方法及性能(如下),但我分析后發(fā)現(xiàn)這個表存在不足:
-
作者在第3章提到的很多DL方法的結(jié)果沒有出現(xiàn)在此表中;
-
該表格的測試集不統(tǒng)一,每個方法的結(jié)果不能與其他方法公平的比較,無法較高凸顯性能優(yōu)劣;
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-54pVYdSE-1685675351035)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTUyY2Y3ODgwMzliOTQ4ZTk1NTM3M2Q5Nzc1ZjZhNzFfeXpUQW1MczdTa0NNVndDVWtDc2hKcnZyd2VJTkFRREtfVG9rZW46QXJXMWJlZzBib3JXNFN4cjhIc2NMNHZvbkRkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
【音畫不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-HY9BSC7u-1685675351036)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=YTU4ZmY2ZWRiYjM1ZWY1YjE0YTYxNTNhYTU5MzNhNjNfQjhrbzNkRU9FV2l5bjFHNTlkWHo0VlhZbHY0dHk3RmtfVG9rZW46TXdTa2J1QlBob2dPUEx4WGVsUWNOZVVIbnhkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
MM 2020 工作,針對虛假視頻問題,作者給視頻定義了模態(tài)失調(diào)得分(Modality Dissonance Score, MDS) 來衡量其音畫同步的程度。
- 視頻支路 3D ResNet,把連續(xù)視頻切成n個Seg,每個Seg又有m個幀,最終經(jīng)過3D特征抽為 n 個特征;
- 音頻支路 ,把連續(xù)聲音1-秒間隔轉(zhuǎn)化為 MFCC特征(一種音頻的熱力圖),然后同樣是送入卷積網(wǎng)絡(luò)得到n個音頻特征。
- 然后兩個特征進行對比學習,對于Fake video最大化不一致得分MDS,Real video最小化不一致得分MDS。另外還有分類損失進行分類。
該方法太依靠同步信息了,很多網(wǎng)絡(luò)延遲引起音畫不同步、或者視頻中環(huán)境聲較大的情況…都不能使用;
可檢測場景:換臉、人臉操縱等;
【唇部變化識別】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-wVaw0wwX-1685675351037)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MGMwNmZlMGQ3ZmU5YTMyZDg3ZDY0ZjQ4MmM5OTM5NThfUFVRVlZzSG5nV1drZEhkaGtpNDBqbXlmaGZlMXNvT21fVG9rZW46QWdYZ2JVenI4b2tSZWx4VW1FN2NPYnJibkNBXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
CVPR2021 工作,該文章也針對視頻檢測,利用唇部運動進行檢測,是文章最大的亮點。
- 在lipreading任務(wù)上預訓練CNN(freeze框內(nèi)),作者稱根據(jù)之前經(jīng)驗“在正常任務(wù)上訓模型能提高模型對異常值(虛假)的敏感性”,事實上他的實驗證實了這一點,lipreading的預訓練任務(wù)能大幅提升其結(jié)果;
- 在虛假檢測(也就是假臉檢測)任務(wù)上finetune 時空網(wǎng)絡(luò)(我個人理解這里的時空網(wǎng)絡(luò)其實就是一個多幀特征融合,直接用個Transformer應(yīng)該效果一樣甚至更優(yōu))
- 損失用交叉熵做 2 分類;
預處理方面細節(jié):
- 使用25幀圖作為輸入,使用RetinaFace[16]檢測每一幀的臉,只提取最大的臉同時Crop 1.3 倍防止丟失信息;
- 用FAN[15]計算臉部 landmarks 進行唇部的裁剪,同時還做了對齊,作為模型輸入;
實驗:
- lipreading的預訓練任務(wù)能大幅提升其結(jié)果
- 在其他數(shù)據(jù)集上泛化性也比較好,畢竟主要針對唇部還用其他模型做了對齊,泛化性好可以理解;
【削弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization
曠視科技的CVPR2023工作,開源在其官方github中,落地性應(yīng)該有背書,屬于訓練復雜推理簡單的。
通常用一個二分類訓deepfake模型時可能存在一個問題,模型會把身份信息也學到,導致在鑒別fake圖片時借用了id信息來輔助判決(比如某ID的臉都是真臉,模型通過記住ID來檢測真假)。這些泄露的ID信息會在unseen數(shù)據(jù)上誤導判決,這顯然是不利于模型泛化的。作者將這一現(xiàn)象稱為 隱式身份泄露(Implicit Idenetity Leakage)。
作者認為ID信息通常是由全局信息反應(yīng)的,局部特征比較難反映出這些信息(比如單獨的嘴、鼻子等),因此為了防止“隱式身份泄露”,作者干了兩件事:
- 提出人工偽裝檢測模型(Artifact Detection Module,ADM)來使模型聚焦于局部信息;
- 同時為了配合ADM訓練,設(shè)計了多尺度的面部交換方法(Multi-scale Facial Swap,MFS)來生成具有不同尺度的人工偽造信息(Artifact)的圖片,增強數(shù)據(jù)集。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-0tw3Xw0F-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Y2YwYmI4YzA4MjFjYTEzNDU5OWUzMmE1ODkwYWUyMTJfdFFGbmlxT29nNmZPV05Fc2pjWElTSFhSMW56WmdjMjZfVG9rZW46S1ZSWWJaYkJhb2FndHN4UGlPeWNMMlIzbk1oXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
實驗效果:
- 比上面的 LipForensices 在 FF++ 數(shù)據(jù)集上魯邦性效果好;
- 在FF++,Celeb-DF 上效果略優(yōu)于 SBI[17]
【自監(jiān)督對抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-4miNYkV7-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=M2IwNzhjN2RhYjQ3Njk1ODNhMmY0OGQ2NGQ5NzY0ZWJfOXEweHpRanJiamdZU0hrSmc3ajJwZ1Y5QW02V2lTNVdfVG9rZW46RGwxYmJMN2pnb0U4TWF4OWNvM2NVd2NsbjBmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
CVPR 2022 工作,論文通過3個角度來提高檢測器的泛化能力(A數(shù)據(jù)訓 B數(shù)據(jù)集測),泛化能力也是論文的主要賣點。如上圖,訓練框架由 合成器G、圖片合成 和 判別器 D 組成,形成對抗訓練。
- 合成器:生成配置參數(shù),用來合成更豐富的自監(jiān)督樣本數(shù)據(jù)(注意是生成配置的參數(shù))
- 原生假圖:不處理,即不進入合成器,直接用來訓判別器;
- 原生真圖:不增廣的真圖不進入合成器,直接訓判別器;
- 合成假圖:有一定概率與一個隨機圖(Reference)進行增廣,形成局部虛假的假圖;
- 圖片合成:合成器G會生成配置方案(區(qū)域選擇10個;混合blending類型選擇;以及合成比例選擇ratio),基于此進行合成(即數(shù)據(jù)增廣)
- 其中合成器輸出區(qū)域的下標index,具體的區(qū)域需要利用 landmarks 網(wǎng)絡(luò)生成該臉的 landmarks并進行選取;
- 判別器G:對圖片進行分類,同時添加輔助任務(wù),用合成器的G的輸出作為label
- 區(qū)域預測:分割Loss,label就是 landmarks 組成的掩碼;
- Blending type:分類loss
- Blending ratio:L1距離loss;
因此,3個角度為:1. 合成數(shù)據(jù),數(shù)據(jù)量大;2. 對抗訓練,優(yōu)化配置和判別器;3. 輔助任務(wù)且自監(jiān)督;
其他可參考論文/項目
人臉偽裝檢測的論文太多了,上面總結(jié)的也只是其中一角,包含的類別也不夠多。
- 比較全的Github,包含各種數(shù)據(jù)集、方法等:https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection
- Survey:https://github.com/clpeng/Awesome-Face-Forgery-Generation-and-Detection
- Detecting and Grounding Multi-Modal Media Manipulation, CVPR 2023: Paper Github
- End-to-End Reconstruction-Classification Learning for Face Forgery Detection (2022 CVPR) [Paper] [Code]
- Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (2022 CVPR) [Paper] [Code]
- OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training, NIPS 2022: Paper Github;該作者代碼基于上面的Self-supervised方法;
- Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection, CVPR 2022: Paper
- Detecting Deepfakes with Self-Blended Images, CVPR 2022: Paper Github
- Multi-Attentional Deepfake Detection, CVPR 2021: Paper Github
- 魯邦的二分類:https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection
AIG整圖檢測**(AI Generated-images Detection)**
檢測一張圖是否由AI生成,即是否為 VAE、GAN、擴散模型DM生成的圖(后簡稱為VAE圖、GAN圖和DM圖)。通常這種判斷是整圖粒度的,但如果某個圖的部分區(qū)域為生成圖片,部分方法也是可以識別的。
本類識別生成圖的方法大體上遵循一個整體的思路:將真實圖(Real)和生成圖(Fake)送到深度網(wǎng)絡(luò)進行特征提取,并基于此構(gòu)建一個二分類模型來進行最終的判斷,細節(jié)差異在于:
- 模型不同。不同的方法采用不同的模型提取真實圖/生成圖的特征,從而性能不同。
- 特征不同。不同的方法使用不同的特征參與訓練。
- 一些模型使用純視覺信息區(qū)分真假圖,包括偽影[8][9]、混合邊界[10]、全局紋理一致性[11]等;
- 一些模型引入圖頻率信息[12][13],通過額外的頻率信息區(qū)分真假圖;
- 一些模型通過重建待檢測圖來發(fā)現(xiàn)生產(chǎn)網(wǎng)絡(luò)的固有屬性[14],利用重建圖和待檢測圖間的差異來訓練模型進行判斷,以獲取更泛化的檢測方法;
- 數(shù)據(jù)不同。
- 一些方法通過對抗手段生成更hard的圖片,從而增強模型識別能力;
目前這些大部分方法均有一個共同的不足:跨模型檢測泛化性差。具體來說,訓練集中的生成圖(Fake)由特定的生成器G產(chǎn)生,檢測器在檢測同為生成器G生成的圖片時表現(xiàn)很好,而對于新生成器生成的圖片檢測器表現(xiàn)會差很多。
- 舉例說明:現(xiàn)在有圖片生成器GAN-1,生成了一批數(shù)據(jù)Data-1參與檢測器Det的訓練,則Det在GAN-1的另一批數(shù)據(jù)Data-1’上表現(xiàn)會很好??墒侨绻行碌纳a(chǎn)器GAN-2或者DM-1產(chǎn)生數(shù)據(jù)Data-2,在Det對Data-2的檢測性能就會差很多。
GAN圖識別
在擴散模型出現(xiàn)之前,檢測方法大多是針對GAN圖的。
【二分類】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now
CVPR 2020工作(github) Baseline方法
該方法使用最樸素的二分類網(wǎng)絡(luò)訓練思路構(gòu)建了一個“universial”檢測器,在不同的網(wǎng)絡(luò)結(jié)構(gòu)上均能取得較好的結(jié)果,具體的:
- 二分類網(wǎng)絡(luò)為 ResNet50;
- 訓練集使用ProGAN進行圖片生成,為了凸顯其對不同結(jié)構(gòu)的泛化性,測試集使用了 ProGAN,StyleGAN,BigGAN,Deepfakse等11個網(wǎng)絡(luò)的生成圖片。
- 數(shù)據(jù)增廣使用了 無增廣、高斯模型、JPEG壓縮和模糊+JPEG壓縮等多個增廣。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-e8m08C05-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZmRjNWVhNDg3MmM0MzZkM2QzZjc3NGE3ZjI0NDdkYTRfUEtlc2Y5TE44Ukt0d0xXbGxxVEpBRUhlU3dHZGx4TlNfVG9rZW46VEs3QmJrSUtFb0lGcGp4TXhGSGNyb1FpbnhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
通過實驗證明:
- 數(shù)據(jù)增廣通常能有效提高檢測器泛化性和魯邦性;
- 高斯模糊可能會掉點,比如SAN(超分辨模型)的生成圖中高頻信息比較重要,使用高斯模糊的訓練集會降低檢測器對高頻信息的獲取,則效果變差。
- 在構(gòu)建訓練集時,更豐富數(shù)據(jù)多樣性能提高檢測器的能力;
【二分類plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art
ICME 2021,Github
該方法延續(xù)了CNNDetection中的思路對現(xiàn)有的檢測方法進行了分析,在其基礎(chǔ)上,
- 將ResNet50改為 XceptionNet 和 Efficient-B4;
- 對 XceptionNet 和 EffectionNet 不進行第一個Down-sampling的Trick,簡稱No-down,這個trick對性能提升挺大的(論文中稱這個idea引用自steganalysis問題,“to preserve features related to noise residual, it performs no down-sampling in the first layers of the network”, 在我看來其實是從網(wǎng)絡(luò)最初去掉了一個降采樣,增大了特征圖的大小,細粒度特征更多)。
- 代碼實驗:就是把 https://github.com/grip-unina/GANimageDetection/blob/main/resnet50nodown.py#L87 的 步長 stride 由2改為1
【頻率特征】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-VnQ5jQ27-1685675354325)(null)][外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dbOPLBWo-1685675351050)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OGZhZTA3ZTM1MjcyYzZlZTFmODIyNmE5YjUwYTM1NGRfWXdhRG5jZmlvcDF6VzFTZTVkc2NTdmdTM1Z5U0Jsc0xfVG9rZW46QVMzcmJ6Yndtb0RGUG54bEJROWM1Z2xUblRiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
WACV 2022 工作
作者認為頻率空間也有人工信息,并構(gòu)建了上述模型進行人工信息提取和證明。
- 利用可學習的人工壓縮映射(ACM)模塊壓縮頻率空間的人工信息,與判別器組成對抗學習進行訓練,最終訓練好的ACM就能提取出偽影區(qū)域。
- 通過分析,作者得出結(jié)論:偽影在高頻分量中有很大的幅度;偽影位于圖像的周圍背景,而不是中心區(qū)域;
基于這些分析,作者提出 雙邊機制高通濾波器(BiHPF) 對原圖進行處理,它能放大了生成模型合成圖像中常見的頻率級偽影的影響。BiHPF由兩個高通濾波器(HPF)組成:
- 頻率級HPF用于放大高頻分量中偽像的幅度;
- 像素級HPF用于在像素主體中強調(diào)周圍背景中的像素值。
最終將處理后的增強圖片進行分類訓練。
【頻率擾動】FrepGAN: Robust deepfake detection using frequency-level perturbations
AAAI 2022 工作
作者發(fā)現(xiàn)**忽略頻率的人工信息能提供檢測模型對不同GAN模型的泛化能力,**而直接訓一個分類器容易對訓練集過擬合,所以要在訓練集上做頻率擾動;
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-y81KQYPy-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjY0NTYyZmVlNGQ2MTYxYzVmNzhmODZmZTNhYjdlMWJfWlM2R2RBaDJJMllXTnpRbGRzRE5KV1VNRGw2UUhOUlRfVG9rZW46WUFNRWJFeTVZb0tRc094UVM0VmNpNUllbldmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
- 核心思路是在Fake圖片生成時,同時讓頻率信息參與,這樣生成圖的頻率就被擾動了,并用此來訓練檢測分類器。檢測分類器從而提高對頻率的抗干擾能力。
- 頻率擾動生成器G:讓頻率信息參與圖片生成。具體來說,輸入圖片 x x x 經(jīng)過快速傅里葉變換(Fast Fourier Transform, FFT)得到 x ? x~ x?,其size為hw2c,通道數(shù)為2倍。通過一個image-to-image的生成器H,得到輸出 z ? z~ z?,再經(jīng)過逆FFT。通過這種方式,頻率信息在生成時也被考慮,生成圖G(x)(稱為擾動特征圖)就具有頻率信息。整體的頻率擾動生成器為:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-AG5aiAh1-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZDhmMDc5ZWY5M2EyMDRiYzk4OWFkMmNkNzUzMzIzNWJfV2ZoeklKdWpvR0dXcERVeXNzcm12OEl4Zkt2WEljaDZfVG9rZW46S2FNMWJBWG5ub0tXWDN4UkswcmNmaFNUbmRlXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
- 擾動判別器D(Perturbation Discriminator):標準的對抗生成思路,用來強化G(x)假圖,使其生成的圖片不能被識別出來,這樣的話頻率信息參與了生成,但生成的圖與真實圖無法被視覺區(qū)分。
- 檢測識別器C:讓圖片x和其擾動特征G(x)一起當做輸入進行二分類,這樣頻率信息就能被考慮進去并忽略。
【梯度特征】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ELt2VGx2-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmExZmE5NGMxOTQ0YTA4M2IwMWNhNjMwYjVmNWQzMTRfVThGYm1lRzFZM0FnVlRJcHRtUTZKajdJbTRsbDE0YUZfVG9rZW46QVZ6NmJwTkFKbzllOFZ4ZVRsdmNWR3M1bjRjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
CVPR2023,Github
- 使用Transformation model (轉(zhuǎn)換模型,預訓練的CNN模型,各種現(xiàn)有的模型都行,VGG,ResNet50,ProGAN的判別器,StyleGAN等等)將圖片轉(zhuǎn)化為梯度圖,作為該圖的人工特征;
- 將梯度圖送進分類器進行分類訓練,判斷其是否偽造;
跨模型能力對比
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SSTBy6TC-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmJhODA5MjhkMmIzOGU0ZWE3MDhiYjA0MjJhMGM4NTNfelM5dmRNdjRKcE42ejJDeVZYNG50OHoxa3JFdWhJVU9fVG9rZW46U2JDTWJWMURqb2xWNmF4S09NTmNkWHEwbkxmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
- Wang42是CNNDetection 2分類,比起純2分類要好很多,也比頻率方法也好。
- 其中StyleGAN-badroom作為轉(zhuǎn)換模型最優(yōu);
TransformationModel對比
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-KwAVFqAF-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZGE3NzZjOGJjMGFhN2JiNDY0MGQzYmJlNWIxNWE1ODJfYWlvQ2ZaTXppRmxaTE9JWVpZRm12MXNlTzRoenR5TzZfVG9rZW46Umo0cGJKQXdYb1JXdEx4RGdaU2NEWmNvbmVNXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
TransModel使用不同模型效果不一樣,StyleGAN-Bedroom相對最優(yōu);
DM圖識別
擴散模型的生成圖識別屬于探索階段,偏探索性的論文也較多。
【DM圖與GAN圖檢測可行性分析】Towards the Detection of Diffusion Model Deepfakes
ICLR 2023 在投,Github
這篇文章作者探索了之前的GAN識別方法(CNNDetection, Grag[4] 等模型)能否用于 DM 模型圖的識別,是否有統(tǒng)一的檢測器可以識別兩種模型生成的圖:
- 使用的數(shù)據(jù)集是LSUN Bedroom[6],包括臥室(Bedroom)、客廳(Living Room)、餐廳(Dining Room)、辦公室(Office)、廚房(Kitchen)、街景(Street View)等場景。
- 測了5個GAN和5個DM模型,發(fā)現(xiàn)GAN上的模型直接用在DM模型的圖上檢測效果會變差很多,但Finetune一下性能就會恢復;
- 相比于GAN圖,DM圖在頻率人工信息更少;
- DM圖識別比GAN圖識別更難;
【DM圖檢測分析】On the detection of synthetic images generated by diffusion models
Arxiv 2023,Github
該文章也是做檢測分析的,通過頻域分析、模型檢測能力分析(將之前GAN識別的CNNDetection[3]模型和 Grag[4] 模型用于 DM檢測,當做魯邦的二分類進行)。論文通過實驗分析認為:
- 相同網(wǎng)絡(luò)結(jié)構(gòu)生成的圖片有相似的痕跡(比如DM圖的陰影和反射不對稱等等),這些痕跡有些在空間域可以發(fā)現(xiàn);
- 通過對現(xiàn)有的12個檢測器進行訓練和測試(真實數(shù)據(jù)源自COCO、ImageNet和UCID;合成圖來自COCO的langage prompts使用ProGAN生成),結(jié)果表明現(xiàn)有模型的泛化性能依然有限,比如在DM上訓,在DM的圖上測試,效果還可以,但跨模型測就不行了。
- 另外,如果圖片經(jīng)過二次處理(比如壓縮等社交媒體的變換),這些生成圖就更難判斷了,因為壓縮會損失一些痕跡(比如高頻信息等)。
作者還用了一些訓練方法(Platt scaling method [34]),在多模型融合基礎(chǔ)上,比單個模型性能要好。在作者測試的幾個模型中,Grag2021[4]單模型最優(yōu)(使用了No-down ResNet);這些篡改模型部分來自于IEEE VIP Cup [5]比賽。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qlAJRHmE-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NmJjMGE5NzY3MGVlZjE1ZmU5ZWUzMWVhNTVkOWRhY2ZfNjlXb2pIWDF1TEFlUklkMHFTdFd3SldGbWNsbmlrZWNfVG9rZW46V3JlRGJkbWk4b3RoaHh4Yk9EWWNic1FPbjJkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
- ProGAN上訓,跨模型測,發(fā)現(xiàn)在眾多模型中,DALL·E 2 和 ADM 的泛化能力最差。這一難度也從頻域的指紋分析上可以看出,ADM和DALL · E 2 的頻率特征與其他模型的差別最大。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-TCPnFSBV-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Njg0OGI2NTRlMTBlZGJiMDFhZDgyMmFiZjk5Mzg4OTRfeWU5OUNNdWpJZXhGM1BacVRuUnlGMDM4V0N6Y0lxYmtfVG9rZW46WkxwQ2J6dVJxbzZ0a094VzVVcGNBN2lYbk9lXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
【誤差特征】DIRE for Diffusion-Generated Image Detection
Arxiv 2023
作者發(fā)現(xiàn)DM 圖可以被近似地被擴散模型重建,但真實圖片不行。將重建圖和原圖的圖片差異記為擴散重建差(DIffusion Reconstruction Error,DIRE),則DIRE可以作為特征進行2分類訓練,判斷是否虛假,泛化性會高很多;
重建圖像差DIRE可以區(qū)分真實圖和合成圖的原因如下圖:
- 合成圖在重建后變化往往較小;
- 真實圖在重建后變化相對較大;
我得理解是,真實圖在重建時會丟失很多信息,而生成圖由于本身就是模型生成的,重建時信息變化相對不大。因此差異可以反映其真假。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-aoqDHm9A-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjBmYzc0MTFjZjBlODljMWNhMjgxYjE4YWE3ZjViZGVfNU44UVJQMFZaNEV2UG5qZVRxYnVVZzYxbEZUVzVHdzdfVG9rZW46SXE1UGJDTDlxb0ZaT1Z4cXZTemNPNFZTbmhmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)][外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-cLd8iUvP-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NDdiYzYyMGRmY2RmZjAzMmEyNjdhZjAyMzdjMmQ2ZWVfcklDUmlpTmJ2TE1KRDdGYmhaUDlQb3A2ZVE3NlNWWHVfVG9rZW46V1VFdGJmMGVUb05naTh4TXhxbWMxNTFObnliXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
該方法通過預訓練的擴散模型(Denoising Diffusion Implicit Models,DDIMs[7])對圖片進程重建,測量輸入圖像與重建圖像之間的誤差。其實這個方法和上面梯度特征的方法LGrad很像,區(qū)別在于上面是通過 Transformation Model轉(zhuǎn)換模型獲得圖像梯度,這里通過 DDIM 重建圖計算差。
此外,作者提出了一個數(shù)據(jù)集 DiffusionForensics,同時復現(xiàn)了8個擴散模型對提出方法進行識別(ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion);
- 跨模型泛化較好:比如ADM的DIRE 對 StyleGAN 也支持,
- 跨數(shù)據(jù)集泛化:LSUN-B訓練模型在ImageNet上也很好;
- 抗擾動較好:對JPEG壓縮 和 高斯模糊的圖,性能很好;
最后看下實驗指標,看起來在擴散模型上效果很好,這ACC/AP都挺高的,不知道在GAN圖上效果如何。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-aKmWh4h9-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTczMjAyYTk4ZGU0MDRjMjk0ZGZmN2JiZTUzMmFkMzJfYWJJWER3RkpGaTFwdWpBYUhqOVVvdzl4VHhVczJBUjNfVG9rZW46SmdqSmJaV2Jrb3hmR0p4NnhXdWNZNkszbjhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]
其他可參考論文/項目
- DM檢測的二分類baseline代碼:https://github.com/jonasricker/diffusion-model-deepfake-detection
- 生成模型綜述:https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
- Papers with Code - Detecting Images Generated by Diffusers
- https://github.com/davide-coccomini/detecting-images-generated-by-diffusers
其他類型假圖檢測(Others types of Fake Image Detection)
- 社交媒體中發(fā)的篡改圖:Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
- 通用圖片造假檢測(局部造假等):Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github
Reference
[0] AIGC圖像生成模型發(fā)展與高潛方向
[1] 繪圖軟件midjourney的底層模型是什么? - 互聯(lián)網(wǎng)前沿資訊的回答 - 知乎 https://www.zhihu.com/question/585975898/answer/3013595427
[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis
[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now
[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva, “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,” in IEEE ICME, 2021.
[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva, “IEEE Video and Image Processing Cup,” https://grip-unina.github.io/vipcup2022/, 2022.
[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.
[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.
[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.
[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.
[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.
[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.
[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.
[13] FrepGAN: Robust deepfake detection using frequency-level perturbations
[14] DIRE for Diffusion-Generated Image Detection
[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.
[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.文章來源:http://www.zghlxwxcb.cn/news/detail-524521.html
[17] Detecting Deepfakes with Self-Blended Images文章來源地址http://www.zghlxwxcb.cn/news/detail-524521.html
到了這里,關(guān)于【城南】如何識別AI生成圖?視覺AIGC偽造檢測技術(shù)綜述的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!