国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<td id="azxpe"><dl id="azxpe"></dl></td>

<var id="azxpe"></var>

<source id="azxpe"></source>_{<rp id="azxpe"></rp>}

<td id="azxpe"></td>

【城南】如何識別AI生成圖？視覺AIGC偽造檢測技術(shù)綜述

2年前作者：陳城南分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了【城南】如何識別AI生成圖？視覺AIGC偽造檢測技術(shù)綜述。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

圖片無法加載可參考閱讀：知乎文章

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Ry2Qw8uO-1685675351028)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MWFkNzMyZjcyYTE4YzJkM2MxYzVlMTQ1MzQzNDAxNTZfc01xTFVyMks3SnJFTFNWVFd1WHB2dmFIblpuT2o3ZWxfVG9rZW46RDZtaGJDRXpob2doNUN4U2h5VmNBZWdobkpkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

如何識別 AI 生成圖片？or 如何識別 AIGC 圖？or 如何識別 AI 換臉？or AI生成圖偽造檢測？

類似的說法有很多種，總之就是利用AI技術(shù)來鑒別一張圖是不是AI生成的，這種AI技術(shù)就是本文的內(nèi)容。

朋友好，我是卷了又沒卷，薛定諤的卷的AI算法工程師「陳城南」~ 擔任某大廠的算法工程師，帶來最新的前沿AI知識和工具，歡迎大家交流~，后續(xù)我還會分享更多 AI 有趣工具和實用玩法，包括 ChatGPT、AI繪圖等。

公眾號「陳城南」或加「cchengnan113」備注AI交流群
知乎賬號「陳城南」

視覺AIGC識別

現(xiàn)階段視覺AIGC（AI-generated Content，人工智能生產(chǎn)內(nèi)容）主要包括圖片（Image）和視頻（Video），視頻的本質(zhì)是連續(xù)的圖片幀，忽略其音頻信息的情況下，視頻生成則是圖片生成的延伸。因此，視覺AIGC識別主要聚焦在AIG圖片的識別。

在AIGC這個概念爆火之前，圖片生成的應(yīng)用一直存在，比如利用GAN進行AI換臉等。因為AI繪圖和ChatGPT等大規(guī)模語言模型（LLMs）分別在兩個領(lǐng)域表現(xiàn)出驚人的效果并成功出圈，AIGC這一概念才開始被大家熟知。本文所說的「視覺AIGC識別」則同時包含AI換臉等前AIGC時代的檢測，也包含Midjourney、SD等AI繪圖場景的識別。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kz4DFNG7-1685675351030)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MzkwZmRmODRmYmU0YjI1ZmYzOTM5ZGEzNzU4ODI2ODRfZFFXaEZlZk5VWUdqd2RYRzFBR0VZWHlEVTVQcFVjZGdfVG9rZW46Tk9tM2JxUWxkb0hOZFZ4a3hLUWN6ZFRvbk5iXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

由于AI換臉等人臉偽造技術(shù)在應(yīng)用和負面影響上較大，技術(shù)相對成熟，其識別難度也較大，識別的相關(guān)研究也便相對集中。因此，本文根據(jù)已有的研究工作調(diào)研，將視覺AIGC識別粗略劃分為：

人臉偽造檢測（Face Forgery Detection）：包含人臉的AIG圖片/視頻的檢測，例如AI換臉、人臉操控等。此類方法主要關(guān)注帶有人臉相關(guān)的檢測方法，檢測方法可能會涉及人臉信息的先驗。
AIG整圖檢測（AI Generated-images Detection）：檢測一整張圖是否由AI生成，檢測更加的泛化。這類方法相對更關(guān)注生成圖與真實圖更通用的底層區(qū)別，通常專注于整張圖，比如近年爆火的SD、Midjounery的繪圖；
其他類型假圖檢測（Others types of Fake Image Detection）：此類方法更偏向于局部偽造、綜合偽造等一系列更復雜的圖片造假，當然人臉偽造也屬于局部、復雜，但是是人臉場景。將AIG圖與真實圖拼湊、合成的圖片識別也屬于這一類。

這三種類型之間劃分并不明晰，很多方法同時具有多種檢測能力，可劃分為多種類型。嚴格意義上說AIG整圖和其他造假圖檢測類型可能都會包含人臉信息，但三種類型方法往往技術(shù)出發(fā)點也不同。

生成式模型總覽

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-3zEeoTBe-1685675351033)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmM0Y2Y5YzViOWYwZWRkNGYwZGJkNjQ2MjQ1YjhkZjJfa25TYVd0YjJLUFF1bTdKZ0VCSnc3cERENjlhMEE4djVfVG9rZW46Qkd1RmJ5QjZkbzhUc0J4YTloU2NaUUFQbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

圖片生成模型比較受歡迎的主要有3種基礎(chǔ)架構(gòu)[0]，變分自動編碼器VAE系列（Variational Automatic Encoder）、對抗生成網(wǎng)絡(luò)GAN系列（Generation Adversarial Network）和擴散模型DM系列（Diffusion Model）。其中AI繪圖以2020年的去噪擴散概率模型DDPM（Denoising Diffusion Probabilistic Model）為一個較大的里程碑，在此之前的生成模型主要以GAN居多。當下最火的開源AI繪畫模型 Stable Diffusion 則為擴散模型，據(jù)悉 MidJourney 是變形注意力GAN的變體[1]。

人臉偽造檢測（Face Forgery Detection）

特指包含涉及人臉相關(guān)內(nèi)容生成的圖片/視覺生成，例如AI換臉、人臉操控等；

人臉偽裝圖生成

了解人臉偽裝檢測技術(shù)前，需要先了解人臉造假圖片生成的技術(shù)有哪些，不同的生成技術(shù)/場景可能有不同的檢測方法。基于論文ForgeryNet[2]中的內(nèi)容，人臉偽裝圖片生成的相關(guān)方法（截止2021年前）可以總結(jié)如下：

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Gw4ly6We-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTJkMjc3ZDliYjliZTg0ZGY5ZWIxODY5ZjZjZDM1Y2Zfd2ticXo1Yk9Wam0xNWl4VVlpMkt4S3BuTFZGTFhKS1lfVG9rZW46Q2lNOWJkNWUxb0Y4SDd4WGIxZGM1YjlMblNjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

其中，StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)

人臉偽裝圖根據(jù)身份信息是否更改劃分為身份信息不變類和身份替換類。

身份不變類偽造圖在圖片修改/生成時不修改圖片中人物的身份信息，包括：

人臉編輯：編輯人臉的外部屬性，如年齡、性別或種族等。
人臉再制定：保留源主體的身份，但操縱其口部或表情等固有屬性；
- https://github.com/harlanhong/awesome-talking-head-generation
- https://github.com/Rudrabha/Wav2Lip

身份替換類偽造圖在圖片修改時同時改變其中人的身份信息：

人臉轉(zhuǎn)移：它將源臉部的身份感知和身份不相關(guān)的內(nèi)容（例如表情和姿勢）轉(zhuǎn)移到目標臉部，換臉也換表情等等，相當于把自己臉貼在別人的頭上；
換臉：它將源臉部的身份信息轉(zhuǎn)移到目標臉部，同時保留身份不相關(guān)的內(nèi)容。即換臉，但不換表情，自己的臉在別人臉上做不變的事情；
人臉堆疊操作（FSM）：指一些方法的集合，其中部分方法將目標圖的身份和屬性轉(zhuǎn)移到源圖上，而其他方法則在轉(zhuǎn)移身份后修改交換后圖的屬性，多種方法的復合；

偽造圖檢測方法

本部分主要為相關(guān)檢查方法的部分論文簡介。

【綜述】GAN-generated Faces Detection: A Survey and New Perspectives

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-j5cJQrcI-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmUyYTNlMmFiMTk3ZjA4ZWY2OTk1MjcxZjBiYjkzYTFfRlRWd3h6a0kwR0U4a0FlZ09CbVBrWnhJYVdsbkJCeGZfVG9rZW46QXJyUmJnOTRPb2RTckN4aDIxQWNFTVgzbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

Arxiv 2023 工作，介紹了DL方法、物理學方法（Physical-based Methods）、生理學方法（Physiological-based Methods）的檢測方法，同時給出了不同生成模型的時間線（上圖）。文章指出根據(jù)調(diào)研顯示，GAN-face現(xiàn)在AI檢測性能高于人，因為有些圖一眼看過去非常真，人的識別準確率也只有50%~60%。在這三類方法中

DL方法的圖片識別（分類）可解釋性不太行，如果人看不出來，AI識別出來但又沒有原因，比較難解釋；
基于物理的方法通過尋找人工信息或面部與物理世界之間的不一致，例如透視中的照明和反射，來識別gan-face；
基于生理學的方法研究人臉的語義方面[14]，包括對稱性、虹膜顏色、瞳孔形狀等線索，其中識別的偽像用于暴露gan人臉。

作者還給出了歸類的不同方法及性能（如下），但我分析后發(fā)現(xiàn)這個表存在不足：
作者在第3章提到的很多DL方法的結(jié)果沒有出現(xiàn)在此表中；
該表格的測試集不統(tǒng)一，每個方法的結(jié)果不能與其他方法公平的比較，無法較高凸顯性能優(yōu)劣；

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-54pVYdSE-1685675351035)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTUyY2Y3ODgwMzliOTQ4ZTk1NTM3M2Q5Nzc1ZjZhNzFfeXpUQW1MczdTa0NNVndDVWtDc2hKcnZyd2VJTkFRREtfVG9rZW46QXJXMWJlZzBib3JXNFN4cjhIc2NMNHZvbkRkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

【音畫不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-HY9BSC7u-1685675351036)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=YTU4ZmY2ZWRiYjM1ZWY1YjE0YTYxNTNhYTU5MzNhNjNfQjhrbzNkRU9FV2l5bjFHNTlkWHo0VlhZbHY0dHk3RmtfVG9rZW46TXdTa2J1QlBob2dPUEx4WGVsUWNOZVVIbnhkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

MM 2020 工作，針對虛假視頻問題，作者給視頻定義了模態(tài)失調(diào)得分（Modality Dissonance Score, MDS) 來衡量其音畫同步的程度。

視頻支路 3D ResNet，把連續(xù)視頻切成n個Seg，每個Seg又有m個幀，最終經(jīng)過3D特征抽為 n 個特征；
音頻支路，把連續(xù)聲音1-秒間隔轉(zhuǎn)化為 MFCC特征（一種音頻的熱力圖），然后同樣是送入卷積網(wǎng)絡(luò)得到n個音頻特征。
然后兩個特征進行對比學習，對于Fake video最大化不一致得分MDS，Real video最小化不一致得分MDS。另外還有分類損失進行分類。

該方法太依靠同步信息了，很多網(wǎng)絡(luò)延遲引起音畫不同步、或者視頻中環(huán)境聲較大的情況…都不能使用；

可檢測場景：換臉、人臉操縱等；

【唇部變化識別】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-wVaw0wwX-1685675351037)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MGMwNmZlMGQ3ZmU5YTMyZDg3ZDY0ZjQ4MmM5OTM5NThfUFVRVlZzSG5nV1drZEhkaGtpNDBqbXlmaGZlMXNvT21fVG9rZW46QWdYZ2JVenI4b2tSZWx4VW1FN2NPYnJibkNBXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR2021 工作，該文章也針對視頻檢測，利用唇部運動進行檢測，是文章最大的亮點。

在lipreading任務(wù)上預訓練CNN（freeze框內(nèi)），作者稱根據(jù)之前經(jīng)驗“在正常任務(wù)上訓模型能提高模型對異常值（虛假）的敏感性”，事實上他的實驗證實了這一點，lipreading的預訓練任務(wù)能大幅提升其結(jié)果；
在虛假檢測（也就是假臉檢測）任務(wù)上finetune 時空網(wǎng)絡(luò)（我個人理解這里的時空網(wǎng)絡(luò)其實就是一個多幀特征融合，直接用個Transformer應(yīng)該效果一樣甚至更優(yōu)）
損失用交叉熵做 2 分類；

預處理方面細節(jié)：

使用25幀圖作為輸入，使用RetinaFace[16]檢測每一幀的臉，只提取最大的臉同時Crop 1.3 倍防止丟失信息；
用FAN[15]計算臉部 landmarks 進行唇部的裁剪，同時還做了對齊，作為模型輸入；

實驗：

lipreading的預訓練任務(wù)能大幅提升其結(jié)果
在其他數(shù)據(jù)集上泛化性也比較好，畢竟主要針對唇部還用其他模型做了對齊，泛化性好可以理解；

【削弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

曠視科技的CVPR2023工作，開源在其官方github中，落地性應(yīng)該有背書，屬于訓練復雜推理簡單的。

通常用一個二分類訓deepfake模型時可能存在一個問題，模型會把身份信息也學到，導致在鑒別fake圖片時借用了id信息來輔助判決（比如某ID的臉都是真臉，模型通過記住ID來檢測真假）。這些泄露的ID信息會在unseen數(shù)據(jù)上誤導判決，這顯然是不利于模型泛化的。作者將這一現(xiàn)象稱為 隱式身份泄露（Implicit Idenetity Leakage）。

作者認為ID信息通常是由全局信息反應(yīng)的，局部特征比較難反映出這些信息（比如單獨的嘴、鼻子等），因此為了防止“隱式身份泄露”，作者干了兩件事：

提出人工偽裝檢測模型（Artifact Detection Module，ADM）來使模型聚焦于局部信息；
同時為了配合ADM訓練，設(shè)計了多尺度的面部交換方法（Multi-scale Facial Swap，MFS）來生成具有不同尺度的人工偽造信息（Artifact）的圖片，增強數(shù)據(jù)集。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-0tw3Xw0F-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Y2YwYmI4YzA4MjFjYTEzNDU5OWUzMmE1ODkwYWUyMTJfdFFGbmlxT29nNmZPV05Fc2pjWElTSFhSMW56WmdjMjZfVG9rZW46S1ZSWWJaYkJhb2FndHN4UGlPeWNMMlIzbk1oXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

實驗效果：

比上面的 LipForensices 在 FF++ 數(shù)據(jù)集上魯邦性效果好；
在FF++，Celeb-DF 上效果略優(yōu)于 SBI[17]

【自監(jiān)督對抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-4miNYkV7-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=M2IwNzhjN2RhYjQ3Njk1ODNhMmY0OGQ2NGQ5NzY0ZWJfOXEweHpRanJiamdZU0hrSmc3ajJwZ1Y5QW02V2lTNVdfVG9rZW46RGwxYmJMN2pnb0U4TWF4OWNvM2NVd2NsbjBmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR 2022 工作，論文通過3個角度來提高檢測器的泛化能力（A數(shù)據(jù)訓 B數(shù)據(jù)集測），泛化能力也是論文的主要賣點。如上圖，訓練框架由合成器G、圖片合成和判別器 D 組成，形成對抗訓練。

合成器：生成配置參數(shù)，用來合成更豐富的自監(jiān)督樣本數(shù)據(jù)（注意是生成配置的參數(shù)）
1. 原生假圖：不處理，即不進入合成器，直接用來訓判別器；
2. 原生真圖：不增廣的真圖不進入合成器，直接訓判別器；
3. 合成假圖：有一定概率與一個隨機圖（Reference）進行增廣，形成局部虛假的假圖；
圖片合成：合成器G會生成配置方案（區(qū)域選擇10個；混合blending類型選擇；以及合成比例選擇ratio），基于此進行合成（即數(shù)據(jù)增廣）
1. 其中合成器輸出區(qū)域的下標index，具體的區(qū)域需要利用 landmarks 網(wǎng)絡(luò)生成該臉的 landmarks并進行選取；
判別器G：對圖片進行分類，同時添加輔助任務(wù)，用合成器的G的輸出作為label
1. 區(qū)域預測：分割Loss，label就是 landmarks 組成的掩碼；
2. Blending type：分類loss
3. Blending ratio：L1距離loss；

因此，3個角度為：1. 合成數(shù)據(jù)，數(shù)據(jù)量大；2. 對抗訓練，優(yōu)化配置和判別器；3. 輔助任務(wù)且自監(jiān)督；

其他可參考論文/項目

人臉偽裝檢測的論文太多了，上面總結(jié)的也只是其中一角，包含的類別也不夠多。

比較全的Github，包含各種數(shù)據(jù)集、方法等：https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection
Survey：https://github.com/clpeng/Awesome-Face-Forgery-Generation-and-Detection
Detecting and Grounding Multi-Modal Media Manipulation, CVPR 2023: Paper Github
End-to-End Reconstruction-Classification Learning for Face Forgery Detection (2022 CVPR) [Paper] [Code]
Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (2022 CVPR) [Paper] [Code]
OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training, NIPS 2022: Paper Github；該作者代碼基于上面的Self-supervised方法；
Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection, CVPR 2022: Paper
Detecting Deepfakes with Self-Blended Images, CVPR 2022: Paper Github
Multi-Attentional Deepfake Detection, CVPR 2021: Paper Github
魯邦的二分類：https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

AIG整圖檢測（AI Generated-images Detection）

檢測一張圖是否由AI生成，即是否為 VAE、GAN、擴散模型DM生成的圖（后簡稱為VAE圖、GAN圖和DM圖）。通常這種判斷是整圖粒度的，但如果某個圖的部分區(qū)域為生成圖片，部分方法也是可以識別的。

本類識別生成圖的方法大體上遵循一個整體的思路：將真實圖（Real）和生成圖（Fake）送到深度網(wǎng)絡(luò)進行特征提取，并基于此構(gòu)建一個二分類模型來進行最終的判斷，細節(jié)差異在于：

模型不同。不同的方法采用不同的模型提取真實圖/生成圖的特征，從而性能不同。
特征不同。不同的方法使用不同的特征參與訓練。
1. 一些模型使用純視覺信息區(qū)分真假圖，包括偽影[8][9]、混合邊界[10]、全局紋理一致性[11]等；
2. 一些模型引入圖頻率信息[12][13]，通過額外的頻率信息區(qū)分真假圖；
3. 一些模型通過重建待檢測圖來發(fā)現(xiàn)生產(chǎn)網(wǎng)絡(luò)的固有屬性[14]，利用重建圖和待檢測圖間的差異來訓練模型進行判斷，以獲取更泛化的檢測方法；
數(shù)據(jù)不同。
1. 一些方法通過對抗手段生成更hard的圖片，從而增強模型識別能力；

目前這些大部分方法均有一個共同的不足：跨模型檢測泛化性差。具體來說，訓練集中的生成圖（Fake）由特定的生成器G產(chǎn)生，檢測器在檢測同為生成器G生成的圖片時表現(xiàn)很好，而對于新生成器生成的圖片檢測器表現(xiàn)會差很多。

舉例說明：現(xiàn)在有圖片生成器GAN-1，生成了一批數(shù)據(jù)Data-1參與檢測器Det的訓練，則Det在GAN-1的另一批數(shù)據(jù)Data-1’上表現(xiàn)會很好?？墒侨绻行碌纳a(chǎn)器GAN-2或者DM-1產(chǎn)生數(shù)據(jù)Data-2，在Det對Data-2的檢測性能就會差很多。

GAN圖識別

在擴散模型出現(xiàn)之前，檢測方法大多是針對GAN圖的。

【二分類】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

CVPR 2020工作（github） Baseline方法

該方法使用最樸素的二分類網(wǎng)絡(luò)訓練思路構(gòu)建了一個“universial”檢測器，在不同的網(wǎng)絡(luò)結(jié)構(gòu)上均能取得較好的結(jié)果，具體的：

二分類網(wǎng)絡(luò)為 ResNet50；
訓練集使用ProGAN進行圖片生成，為了凸顯其對不同結(jié)構(gòu)的泛化性，測試集使用了 ProGAN，StyleGAN，BigGAN，Deepfakse等11個網(wǎng)絡(luò)的生成圖片。
數(shù)據(jù)增廣使用了無增廣、高斯模型、JPEG壓縮和模糊+JPEG壓縮等多個增廣。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-e8m08C05-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZmRjNWVhNDg3MmM0MzZkM2QzZjc3NGE3ZjI0NDdkYTRfUEtlc2Y5TE44Ukt0d0xXbGxxVEpBRUhlU3dHZGx4TlNfVG9rZW46VEs3QmJrSUtFb0lGcGp4TXhGSGNyb1FpbnhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

通過實驗證明：

數(shù)據(jù)增廣通常能有效提高檢測器泛化性和魯邦性；
1. 高斯模糊可能會掉點，比如SAN（超分辨模型）的生成圖中高頻信息比較重要，使用高斯模糊的訓練集會降低檢測器對高頻信息的獲取，則效果變差。
在構(gòu)建訓練集時，更豐富數(shù)據(jù)多樣性能提高檢測器的能力；

【二分類plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art

ICME 2021，Github

該方法延續(xù)了CNNDetection中的思路對現(xiàn)有的檢測方法進行了分析，在其基礎(chǔ)上，

將ResNet50改為 XceptionNet 和 Efficient-B4；
對 XceptionNet 和 EffectionNet 不進行第一個Down-sampling的Trick，簡稱No-down，這個trick對性能提升挺大的（論文中稱這個idea引用自steganalysis問題，“to preserve features related to noise residual, it performs no down-sampling in the first layers of the network”, 在我看來其實是從網(wǎng)絡(luò)最初去掉了一個降采樣，增大了特征圖的大小，細粒度特征更多）。
1. 代碼實驗：就是把 https://github.com/grip-unina/GANimageDetection/blob/main/resnet50nodown.py#L87 的步長 stride 由2改為1

【頻率特征】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-VnQ5jQ27-1685675354325)(null)][外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dbOPLBWo-1685675351050)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OGZhZTA3ZTM1MjcyYzZlZTFmODIyNmE5YjUwYTM1NGRfWXdhRG5jZmlvcDF6VzFTZTVkc2NTdmdTM1Z5U0Jsc0xfVG9rZW46QVMzcmJ6Yndtb0RGUG54bEJROWM1Z2xUblRiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

WACV 2022 工作

作者認為頻率空間也有人工信息，并構(gòu)建了上述模型進行人工信息提取和證明。

利用可學習的人工壓縮映射（ACM）模塊壓縮頻率空間的人工信息，與判別器組成對抗學習進行訓練，最終訓練好的ACM就能提取出偽影區(qū)域。
通過分析，作者得出結(jié)論：偽影在高頻分量中有很大的幅度；偽影位于圖像的周圍背景，而不是中心區(qū)域；

基于這些分析，作者提出 雙邊機制高通濾波器(BiHPF) 對原圖進行處理，它能放大了生成模型合成圖像中常見的頻率級偽影的影響。BiHPF由兩個高通濾波器(HPF)組成:

頻率級HPF用于放大高頻分量中偽像的幅度；
像素級HPF用于在像素主體中強調(diào)周圍背景中的像素值。

最終將處理后的增強圖片進行分類訓練。

【頻率擾動】FrepGAN: Robust deepfake detection using frequency-level perturbations

AAAI 2022 工作

作者發(fā)現(xiàn)**忽略頻率的人工信息能提供檢測模型對不同GAN模型的泛化能力，**而直接訓一個分類器容易對訓練集過擬合，所以要在訓練集上做頻率擾動；

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-y81KQYPy-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjY0NTYyZmVlNGQ2MTYxYzVmNzhmODZmZTNhYjdlMWJfWlM2R2RBaDJJMllXTnpRbGRzRE5KV1VNRGw2UUhOUlRfVG9rZW46WUFNRWJFeTVZb0tRc094UVM0VmNpNUllbldmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

核心思路是在Fake圖片生成時，同時讓頻率信息參與，這樣生成圖的頻率就被擾動了，并用此來訓練檢測分類器。檢測分類器從而提高對頻率的抗干擾能力。
頻率擾動生成器G：讓頻率信息參與圖片生成。具體來說，輸入圖片 $x$ 經(jīng)過快速傅里葉變換（Fast Fourier Transform, FFT）得到 $x$ ，其size為hw2c，通道數(shù)為2倍。通過一個image-to-image的生成器H，得到輸出 $z$ ，再經(jīng)過逆FFT。通過這種方式，頻率信息在生成時也被考慮，生成圖G(x)（稱為擾動特征圖）就具有頻率信息。整體的頻率擾動生成器為：

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-AG5aiAh1-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZDhmMDc5ZWY5M2EyMDRiYzk4OWFkMmNkNzUzMzIzNWJfV2ZoeklKdWpvR0dXcERVeXNzcm12OEl4Zkt2WEljaDZfVG9rZW46S2FNMWJBWG5ub0tXWDN4UkswcmNmaFNUbmRlXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

擾動判別器D（Perturbation Discriminator）：標準的對抗生成思路，用來強化G(x)假圖，使其生成的圖片不能被識別出來，這樣的話頻率信息參與了生成，但生成的圖與真實圖無法被視覺區(qū)分。
檢測識別器C：讓圖片x和其擾動特征G(x)一起當做輸入進行二分類，這樣頻率信息就能被考慮進去并忽略。

【梯度特征】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ELt2VGx2-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmExZmE5NGMxOTQ0YTA4M2IwMWNhNjMwYjVmNWQzMTRfVThGYm1lRzFZM0FnVlRJcHRtUTZKajdJbTRsbDE0YUZfVG9rZW46QVZ6NmJwTkFKbzllOFZ4ZVRsdmNWR3M1bjRjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR2023，Github

使用Transformation model （轉(zhuǎn)換模型，預訓練的CNN模型，各種現(xiàn)有的模型都行，VGG，ResNet50，ProGAN的判別器，StyleGAN等等）將圖片轉(zhuǎn)化為梯度圖，作為該圖的人工特征；
將梯度圖送進分類器進行分類訓練，判斷其是否偽造；

跨模型能力對比

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SSTBy6TC-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmJhODA5MjhkMmIzOGU0ZWE3MDhiYjA0MjJhMGM4NTNfelM5dmRNdjRKcE42ejJDeVZYNG50OHoxa3JFdWhJVU9fVG9rZW46U2JDTWJWMURqb2xWNmF4S09NTmNkWHEwbkxmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

Wang42是CNNDetection 2分類，比起純2分類要好很多，也比頻率方法也好。
其中StyleGAN-badroom作為轉(zhuǎn)換模型最優(yōu)；

TransformationModel對比

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-KwAVFqAF-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZGE3NzZjOGJjMGFhN2JiNDY0MGQzYmJlNWIxNWE1ODJfYWlvQ2ZaTXppRmxaTE9JWVpZRm12MXNlTzRoenR5TzZfVG9rZW46Umo0cGJKQXdYb1JXdEx4RGdaU2NEWmNvbmVNXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

TransModel使用不同模型效果不一樣，StyleGAN-Bedroom相對最優(yōu)；

DM圖識別

擴散模型的生成圖識別屬于探索階段，偏探索性的論文也較多。

【DM圖與GAN圖檢測可行性分析】Towards the Detection of Diffusion Model Deepfakes

ICLR 2023 在投，Github

這篇文章作者探索了之前的GAN識別方法（CNNDetection, Grag[4] 等模型）能否用于 DM 模型圖的識別，是否有統(tǒng)一的檢測器可以識別兩種模型生成的圖：

使用的數(shù)據(jù)集是LSUN Bedroom[6]，包括臥室（Bedroom）、客廳（Living Room）、餐廳（Dining Room）、辦公室（Office）、廚房（Kitchen）、街景（Street View）等場景。
測了5個GAN和5個DM模型，發(fā)現(xiàn)GAN上的模型直接用在DM模型的圖上檢測效果會變差很多，但Finetune一下性能就會恢復；
相比于GAN圖，DM圖在頻率人工信息更少；
DM圖識別比GAN圖識別更難；

【DM圖檢測分析】On the detection of synthetic images generated by diffusion models

Arxiv 2023，Github

該文章也是做檢測分析的，通過頻域分析、模型檢測能力分析（將之前GAN識別的CNNDetection[3]模型和 Grag[4] 模型用于 DM檢測，當做魯邦的二分類進行）。論文通過實驗分析認為：

相同網(wǎng)絡(luò)結(jié)構(gòu)生成的圖片有相似的痕跡（比如DM圖的陰影和反射不對稱等等），這些痕跡有些在空間域可以發(fā)現(xiàn)；
通過對現(xiàn)有的12個檢測器進行訓練和測試（真實數(shù)據(jù)源自COCO、ImageNet和UCID；合成圖來自COCO的langage prompts使用ProGAN生成），結(jié)果表明現(xiàn)有模型的泛化性能依然有限，比如在DM上訓，在DM的圖上測試，效果還可以，但跨模型測就不行了。
另外，如果圖片經(jīng)過二次處理（比如壓縮等社交媒體的變換），這些生成圖就更難判斷了，因為壓縮會損失一些痕跡（比如高頻信息等）。

作者還用了一些訓練方法（Platt scaling method [34]），在多模型融合基礎(chǔ)上，比單個模型性能要好。在作者測試的幾個模型中，Grag2021[4]單模型最優(yōu)（使用了No-down ResNet）；這些篡改模型部分來自于IEEE VIP Cup [5]比賽。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qlAJRHmE-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NmJjMGE5NzY3MGVlZjE1ZmU5ZWUzMWVhNTVkOWRhY2ZfNjlXb2pIWDF1TEFlUklkMHFTdFd3SldGbWNsbmlrZWNfVG9rZW46V3JlRGJkbWk4b3RoaHh4Yk9EWWNic1FPbjJkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

ProGAN上訓，跨模型測，發(fā)現(xiàn)在眾多模型中，DALL·E 2 和 ADM 的泛化能力最差。這一難度也從頻域的指紋分析上可以看出，ADM和DALL · E 2 的頻率特征與其他模型的差別最大。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-TCPnFSBV-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Njg0OGI2NTRlMTBlZGJiMDFhZDgyMmFiZjk5Mzg4OTRfeWU5OUNNdWpJZXhGM1BacVRuUnlGMDM4V0N6Y0lxYmtfVG9rZW46WkxwQ2J6dVJxbzZ0a094VzVVcGNBN2lYbk9lXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

【誤差特征】DIRE for Diffusion-Generated Image Detection

Arxiv 2023

作者發(fā)現(xiàn)DM 圖可以被近似地被擴散模型重建，但真實圖片不行。將重建圖和原圖的圖片差異記為擴散重建差（DIffusion Reconstruction Error，DIRE），則DIRE可以作為特征進行2分類訓練，判斷是否虛假，泛化性會高很多；

重建圖像差DIRE可以區(qū)分真實圖和合成圖的原因如下圖：

合成圖在重建后變化往往較小；
真實圖在重建后變化相對較大；

我得理解是，真實圖在重建時會丟失很多信息，而生成圖由于本身就是模型生成的，重建時信息變化相對不大。因此差異可以反映其真假。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-aoqDHm9A-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjBmYzc0MTFjZjBlODljMWNhMjgxYjE4YWE3ZjViZGVfNU44UVJQMFZaNEV2UG5qZVRxYnVVZzYxbEZUVzVHdzdfVG9rZW46SXE1UGJDTDlxb0ZaT1Z4cXZTemNPNFZTbmhmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)][外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-cLd8iUvP-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NDdiYzYyMGRmY2RmZjAzMmEyNjdhZjAyMzdjMmQ2ZWVfcklDUmlpTmJ2TE1KRDdGYmhaUDlQb3A2ZVE3NlNWWHVfVG9rZW46V1VFdGJmMGVUb05naTh4TXhxbWMxNTFObnliXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

該方法通過預訓練的擴散模型（Denoising Diffusion Implicit Models，DDIMs[7]）對圖片進程重建，測量輸入圖像與重建圖像之間的誤差。其實這個方法和上面梯度特征的方法LGrad很像，區(qū)別在于上面是通過 Transformation Model轉(zhuǎn)換模型獲得圖像梯度，這里通過 DDIM 重建圖計算差。

此外，作者提出了一個數(shù)據(jù)集 DiffusionForensics，同時復現(xiàn)了8個擴散模型對提出方法進行識別（ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion）；

跨模型泛化較好：比如ADM的DIRE 對 StyleGAN 也支持，
跨數(shù)據(jù)集泛化：LSUN-B訓練模型在ImageNet上也很好；
抗擾動較好：對JPEG壓縮和高斯模糊的圖，性能很好；

最后看下實驗指標，看起來在擴散模型上效果很好，這ACC/AP都挺高的，不知道在GAN圖上效果如何。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-aKmWh4h9-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTczMjAyYTk4ZGU0MDRjMjk0ZGZmN2JiZTUzMmFkMzJfYWJJWER3RkpGaTFwdWpBYUhqOVVvdzl4VHhVczJBUjNfVG9rZW46SmdqSmJaV2Jrb3hmR0p4NnhXdWNZNkszbjhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

其他可參考論文/項目

DM檢測的二分類baseline代碼：https://github.com/jonasricker/diffusion-model-deepfake-detection
生成模型綜述：https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
Papers with Code - Detecting Images Generated by Diffusers
https://github.com/davide-coccomini/detecting-images-generated-by-diffusers

其他類型假圖檢測（Others types of Fake Image Detection）

社交媒體中發(fā)的篡改圖：Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
通用圖片造假檢測（局部造假等）：Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github

Reference

[0] AIGC圖像生成模型發(fā)展與高潛方向

[1] 繪圖軟件midjourney的底層模型是什么？ - 互聯(lián)網(wǎng)前沿資訊的回答 - 知乎 https://www.zhihu.com/question/585975898/answer/3013595427

[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva, “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,” in IEEE ICME, 2021.

[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva, “IEEE Video and Image Processing Cup,” https://grip-unina.github.io/vipcup2022/, 2022.

[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.

[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.

[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.

[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.

[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.

[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.

[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.

[13] FrepGAN: Robust deepfake detection using frequency-level perturbations

[14] DIRE for Diffusion-Generated Image Detection

[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.

[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.

[17] Detecting Deepfakes with Self-Blended Images文章來源地址http://www.zghlxwxcb.cn/news/detail-524521.html

到了這里，關(guān)于【城南】如何識別AI生成圖？視覺AIGC偽造檢測技術(shù)綜述的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

AIGC（生成式AI）試用 0 -- 如何測試此類應(yīng)用
0.?起因 RPA主導的機器人流程自動化風頭正勁 AI由來已久生成式AI正在改變著工作和生活的方式生成式AI工具不斷更新?lián)Q代思考的問題，生成式AI： -?能實現(xiàn)什么？ -?不同工具間的區(qū)別？ -?如何測試此類工具？似乎想的有點多、有點大。何是結(jié)果？何時是結(jié)束？不論深淺，
2024年02月01日
瀏覽(25)
表情包也能用 AI 生成？如何借助 AIGC 自定義專屬表情包 #Memix
隨著我們越來越離不開社交媒體，表情包也已經(jīng)成為我們?nèi)粘Ｉ钪械谋貍鋯纹?。有著個人鮮明風格的「表情包」，不僅是獨特的「社交名片」，也能給人留下耳目一新的印象！誰的收藏夾里沒有一堆私藏表情包呢！ Memix 借助 AI 技術(shù)的發(fā)展，自定義專屬表情包已經(jīng)越來越簡
2024年02月10日
瀏覽(18)
【】用 VisualGLM 進行AIGC多模識別和內(nèi)容生成
最近幾個月，整個AI行業(yè)的LLM（大語言模型）蓬勃發(fā)展，除了過去傳統(tǒng)的純文字的多模態(tài)能力的視覺語言模型，如 GPT-4，ImageBind等表現(xiàn)令人印象深刻。 ChatGLM-6B是中文用戶使用非常舒服的一個開源中文LLM。2023年5月17日，智譜AI和清華大學KEG實驗室開源了基于ChatGLM-6B的多模態(tài)對
2024年02月11日
瀏覽(10)
機器視覺檢測技術(shù)是什么？突出的亮點有哪些？
機器視覺檢測技術(shù)是一種利用圖像處理軟件分析處理相機捕捉到的圖像，以替代人眼在制造和測試過程中進行檢測和測量的技術(shù)。它廣泛應(yīng)用于工業(yè)自動化領(lǐng)域，可以提高生產(chǎn)效率和質(zhì)量控制的精度。機器視覺系統(tǒng)通常包括光源、相機、圖像處理單元和執(zhí)行機構(gòu)等組成部分。
2024年04月28日
瀏覽(15)
如何制作正能量勵志語錄短視頻保姆級教程： AIGC生成腳本+ elevenlabs AI聲音克隆+AI生圖+PikaLabs生短視頻+Pexels素材+剪映視頻剪輯實操全流程演示
課程場景：適合口才不好，文筆不好，不愿意出鏡的相關(guān)人員學習，經(jīng)常演講但是沒有時間做口播做錄制的老板、講師和專家，學完本課，不管您是誰，您都將輕松簡單的可以開始您的Vlog或者自媒體賬號的IP打造之路。您將學到如何找爆款對標賬號。您將學到如何通過AIGC以
2024年02月02日
瀏覽(56)
深度學習在計算機視覺中的對象檢測技術(shù)
計算機視覺是人工智能領(lǐng)域的一個重要分支，其主要研究如何讓計算機理解和處理圖像和視頻。對象檢測是計算機視覺中的一個重要任務(wù)，它旨在在圖像中識別和定位特定類別的物體。隨著深度學習技術(shù)的發(fā)展，對象檢測技術(shù)也逐漸被深度學習所取代，這種方法在性能和準確
2024年02月19日
瀏覽(17)
【計算機視覺】YOLOv9：物體檢測技術(shù)的飛躍發(fā)展
YOLOv9 引入了可編程梯度信息 (PGI) 和廣義高效層聚合網(wǎng)絡(luò) (GELAN) 等開創(chuàng)性技術(shù)，標志著實時目標檢測領(lǐng)域的重大進步。該模型在效率、準確性和適應(yīng)性方面都有顯著提高，在 MS COCO 數(shù)據(jù)集上樹立了新的標桿。YOLOv9 項目雖然是由一個獨立的開源團隊開發(fā)的，但它建立在以下機構(gòu)
2024年04月17日
瀏覽(33)
【模式識別&目標檢測】——模式識別技術(shù)&車牌檢測應(yīng)用
目錄引入一、模式識別主要方法 1、統(tǒng)計模式識別 2、基于隱馬爾可夫模型識別 3、模糊模式識別 4、人工神經(jīng)網(wǎng)絡(luò)模式識別總結(jié) 二、模式識別應(yīng)用 1、車牌定位 2、車牌識別參考文獻：人在觀察事物或現(xiàn)象時，常尋找它與其他事物或現(xiàn)象不同之處，并根據(jù)一定目的把相似、
2024年02月13日
瀏覽(87)
生成對抗網(wǎng)絡(luò)與計算機視覺：提升對象檢測與識別能力
計算機視覺技術(shù)在過去的幾年里取得了顯著的進展，這主要是由于深度學習技術(shù)的蓬勃發(fā)展。深度學習技術(shù)在計算機視覺領(lǐng)域的應(yīng)用主要集中在以下幾個方面：對象檢測：通過在圖像中識別和定位特定的對象，如人臉、車輛、建筑物等。圖像分類：通過將圖像分為多個類別
2024年02月22日
瀏覽(30)
計算機視覺 - 基于黃金模板比較技術(shù)的缺陷檢測
????????基于黃金模板比對的檢測是一種常見的視覺應(yīng)用。當進行缺陷檢查而其他缺陷檢測方法是不可行的時候，使用金模板比較。另外當物體的表面或物體的形狀非常復雜時，此技術(shù)特別有用。 ???????? 雖然說黃金模板比較的技術(shù)的思路很簡單，但是真正落地實施確
2024年02月09日
瀏覽(17)

<span id="tx4c9"></span>

<strike id="tx4c9"><option id="tx4c9"></option></strike>

<span id="tx4c9"></span>