国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【城南】如何識別AI生成圖?視覺AIGC偽造檢測技術(shù)綜述

這篇具有很好參考價值的文章主要介紹了【城南】如何識別AI生成圖?視覺AIGC偽造檢測技術(shù)綜述。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

圖片無法加載可參考閱讀:知乎文章

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Ry2Qw8uO-1685675351028)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MWFkNzMyZjcyYTE4YzJkM2MxYzVlMTQ1MzQzNDAxNTZfc01xTFVyMks3SnJFTFNWVFd1WHB2dmFIblpuT2o3ZWxfVG9rZW46RDZtaGJDRXpob2doNUN4U2h5VmNBZWdobkpkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

如何識別 AI 生成圖片?or 如何識別 AIGC 圖?or 如何識別 AI 換臉?or AI生成圖偽造檢測?

類似的說法有很多種,總之就是利用AI技術(shù)來鑒別一張圖是不是AI生成的,這種AI技術(shù)就是本文的內(nèi)容。

朋友好,我是卷了又沒卷,薛定諤的卷的AI算法工程師「陳城南」~ 擔任某大廠的算法工程師,帶來最新的前沿AI知識和工具,歡迎大家交流~,后續(xù)我還會分享更多 AI 有趣工具和實用玩法,包括 ChatGPT、AI繪圖等。

  • 公眾號「陳城南」或 加「cchengnan113」備注AI交流群
  • 知乎賬號「陳城南」

視覺AIGC識別

現(xiàn)階段視覺AIGC(AI-generated Content,人工智能生產(chǎn)內(nèi)容)主要包括圖片(Image)和視頻(Video),視頻的本質(zhì)是連續(xù)的圖片幀,忽略其音頻信息的情況下,視頻生成則是圖片生成的延伸。因此,視覺AIGC識別主要聚焦在AIG圖片的識別。

在AIGC這個概念爆火之前,圖片生成的應(yīng)用一直存在,比如利用GAN進行AI換臉等。因為AI繪圖和ChatGPT等大規(guī)模語言模型(LLMs)分別在兩個領(lǐng)域表現(xiàn)出驚人的效果并成功出圈,AIGC這一概念才開始被大家熟知。本文所說的「視覺AIGC識別」則同時包含AI換臉等前AIGC時代的檢測,也包含Midjourney、SD等AI繪圖場景的識別。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-kz4DFNG7-1685675351030)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MzkwZmRmODRmYmU0YjI1ZmYzOTM5ZGEzNzU4ODI2ODRfZFFXaEZlZk5VWUdqd2RYRzFBR0VZWHlEVTVQcFVjZGdfVG9rZW46Tk9tM2JxUWxkb0hOZFZ4a3hLUWN6ZFRvbk5iXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

由于AI換臉等人臉偽造技術(shù)在應(yīng)用和負面影響上較大,技術(shù)相對成熟,其識別難度也較大,識別的相關(guān)研究也便相對集中。因此,本文根據(jù)已有的研究工作調(diào)研,將視覺AIGC識別粗略劃分為

  • 人臉偽造檢測(Face Forgery Detection):包含人臉的AIG圖片/視頻的檢測,例如AI換臉、人臉操控等。此類方法主要關(guān)注帶有人臉相關(guān)的檢測方法,檢測方法可能會涉及人臉信息的先驗。
  • AIG整圖檢測(AI Generated-images Detection):檢測一整張圖是否由AI生成,檢測更加的泛化。這類方法相對更關(guān)注生成圖與真實圖更通用的底層區(qū)別,通常專注于整張圖,比如近年爆火的SD、Midjounery的繪圖;
  • 其他類型假圖檢測(Others types of Fake Image Detection):此類方法更偏向于 局部偽造、綜合偽造等一系列更復雜的圖片造假,當然人臉偽造也屬于局部、復雜,但是是人臉場景。將AIG圖與真實圖拼湊、合成的圖片識別也屬于這一類。

這三種類型之間劃分并不明晰,很多方法同時具有多種檢測能力,可劃分為多種類型。嚴格意義上說AIG整圖和其他造假圖檢測類型可能都會包含人臉信息,但三種類型方法往往技術(shù)出發(fā)點也不同。

生成式模型總覽

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-3zEeoTBe-1685675351033)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmM0Y2Y5YzViOWYwZWRkNGYwZGJkNjQ2MjQ1YjhkZjJfa25TYVd0YjJLUFF1bTdKZ0VCSnc3cERENjlhMEE4djVfVG9rZW46Qkd1RmJ5QjZkbzhUc0J4YTloU2NaUUFQbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

圖片生成模型比較受歡迎的主要有3種基礎(chǔ)架構(gòu)[0],變分自動編碼器VAE系列(Variational Automatic Encoder)、對抗生成網(wǎng)絡(luò)GAN系列(Generation Adversarial Network)和擴散模型DM系列(Diffusion Model)。其中AI繪圖以2020年的去噪擴散概率模型DDPM(Denoising Diffusion Probabilistic Model)為一個較大的里程碑,在此之前的生成模型主要以GAN居多。當下最火的開源AI繪畫模型 Stable Diffusion 則為擴散模型,據(jù)悉 MidJourney 是變形注意力GAN的變體[1]。

人臉偽造檢測(Face Forgery Detection)

特指包含涉及人臉相關(guān)內(nèi)容生成的圖片/視覺生成,例如AI換臉、人臉操控等;

人臉偽裝圖生成

了解人臉偽裝檢測技術(shù)前,需要先了解人臉造假圖片生成的技術(shù)有哪些,不同的生成技術(shù)/場景可能有不同的檢測方法。基于論文ForgeryNet[2]中的內(nèi)容,人臉偽裝圖片生成的相關(guān)方法(截止2021年前)可以總結(jié)如下:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Gw4ly6We-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTJkMjc3ZDliYjliZTg0ZGY5ZWIxODY5ZjZjZDM1Y2Zfd2ticXo1Yk9Wam0xNWl4VVlpMkt4S3BuTFZGTFhKS1lfVG9rZW46Q2lNOWJkNWUxb0Y4SDd4WGIxZGM1YjlMblNjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

其中,StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)

人臉偽裝圖根據(jù)身份信息是否更改劃分為身份信息不變類和身份替換類。

身份不變類偽造圖在圖片修改/生成時不修改圖片中人物的身份信息,包括:

  • 人臉編輯:編輯人臉的外部屬性,如年齡、性別或種族等。
  • 人臉再制定:保留源主體的身份,但操縱其口部或表情等固有屬性;
    • https://github.com/harlanhong/awesome-talking-head-generation
    • https://github.com/Rudrabha/Wav2Lip

身份替換類偽造圖在圖片修改時同時改變其中人的身份信息:

  • 人臉轉(zhuǎn)移:它將源臉部的身份感知和身份不相關(guān)的內(nèi)容(例如表情和姿勢)轉(zhuǎn)移到目標臉部,換臉也換表情等等,相當于把自己臉貼在別人的頭上;
  • 換臉:它將源臉部的身份信息轉(zhuǎn)移到目標臉部,同時保留身份不相關(guān)的內(nèi)容。即換臉,但不換表情,自己的臉在別人臉上做不變的事情;
  • 人臉堆疊操作(FSM):指一些方法的集合,其中部分方法將目標圖的身份和屬性轉(zhuǎn)移到源圖上,而其他方法則在轉(zhuǎn)移身份后修改交換后圖的屬性,多種方法的復合;

偽造圖檢測方法

本部分主要為相關(guān)檢查方法的部分論文簡介。

【綜述】GAN-generated Faces Detection: A Survey and New Perspectives

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-j5cJQrcI-1685675351034)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmUyYTNlMmFiMTk3ZjA4ZWY2OTk1MjcxZjBiYjkzYTFfRlRWd3h6a0kwR0U4a0FlZ09CbVBrWnhJYVdsbkJCeGZfVG9rZW46QXJyUmJnOTRPb2RTckN4aDIxQWNFTVgzbktjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

Arxiv 2023 工作,介紹了DL方法、物理學方法(Physical-based Methods)、生理學方法(Physiological-based Methods)的檢測方法,同時給出了不同生成模型的時間線(上圖)。文章指出根據(jù)調(diào)研顯示,GAN-face現(xiàn)在AI檢測性能高于人,因為有些圖一眼看過去非常真,人的識別準確率也只有50%~60%。在這三類方法中

  • DL方法的圖片識別(分類)可解釋性不太行,如果人看不出來,AI識別出來但又沒有原因,比較難解釋;
  • 基于物理的方法通過尋找人工信息或面部與物理世界之間的不一致,例如透視中的照明和反射,來識別gan-face;
  • 基于生理學的方法研究人臉的語義方面[14],包括對稱性、虹膜顏色、瞳孔形狀等線索,其中識別的偽像用于暴露gan人臉。
  1. 作者還給出了歸類的不同方法及性能(如下),但我分析后發(fā)現(xiàn)這個表存在不足:

  2. 作者在第3章提到的很多DL方法的結(jié)果沒有出現(xiàn)在此表中;

  3. 該表格的測試集不統(tǒng)一,每個方法的結(jié)果不能與其他方法公平的比較,無法較高凸顯性能優(yōu)劣;

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-54pVYdSE-1685675351035)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTUyY2Y3ODgwMzliOTQ4ZTk1NTM3M2Q5Nzc1ZjZhNzFfeXpUQW1MczdTa0NNVndDVWtDc2hKcnZyd2VJTkFRREtfVG9rZW46QXJXMWJlZzBib3JXNFN4cjhIc2NMNHZvbkRkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

【音畫不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-HY9BSC7u-1685675351036)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=YTU4ZmY2ZWRiYjM1ZWY1YjE0YTYxNTNhYTU5MzNhNjNfQjhrbzNkRU9FV2l5bjFHNTlkWHo0VlhZbHY0dHk3RmtfVG9rZW46TXdTa2J1QlBob2dPUEx4WGVsUWNOZVVIbnhkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

MM 2020 工作,針對虛假視頻問題,作者給視頻定義了模態(tài)失調(diào)得分(Modality Dissonance Score, MDS) 來衡量其音畫同步的程度。

  • 視頻支路 3D ResNet,把連續(xù)視頻切成n個Seg,每個Seg又有m個幀,最終經(jīng)過3D特征抽為 n 個特征;
  • 音頻支路 ,把連續(xù)聲音1-秒間隔轉(zhuǎn)化為 MFCC特征(一種音頻的熱力圖),然后同樣是送入卷積網(wǎng)絡(luò)得到n個音頻特征。
  • 然后兩個特征進行對比學習,對于Fake video最大化不一致得分MDS,Real video最小化不一致得分MDS。另外還有分類損失進行分類。

該方法太依靠同步信息了,很多網(wǎng)絡(luò)延遲引起音畫不同步、或者視頻中環(huán)境聲較大的情況…都不能使用;

可檢測場景:換臉、人臉操縱等;

【唇部變化識別】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-wVaw0wwX-1685675351037)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MGMwNmZlMGQ3ZmU5YTMyZDg3ZDY0ZjQ4MmM5OTM5NThfUFVRVlZzSG5nV1drZEhkaGtpNDBqbXlmaGZlMXNvT21fVG9rZW46QWdYZ2JVenI4b2tSZWx4VW1FN2NPYnJibkNBXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR2021 工作,該文章也針對視頻檢測,利用唇部運動進行檢測,是文章最大的亮點

  1. 在lipreading任務(wù)上預訓練CNN(freeze框內(nèi)),作者稱根據(jù)之前經(jīng)驗“在正常任務(wù)上訓模型能提高模型對異常值(虛假)的敏感性”,事實上他的實驗證實了這一點,lipreading的預訓練任務(wù)能大幅提升其結(jié)果;
  2. 在虛假檢測(也就是假臉檢測)任務(wù)上finetune 時空網(wǎng)絡(luò)(我個人理解這里的時空網(wǎng)絡(luò)其實就是一個多幀特征融合,直接用個Transformer應(yīng)該效果一樣甚至更優(yōu))
  3. 損失用交叉熵做 2 分類;

預處理方面細節(jié):

  1. 使用25幀圖作為輸入,使用RetinaFace[16]檢測每一幀的臉,只提取最大的臉同時Crop 1.3 倍防止丟失信息;
  2. 用FAN[15]計算臉部 landmarks 進行唇部的裁剪,同時還做了對齊,作為模型輸入;

實驗:

  1. lipreading的預訓練任務(wù)能大幅提升其結(jié)果
  2. 在其他數(shù)據(jù)集上泛化性也比較好,畢竟主要針對唇部還用其他模型做了對齊,泛化性好可以理解;
【削弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

曠視科技的CVPR2023工作,開源在其官方github中,落地性應(yīng)該有背書,屬于訓練復雜推理簡單的。

通常用一個二分類訓deepfake模型時可能存在一個問題,模型會把身份信息也學到,導致在鑒別fake圖片時借用了id信息來輔助判決(比如某ID的臉都是真臉,模型通過記住ID來檢測真假)。這些泄露的ID信息會在unseen數(shù)據(jù)上誤導判決,這顯然是不利于模型泛化的。作者將這一現(xiàn)象稱為 隱式身份泄露(Implicit Idenetity Leakage)。

作者認為ID信息通常是由全局信息反應(yīng)的,局部特征比較難反映出這些信息(比如單獨的嘴、鼻子等),因此為了防止“隱式身份泄露”,作者干了兩件事:

  1. 提出人工偽裝檢測模型(Artifact Detection Module,ADM)來使模型聚焦于局部信息;
  2. 同時為了配合ADM訓練,設(shè)計了多尺度的面部交換方法(Multi-scale Facial Swap,MFS)來生成具有不同尺度的人工偽造信息(Artifact)的圖片,增強數(shù)據(jù)集。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-0tw3Xw0F-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Y2YwYmI4YzA4MjFjYTEzNDU5OWUzMmE1ODkwYWUyMTJfdFFGbmlxT29nNmZPV05Fc2pjWElTSFhSMW56WmdjMjZfVG9rZW46S1ZSWWJaYkJhb2FndHN4UGlPeWNMMlIzbk1oXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

實驗效果:

  1. 比上面的 LipForensices 在 FF++ 數(shù)據(jù)集上魯邦性效果好;
  2. 在FF++,Celeb-DF 上效果略優(yōu)于 SBI[17]
【自監(jiān)督對抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-4miNYkV7-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=M2IwNzhjN2RhYjQ3Njk1ODNhMmY0OGQ2NGQ5NzY0ZWJfOXEweHpRanJiamdZU0hrSmc3ajJwZ1Y5QW02V2lTNVdfVG9rZW46RGwxYmJMN2pnb0U4TWF4OWNvM2NVd2NsbjBmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR 2022 工作,論文通過3個角度來提高檢測器的泛化能力(A數(shù)據(jù)訓 B數(shù)據(jù)集測),泛化能力也是論文的主要賣點。如上圖,訓練框架由 合成器G、圖片合成 和 判別器 D 組成,形成對抗訓練。

  1. 合成器:生成配置參數(shù),用來合成更豐富的自監(jiān)督樣本數(shù)據(jù)(注意是生成配置的參數(shù))
    1. 原生假圖:不處理,即不進入合成器,直接用來訓判別器;
    2. 原生真圖:不增廣的真圖不進入合成器,直接訓判別器;
    3. 合成假圖:有一定概率與一個隨機圖(Reference)進行增廣,形成局部虛假的假圖;
  2. 圖片合成:合成器G會生成配置方案(區(qū)域選擇10個;混合blending類型選擇;以及合成比例選擇ratio),基于此進行合成(即數(shù)據(jù)增廣)
    1. 其中合成器輸出區(qū)域的下標index,具體的區(qū)域需要利用 landmarks 網(wǎng)絡(luò)生成該臉的 landmarks并進行選取;
  3. 判別器G:對圖片進行分類,同時添加輔助任務(wù),用合成器的G的輸出作為label
    1. 區(qū)域預測:分割Loss,label就是 landmarks 組成的掩碼;
    2. Blending type:分類loss
    3. Blending ratio:L1距離loss;

因此,3個角度為:1. 合成數(shù)據(jù),數(shù)據(jù)量大;2. 對抗訓練,優(yōu)化配置和判別器;3. 輔助任務(wù)且自監(jiān)督;

其他可參考論文/項目

人臉偽裝檢測的論文太多了,上面總結(jié)的也只是其中一角,包含的類別也不夠多。

  • 比較全的Github,包含各種數(shù)據(jù)集、方法等:https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection
  • Survey:https://github.com/clpeng/Awesome-Face-Forgery-Generation-and-Detection
  • Detecting and Grounding Multi-Modal Media Manipulation, CVPR 2023: Paper Github
  • End-to-End Reconstruction-Classification Learning for Face Forgery Detection (2022 CVPR) [Paper] [Code]
  • Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (2022 CVPR) [Paper] [Code]
  • OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training, NIPS 2022: Paper Github;該作者代碼基于上面的Self-supervised方法;
  • Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection, CVPR 2022: Paper
  • Detecting Deepfakes with Self-Blended Images, CVPR 2022: Paper Github
  • Multi-Attentional Deepfake Detection, CVPR 2021: Paper Github
  • 魯邦的二分類:https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

AIG整圖檢測**(AI Generated-images Detection)**

檢測一張圖是否由AI生成,即是否為 VAE、GAN、擴散模型DM生成的圖(后簡稱為VAE圖、GAN圖和DM圖)。通常這種判斷是整圖粒度的,但如果某個圖的部分區(qū)域為生成圖片,部分方法也是可以識別的。

本類識別生成圖的方法大體上遵循一個整體的思路:將真實圖(Real)和生成圖(Fake)送到深度網(wǎng)絡(luò)進行特征提取,并基于此構(gòu)建一個二分類模型來進行最終的判斷,細節(jié)差異在于:

  1. 模型不同。不同的方法采用不同的模型提取真實圖/生成圖的特征,從而性能不同。
  2. 特征不同。不同的方法使用不同的特征參與訓練。
    1. 一些模型使用純視覺信息區(qū)分真假圖,包括偽影[8][9]、混合邊界[10]、全局紋理一致性[11]等;
    2. 一些模型引入圖頻率信息[12][13],通過額外的頻率信息區(qū)分真假圖;
    3. 一些模型通過重建待檢測圖來發(fā)現(xiàn)生產(chǎn)網(wǎng)絡(luò)的固有屬性[14],利用重建圖和待檢測圖間的差異來訓練模型進行判斷,以獲取更泛化的檢測方法;
  3. 數(shù)據(jù)不同。
    1. 一些方法通過對抗手段生成更hard的圖片,從而增強模型識別能力;

目前這些大部分方法均有一個共同的不足:跨模型檢測泛化性差。具體來說,訓練集中的生成圖(Fake)由特定的生成器G產(chǎn)生,檢測器在檢測同為生成器G生成的圖片時表現(xiàn)很好,而對于新生成器生成的圖片檢測器表現(xiàn)會差很多。

  • 舉例說明:現(xiàn)在有圖片生成器GAN-1,生成了一批數(shù)據(jù)Data-1參與檢測器Det的訓練,則Det在GAN-1的另一批數(shù)據(jù)Data-1’上表現(xiàn)會很好??墒侨绻行碌纳a(chǎn)器GAN-2或者DM-1產(chǎn)生數(shù)據(jù)Data-2,在Det對Data-2的檢測性能就會差很多。

GAN圖識別

在擴散模型出現(xiàn)之前,檢測方法大多是針對GAN圖的。

【二分類】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

CVPR 2020工作(github) Baseline方法

該方法使用最樸素的二分類網(wǎng)絡(luò)訓練思路構(gòu)建了一個“universial”檢測器,在不同的網(wǎng)絡(luò)結(jié)構(gòu)上均能取得較好的結(jié)果,具體的:

  1. 二分類網(wǎng)絡(luò)為 ResNet50;
  2. 訓練集使用ProGAN進行圖片生成,為了凸顯其對不同結(jié)構(gòu)的泛化性,測試集使用了 ProGAN,StyleGAN,BigGAN,Deepfakse等11個網(wǎng)絡(luò)的生成圖片。
  3. 數(shù)據(jù)增廣使用了 無增廣、高斯模型、JPEG壓縮和模糊+JPEG壓縮等多個增廣。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-e8m08C05-1685675351047)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZmRjNWVhNDg3MmM0MzZkM2QzZjc3NGE3ZjI0NDdkYTRfUEtlc2Y5TE44Ukt0d0xXbGxxVEpBRUhlU3dHZGx4TlNfVG9rZW46VEs3QmJrSUtFb0lGcGp4TXhGSGNyb1FpbnhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

通過實驗證明:

  1. 數(shù)據(jù)增廣通常能有效提高檢測器泛化性和魯邦性;
    1. 高斯模糊可能會掉點,比如SAN(超分辨模型)的生成圖中高頻信息比較重要,使用高斯模糊的訓練集會降低檢測器對高頻信息的獲取,則效果變差。
  2. 在構(gòu)建訓練集時,更豐富數(shù)據(jù)多樣性能提高檢測器的能力;
【二分類plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art

ICME 2021,Github

該方法延續(xù)了CNNDetection中的思路對現(xiàn)有的檢測方法進行了分析,在其基礎(chǔ)上,

  1. 將ResNet50改為 XceptionNet 和 Efficient-B4;
  2. 對 XceptionNet 和 EffectionNet 不進行第一個Down-sampling的Trick,簡稱No-down,這個trick對性能提升挺大的(論文中稱這個idea引用自steganalysis問題,“to preserve features related to noise residual, it performs no down-sampling in the first layers of the network”, 在我看來其實是從網(wǎng)絡(luò)最初去掉了一個降采樣,增大了特征圖的大小,細粒度特征更多)。
    1. 代碼實驗:就是把 https://github.com/grip-unina/GANimageDetection/blob/main/resnet50nodown.py#L87 的 步長 stride 由2改為1
【頻率特征】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-VnQ5jQ27-1685675354325)(null)][外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dbOPLBWo-1685675351050)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OGZhZTA3ZTM1MjcyYzZlZTFmODIyNmE5YjUwYTM1NGRfWXdhRG5jZmlvcDF6VzFTZTVkc2NTdmdTM1Z5U0Jsc0xfVG9rZW46QVMzcmJ6Yndtb0RGUG54bEJROWM1Z2xUblRiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

WACV 2022 工作

作者認為頻率空間也有人工信息,并構(gòu)建了上述模型進行人工信息提取和證明。

  • 利用可學習的人工壓縮映射(ACM)模塊壓縮頻率空間的人工信息,與判別器組成對抗學習進行訓練,最終訓練好的ACM就能提取出偽影區(qū)域。
  • 通過分析,作者得出結(jié)論:偽影在高頻分量中有很大的幅度;偽影位于圖像的周圍背景,而不是中心區(qū)域;

基于這些分析,作者提出 雙邊機制高通濾波器(BiHPF) 對原圖進行處理,它能放大了生成模型合成圖像中常見的頻率級偽影的影響。BiHPF由兩個高通濾波器(HPF)組成:

  1. 頻率級HPF用于放大高頻分量中偽像的幅度;
  2. 像素級HPF用于在像素主體中強調(diào)周圍背景中的像素值。

最終將處理后的增強圖片進行分類訓練。

【頻率擾動】FrepGAN: Robust deepfake detection using frequency-level perturbations

AAAI 2022 工作

作者發(fā)現(xiàn)**忽略頻率的人工信息能提供檢測模型對不同GAN模型的泛化能力,**而直接訓一個分類器容易對訓練集過擬合,所以要在訓練集上做頻率擾動;

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-y81KQYPy-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjY0NTYyZmVlNGQ2MTYxYzVmNzhmODZmZTNhYjdlMWJfWlM2R2RBaDJJMllXTnpRbGRzRE5KV1VNRGw2UUhOUlRfVG9rZW46WUFNRWJFeTVZb0tRc094UVM0VmNpNUllbldmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

  • 核心思路是在Fake圖片生成時,同時讓頻率信息參與,這樣生成圖的頻率就被擾動了,并用此來訓練檢測分類器。檢測分類器從而提高對頻率的抗干擾能力。
  • 頻率擾動生成器G:讓頻率信息參與圖片生成。具體來說,輸入圖片 x x x 經(jīng)過快速傅里葉變換(Fast Fourier Transform, FFT)得到 x ? x~ x?,其size為hw2c,通道數(shù)為2倍。通過一個image-to-image的生成器H,得到輸出 z ? z~ z?,再經(jīng)過逆FFT。通過這種方式,頻率信息在生成時也被考慮,生成圖G(x)(稱為擾動特征圖)就具有頻率信息。整體的頻率擾動生成器為:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-AG5aiAh1-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZDhmMDc5ZWY5M2EyMDRiYzk4OWFkMmNkNzUzMzIzNWJfV2ZoeklKdWpvR0dXcERVeXNzcm12OEl4Zkt2WEljaDZfVG9rZW46S2FNMWJBWG5ub0tXWDN4UkswcmNmaFNUbmRlXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

  • 擾動判別器D(Perturbation Discriminator):標準的對抗生成思路,用來強化G(x)假圖,使其生成的圖片不能被識別出來,這樣的話頻率信息參與了生成,但生成的圖與真實圖無法被視覺區(qū)分。
  • 檢測識別器C:讓圖片x和其擾動特征G(x)一起當做輸入進行二分類,這樣頻率信息就能被考慮進去并忽略。
【梯度特征】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ELt2VGx2-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmExZmE5NGMxOTQ0YTA4M2IwMWNhNjMwYjVmNWQzMTRfVThGYm1lRzFZM0FnVlRJcHRtUTZKajdJbTRsbDE0YUZfVG9rZW46QVZ6NmJwTkFKbzllOFZ4ZVRsdmNWR3M1bjRjXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

CVPR2023,Github

  1. 使用Transformation model (轉(zhuǎn)換模型,預訓練的CNN模型,各種現(xiàn)有的模型都行,VGG,ResNet50,ProGAN的判別器,StyleGAN等等)將圖片轉(zhuǎn)化為梯度圖,作為該圖的人工特征;
  2. 將梯度圖送進分類器進行分類訓練,判斷其是否偽造;

跨模型能力對比

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SSTBy6TC-1685675351051)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MmJhODA5MjhkMmIzOGU0ZWE3MDhiYjA0MjJhMGM4NTNfelM5dmRNdjRKcE42ejJDeVZYNG50OHoxa3JFdWhJVU9fVG9rZW46U2JDTWJWMURqb2xWNmF4S09NTmNkWHEwbkxmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

  • Wang42是CNNDetection 2分類,比起純2分類要好很多,也比頻率方法也好。
  • 其中StyleGAN-badroom作為轉(zhuǎn)換模型最優(yōu);

TransformationModel對比

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-KwAVFqAF-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=ZGE3NzZjOGJjMGFhN2JiNDY0MGQzYmJlNWIxNWE1ODJfYWlvQ2ZaTXppRmxaTE9JWVpZRm12MXNlTzRoenR5TzZfVG9rZW46Umo0cGJKQXdYb1JXdEx4RGdaU2NEWmNvbmVNXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

TransModel使用不同模型效果不一樣,StyleGAN-Bedroom相對最優(yōu);

DM圖識別

擴散模型的生成圖識別屬于探索階段,偏探索性的論文也較多。

【DM圖與GAN圖檢測可行性分析】Towards the Detection of Diffusion Model Deepfakes

ICLR 2023 在投,Github

這篇文章作者探索了之前的GAN識別方法(CNNDetection, Grag[4] 等模型)能否用于 DM 模型圖的識別,是否有統(tǒng)一的檢測器可以識別兩種模型生成的圖:

  1. 使用的數(shù)據(jù)集是LSUN Bedroom[6],包括臥室(Bedroom)、客廳(Living Room)、餐廳(Dining Room)、辦公室(Office)、廚房(Kitchen)、街景(Street View)等場景。
  2. 測了5個GAN和5個DM模型,發(fā)現(xiàn)GAN上的模型直接用在DM模型的圖上檢測效果會變差很多,但Finetune一下性能就會恢復;
  3. 相比于GAN圖,DM圖在頻率人工信息更少;
  4. DM圖識別比GAN圖識別更難;
【DM圖檢測分析】On the detection of synthetic images generated by diffusion models

Arxiv 2023,Github

該文章也是做檢測分析的,通過頻域分析、模型檢測能力分析(將之前GAN識別的CNNDetection[3]模型和 Grag[4] 模型用于 DM檢測,當做魯邦的二分類進行)。論文通過實驗分析認為:

  1. 相同網(wǎng)絡(luò)結(jié)構(gòu)生成的圖片有相似的痕跡(比如DM圖的陰影和反射不對稱等等),這些痕跡有些在空間域可以發(fā)現(xiàn);
  2. 通過對現(xiàn)有的12個檢測器進行訓練和測試(真實數(shù)據(jù)源自COCO、ImageNet和UCID;合成圖來自COCO的langage prompts使用ProGAN生成),結(jié)果表明現(xiàn)有模型的泛化性能依然有限,比如在DM上訓,在DM的圖上測試,效果還可以,但跨模型測就不行了。
  3. 另外,如果圖片經(jīng)過二次處理(比如壓縮等社交媒體的變換),這些生成圖就更難判斷了,因為壓縮會損失一些痕跡(比如高頻信息等)。

作者還用了一些訓練方法(Platt scaling method [34]),在多模型融合基礎(chǔ)上,比單個模型性能要好。在作者測試的幾個模型中,Grag2021[4]單模型最優(yōu)(使用了No-down ResNet);這些篡改模型部分來自于IEEE VIP Cup [5]比賽。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qlAJRHmE-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NmJjMGE5NzY3MGVlZjE1ZmU5ZWUzMWVhNTVkOWRhY2ZfNjlXb2pIWDF1TEFlUklkMHFTdFd3SldGbWNsbmlrZWNfVG9rZW46V3JlRGJkbWk4b3RoaHh4Yk9EWWNic1FPbjJkXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

  • ProGAN上訓,跨模型測,發(fā)現(xiàn)在眾多模型中,DALL·E 2 和 ADM 的泛化能力最差。這一難度也從頻域的指紋分析上可以看出,ADM和DALL · E 2 的頻率特征與其他模型的差別最大。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-TCPnFSBV-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=Njg0OGI2NTRlMTBlZGJiMDFhZDgyMmFiZjk5Mzg4OTRfeWU5OUNNdWpJZXhGM1BacVRuUnlGMDM4V0N6Y0lxYmtfVG9rZW46WkxwQ2J6dVJxbzZ0a094VzVVcGNBN2lYbk9lXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

【誤差特征】DIRE for Diffusion-Generated Image Detection

Arxiv 2023

作者發(fā)現(xiàn)DM 圖可以被近似地被擴散模型重建,但真實圖片不行。將重建圖和原圖的圖片差異記為擴散重建差(DIffusion Reconstruction Error,DIRE),則DIRE可以作為特征進行2分類訓練,判斷是否虛假,泛化性會高很多;

重建圖像差DIRE可以區(qū)分真實圖和合成圖的原因如下圖:

  1. 合成圖在重建后變化往往較小;
  2. 真實圖在重建后變化相對較大;

我得理解是,真實圖在重建時會丟失很多信息,而生成圖由于本身就是模型生成的,重建時信息變化相對不大。因此差異可以反映其真假。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-aoqDHm9A-1685675351052)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NjBmYzc0MTFjZjBlODljMWNhMjgxYjE4YWE3ZjViZGVfNU44UVJQMFZaNEV2UG5qZVRxYnVVZzYxbEZUVzVHdzdfVG9rZW46SXE1UGJDTDlxb0ZaT1Z4cXZTemNPNFZTbmhmXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)][外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-cLd8iUvP-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NDdiYzYyMGRmY2RmZjAzMmEyNjdhZjAyMzdjMmQ2ZWVfcklDUmlpTmJ2TE1KRDdGYmhaUDlQb3A2ZVE3NlNWWHVfVG9rZW46V1VFdGJmMGVUb05naTh4TXhxbWMxNTFObnliXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

該方法通過預訓練的擴散模型(Denoising Diffusion Implicit Models,DDIMs[7])對圖片進程重建,測量輸入圖像與重建圖像之間的誤差。其實這個方法和上面梯度特征的方法LGrad很像,區(qū)別在于上面是通過 Transformation Model轉(zhuǎn)換模型獲得圖像梯度,這里通過 DDIM 重建圖計算差。

此外,作者提出了一個數(shù)據(jù)集 DiffusionForensics,同時復現(xiàn)了8個擴散模型對提出方法進行識別(ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion);

  • 跨模型泛化較好:比如ADM的DIRE 對 StyleGAN 也支持,
  • 跨數(shù)據(jù)集泛化:LSUN-B訓練模型在ImageNet上也很好;
  • 抗擾動較好:對JPEG壓縮 和 高斯模糊的圖,性能很好;

最后看下實驗指標,看起來在擴散模型上效果很好,這ACC/AP都挺高的,不知道在GAN圖上效果如何。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-aKmWh4h9-1685675351053)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=OTczMjAyYTk4ZGU0MDRjMjk0ZGZmN2JiZTUzMmFkMzJfYWJJWER3RkpGaTFwdWpBYUhqOVVvdzl4VHhVczJBUjNfVG9rZW46SmdqSmJaV2Jrb3hmR0p4NnhXdWNZNkszbjhiXzE2ODU2NzM2ODk6MTY4NTY3NzI4OV9WNA)]

其他可參考論文/項目

  • DM檢測的二分類baseline代碼:https://github.com/jonasricker/diffusion-model-deepfake-detection
  • 生成模型綜述:https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
  • Papers with Code - Detecting Images Generated by Diffusers
  • https://github.com/davide-coccomini/detecting-images-generated-by-diffusers

其他類型假圖檢測(Others types of Fake Image Detection)

  • 社交媒體中發(fā)的篡改圖:Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
  • 通用圖片造假檢測(局部造假等):Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github

Reference

[0] AIGC圖像生成模型發(fā)展與高潛方向

[1] 繪圖軟件midjourney的底層模型是什么? - 互聯(lián)網(wǎng)前沿資訊的回答 - 知乎 https://www.zhihu.com/question/585975898/answer/3013595427

[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot… For Now

[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva, “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,” in IEEE ICME, 2021.

[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva, “IEEE Video and Image Processing Cup,” https://grip-unina.github.io/vipcup2022/, 2022.

[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.

[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.

[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.

[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.

[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.

[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.

[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.

[13] FrepGAN: Robust deepfake detection using frequency-level perturbations

[14] DIRE for Diffusion-Generated Image Detection

[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.

[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.

[17] Detecting Deepfakes with Self-Blended Images文章來源地址http://www.zghlxwxcb.cn/news/detail-524521.html

到了這里,關(guān)于【城南】如何識別AI生成圖?視覺AIGC偽造檢測技術(shù)綜述的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • AIGC(生成式AI)試用 0 -- 如何測試此類應(yīng)用

    0.?起因 RPA主導的機器人流程自動化風頭正勁 AI由來已久 生成式AI正在改變著工作和生活的方式 生成式AI工具不斷更新?lián)Q代 思考的問題,生成式AI: -?能實現(xiàn)什么? -?不同工具間的區(qū)別? -?如何測試此類工具? 似乎想的有點多、有點大。何是結(jié)果?何時是結(jié)束? 不論深淺,

    2024年02月01日
    瀏覽(25)
  • 表情包也能用 AI 生成?如何借助 AIGC 自定義專屬表情包 #Memix

    表情包也能用 AI 生成?如何借助 AIGC 自定義專屬表情包 #Memix

    隨著我們越來越離不開社交媒體,表情包也已經(jīng)成為我們?nèi)粘I钪械谋貍鋯纹?。有著個人鮮明風格的「表情包」,不僅是獨特的「社交名片」,也能給人留下耳目一新的印象! 誰的收藏夾里沒有一堆私藏表情包呢! Memix 借助 AI 技術(shù)的發(fā)展,自定義專屬表情包已經(jīng)越來越簡

    2024年02月10日
    瀏覽(18)
  • 【】用 VisualGLM 進行AIGC多模識別和內(nèi)容生成

    【】用 VisualGLM 進行AIGC多模識別和內(nèi)容生成

    最近幾個月,整個AI行業(yè)的LLM(大語言模型)蓬勃發(fā)展,除了過去傳統(tǒng)的純文字的多模態(tài)能力的視覺語言模型,如 GPT-4,ImageBind等表現(xiàn)令人印象深刻。 ChatGLM-6B是中文用戶使用非常舒服的一個開源中文LLM。2023年5月17日,智譜AI和清華大學KEG實驗室開源了基于ChatGLM-6B的多模態(tài)對

    2024年02月11日
    瀏覽(10)
  • 機器視覺檢測技術(shù)是什么?突出的亮點有哪些?

    機器視覺檢測技術(shù)是一種利用圖像處理軟件分析處理相機捕捉到的圖像,以替代人眼在制造和測試過程中進行檢測和測量的技術(shù)。它廣泛應(yīng)用于工業(yè)自動化領(lǐng)域,可以提高生產(chǎn)效率和質(zhì)量控制的精度。機器視覺系統(tǒng)通常包括光源、相機、圖像處理單元和執(zhí)行機構(gòu)等組成部分。

    2024年04月28日
    瀏覽(15)
  • 如何制作正能量勵志語錄短視頻保姆級教程: AIGC生成腳本+ elevenlabs AI聲音克隆+AI生圖+PikaLabs生短視頻+Pexels素材+剪映視頻剪輯實操全流程演示

    如何制作正能量勵志語錄短視頻保姆級教程: AIGC生成腳本+ elevenlabs AI聲音克隆+AI生圖+PikaLabs生短視頻+Pexels素材+剪映視頻剪輯實操全流程演示

    課程場景:適合口才不好,文筆不好,不愿意出鏡的相關(guān)人員學習,經(jīng)常演講但是沒有時間做口播做錄制的老板、講師和專家,學完本課,不管您是誰,您都將輕松簡單的可以開始您的Vlog或者自媒體賬號的IP打造之路。 您將學到如何找爆款對標賬號。 您將學到如何通過AIGC以

    2024年02月02日
    瀏覽(56)
  • 深度學習在計算機視覺中的對象檢測技術(shù)

    計算機視覺是人工智能領(lǐng)域的一個重要分支,其主要研究如何讓計算機理解和處理圖像和視頻。對象檢測是計算機視覺中的一個重要任務(wù),它旨在在圖像中識別和定位特定類別的物體。隨著深度學習技術(shù)的發(fā)展,對象檢測技術(shù)也逐漸被深度學習所取代,這種方法在性能和準確

    2024年02月19日
    瀏覽(17)
  • 【計算機視覺】YOLOv9:物體檢測技術(shù)的飛躍發(fā)展

    【計算機視覺】YOLOv9:物體檢測技術(shù)的飛躍發(fā)展

    YOLOv9 引入了可編程梯度信息 (PGI) 和廣義高效層聚合網(wǎng)絡(luò) (GELAN) 等開創(chuàng)性技術(shù),標志著實時目標檢測領(lǐng)域的重大進步。該模型在效率、準確性和適應(yīng)性方面都有顯著提高,在 MS COCO 數(shù)據(jù)集上樹立了新的標桿。YOLOv9 項目雖然是由一個獨立的開源團隊開發(fā)的,但它建立在以下機構(gòu)

    2024年04月17日
    瀏覽(33)
  • 【模式識別&目標檢測】——模式識別技術(shù)&車牌檢測應(yīng)用

    【模式識別&目標檢測】——模式識別技術(shù)&車牌檢測應(yīng)用

    目錄 引入 一、模式識別主要方法 1、統(tǒng)計模式識別 2、基于隱馬爾可夫模型識別 3、模糊模式識別 4、人工神經(jīng)網(wǎng)絡(luò)模式識別 總結(jié) 二、模式識別應(yīng)用 1、車牌定位 2、車牌識別 參考文獻: 人在觀察事物或現(xiàn)象時,常 尋找它與其他事物或現(xiàn)象不同之處,并根據(jù)一定目的把相似、

    2024年02月13日
    瀏覽(87)
  • 生成對抗網(wǎng)絡(luò)與計算機視覺:提升對象檢測與識別能力

    計算機視覺技術(shù)在過去的幾年里取得了顯著的進展,這主要是由于深度學習技術(shù)的蓬勃發(fā)展。深度學習技術(shù)在計算機視覺領(lǐng)域的應(yīng)用主要集中在以下幾個方面: 對象檢測:通過在圖像中識別和定位特定的對象,如人臉、車輛、建筑物等。 圖像分類:通過將圖像分為多個類別

    2024年02月22日
    瀏覽(30)
  • 計算機視覺 - 基于黃金模板比較技術(shù)的缺陷檢測

    計算機視覺 - 基于黃金模板比較技術(shù)的缺陷檢測

    ????????基于黃金模板比對的檢測是一種常見的視覺應(yīng)用。當進行缺陷檢查而其他缺陷檢測方法是不可行的時候,使用金模板比較。另外當物體的表面或物體的形狀非常復雜時,此技術(shù)特別有用。 ???????? 雖然說黃金模板比較的技術(shù)的思路很簡單,但是真正落地實施確

    2024年02月09日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包