Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀

這篇具有很好參考價(jià)值的文章主要介紹了Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

文章標(biāo)題：Feature Prediction Diffusion Model for Video Anomaly Detection
文章信息：

Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
發(fā)表于：ICCV 2023
原文鏈接：https://openaccess.thecvf.com/content/ICCV2023/papers/Yan_Feature_Prediction_Diffusion_Model_for_Video_Anomaly_Detection_ICCV_2023_paper.pdf
源代碼：https://github.com/daidaidouer/FPDM

Abstract

在視頻異常檢測(cè)是一個(gè)重要的研究領(lǐng)域，在實(shí)際應(yīng)用中也是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。由于缺乏大規(guī)模標(biāo)注的異常事件，大多數(shù)現(xiàn)有的視頻異常檢測(cè)（VAD）方法側(cè)重于學(xué)習(xí)正常樣本的分布，以便檢測(cè)明顯偏離的樣本作為異常。為了更好地學(xué)習(xí)正常運(yùn)動(dòng)和外觀的分布，許多輔助網(wǎng)絡(luò)被用于提取前景對(duì)象或動(dòng)作信息。這些高層語(yǔ)義特征有效地過(guò)濾了背景噪聲，減少了其對(duì)檢測(cè)模型的影響。然而，這些額外的語(yǔ)義模型的能力對(duì)VAD方法的性能產(chǎn)生了重要影響。受擴(kuò)散模型（DM）出色的生成和抗噪聲能力的啟發(fā)，本文引入了一種新穎的基于DM的方法來(lái)預(yù)測(cè)用于異常檢測(cè)的視頻幀特征。我們的目標(biāo)是學(xué)習(xí)正常樣本的分布，而無(wú)需涉及任何額外的高層語(yǔ)義特征提取模型。為此，我們構(gòu)建了兩個(gè)去噪擴(kuò)散隱式模塊來(lái)預(yù)測(cè)和細(xì)化特征。第一個(gè)模塊專注于特征運(yùn)動(dòng)學(xué)習(xí)，而最后一個(gè)專注于特征外觀學(xué)習(xí)。據(jù)我們所知，這是第一個(gè)基于DM的用于VAD的特征預(yù)測(cè)方法。DM的強(qiáng)大能力也使得我們的方法能夠更準(zhǔn)確地預(yù)測(cè)正常特征，相較于基于非DM的特征預(yù)測(cè)的VAD方法。廣泛的實(shí)驗(yàn)證明了所提方法在性能上大大優(yōu)于最先進(jìn)的競(jìng)爭(zhēng)方法。代碼可在FPDM上獲得。

1. Introduction

視頻異常檢測(cè)（VAD）旨在識(shí)別在視頻中罕見且與正常行為不同的異常事件。成功檢測(cè)異常事件，如交通事故、暴力和踩踏事件，在廣泛應(yīng)用于公共安全的視頻監(jiān)控中具有重要意義。然而，由于真實(shí)世界中異常事件的種類繁多且難以收集大規(guī)模標(biāo)注數(shù)據(jù)，VAD是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

多年來(lái)已經(jīng)提出了許多視頻異常檢測(cè)（VAD）方法[9,10,14,19,23,33,34,39,45,46,57,62,68,71]，以解決這一問(wèn)題，其中一類學(xué)習(xí)方法由于相對(duì)可獲得的正常訓(xùn)練集以及其實(shí)現(xiàn)更好性能的能力而受到青睞[44]。這些一類學(xué)習(xí)的VAD方法假設(shè)具有所有樣本均為正常的訓(xùn)練數(shù)據(jù)，并構(gòu)建不同的模型來(lái)學(xué)習(xí)正常數(shù)據(jù)的分布。生成建模是這一領(lǐng)域中廣泛使用的技術(shù)，因?yàn)樵谟?xùn)練后，正常樣本可以比異常更好地生成。生成對(duì)抗網(wǎng)絡(luò)（GAN）[22, 52, 71, 72]和自編碼器（AE）[24, 29, 40, 46]是兩個(gè)流行的框架。盡管這些生成方法在VAD中取得了令人滿意的性能，但存在三個(gè)主要挑戰(zhàn)：(1) 基于GAN/AE的方法具有較弱的生成能力，導(dǎo)致低質(zhì)量生成圖像中的噪音增多，降低了性能，(2) 當(dāng)前的SOTA方法通常使用一些輔助模型，例如目標(biāo)檢測(cè)和動(dòng)作識(shí)別模型，來(lái)捕獲前景對(duì)象或動(dòng)作信息的特征，因此性能在很大程度上依賴于這些高級(jí)語(yǔ)義模型的表示能力，以及(3) 異常事件通常以新穎的外觀和/或異常運(yùn)動(dòng)為特征，增加了生成模型在這兩個(gè)方面捕獲正常性/異常性的難度。
總之，主要貢獻(xiàn)有三個(gè)：

我們引入了一種基于擴(kuò)散模型的方法，用于預(yù)測(cè)語(yǔ)音活動(dòng)檢測(cè)（VAD）中每個(gè)樣本的特征。據(jù)我們所知，這是首個(gè)利用擴(kuò)散模型進(jìn)行視頻異常檢測(cè)的工作。
我們?cè)O(shè)計(jì)了兩種DDIM模塊，分別從正常樣本中進(jìn)行運(yùn)動(dòng)和外觀學(xué)習(xí)，以保證預(yù)測(cè)特征的生成質(zhì)量。
該模型以2D圖像作為輸入，沒有輔助的語(yǔ)義網(wǎng)絡(luò)，同時(shí)實(shí)現(xiàn)了高度可比的性能，利用高層次的3D語(yǔ)義特征的方法。

在四個(gè)公開的視頻異常檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，我們的方法大大優(yōu)于基于圖像特征的VAD同行，并表現(xiàn)出良好的方法使用3D語(yǔ)義特征。

2. Related work

針對(duì)不同的應(yīng)用場(chǎng)景，根據(jù)訓(xùn)練樣本的標(biāo)注情況，視頻異常檢測(cè)方法大致可以分為半監(jiān)督、單類和無(wú)監(jiān)督VAD三類。由于我們的方法屬于單類類型，因此我們只回顧單類VAD方法。

早期的單類VAD方法是兩步方法，其中特征提取和學(xué)習(xí)分離。他們首先使用手工制作的特征描述符來(lái)呈現(xiàn)每個(gè)幀，例如3D梯度特征[38]，梯度直方圖（HOG）[16]，直方圖光流（霍夫）[16]，詞袋（BOW）等，然后構(gòu)建一個(gè)淺層模型來(lái)學(xué)習(xí)正態(tài)分布，例如基于字典的模型[75]，概率模型[13，41]和重建模型[16，38，75]。這些傳統(tǒng)方法的缺點(diǎn)是手工制作的特征性能差。隨著深度學(xué)習(xí)的發(fā)展[35，36，64 -67]，基于卷積神經(jīng)網(wǎng)絡(luò)的方法緊隨其后。CNN將特征提取和學(xué)習(xí)集成到端到端框架中[42，43，70]。這些基于CNN的方法大多屬于生成方法，其中模型對(duì)正態(tài)性應(yīng)用特征學(xué)習(xí)，并根據(jù)生成樣本與原始樣本之間的差異檢測(cè)異常。生成對(duì)抗網(wǎng)絡(luò)（GAN）[20，51，73]和基于自動(dòng)編碼器的網(wǎng)絡(luò)（AE）[25，27，56]被廣泛用于這種正常的特征學(xué)習(xí)?；谶@些框架，提出了記憶模塊[24]和特征預(yù)測(cè)模塊[33]來(lái)增強(qiáng)特征學(xué)習(xí)的能力。為了進(jìn)一步提高性能，一些高級(jí)特征提取模型，例如，采用對(duì)象檢測(cè)[23，37]、動(dòng)作識(shí)別[62]和光流[33]來(lái)獲得前景或運(yùn)動(dòng)信息以用于正常性的學(xué)習(xí)。輔助模型為這些VAD方法帶來(lái)了好處，同時(shí)增加了對(duì)語(yǔ)義表示的依賴性。

近年來(lái)，擴(kuò)散模型在許多生成性任務(wù)上取得了最好的表現(xiàn)，成為研究的熱點(diǎn)[5，17，26，49，53]。計(jì)算機(jī)視覺中已經(jīng)出現(xiàn)了許多應(yīng)用，例如圖像修復(fù)[7，15，54]、圖像處理[47]、圖像超分辨率[7，18]和圖像到圖像轉(zhuǎn)換[50，76]。這些應(yīng)用程序最先進(jìn)的性能證實(shí)了基于DM的模型具有非凡的生成能力。為了進(jìn)一步將DMS擴(kuò)展到主流的計(jì)算機(jī)視覺任務(wù)，已經(jīng)提出了一些基于DM的潛在表示學(xué)習(xí)方法，如用于目標(biāo)檢測(cè)的DiffusionDet[12]、用于分割的SegDiff[2]和用于分類的SBG分類器[77]。這些區(qū)分任務(wù)通常需要更強(qiáng)大的模型，不容易受到背景的干擾。因此，這些方法在不同任務(wù)上的成功驗(yàn)證了數(shù)據(jù)挖掘的抗噪聲能力。早期的擴(kuò)散模型，如去噪擴(kuò)散概率模型(DDPM)，由于馬爾可夫過(guò)程通過(guò)微小的修正轉(zhuǎn)換數(shù)據(jù)分布，在采樣階段需要相當(dāng)多的去噪步驟。為了加快采樣過(guò)程，已經(jīng)提出了許多加速擴(kuò)散方法[30，53，74]。去噪擴(kuò)散隱式模型(DDIM)因其無(wú)需訓(xùn)練的特性而被廣泛應(yīng)用。DDIM不需要額外的訓(xùn)練，可以直接應(yīng)用先進(jìn)的采樣算法，步驟更少，保真度更高。因此，基于DDIM的方法更有可能在實(shí)際中被采用。

3. Method

我們的主要?jiǎng)訖C(jī)是設(shè)計(jì)一種基于擴(kuò)散模型的方法，以便在沒有3D特征提取網(wǎng)絡(luò)的幫助下很好地學(xué)習(xí)正常運(yùn)動(dòng)和外觀的分布。在推理階段，正常樣本的特征比異常樣本的特征更容易被優(yōu)化模型預(yù)測(cè)。

如圖2所示，我們的框架包含三個(gè)部分，即幀編碼器、特征預(yù)測(cè)擴(kuò)散模塊和特征細(xì)化擴(kuò)散模塊。首先，我們使用一個(gè)編碼器來(lái)提取每一幀的特征。任何預(yù)訓(xùn)練的CNN都可以用作編碼器。

在這里，我們采用了[48]中的輕量編碼器，因?yàn)椋?br> （1）輸出特征圖的大小在空間上比原始圖像的大小小64倍，并且只包含四個(gè)通道，這大大減少了后續(xù)擴(kuò)散模塊的計(jì)算，
（2）該編碼器的預(yù)訓(xùn)練是無(wú)監(jiān)督的，這更容易獲得。

為了預(yù)測(cè)特征，我們?cè)O(shè)計(jì)了兩個(gè)基于DDIM的模塊來(lái)預(yù)測(cè)和細(xì)化每幀的特征。注意，DDIM具有與DDPM相同的訓(xùn)練過(guò)程，但在采樣階段更有效，因?yàn)樗捎锰诫[式采樣器，而不是逐步提取噪聲信息。特征預(yù)測(cè)擴(kuò)散模塊側(cè)重于學(xué)習(xí)運(yùn)動(dòng)的分布，特征細(xì)化擴(kuò)散模塊側(cè)重于外觀分布學(xué)習(xí)。

Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

3.1. Problem Formulation

該問(wèn)題旨在解決的是通過(guò)給定幾個(gè)連續(xù)的視頻幀來(lái)生成一個(gè)特征，然后估計(jì)該特征是否屬于學(xué)習(xí)的分布。形式上，給定具有k個(gè)連續(xù)幀 $X$ ={ $x_1$ ， $x_2$ ，···， $x_k$ }的視頻剪輯，我們的目標(biāo)是預(yù)測(cè)第k幀的特征，簡(jiǎn)稱為 $\ddot{f}(x_k)$ 和 $\dot{f}_k$ 。我們使用 $\dot{f}_k$ 和 $\ddot{f}(x_k)$ 來(lái)表示特征預(yù)測(cè)和細(xì)化擴(kuò)散模塊的輸出。由于涉及到時(shí)間步，我們用 $f_k^t$ 表示時(shí)間步長(zhǎng)t時(shí)第k幀的特征。因此， $f^0_k$ 指的是時(shí)間步長(zhǎng)0處的第k個(gè)特征，其等同于 $f_k$ 。與原始特征 $f_k$ 相比，第k幀的異常分?jǐn)?shù)可以通過(guò) $f_k$ 與 $\ddot{f}_k$ 之間的均方誤差來(lái)計(jì)算。

3.2. Feature prediction diffusion module

公式有點(diǎn)復(fù)雜，簡(jiǎn)單來(lái)說(shuō)就是圖中的過(guò)程：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

與之前采用k個(gè)樣本預(yù)測(cè)第k+1個(gè)樣本的工作不同，我們將1到k-1幀的特征{ $f^0_1，f^0_ 2，···，f^0_{k?1}$ }和第k幀的噪聲特征 $f^t_k$ 一起作為輸入，預(yù)測(cè)特征 $\dot{f}_k^0$ 。為此，我們構(gòu)建了一個(gè)特征預(yù)測(cè)擴(kuò)散模塊，通過(guò)使用隱式采樣[53]逐步去除 $f^t_k$ 的噪聲，以生成 $\dot{f}_k^0$ 。
對(duì)于訓(xùn)練，我們的擴(kuò)散模型的目標(biāo)是學(xué)習(xí)近似原始數(shù)據(jù)分布 $q_θ(f^0)$ 的分布 $p_θ(f^0)$ 。在前向過(guò)程中，后驗(yàn) $q(f^{1:T}| f^0)$ 固定到馬爾可夫鏈：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

其中t ∈ [1，T]是時(shí)間步長(zhǎng)，并且：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中 $α_t ∈$ { $α_t$ } $^T_{t=1}$ 是控制 $f^{t?1}$ 的百分比的時(shí)間表， $1-α_t)$ 控制噪聲的百分比。隨著時(shí)間步長(zhǎng)t的增大， $α_t$ 減小?；谶@些性質(zhì)， $f_t$ 可以由 $f_0$ 和標(biāo)準(zhǔn)高斯噪聲的線性組合表示如下：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
為了學(xué)習(xí)分布 $p_θ(f^0)$ ，我們基于LDM [49]構(gòu)建了一個(gè)U網(wǎng)擴(kuò)散網(wǎng)絡(luò) $\epsilon_θ(·)$ 。為了更好地預(yù)測(cè)特征，我們修改LDM的兩個(gè)部分：
（1）我們丟棄潛在條件部分并將所有的交叉注意層修改為傳統(tǒng)的注意層，
（2）每個(gè)輸入樣本包含k個(gè)特征{ $f^0_1，f^0_ 2，···，f^t_k$ }，其中僅第k個(gè)特征被應(yīng)用擴(kuò)散前向過(guò)程。這種修改有兩個(gè)原因：
（1）我們希望從正常樣本中學(xué)習(xí)特征的分布，而不涉及任何其他潛在條件
（2）結(jié)合前一幀的連續(xù)特征，我們可以向 $\epsilon_θ(·)$ 提供運(yùn)動(dòng)信息，使這個(gè)擴(kuò)散模塊專注于特征運(yùn)動(dòng)學(xué)習(xí)。

根據(jù)文獻(xiàn)[26,53]，在訓(xùn)練中使用了目標(biāo)函數(shù)的簡(jiǎn)化版本，其定義如下：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中，t是時(shí)間步長(zhǎng)， $\epsilon_θ(·,t)$ 是時(shí)間t處的預(yù)測(cè)噪聲。用Eq.(3)到EQ.(4)當(dāng)給定足夠的特征樣本和隨機(jī)時(shí)間步長(zhǎng)t 0∈ [ 1,T ]時(shí)，參數(shù)θ可以得到優(yōu)化。

對(duì)于相反的過(guò)程，在時(shí)間t-1的第k個(gè)樣本的特征可以通過(guò)以下公式在給定{ $f^0_1，f^0 _2，...，f^t_k$ }的情況下生成一次：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中， $α_t$ ∈{ ${α_t}$ } $^T_{t=1}$ 是控制每個(gè)步驟的附加噪聲的時(shí)間表。在采樣階段，第（t-1）步將特征{ $f^0_1，f^0_2，···，f^t_k$ }作為輸入來(lái)預(yù)測(cè) $f^{t-1}_k$ 。

對(duì)反向過(guò)程的連續(xù)監(jiān)督可以有效地保證運(yùn)動(dòng)預(yù)測(cè)，但它可能會(huì)錯(cuò)過(guò)一些外觀細(xì)節(jié)，因?yàn)闊o(wú)噪聲的k-1特征有助于運(yùn)動(dòng)學(xué)習(xí)，同時(shí)對(duì)外觀學(xué)習(xí)有影響。為此，我們創(chuàng)建另一個(gè)DDIM模塊來(lái)細(xì)化外觀信息。

3.3. Feature refinement diffusion module

上一個(gè)模塊考慮了運(yùn)動(dòng)關(guān)系，但是外觀信息被忽略，為了讓生成的最后一幀更接近真實(shí)值，又設(shè)計(jì)了這個(gè)模塊，簡(jiǎn)單來(lái)說(shuō)還是下面的圖片過(guò)程：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
我們?cè)陬A(yù)測(cè)模塊旁邊構(gòu)建了一個(gè)特征細(xì)化擴(kuò)散模塊。該精化模型強(qiáng)調(diào)學(xué)習(xí)特征的外觀分布。同樣，我們采用基于LDM的U-net作為細(xì)化的擴(kuò)散網(wǎng)絡(luò)，其中的條件部分被保持。我們將前一個(gè)預(yù)測(cè)模塊的輸出，即去噪特征 $\dot{f}_k^0$ 作為輸入，并使用第k幀的原始特征 $f^0_k$ 作為條件，以生成表示為 $\ddot{f}_k^0$ 的細(xì)化特征。條件 $f^0_k$ 用于交叉注意以保證特征外觀學(xué)習(xí)。特征細(xì)化擴(kuò)散模塊的目標(biāo)是學(xué)習(xí)一個(gè)近似于 $q(f^0)$ 的分布 $p_φ(f^0)$ 。

與先前的特征預(yù)測(cè)模塊相同，后驗(yàn) $q(\dot{f}^{1:T}| \dot{f}^0)$ 固定到馬爾可夫鏈，并且在給定 $\dot{f}^0$ 和高斯噪聲 $\epsilon$ 的情況下，可以按方程(3)計(jì)算時(shí)刻t處的輸入 $\dot{f}^t$ 。

為了使細(xì)化網(wǎng)絡(luò) $\epsilon_φ$ 專注于外觀學(xué)習(xí)，我們通過(guò)在基礎(chǔ)的 UNet 主干網(wǎng)絡(luò)中引入交叉注意力機(jī)制，并將原始特征 $f^0_k$ 作為條件傳入交叉注意力層。我們對(duì)特征 $f^0_k$ 進(jìn)行展平，然后使用線性變換得到一個(gè) d-維向量 $\widehat{f^0_k}$ ，交叉注意力的實(shí)現(xiàn)如下：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中 $W_k$ 、 $W_q$ 、 $W_v$ 是可學(xué)習(xí)的投影矩陣， $\phi(\dot{f}_k^t)$ φ（stecft k）是每個(gè)交叉注意層的輸入特征圖。對(duì)于不同的交叉注意層， $\widehat{f^0_k}$ 是不變的，這為特征學(xué)習(xí)提供了一致的外觀監(jiān)督。損失函數(shù)也是DDIM的簡(jiǎn)化版本，定義為：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
對(duì)于逆過(guò)程，我們可以通過(guò)以下方式獲得t-1時(shí)間步長(zhǎng)的特征：

其中，參數(shù) $\alpha$ 和 $\sigma$ 與方程 (5) 中的相同。在特定的時(shí)間步 t，通過(guò)方程 (9) 可以獲得經(jīng)過(guò)細(xì)化的特征 $\ddot{f}_k^0$ 。
為了進(jìn)行測(cè)試，我們使用MSE來(lái)計(jì)算 $f^0_k$ 和原始特征 $\ddot{f}_k^0$ 之間的異常分?jǐn)?shù)，定義為：
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
在訓(xùn)練階段，我們分別訓(xùn)練兩個(gè)擴(kuò)散模塊，即在預(yù)測(cè)模塊收斂后再訓(xùn)練細(xì)化模塊。這是因?yàn)榧?xì)化模塊的輸入是預(yù)測(cè)模塊的采樣輸出，在訓(xùn)練初期質(zhì)量較低。聯(lián)合學(xué)習(xí)對(duì)細(xì)化模塊的性能有負(fù)面影響（參見表格3的結(jié)果）。因此，我們采用了分開訓(xùn)練的策略。訓(xùn)練和推斷的偽代碼如算法1所示。
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

4. Experiments and discussions

4.1. Datasets

在四個(gè)視頻異常檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)證評(píng)估:

CUHK Avenue
ShanghaiTech
UCF-Crime
UBnormal

ShanghaiTech和UCF-Crime是大規(guī)模真實(shí)世界的VAD數(shù)據(jù)集，UBnormal是一個(gè)生成的數(shù)據(jù)集。

4.2. Performance evaluation metrics

和之前的很多工作一樣采用AUC作為評(píng)價(jià)指標(biāo)，結(jié)果如表1：

表1. 不同的一類語(yǔ)音活動(dòng)檢測(cè)（VAD）方法的AUC。OD指的是來(lái)自目標(biāo)檢測(cè)方法的前景邊界框，而I3D、R3D和A3D分別指ConvNet3D、ResNext3D和動(dòng)作識(shí)別網(wǎng)絡(luò)的3D特征。 ‘(FPM)’ 表示該模型還采用了基于幀預(yù)測(cè)的方法進(jìn)行VAD。
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

4.3. Implementation details

遵循許多先前的研究工作[24, 34, 45]，圖像的輸入尺寸設(shè)置為256×256。由于編碼器有四個(gè)2×下采樣層，每個(gè)樣本的最終特征圖的大小為32×32×4。根據(jù)視頻異常檢測(cè)中第一個(gè)預(yù)測(cè)框架的設(shè)置，我們使用四個(gè)連續(xù)的相鄰幀來(lái)預(yù)測(cè)第五幀[33]。具體而言，我們?yōu)橛?xùn)練和測(cè)試創(chuàng)建一個(gè)立方體，其中包含四個(gè)原始特征和來(lái)自第五個(gè)特征的噪聲特征。我們使用DDIM [53]中推薦的 $\alpha$ 和 $\sigma$ 的設(shè)置。在訓(xùn)練階段，將訓(xùn)練輪數(shù) $S$ 設(shè)置為60，包括開始時(shí)的12個(gè)熱身輪數(shù)，時(shí)間步長(zhǎng) $T$ 和學(xué)習(xí)率分別設(shè)置為1k和 $10^{-5}$ 。在推理階段，我們采用200步的采樣計(jì)劃 $T^{'}$ ，即按照[53]的設(shè)置， $T^{'}$ 中的每一步相當(dāng)于 $T$ 中的五步。此外，我們將 $t$ 設(shè)置為 $0.25 T^{'}$ 以進(jìn)行采樣，因?yàn)樵赱28, 63]中發(fā)現(xiàn)這是最佳設(shè)置。因此，與DDPM相比，采樣階段加速了20倍。

5. Conclusions

本文引入了首個(gè)用于視頻異常檢測(cè)的特征預(yù)測(cè)擴(kuò)散模型（DDIM）。我們進(jìn)一步設(shè)計(jì)了兩個(gè)DDIM模塊，即特征預(yù)測(cè)擴(kuò)散模塊和特征細(xì)化擴(kuò)散模塊，用于從正常樣本中學(xué)習(xí)運(yùn)動(dòng)和外觀。令人印象深刻的是，盡管我們的模型將圖像作為輸入以預(yù)測(cè)用于異常檢測(cè)的特征，但與利用高級(jí)3D語(yǔ)義特征的方法相比，它表現(xiàn)出競(jìng)爭(zhēng)性的性能。廣泛的實(shí)證結(jié)果還表明，我們的方法在對(duì)抗最先進(jìn)的基于2D圖像特征的VAD模型方面具有優(yōu)越性。

閱讀總結(jié)

difussion那一塊還不是很了解，還需要多學(xué)習(xí)。
創(chuàng)新點(diǎn)主要是首次將difussion引入到了視頻異常檢測(cè)領(lǐng)域，當(dāng)然感覺最近的VAD論文好幾個(gè)都說(shuō)自己首次?？戳艘幌掠胐ifussion做VAD的感覺還是不算多的，有潛力。
2d的VAD檢測(cè)基本上有去考慮運(yùn)動(dòng)和外觀的重建，這篇也是。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-797302.html

到了這里，關(guān)于Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！