文章標(biāo)題:Feature Prediction Diffusion Model for Video Anomaly Detection
文章信息:
發(fā)表于:ICCV 2023
原文鏈接:https://openaccess.thecvf.com/content/ICCV2023/papers/Yan_Feature_Prediction_Diffusion_Model_for_Video_Anomaly_Detection_ICCV_2023_paper.pdf
源代碼:https://github.com/daidaidouer/FPDM
Abstract
在視頻異常檢測(cè)是一個(gè)重要的研究領(lǐng)域,在實(shí)際應(yīng)用中也是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。由于缺乏大規(guī)模標(biāo)注的異常事件,大多數(shù)現(xiàn)有的視頻異常檢測(cè)(VAD)方法側(cè)重于學(xué)習(xí)正常樣本的分布,以便檢測(cè)明顯偏離的樣本作為異常。為了更好地學(xué)習(xí)正常運(yùn)動(dòng)和外觀的分布,許多輔助網(wǎng)絡(luò)被用于提取前景對(duì)象或動(dòng)作信息。這些高層語(yǔ)義特征有效地過(guò)濾了背景噪聲,減少了其對(duì)檢測(cè)模型的影響。然而,這些額外的語(yǔ)義模型的能力對(duì)VAD方法的性能產(chǎn)生了重要影響。受擴(kuò)散模型(DM)出色的生成和抗噪聲能力的啟發(fā),本文引入了一種新穎的基于DM的方法來(lái)預(yù)測(cè)用于異常檢測(cè)的視頻幀特征。我們的目標(biāo)是學(xué)習(xí)正常樣本的分布,而無(wú)需涉及任何額外的高層語(yǔ)義特征提取模型。為此,我們構(gòu)建了兩個(gè)去噪擴(kuò)散隱式模塊來(lái)預(yù)測(cè)和細(xì)化特征。第一個(gè)模塊專注于特征運(yùn)動(dòng)學(xué)習(xí),而最后一個(gè)專注于特征外觀學(xué)習(xí)。據(jù)我們所知,這是第一個(gè)基于DM的用于VAD的特征預(yù)測(cè)方法。DM的強(qiáng)大能力也使得我們的方法能夠更準(zhǔn)確地預(yù)測(cè)正常特征,相較于基于非DM的特征預(yù)測(cè)的VAD方法。廣泛的實(shí)驗(yàn)證明了所提方法在性能上大大優(yōu)于最先進(jìn)的競(jìng)爭(zhēng)方法。代碼可在FPDM上獲得。
1. Introduction
視頻異常檢測(cè)(VAD)旨在識(shí)別在視頻中罕見且與正常行為不同的異常事件。成功檢測(cè)異常事件,如交通事故、暴力和踩踏事件,在廣泛應(yīng)用于公共安全的視頻監(jiān)控中具有重要意義。然而,由于真實(shí)世界中異常事件的種類繁多且難以收集大規(guī)模標(biāo)注數(shù)據(jù),VAD是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
多年來(lái)已經(jīng)提出了許多視頻異常檢測(cè)(VAD)方法[9,10,14,19,23,33,34,39,45,46,57,62,68,71],以解決這一問(wèn)題,其中一類學(xué)習(xí)方法由于相對(duì)可獲得的正常訓(xùn)練集以及其實(shí)現(xiàn)更好性能的能力而受到青睞[44]。這些一類學(xué)習(xí)的VAD方法假設(shè)具有所有樣本均為正常的訓(xùn)練數(shù)據(jù),并構(gòu)建不同的模型來(lái)學(xué)習(xí)正常數(shù)據(jù)的分布。生成建模是這一領(lǐng)域中廣泛使用的技術(shù),因?yàn)樵谟?xùn)練后,正常樣本可以比異常更好地生成。生成對(duì)抗網(wǎng)絡(luò)(GAN)[22, 52, 71, 72]和自編碼器(AE)[24, 29, 40, 46]是兩個(gè)流行的框架。盡管這些生成方法在VAD中取得了令人滿意的性能,但存在三個(gè)主要挑戰(zhàn):(1) 基于GAN/AE的方法具有較弱的生成能力,導(dǎo)致低質(zhì)量生成圖像中的噪音增多,降低了性能,(2) 當(dāng)前的SOTA方法通常使用一些輔助模型,例如目標(biāo)檢測(cè)和動(dòng)作識(shí)別模型,來(lái)捕獲前景對(duì)象或動(dòng)作信息的特征,因此性能在很大程度上依賴于這些高級(jí)語(yǔ)義模型的表示能力,以及(3) 異常事件通常以新穎的外觀和/或異常運(yùn)動(dòng)為特征,增加了生成模型在這兩個(gè)方面捕獲正常性/異常性的難度。
總之,主要貢獻(xiàn)有三個(gè):
- 我們引入了一種基于擴(kuò)散模型的方法,用于預(yù)測(cè)語(yǔ)音活動(dòng)檢測(cè)(VAD)中每個(gè)樣本的特征。據(jù)我們所知,這是首個(gè)利用擴(kuò)散模型進(jìn)行視頻異常檢測(cè)的工作。
- 我們?cè)O(shè)計(jì)了兩種DDIM模塊,分別從正常樣本中進(jìn)行運(yùn)動(dòng)和外觀學(xué)習(xí),以保證預(yù)測(cè)特征的生成質(zhì)量。
- 該模型以2D圖像作為輸入,沒有輔助的語(yǔ)義網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)了高度可比的性能,利用高層次的3D語(yǔ)義特征的方法。
在四個(gè)公開的視頻異常檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法大大優(yōu)于基于圖像特征的VAD同行,并表現(xiàn)出良好的方法使用3D語(yǔ)義特征。
2. Related work
針對(duì)不同的應(yīng)用場(chǎng)景,根據(jù)訓(xùn)練樣本的標(biāo)注情況,視頻異常檢測(cè)方法大致可以分為半監(jiān)督、單類和無(wú)監(jiān)督VAD三類。由于我們的方法屬于單類類型,因此我們只回顧單類VAD方法。
早期的單類VAD方法是兩步方法,其中特征提取和學(xué)習(xí)分離。他們首先使用手工制作的特征描述符來(lái)呈現(xiàn)每個(gè)幀,例如3D梯度特征[38],梯度直方圖(HOG)[16],直方圖光流(霍夫)[16],詞袋(BOW)等,然后構(gòu)建一個(gè)淺層模型來(lái)學(xué)習(xí)正態(tài)分布,例如基于字典的模型[75],概率模型[13,41]和重建模型[16,38,75]。這些傳統(tǒng)方法的缺點(diǎn)是手工制作的特征性能差。隨著深度學(xué)習(xí)的發(fā)展[35,36,64 -67],基于卷積神經(jīng)網(wǎng)絡(luò)的方法緊隨其后。CNN將特征提取和學(xué)習(xí)集成到端到端框架中[42,43,70]。這些基于CNN的方法大多屬于生成方法,其中模型對(duì)正態(tài)性應(yīng)用特征學(xué)習(xí),并根據(jù)生成樣本與原始樣本之間的差異檢測(cè)異常。生成對(duì)抗網(wǎng)絡(luò)(GAN)[20,51,73]和基于自動(dòng)編碼器的網(wǎng)絡(luò)(AE)[25,27,56]被廣泛用于這種正常的特征學(xué)習(xí)?;谶@些框架,提出了記憶模塊[24]和特征預(yù)測(cè)模塊[33]來(lái)增強(qiáng)特征學(xué)習(xí)的能力。為了進(jìn)一步提高性能,一些高級(jí)特征提取模型,例如,采用對(duì)象檢測(cè)[23,37]、動(dòng)作識(shí)別[62]和光流[33]來(lái)獲得前景或運(yùn)動(dòng)信息以用于正常性的學(xué)習(xí)。輔助模型為這些VAD方法帶來(lái)了好處,同時(shí)增加了對(duì)語(yǔ)義表示的依賴性。
近年來(lái),擴(kuò)散模型在許多生成性任務(wù)上取得了最好的表現(xiàn),成為研究的熱點(diǎn)[5,17,26,49,53]。計(jì)算機(jī)視覺中已經(jīng)出現(xiàn)了許多應(yīng)用,例如圖像修復(fù)[7,15,54]、圖像處理[47]、圖像超分辨率[7,18]和圖像到圖像轉(zhuǎn)換[50,76]。這些應(yīng)用程序最先進(jìn)的性能證實(shí)了基于DM的模型具有非凡的生成能力。為了進(jìn)一步將DMS擴(kuò)展到主流的計(jì)算機(jī)視覺任務(wù),已經(jīng)提出了一些基于DM的潛在表示學(xué)習(xí)方法,如用于目標(biāo)檢測(cè)的DiffusionDet[12]、用于分割的SegDiff[2]和用于分類的SBG分類器[77]。這些區(qū)分任務(wù)通常需要更強(qiáng)大的模型,不容易受到背景的干擾。因此,這些方法在不同任務(wù)上的成功驗(yàn)證了數(shù)據(jù)挖掘的抗噪聲能力。早期的擴(kuò)散模型,如去噪擴(kuò)散概率模型(DDPM),由于馬爾可夫過(guò)程通過(guò)微小的修正轉(zhuǎn)換數(shù)據(jù)分布,在采樣階段需要相當(dāng)多的去噪步驟。為了加快采樣過(guò)程,已經(jīng)提出了許多加速擴(kuò)散方法[30,53,74]。去噪擴(kuò)散隱式模型(DDIM)因其無(wú)需訓(xùn)練的特性而被廣泛應(yīng)用。DDIM不需要額外的訓(xùn)練,可以直接應(yīng)用先進(jìn)的采樣算法,步驟更少,保真度更高。因此,基于DDIM的方法更有可能在實(shí)際中被采用。
3. Method
我們的主要?jiǎng)訖C(jī)是設(shè)計(jì)一種基于擴(kuò)散模型的方法,以便在沒有3D特征提取網(wǎng)絡(luò)的幫助下很好地學(xué)習(xí)正常運(yùn)動(dòng)和外觀的分布。在推理階段,正常樣本的特征比異常樣本的特征更容易被優(yōu)化模型預(yù)測(cè)。
如圖2所示,我們的框架包含三個(gè)部分,即幀編碼器、特征預(yù)測(cè)擴(kuò)散模塊和特征細(xì)化擴(kuò)散模塊。首先,我們使用一個(gè)編碼器來(lái)提取每一幀的特征。任何預(yù)訓(xùn)練的CNN都可以用作編碼器。
在這里,我們采用了[48]中的輕量編碼器,因?yàn)椋?br> (1)輸出特征圖的大小在空間上比原始圖像的大小小64倍,并且只包含四個(gè)通道,這大大減少了后續(xù)擴(kuò)散模塊的計(jì)算,
(2)該編碼器的預(yù)訓(xùn)練是無(wú)監(jiān)督的,這更容易獲得。
為了預(yù)測(cè)特征,我們?cè)O(shè)計(jì)了兩個(gè)基于DDIM的模塊來(lái)預(yù)測(cè)和細(xì)化每幀的特征。注意,DDIM具有與DDPM相同的訓(xùn)練過(guò)程,但在采樣階段更有效,因?yàn)樗捎锰诫[式采樣器,而不是逐步提取噪聲信息。特征預(yù)測(cè)擴(kuò)散模塊側(cè)重于學(xué)習(xí)運(yùn)動(dòng)的分布,特征細(xì)化擴(kuò)散模塊側(cè)重于外觀分布學(xué)習(xí)。
3.1. Problem Formulation
該問(wèn)題旨在解決的是通過(guò)給定幾個(gè)連續(xù)的視頻幀來(lái)生成一個(gè)特征,然后估計(jì)該特征是否屬于學(xué)習(xí)的分布。形式上,給定具有k個(gè)連續(xù)幀 X X X={ x 1 x_1 x1?, x 2 x_2 x2?,···, x k x_k xk?}的視頻剪輯,我們的目標(biāo)是預(yù)測(cè)第k幀的特征,簡(jiǎn)稱為 f ¨ ( x k ) \ddot{f}(x_k) f¨?(xk?)和 f ˙ k \dot{f}_k f˙?k?。我們使用 f ˙ k \dot{f}_k f˙?k?和 f ¨ ( x k ) \ddot{f}(x_k) f¨?(xk?)來(lái)表示特征預(yù)測(cè)和細(xì)化擴(kuò)散模塊的輸出。由于涉及到時(shí)間步,我們用 f k t f_k^t fkt?表示時(shí)間步長(zhǎng)t時(shí)第k幀的特征。因此, f k 0 f^0_k fk0?指的是時(shí)間步長(zhǎng)0處的第k個(gè)特征,其等同于 f k f_k fk?。與原始特征 f k f_k fk?相比,第k幀的異常分?jǐn)?shù)可以通過(guò) f k f_k fk?與 f ¨ k \ddot{f}_k f¨?k?之間的均方誤差來(lái)計(jì)算。
3.2. Feature prediction diffusion module
公式有點(diǎn)復(fù)雜,簡(jiǎn)單來(lái)說(shuō)就是圖中的過(guò)程:
與之前采用k個(gè)樣本預(yù)測(cè)第k+1個(gè)樣本的工作不同,我們將1到k-1幀的特征{
f
1
0
,
f
2
0
,
?
?
?
,
f
k
?
1
0
f^0_1,f^0_ 2,···,f^0_{k?1}
f10?,f20?,???,fk?10?}和第k幀的噪聲特征
f
k
t
f^t_k
fkt?一起作為輸入,預(yù)測(cè)特征
f
˙
k
0
\dot{f}_k^0
f˙?k0?。為此,我們構(gòu)建了一個(gè)特征預(yù)測(cè)擴(kuò)散模塊,通過(guò)使用隱式采樣[53]逐步去除
f
k
t
f^t_k
fkt?的噪聲,以生成
f
˙
k
0
\dot{f}_k^0
f˙?k0?。
對(duì)于訓(xùn)練,我們的擴(kuò)散模型的目標(biāo)是學(xué)習(xí)近似原始數(shù)據(jù)分布
q
θ
(
f
0
)
q_θ(f^0)
qθ?(f0)的分布
p
θ
(
f
0
)
p_θ(f^0)
pθ?(f0)。在前向過(guò)程中,后驗(yàn)
q
(
f
1
:
T
∣
f
0
)
q(f^{1:T}| f^0)
q(f1:T∣f0)固定到馬爾可夫鏈:
其中t ∈ [1,T]是時(shí)間步長(zhǎng),并且:
其中
α
t
∈
α_t ∈
αt?∈{
α
t
α_t
αt?}
t
=
1
T
^T_{t=1}
t=1T?是控制
f
t
?
1
f^{t?1}
ft?1的百分比的時(shí)間表,
(
1
?
α
t
)
(1-α_t)
(1?αt?)控制噪聲的百分比。隨著時(shí)間步長(zhǎng)t的增大,
α
t
α_t
αt?減小?;谶@些性質(zhì),
f
t
f_t
ft?可以由
f
0
f_0
f0?和標(biāo)準(zhǔn)高斯噪聲的線性組合表示如下:
為了學(xué)習(xí)分布
p
θ
(
f
0
)
p_θ(f^0)
pθ?(f0),我們基于LDM [49]構(gòu)建了一個(gè)U網(wǎng)擴(kuò)散網(wǎng)絡(luò)
?
θ
(
?
)
\epsilon_θ(·)
?θ?(?)。為了更好地預(yù)測(cè)特征,我們修改LDM的兩個(gè)部分:
(1)我們丟棄潛在條件部分并將所有的交叉注意層修改為傳統(tǒng)的注意層,
(2)每個(gè)輸入樣本包含k個(gè)特征{
f
1
0
,
f
2
0
,
?
?
?
,
f
k
t
f^0_1,f^0_ 2,···,f^t_k
f10?,f20?,???,fkt?},其中僅第k個(gè)特征被應(yīng)用擴(kuò)散前向過(guò)程。這種修改有兩個(gè)原因:
(1)我們希望從正常樣本中學(xué)習(xí)特征的分布,而不涉及任何其他潛在條件
(2)結(jié)合前一幀的連續(xù)特征,我們可以向
?
θ
(
?
)
\epsilon_θ(·)
?θ?(?)提供運(yùn)動(dòng)信息,使這個(gè)擴(kuò)散模塊專注于特征運(yùn)動(dòng)學(xué)習(xí)。
根據(jù)文獻(xiàn)[26,53],在訓(xùn)練中使用了目標(biāo)函數(shù)的簡(jiǎn)化版本,其定義如下:
其中,t是時(shí)間步長(zhǎng),
?
θ
(
?
,
t
)
\epsilon_θ(·,t)
?θ?(?,t)是時(shí)間t處的預(yù)測(cè)噪聲。用Eq.(3)到EQ.(4)當(dāng)給定足夠的特征樣本和隨機(jī)時(shí)間步長(zhǎng)t 0∈ [ 1,T ]時(shí),參數(shù)θ可以得到優(yōu)化。
對(duì)于相反的過(guò)程,在時(shí)間t-1的第k個(gè)樣本的特征可以通過(guò)以下公式在給定{
f
1
0
,
f
2
0
,
.
.
.
,
f
k
t
f^0_1,f^0 _2,...,f^t_k
f10?,f20?,...,fkt?}的情況下生成一次:
其中,
α
t
α_t
αt? ∈{
α
t
{α_t}
αt?}
t
=
1
T
^T_{t=1}
t=1T?是控制每個(gè)步驟的附加噪聲的時(shí)間表。在采樣階段,第(t-1)步將特征{
f
1
0
,
f
2
0
,
?
?
?
,
f
k
t
f^0_1,f^0_2,···,f^t_k
f10?,f20?,???,fkt?}作為輸入來(lái)預(yù)測(cè)
f
k
t
?
1
f^{t-1}_k
fkt?1?。
對(duì)反向過(guò)程的連續(xù)監(jiān)督可以有效地保證運(yùn)動(dòng)預(yù)測(cè),但它可能會(huì)錯(cuò)過(guò)一些外觀細(xì)節(jié),因?yàn)闊o(wú)噪聲的k-1特征有助于運(yùn)動(dòng)學(xué)習(xí),同時(shí)對(duì)外觀學(xué)習(xí)有影響。為此,我們創(chuàng)建另一個(gè)DDIM模塊來(lái)細(xì)化外觀信息。
3.3. Feature refinement diffusion module
上一個(gè)模塊考慮了運(yùn)動(dòng)關(guān)系,但是外觀信息被忽略,為了讓生成的最后一幀更接近真實(shí)值,又設(shè)計(jì)了這個(gè)模塊,簡(jiǎn)單來(lái)說(shuō)還是下面的圖片過(guò)程:
我們?cè)陬A(yù)測(cè)模塊旁邊構(gòu)建了一個(gè)特征細(xì)化擴(kuò)散模塊。該精化模型強(qiáng)調(diào)學(xué)習(xí)特征的外觀分布。同樣,我們采用基于LDM的U-net作為細(xì)化的擴(kuò)散網(wǎng)絡(luò),其中的條件部分被保持。我們將前一個(gè)預(yù)測(cè)模塊的輸出,即去噪特征
f
˙
k
0
\dot{f}_k^0
f˙?k0?作為輸入,并使用第k幀的原始特征
f
k
0
f^0_k
fk0?作為條件,以生成表示為
f
¨
k
0
\ddot{f}_k^0
f¨?k0?的細(xì)化特征。條件
f
k
0
f^0_k
fk0?用于交叉注意以保證特征外觀學(xué)習(xí)。特征細(xì)化擴(kuò)散模塊的目標(biāo)是學(xué)習(xí)一個(gè)近似于
q
(
f
0
)
q(f^0)
q(f0)的分布
p
φ
(
f
0
)
p_φ(f^0)
pφ?(f0)。
與先前的特征預(yù)測(cè)模塊相同,后驗(yàn) q ( f ˙ 1 : T ∣ f ˙ 0 ) q(\dot{f}^{1:T}| \dot{f}^0) q(f˙?1:T∣f˙?0)固定到馬爾可夫鏈,并且在給定 f ˙ 0 \dot{f}^0 f˙?0和高斯噪聲 ? \epsilon ?的情況下,可以按方程(3)計(jì)算時(shí)刻t處的輸入 f ˙ t \dot{f}^t f˙?t。
為了使細(xì)化網(wǎng)絡(luò)
?
φ
\epsilon_φ
?φ? 專注于外觀學(xué)習(xí),我們通過(guò)在基礎(chǔ)的 UNet 主干網(wǎng)絡(luò)中引入交叉注意力機(jī)制,并將原始特征
f
k
0
f^0_k
fk0?作為條件傳入交叉注意力層。我們對(duì)特征
f
k
0
f^0_k
fk0? 進(jìn)行展平,然后使用線性變換得到一個(gè) d-維向量
f
k
0
^
\widehat{f^0_k}
fk0?
? ,交叉注意力的實(shí)現(xiàn)如下:
其中
W
k
W_k
Wk?、
W
q
W_q
Wq?、
W
v
W_v
Wv?是可學(xué)習(xí)的投影矩陣,
?
(
f
˙
k
t
)
\phi(\dot{f}_k^t)
?(f˙?kt?)φ(stecft k)是每個(gè)交叉注意層的輸入特征圖。對(duì)于不同的交叉注意層,
f
k
0
^
\widehat{f^0_k}
fk0?
?是不變的,這為特征學(xué)習(xí)提供了一致的外觀監(jiān)督。損失函數(shù)也是DDIM的簡(jiǎn)化版本,定義為:
對(duì)于逆過(guò)程,我們可以通過(guò)以下方式獲得t-1時(shí)間步長(zhǎng)的特征:
其中,參數(shù)
α
\alpha
α和
σ
\sigma
σ與方程 (5) 中的相同。在特定的時(shí)間步 t,通過(guò)方程 (9) 可以獲得經(jīng)過(guò)細(xì)化的特征
f
¨
k
0
\ddot{f}_k^0
f¨?k0?。
為了進(jìn)行測(cè)試,我們使用MSE來(lái)計(jì)算
f
k
0
f^0_k
fk0?和原始特征
f
¨
k
0
\ddot{f}_k^0
f¨?k0?之間的異常分?jǐn)?shù),定義為:
在訓(xùn)練階段,我們分別訓(xùn)練兩個(gè)擴(kuò)散模塊,即在預(yù)測(cè)模塊收斂后再訓(xùn)練細(xì)化模塊。這是因?yàn)榧?xì)化模塊的輸入是預(yù)測(cè)模塊的采樣輸出,在訓(xùn)練初期質(zhì)量較低。聯(lián)合學(xué)習(xí)對(duì)細(xì)化模塊的性能有負(fù)面影響(參見表格3的結(jié)果)。因此,我們采用了分開訓(xùn)練的策略。訓(xùn)練和推斷的偽代碼如算法1所示。
4. Experiments and discussions
4.1. Datasets
在四個(gè)視頻異常檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)證評(píng)估:
- CUHK Avenue
- ShanghaiTech
- UCF-Crime
- UBnormal
ShanghaiTech和UCF-Crime是大規(guī)模真實(shí)世界的VAD數(shù)據(jù)集,UBnormal是一個(gè)生成的數(shù)據(jù)集。
4.2. Performance evaluation metrics
和之前的很多工作一樣采用AUC作為評(píng)價(jià)指標(biāo),結(jié)果如表1:
表1. 不同的一類語(yǔ)音活動(dòng)檢測(cè)(VAD)方法的AUC。OD指的是來(lái)自目標(biāo)檢測(cè)方法的前景邊界框,而I3D、R3D和A3D分別指ConvNet3D、ResNext3D和動(dòng)作識(shí)別網(wǎng)絡(luò)的3D特征。 ‘(FPM)’ 表示該模型還采用了基于幀預(yù)測(cè)的方法進(jìn)行VAD。
4.3. Implementation details
遵循許多先前的研究工作[24, 34, 45],圖像的輸入尺寸設(shè)置為256×256。由于編碼器有四個(gè)2×下采樣層,每個(gè)樣本的最終特征圖的大小為32×32×4。根據(jù)視頻異常檢測(cè)中第一個(gè)預(yù)測(cè)框架的設(shè)置,我們使用四個(gè)連續(xù)的相鄰幀來(lái)預(yù)測(cè)第五幀[33]。具體而言,我們?yōu)橛?xùn)練和測(cè)試創(chuàng)建一個(gè)立方體,其中包含四個(gè)原始特征和來(lái)自第五個(gè)特征的噪聲特征。我們使用DDIM [53]中推薦的 α \alpha α 和 σ \sigma σ的設(shè)置。在訓(xùn)練階段,將訓(xùn)練輪數(shù) S S S 設(shè)置為60,包括開始時(shí)的12個(gè)熱身輪數(shù),時(shí)間步長(zhǎng) T T T 和學(xué)習(xí)率分別設(shè)置為1k和 1 0 ? 5 10^{-5} 10?5。在推理階段,我們采用200步的采樣計(jì)劃 T ′ T' T′,即按照[53]的設(shè)置, T ′ T' T′中的每一步相當(dāng)于 T T T 中的五步。此外,我們將 t t t 設(shè)置為 0.25 T ′ 0.25T' 0.25T′ 以進(jìn)行采樣,因?yàn)樵赱28, 63]中發(fā)現(xiàn)這是最佳設(shè)置。因此,與DDPM相比,采樣階段加速了20倍。
5. Conclusions
本文引入了首個(gè)用于視頻異常檢測(cè)的特征預(yù)測(cè)擴(kuò)散模型(DDIM)。我們進(jìn)一步設(shè)計(jì)了兩個(gè)DDIM模塊,即特征預(yù)測(cè)擴(kuò)散模塊和特征細(xì)化擴(kuò)散模塊,用于從正常樣本中學(xué)習(xí)運(yùn)動(dòng)和外觀。令人印象深刻的是,盡管我們的模型將圖像作為輸入以預(yù)測(cè)用于異常檢測(cè)的特征,但與利用高級(jí)3D語(yǔ)義特征的方法相比,它表現(xiàn)出競(jìng)爭(zhēng)性的性能。廣泛的實(shí)證結(jié)果還表明,我們的方法在對(duì)抗最先進(jìn)的基于2D圖像特征的VAD模型方面具有優(yōu)越性。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-797302.html
閱讀總結(jié)
difussion那一塊還不是很了解,還需要多學(xué)習(xí)。
創(chuàng)新點(diǎn)主要是首次將difussion引入到了視頻異常檢測(cè)領(lǐng)域,當(dāng)然感覺最近的VAD論文好幾個(gè)都說(shuō)自己首次??戳艘幌掠胐ifussion做VAD的感覺還是不算多的,有潛力。
2d的VAD檢測(cè)基本上有去考慮運(yùn)動(dòng)和外觀的重建,這篇也是。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-797302.html
到了這里,關(guān)于Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!