国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀

這篇具有很好參考價(jià)值的文章主要介紹了Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。


文章標(biāo)題:Feature Prediction Diffusion Model for Video Anomaly Detection
文章信息:

Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
發(fā)表于:ICCV 2023
原文鏈接:https://openaccess.thecvf.com/content/ICCV2023/papers/Yan_Feature_Prediction_Diffusion_Model_for_Video_Anomaly_Detection_ICCV_2023_paper.pdf
源代碼:https://github.com/daidaidouer/FPDM

Abstract

在視頻異常檢測(cè)是一個(gè)重要的研究領(lǐng)域,在實(shí)際應(yīng)用中也是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。由于缺乏大規(guī)模標(biāo)注的異常事件,大多數(shù)現(xiàn)有的視頻異常檢測(cè)(VAD)方法側(cè)重于學(xué)習(xí)正常樣本的分布,以便檢測(cè)明顯偏離的樣本作為異常。為了更好地學(xué)習(xí)正常運(yùn)動(dòng)和外觀的分布,許多輔助網(wǎng)絡(luò)被用于提取前景對(duì)象或動(dòng)作信息。這些高層語(yǔ)義特征有效地過(guò)濾了背景噪聲,減少了其對(duì)檢測(cè)模型的影響。然而,這些額外的語(yǔ)義模型的能力對(duì)VAD方法的性能產(chǎn)生了重要影響。受擴(kuò)散模型(DM)出色的生成和抗噪聲能力的啟發(fā),本文引入了一種新穎的基于DM的方法來(lái)預(yù)測(cè)用于異常檢測(cè)的視頻幀特征。我們的目標(biāo)是學(xué)習(xí)正常樣本的分布,而無(wú)需涉及任何額外的高層語(yǔ)義特征提取模型。為此,我們構(gòu)建了兩個(gè)去噪擴(kuò)散隱式模塊來(lái)預(yù)測(cè)和細(xì)化特征。第一個(gè)模塊專注于特征運(yùn)動(dòng)學(xué)習(xí),而最后一個(gè)專注于特征外觀學(xué)習(xí)。據(jù)我們所知,這是第一個(gè)基于DM的用于VAD的特征預(yù)測(cè)方法。DM的強(qiáng)大能力也使得我們的方法能夠更準(zhǔn)確地預(yù)測(cè)正常特征,相較于基于非DM的特征預(yù)測(cè)的VAD方法。廣泛的實(shí)驗(yàn)證明了所提方法在性能上大大優(yōu)于最先進(jìn)的競(jìng)爭(zhēng)方法。代碼可在FPDM上獲得。

1. Introduction

視頻異常檢測(cè)(VAD)旨在識(shí)別在視頻中罕見且與正常行為不同的異常事件。成功檢測(cè)異常事件,如交通事故、暴力和踩踏事件,在廣泛應(yīng)用于公共安全的視頻監(jiān)控中具有重要意義。然而,由于真實(shí)世界中異常事件的種類繁多且難以收集大規(guī)模標(biāo)注數(shù)據(jù),VAD是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

多年來(lái)已經(jīng)提出了許多視頻異常檢測(cè)(VAD)方法[9,10,14,19,23,33,34,39,45,46,57,62,68,71],以解決這一問(wèn)題,其中一類學(xué)習(xí)方法由于相對(duì)可獲得的正常訓(xùn)練集以及其實(shí)現(xiàn)更好性能的能力而受到青睞[44]。這些一類學(xué)習(xí)的VAD方法假設(shè)具有所有樣本均為正常的訓(xùn)練數(shù)據(jù),并構(gòu)建不同的模型來(lái)學(xué)習(xí)正常數(shù)據(jù)的分布。生成建模是這一領(lǐng)域中廣泛使用的技術(shù),因?yàn)樵谟?xùn)練后,正常樣本可以比異常更好地生成。生成對(duì)抗網(wǎng)絡(luò)(GAN)[22, 52, 71, 72]和自編碼器(AE)[24, 29, 40, 46]是兩個(gè)流行的框架。盡管這些生成方法在VAD中取得了令人滿意的性能,但存在三個(gè)主要挑戰(zhàn):(1) 基于GAN/AE的方法具有較弱的生成能力,導(dǎo)致低質(zhì)量生成圖像中的噪音增多,降低了性能,(2) 當(dāng)前的SOTA方法通常使用一些輔助模型,例如目標(biāo)檢測(cè)和動(dòng)作識(shí)別模型,來(lái)捕獲前景對(duì)象或動(dòng)作信息的特征,因此性能在很大程度上依賴于這些高級(jí)語(yǔ)義模型的表示能力,以及(3) 異常事件通常以新穎的外觀和/或異常運(yùn)動(dòng)為特征,增加了生成模型在這兩個(gè)方面捕獲正常性/異常性的難度。
總之,主要貢獻(xiàn)有三個(gè):

  • 我們引入了一種基于擴(kuò)散模型的方法,用于預(yù)測(cè)語(yǔ)音活動(dòng)檢測(cè)(VAD)中每個(gè)樣本的特征。據(jù)我們所知,這是首個(gè)利用擴(kuò)散模型進(jìn)行視頻異常檢測(cè)的工作。
  • 我們?cè)O(shè)計(jì)了兩種DDIM模塊,分別從正常樣本中進(jìn)行運(yùn)動(dòng)和外觀學(xué)習(xí),以保證預(yù)測(cè)特征的生成質(zhì)量。
  • 該模型以2D圖像作為輸入,沒有輔助的語(yǔ)義網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)了高度可比的性能,利用高層次的3D語(yǔ)義特征的方法。

在四個(gè)公開的視頻異常檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法大大優(yōu)于基于圖像特征的VAD同行,并表現(xiàn)出良好的方法使用3D語(yǔ)義特征。

2. Related work

針對(duì)不同的應(yīng)用場(chǎng)景,根據(jù)訓(xùn)練樣本的標(biāo)注情況,視頻異常檢測(cè)方法大致可以分為半監(jiān)督、單類和無(wú)監(jiān)督VAD三類。由于我們的方法屬于單類類型,因此我們只回顧單類VAD方法。

早期的單類VAD方法是兩步方法,其中特征提取和學(xué)習(xí)分離。他們首先使用手工制作的特征描述符來(lái)呈現(xiàn)每個(gè)幀,例如3D梯度特征[38],梯度直方圖(HOG)[16],直方圖光流(霍夫)[16],詞袋(BOW)等,然后構(gòu)建一個(gè)淺層模型來(lái)學(xué)習(xí)正態(tài)分布,例如基于字典的模型[75],概率模型[13,41]和重建模型[16,38,75]。這些傳統(tǒng)方法的缺點(diǎn)是手工制作的特征性能差。隨著深度學(xué)習(xí)的發(fā)展[35,36,64 -67],基于卷積神經(jīng)網(wǎng)絡(luò)的方法緊隨其后。CNN將特征提取和學(xué)習(xí)集成到端到端框架中[42,43,70]。這些基于CNN的方法大多屬于生成方法,其中模型對(duì)正態(tài)性應(yīng)用特征學(xué)習(xí),并根據(jù)生成樣本與原始樣本之間的差異檢測(cè)異常。生成對(duì)抗網(wǎng)絡(luò)(GAN)[20,51,73]和基于自動(dòng)編碼器的網(wǎng)絡(luò)(AE)[25,27,56]被廣泛用于這種正常的特征學(xué)習(xí)?;谶@些框架,提出了記憶模塊[24]和特征預(yù)測(cè)模塊[33]來(lái)增強(qiáng)特征學(xué)習(xí)的能力。為了進(jìn)一步提高性能,一些高級(jí)特征提取模型,例如,采用對(duì)象檢測(cè)[23,37]、動(dòng)作識(shí)別[62]和光流[33]來(lái)獲得前景或運(yùn)動(dòng)信息以用于正常性的學(xué)習(xí)。輔助模型為這些VAD方法帶來(lái)了好處,同時(shí)增加了對(duì)語(yǔ)義表示的依賴性。

近年來(lái),擴(kuò)散模型在許多生成性任務(wù)上取得了最好的表現(xiàn),成為研究的熱點(diǎn)[5,17,26,49,53]。計(jì)算機(jī)視覺中已經(jīng)出現(xiàn)了許多應(yīng)用,例如圖像修復(fù)[7,15,54]、圖像處理[47]、圖像超分辨率[7,18]和圖像到圖像轉(zhuǎn)換[50,76]。這些應(yīng)用程序最先進(jìn)的性能證實(shí)了基于DM的模型具有非凡的生成能力。為了進(jìn)一步將DMS擴(kuò)展到主流的計(jì)算機(jī)視覺任務(wù),已經(jīng)提出了一些基于DM的潛在表示學(xué)習(xí)方法,如用于目標(biāo)檢測(cè)的DiffusionDet[12]、用于分割的SegDiff[2]和用于分類的SBG分類器[77]。這些區(qū)分任務(wù)通常需要更強(qiáng)大的模型,不容易受到背景的干擾。因此,這些方法在不同任務(wù)上的成功驗(yàn)證了數(shù)據(jù)挖掘的抗噪聲能力。早期的擴(kuò)散模型,如去噪擴(kuò)散概率模型(DDPM),由于馬爾可夫過(guò)程通過(guò)微小的修正轉(zhuǎn)換數(shù)據(jù)分布,在采樣階段需要相當(dāng)多的去噪步驟。為了加快采樣過(guò)程,已經(jīng)提出了許多加速擴(kuò)散方法[30,53,74]。去噪擴(kuò)散隱式模型(DDIM)因其無(wú)需訓(xùn)練的特性而被廣泛應(yīng)用。DDIM不需要額外的訓(xùn)練,可以直接應(yīng)用先進(jìn)的采樣算法,步驟更少,保真度更高。因此,基于DDIM的方法更有可能在實(shí)際中被采用。

3. Method

我們的主要?jiǎng)訖C(jī)是設(shè)計(jì)一種基于擴(kuò)散模型的方法,以便在沒有3D特征提取網(wǎng)絡(luò)的幫助下很好地學(xué)習(xí)正常運(yùn)動(dòng)和外觀的分布。在推理階段,正常樣本的特征比異常樣本的特征更容易被優(yōu)化模型預(yù)測(cè)。

如圖2所示,我們的框架包含三個(gè)部分,即幀編碼器、特征預(yù)測(cè)擴(kuò)散模塊和特征細(xì)化擴(kuò)散模塊。首先,我們使用一個(gè)編碼器來(lái)提取每一幀的特征。任何預(yù)訓(xùn)練的CNN都可以用作編碼器。

在這里,我們采用了[48]中的輕量編碼器,因?yàn)椋?br> (1)輸出特征圖的大小在空間上比原始圖像的大小小64倍,并且只包含四個(gè)通道,這大大減少了后續(xù)擴(kuò)散模塊的計(jì)算,
(2)該編碼器的預(yù)訓(xùn)練是無(wú)監(jiān)督的,這更容易獲得。

為了預(yù)測(cè)特征,我們?cè)O(shè)計(jì)了兩個(gè)基于DDIM的模塊來(lái)預(yù)測(cè)和細(xì)化每幀的特征。注意,DDIM具有與DDPM相同的訓(xùn)練過(guò)程,但在采樣階段更有效,因?yàn)樗捎锰诫[式采樣器,而不是逐步提取噪聲信息。特征預(yù)測(cè)擴(kuò)散模塊側(cè)重于學(xué)習(xí)運(yùn)動(dòng)的分布,特征細(xì)化擴(kuò)散模塊側(cè)重于外觀分布學(xué)習(xí)。

Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

3.1. Problem Formulation

該問(wèn)題旨在解決的是通過(guò)給定幾個(gè)連續(xù)的視頻幀來(lái)生成一個(gè)特征,然后估計(jì)該特征是否屬于學(xué)習(xí)的分布。形式上,給定具有k個(gè)連續(xù)幀 X X X={ x 1 x_1 x1?, x 2 x_2 x2?,···, x k x_k xk?}的視頻剪輯,我們的目標(biāo)是預(yù)測(cè)第k幀的特征,簡(jiǎn)稱為 f ¨ ( x k ) \ddot{f}(x_k) f¨?(xk?) f ˙ k \dot{f}_k f˙?k?。我們使用 f ˙ k \dot{f}_k f˙?k? f ¨ ( x k ) \ddot{f}(x_k) f¨?(xk?)來(lái)表示特征預(yù)測(cè)和細(xì)化擴(kuò)散模塊的輸出。由于涉及到時(shí)間步,我們用 f k t f_k^t fkt?表示時(shí)間步長(zhǎng)t時(shí)第k幀的特征。因此, f k 0 f^0_k fk0?指的是時(shí)間步長(zhǎng)0處的第k個(gè)特征,其等同于 f k f_k fk?。與原始特征 f k f_k fk?相比,第k幀的異常分?jǐn)?shù)可以通過(guò) f k f_k fk? f ¨ k \ddot{f}_k f¨?k?之間的均方誤差來(lái)計(jì)算。

3.2. Feature prediction diffusion module

公式有點(diǎn)復(fù)雜,簡(jiǎn)單來(lái)說(shuō)就是圖中的過(guò)程:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

與之前采用k個(gè)樣本預(yù)測(cè)第k+1個(gè)樣本的工作不同,我們將1到k-1幀的特征{ f 1 0 , f 2 0 , ? ? ? , f k ? 1 0 f^0_1,f^0_ 2,···,f^0_{k?1} f10?,f20?,???,fk?10?}和第k幀的噪聲特征 f k t f^t_k fkt?一起作為輸入,預(yù)測(cè)特征 f ˙ k 0 \dot{f}_k^0 f˙?k0?。為此,我們構(gòu)建了一個(gè)特征預(yù)測(cè)擴(kuò)散模塊,通過(guò)使用隱式采樣[53]逐步去除 f k t f^t_k fkt?的噪聲,以生成 f ˙ k 0 \dot{f}_k^0 f˙?k0?。
對(duì)于訓(xùn)練,我們的擴(kuò)散模型的目標(biāo)是學(xué)習(xí)近似原始數(shù)據(jù)分布 q θ ( f 0 ) q_θ(f^0) qθ?(f0)的分布 p θ ( f 0 ) p_θ(f^0) pθ?(f0)。在前向過(guò)程中,后驗(yàn) q ( f 1 : T ∣ f 0 ) q(f^{1:T}| f^0) q(f1:Tf0)固定到馬爾可夫鏈:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

其中t ∈ [1,T]是時(shí)間步長(zhǎng),并且:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中 α t ∈ α_t ∈ αt?{ α t α_t αt?} t = 1 T ^T_{t=1} t=1T?是控制 f t ? 1 f^{t?1} ft?1的百分比的時(shí)間表, ( 1 ? α t ) (1-α_t) (1?αt?)控制噪聲的百分比。隨著時(shí)間步長(zhǎng)t的增大, α t α_t αt?減小?;谶@些性質(zhì), f t f_t ft?可以由 f 0 f_0 f0?和標(biāo)準(zhǔn)高斯噪聲的線性組合表示如下:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
為了學(xué)習(xí)分布 p θ ( f 0 ) p_θ(f^0) pθ?(f0),我們基于LDM [49]構(gòu)建了一個(gè)U網(wǎng)擴(kuò)散網(wǎng)絡(luò) ? θ ( ? ) \epsilon_θ(·) ?θ?(?)。為了更好地預(yù)測(cè)特征,我們修改LDM的兩個(gè)部分:
(1)我們丟棄潛在條件部分并將所有的交叉注意層修改為傳統(tǒng)的注意層,
(2)每個(gè)輸入樣本包含k個(gè)特征{ f 1 0 , f 2 0 , ? ? ? , f k t f^0_1,f^0_ 2,···,f^t_k f10?,f20????,fkt?},其中僅第k個(gè)特征被應(yīng)用擴(kuò)散前向過(guò)程。這種修改有兩個(gè)原因:
(1)我們希望從正常樣本中學(xué)習(xí)特征的分布,而不涉及任何其他潛在條件
(2)結(jié)合前一幀的連續(xù)特征,我們可以向 ? θ ( ? ) \epsilon_θ(·) ?θ?(?)提供運(yùn)動(dòng)信息,使這個(gè)擴(kuò)散模塊專注于特征運(yùn)動(dòng)學(xué)習(xí)。

根據(jù)文獻(xiàn)[26,53],在訓(xùn)練中使用了目標(biāo)函數(shù)的簡(jiǎn)化版本,其定義如下:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中,t是時(shí)間步長(zhǎng), ? θ ( ? , t ) \epsilon_θ(·,t) ?θ?(?,t)是時(shí)間t處的預(yù)測(cè)噪聲。用Eq.(3)到EQ.(4)當(dāng)給定足夠的特征樣本和隨機(jī)時(shí)間步長(zhǎng)t 0∈ [ 1,T ]時(shí),參數(shù)θ可以得到優(yōu)化。

對(duì)于相反的過(guò)程,在時(shí)間t-1的第k個(gè)樣本的特征可以通過(guò)以下公式在給定{ f 1 0 , f 2 0 , . . . , f k t f^0_1,f^0 _2,...,f^t_k f10?,f20?,...fkt?}的情況下生成一次:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中, α t α_t αt? ∈{ α t {α_t} αt?} t = 1 T ^T_{t=1} t=1T?是控制每個(gè)步驟的附加噪聲的時(shí)間表。在采樣階段,第(t-1)步將特征{ f 1 0 , f 2 0 , ? ? ? , f k t f^0_1,f^0_2,···,f^t_k f10?f20?,???,fkt?}作為輸入來(lái)預(yù)測(cè) f k t ? 1 f^{t-1}_k fkt?1?。

對(duì)反向過(guò)程的連續(xù)監(jiān)督可以有效地保證運(yùn)動(dòng)預(yù)測(cè),但它可能會(huì)錯(cuò)過(guò)一些外觀細(xì)節(jié),因?yàn)闊o(wú)噪聲的k-1特征有助于運(yùn)動(dòng)學(xué)習(xí),同時(shí)對(duì)外觀學(xué)習(xí)有影響。為此,我們創(chuàng)建另一個(gè)DDIM模塊來(lái)細(xì)化外觀信息。

3.3. Feature refinement diffusion module

上一個(gè)模塊考慮了運(yùn)動(dòng)關(guān)系,但是外觀信息被忽略,為了讓生成的最后一幀更接近真實(shí)值,又設(shè)計(jì)了這個(gè)模塊,簡(jiǎn)單來(lái)說(shuō)還是下面的圖片過(guò)程:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
我們?cè)陬A(yù)測(cè)模塊旁邊構(gòu)建了一個(gè)特征細(xì)化擴(kuò)散模塊。該精化模型強(qiáng)調(diào)學(xué)習(xí)特征的外觀分布。同樣,我們采用基于LDM的U-net作為細(xì)化的擴(kuò)散網(wǎng)絡(luò),其中的條件部分被保持。我們將前一個(gè)預(yù)測(cè)模塊的輸出,即去噪特征 f ˙ k 0 \dot{f}_k^0 f˙?k0?作為輸入,并使用第k幀的原始特征 f k 0 f^0_k fk0?作為條件,以生成表示為 f ¨ k 0 \ddot{f}_k^0 f¨?k0?的細(xì)化特征。條件 f k 0 f^0_k fk0?用于交叉注意以保證特征外觀學(xué)習(xí)。特征細(xì)化擴(kuò)散模塊的目標(biāo)是學(xué)習(xí)一個(gè)近似于 q ( f 0 ) q(f^0) q(f0)的分布 p φ ( f 0 ) p_φ(f^0) pφ?(f0)。

與先前的特征預(yù)測(cè)模塊相同,后驗(yàn) q ( f ˙ 1 : T ∣ f ˙ 0 ) q(\dot{f}^{1:T}| \dot{f}^0) q(f˙?1:Tf˙?0)固定到馬爾可夫鏈,并且在給定 f ˙ 0 \dot{f}^0 f˙?0和高斯噪聲 ? \epsilon ?的情況下,可以按方程(3)計(jì)算時(shí)刻t處的輸入 f ˙ t \dot{f}^t f˙?t。

為了使細(xì)化網(wǎng)絡(luò) ? φ \epsilon_φ ?φ? 專注于外觀學(xué)習(xí),我們通過(guò)在基礎(chǔ)的 UNet 主干網(wǎng)絡(luò)中引入交叉注意力機(jī)制,并將原始特征 f k 0 f^0_k fk0?作為條件傳入交叉注意力層。我們對(duì)特征 f k 0 f^0_k fk0? 進(jìn)行展平,然后使用線性變換得到一個(gè) d-維向量 f k 0 ^ \widehat{f^0_k} fk0? ? ,交叉注意力的實(shí)現(xiàn)如下:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中 W k W_k Wk?、 W q W_q Wq? W v W_v Wv?是可學(xué)習(xí)的投影矩陣, ? ( f ˙ k t ) \phi(\dot{f}_k^t) ?(f˙?kt?)φ(stecft k)是每個(gè)交叉注意層的輸入特征圖。對(duì)于不同的交叉注意層, f k 0 ^ \widehat{f^0_k} fk0? ?是不變的,這為特征學(xué)習(xí)提供了一致的外觀監(jiān)督。損失函數(shù)也是DDIM的簡(jiǎn)化版本,定義為:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
對(duì)于逆過(guò)程,我們可以通過(guò)以下方式獲得t-1時(shí)間步長(zhǎng)的特征:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
其中,參數(shù) α \alpha α σ \sigma σ與方程 (5) 中的相同。在特定的時(shí)間步 t,通過(guò)方程 (9) 可以獲得經(jīng)過(guò)細(xì)化的特征 f ¨ k 0 \ddot{f}_k^0 f¨?k0?。
為了進(jìn)行測(cè)試,我們使用MSE來(lái)計(jì)算 f k 0 f^0_k fk0?和原始特征 f ¨ k 0 \ddot{f}_k^0 f¨?k0?之間的異常分?jǐn)?shù),定義為:
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python
在訓(xùn)練階段,我們分別訓(xùn)練兩個(gè)擴(kuò)散模塊,即在預(yù)測(cè)模塊收斂后再訓(xùn)練細(xì)化模塊。這是因?yàn)榧?xì)化模塊的輸入是預(yù)測(cè)模塊的采樣輸出,在訓(xùn)練初期質(zhì)量較低。聯(lián)合學(xué)習(xí)對(duì)細(xì)化模塊的性能有負(fù)面影響(參見表格3的結(jié)果)。因此,我們采用了分開訓(xùn)練的策略。訓(xùn)練和推斷的偽代碼如算法1所示。
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

4. Experiments and discussions

4.1. Datasets

在四個(gè)視頻異常檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)證評(píng)估:

  • CUHK Avenue
  • ShanghaiTech
  • UCF-Crime
  • UBnormal

ShanghaiTech和UCF-Crime是大規(guī)模真實(shí)世界的VAD數(shù)據(jù)集,UBnormal是一個(gè)生成的數(shù)據(jù)集。

4.2. Performance evaluation metrics

和之前的很多工作一樣采用AUC作為評(píng)價(jià)指標(biāo),結(jié)果如表1:

表1. 不同的一類語(yǔ)音活動(dòng)檢測(cè)(VAD)方法的AUC。OD指的是來(lái)自目標(biāo)檢測(cè)方法的前景邊界框,而I3D、R3D和A3D分別指ConvNet3D、ResNext3D和動(dòng)作識(shí)別網(wǎng)絡(luò)的3D特征。 ‘(FPM)’ 表示該模型還采用了基于幀預(yù)測(cè)的方法進(jìn)行VAD。
Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,計(jì)算機(jī)視覺,深度學(xué)習(xí),python

4.3. Implementation details

遵循許多先前的研究工作[24, 34, 45],圖像的輸入尺寸設(shè)置為256×256。由于編碼器有四個(gè)2×下采樣層,每個(gè)樣本的最終特征圖的大小為32×32×4。根據(jù)視頻異常檢測(cè)中第一個(gè)預(yù)測(cè)框架的設(shè)置,我們使用四個(gè)連續(xù)的相鄰幀來(lái)預(yù)測(cè)第五幀[33]。具體而言,我們?yōu)橛?xùn)練和測(cè)試創(chuàng)建一個(gè)立方體,其中包含四個(gè)原始特征和來(lái)自第五個(gè)特征的噪聲特征。我們使用DDIM [53]中推薦的 α \alpha α σ \sigma σ的設(shè)置。在訓(xùn)練階段,將訓(xùn)練輪數(shù) S S S 設(shè)置為60,包括開始時(shí)的12個(gè)熱身輪數(shù),時(shí)間步長(zhǎng) T T T 和學(xué)習(xí)率分別設(shè)置為1k和 1 0 ? 5 10^{-5} 10?5。在推理階段,我們采用200步的采樣計(jì)劃 T ′ T' T,即按照[53]的設(shè)置, T ′ T' T中的每一步相當(dāng)于 T T T 中的五步。此外,我們將 t t t 設(shè)置為 0.25 T ′ 0.25T' 0.25T 以進(jìn)行采樣,因?yàn)樵赱28, 63]中發(fā)現(xiàn)這是最佳設(shè)置。因此,與DDPM相比,采樣階段加速了20倍。

5. Conclusions

本文引入了首個(gè)用于視頻異常檢測(cè)的特征預(yù)測(cè)擴(kuò)散模型(DDIM)。我們進(jìn)一步設(shè)計(jì)了兩個(gè)DDIM模塊,即特征預(yù)測(cè)擴(kuò)散模塊和特征細(xì)化擴(kuò)散模塊,用于從正常樣本中學(xué)習(xí)運(yùn)動(dòng)和外觀。令人印象深刻的是,盡管我們的模型將圖像作為輸入以預(yù)測(cè)用于異常檢測(cè)的特征,但與利用高級(jí)3D語(yǔ)義特征的方法相比,它表現(xiàn)出競(jìng)爭(zhēng)性的性能。廣泛的實(shí)證結(jié)果還表明,我們的方法在對(duì)抗最先進(jìn)的基于2D圖像特征的VAD模型方面具有優(yōu)越性。

閱讀總結(jié)

difussion那一塊還不是很了解,還需要多學(xué)習(xí)。
創(chuàng)新點(diǎn)主要是首次將difussion引入到了視頻異常檢測(cè)領(lǐng)域,當(dāng)然感覺最近的VAD論文好幾個(gè)都說(shuō)自己首次??戳艘幌掠胐ifussion做VAD的感覺還是不算多的,有潛力。
2d的VAD檢測(cè)基本上有去考慮運(yùn)動(dòng)和外觀的重建,這篇也是。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-797302.html

到了這里,關(guān)于Feature Prediction Diffusion Model for Video Anomaly Detection 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • DiffusionDet: Diffusion Model for Object Detection

    DiffusionDet: Diffusion Model for Object Detection

    論文題目:DiffusionDet: Diffusion Model for Object Detection 論文來(lái)源:arXiv preprint 2022 論文地址:https://arxiv.org/abs/2211.09788 論文代碼:https://github.com/ShoufaChen/DiffusionDet DDPM DDIM 傳統(tǒng)方法根據(jù)經(jīng)驗(yàn)設(shè)計(jì)region proposals/anchor boxes/queries等 本文可從隨機(jī)初始化的boxes進(jìn)行回歸和分類 方法概述:

    2024年02月12日
    瀏覽(26)
  • Video anomaly detection with spatio-temporal dissociation 論文閱讀

    Video anomaly detection with spatio-temporal dissociation 論文閱讀

    文章信息: 發(fā)表于:Pattern Recognition(CCF A類) 原文鏈接:https://www.sciencedirect.com/science/article/pii/S0031320321003940 源代碼:https://github.com/ChangYunPeng/VideoAnomalyDetection 視頻中的異常檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),主要由于異常的定義模糊不清以及真實(shí)視頻數(shù)據(jù)中視覺場(chǎng)景的復(fù)雜

    2024年02月03日
    瀏覽(25)
  • 【視頻異常檢測(cè)綜述-論文閱讀】Deep Video Anomaly Detection: Opportunities and Challenges

    【視頻異常檢測(cè)綜述-論文閱讀】Deep Video Anomaly Detection: Opportunities and Challenges

    來(lái)源:? Ren, Jing, et al. “Deep Video Anomaly Detection: Opportunities and Challenges.” 2021 International Conference on Data Mining Workshops (ICDMW), Dec. 2021. Crossref, https://doi.org/10.1109/icdmw53433.2021.00125. 文章連接:https://arxiv.org/abs/2110.05086 異常檢測(cè)在各種研究環(huán)境中是一項(xiàng)熱門而重要的任務(wù),已經(jīng)研究了

    2023年04月16日
    瀏覽(24)
  • Object Class Aware Video Anomaly Detection through Image Translation 論文閱讀

    Object Class Aware Video Anomaly Detection through Image Translation 論文閱讀

    文章信息: 原文鏈接:https://arxiv.org/abs/2205.01706 源代碼:無(wú) 發(fā)表于:CRV 2022 半監(jiān)督視頻異常檢測(cè)(VAD)方法將異常檢測(cè)任務(wù)表述為對(duì)學(xué)習(xí)到的正常模式的偏離進(jìn)行檢測(cè)。 該領(lǐng)域中的先前工作(基于重建或預(yù)測(cè)的方法)存在兩個(gè)缺點(diǎn) : 1)它們專注于低級(jí)特征,特別是整體方

    2024年01月23日
    瀏覽(18)
  • Multi-Task Learning based Video Anomaly Detection with Attention 論文閱讀

    Multi-Task Learning based Video Anomaly Detection with Attention 論文閱讀

    文章信息: 原文鏈接:https://ieeexplore.ieee.org/document/10208994/ 源代碼:無(wú) 發(fā)表于:CVPR 2023 基于多任務(wù)學(xué)習(xí)的視頻異常檢測(cè)方法將多個(gè)代理任務(wù)結(jié)合在不同的分支中,以便在不同情境中檢測(cè)視頻異常。然而,大多數(shù)現(xiàn)有方法存在以下一些缺點(diǎn): I) 它們的代理任務(wù)組合方式不是以

    2024年01月20日
    瀏覽(33)
  • 【論文筆記】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

    【論文筆記】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

    原文鏈接:https://arxiv.org/abs/2307.02270 ??目前的從單目相機(jī)生成偽傳感器表達(dá)的方法依賴預(yù)訓(xùn)練的深度估計(jì)網(wǎng)絡(luò)。這些方法需要深度標(biāo)簽來(lái)訓(xùn)練深度估計(jì)網(wǎng)絡(luò),且偽立體方法通過(guò)圖像正向變形合成立體圖像,會(huì)導(dǎo)致遮擋區(qū)域的像素偽影、扭曲、孔洞。此外,特征級(jí)別的偽立體

    2024年02月08日
    瀏覽(22)
  • 解讀谷歌視頻生成模型代表作:Lumiere A Space-Time Diffusion Model for Video Generation

    Diffusion Models視頻生成-博客匯總 前言 :前段時(shí)間谷歌發(fā)布了基于LLMs的視頻生成模型VideoPoet,這種信仰Transformers的做法就很Google。大家都以為2024年視頻生成會(huì)是LLMs和SD兩條路線之爭(zhēng),但是谷歌很快就發(fā)布了基于SD的視頻生成模型Lumiere,這波直接偷家了?這篇博客詳細(xì)解讀Lum

    2024年02月19日
    瀏覽(23)
  • Learning Memory-guided Normality for Anomaly Detection 論文閱讀

    Learning Memory-guided Normality for Anomaly Detection 論文閱讀

    文章信息: 發(fā)表于:cvpr2020 原文:https://arxiv.org/abs/2003.13228 代碼:https://github.com/cvlab-yonsei/MNAD 我們致力于解決異常檢測(cè)的問(wèn)題,即在視頻序列中檢測(cè)異常事件?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNNs)的異常檢測(cè)方法通常利用代理任務(wù),比如重建輸入視頻幀,以在訓(xùn)練時(shí)學(xué)習(xí)描述正常情況

    2024年02月03日
    瀏覽(36)
  • Feature Pyramid Networks for object detection

    Feature Pyramid Networks for object detection

    下圖中,藍(lán)色邊框表示的是特征圖, 邊框越粗表示該特征圖的語(yǔ)義信息越豐富 ,即在特征層次結(jié)構(gòu)中位置越高。 這四個(gè)子圖展示了如何在不同層級(jí)上提取和融合特征,以便于在不同尺度上進(jìn)行有效的對(duì)象檢測(cè)。 a) Featurized image pyramid (特征化圖像金字塔): 這是傳統(tǒng)方法,通

    2024年04月10日
    瀏覽(20)
  • Centralized Feature Pyramid for Object Detection解讀

    Centralized Feature Pyramid for Object Detection解讀

    主流的特征金字塔集中于層間特征交互,而 忽略了層內(nèi)特征規(guī)則 。盡管一些方法試圖在注意力機(jī)制或視覺變換器的幫助下學(xué)習(xí)緊湊的層內(nèi)特征表示,但它們忽略了對(duì)密集預(yù)測(cè)任務(wù)非常重要的被忽略的角點(diǎn)區(qū)域。 提出了一種基于全局顯式集中式特征規(guī)則的中心化特征金字塔(

    2024年02月05日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包