文章信息:
發(fā)表于:AAAI(CCF A)
原文鏈接:https://arxiv.org/abs/2308.11681
源碼鏈接:https://github.com/nwpu-zxr/VadCLIP
Abstract
最近,對比語言-圖像預(yù)訓(xùn)練(CLIP)模型在各種圖像級任務(wù)中取得了巨大成功,展現(xiàn)了學(xué)習(xí)豐富語義的強大視覺表示能力。一個開放且值得探討的問題是如何高效地將這樣一個強大的模型適應(yīng)到視頻領(lǐng)域,并設(shè)計一個健壯的視頻異常檢測器。在這項工作中,我們提出了VadCLIP,一種利用凍結(jié)的CLIP模型直接進(jìn)行弱監(jiān)督視頻異常檢測(WSVAD)的新范式,無需任何預(yù)訓(xùn)練和微調(diào)過程。與當(dāng)前直接將提取的特征饋送到弱監(jiān)督分類器進(jìn)行幀級二分類的方法不同,VadCLIP充分利用了CLIP的視覺和語言之間的細(xì)粒度關(guān)聯(lián),并涉及雙分支。一個分支簡單利用視覺特征進(jìn)行粗粒度二分類,而另一個則充分利用了細(xì)粒度的語言-圖像對齊。通過雙分支的好處,VadCLIP通過將預(yù)訓(xùn)練知識從CLIP轉(zhuǎn)移到WSVAD任務(wù)上,實現(xiàn)了粗粒度和細(xì)粒度視頻異常檢測。我們在兩個常用基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實驗,結(jié)果表明VadCLIP在粗粒度和細(xì)粒度WSVAD上均取得了最佳性能,遠(yuǎn)遠(yuǎn)超過了現(xiàn)有方法。具體而言,VadCLIP在XDViolence和UCF-Crime上分別實現(xiàn)了84.51%的AP和88.02%的AUC。代碼和特征已在https://github.com/nwpu-zxr/VadCLIP發(fā)布。
Introduction
近年來,弱監(jiān)督視頻異常檢測(WSVAD,VAD)因其廣泛的應(yīng)用前景而受到越來越多的關(guān)注。例如,在WSVAD的幫助下,可以方便地開發(fā)更強大的智能視頻監(jiān)控系統(tǒng)和視頻內(nèi)容審核系統(tǒng)。在WSVAD中,預(yù)期異常檢測器能夠僅基于提供的視頻級別注釋生成幀級別的異常置信度。目前該領(lǐng)域的大多數(shù)研究遵循一種系統(tǒng)化的流程,其初始步驟是利用預(yù)訓(xùn)練的視覺模型(例如,C3D(Tran等人,2015年;Sultani,Chen和Shah,2018年)、I3D(Carreira和Zisserman,2017年;Wu等人,2020年)、ViT(Dosovitskiy等人,2020年;Li,Liu和Jiao,2022年))提取幀級特征,然后將這些特征饋送到基于多實例學(xué)習(xí)(MIL)的二分類器中進(jìn)行模型訓(xùn)練,最終根據(jù)預(yù)測的異常置信度檢測異常事件。盡管這種基于分類的范式具有簡單的結(jié)構(gòu)和有前景的結(jié)果,但它未能充分利用跨模態(tài)關(guān)系,例如,視覺-語言關(guān)聯(lián)。
在過去的兩年中,我們目睹了視覺-語言預(yù)訓(xùn)練(VLP)模型(Kim,Son和Kim,2021年;Jia等,2021年;Wang等,2021年;Chen等,2023年)的巨大進(jìn)展,例如,CLIP(Radford等,2021年),用于學(xué)習(xí)更通用的具有語義概念的視覺表示。CLIP的主要思想是通過對比學(xué)習(xí)來對齊圖像和文本,即在聯(lián)合嵌入空間中拉近圖像和匹配的文本描述,同時將不匹配的對推開。由于從網(wǎng)絡(luò)上爬取了數(shù)億個嘈雜的圖像-文本對,這樣的大規(guī)模預(yù)訓(xùn)練模型展示了它們強大的表示學(xué)習(xí)能力以及視覺和語言之間的關(guān)聯(lián)。鑒于CLIP的突破性性能,最近,在CLIP的基礎(chǔ)上構(gòu)建任務(wù)特定模型正在成為新興的研究課題,并應(yīng)用于廣泛的視覺任務(wù),這些模型取得了前所未有的性能。
盡管CLIP及其相關(guān)模型在各種視覺任務(wù)上展現(xiàn)了巨大潛力,但這些方法主要集中在圖像領(lǐng)域。因此,如何將從圖像-文本對學(xué)習(xí)到的模型有效地適應(yīng)到更復(fù)雜的弱監(jiān)督視頻異常檢測任務(wù)中,值得深入探索。最近,一些研究(Joo等,2023年;Lv等,2023年)嘗試?yán)肅LIP的學(xué)習(xí)知識,然而,這些方法局限于直接使用從CLIP的圖像編碼器中提取的視覺特征,并忽視了視覺與語言之間的語義關(guān)系的利用。
為了有效利用通用知識并使CLIP在WSVAD任務(wù)中發(fā)揮其全部潛力,基于WSVAD的特性,有幾個關(guān)鍵挑戰(zhàn)需要解決。
首先,探索跨時間捕獲上下文依賴關(guān)系的方法至關(guān)重要。
其次,確定如何利用已學(xué)知識和視覺-語言連接至關(guān)重要。
第三,關(guān)鍵在于在弱監(jiān)督下保持最佳的CLIP性能。
在這項工作中,我們提出了一個新的范例的基礎(chǔ)上CLIP的WSVAD,這是被稱為VadCLIP。VadCLIP由幾個組件組成,以克服上述挑戰(zhàn)。
針對第一個挑戰(zhàn),我們提出了一個局部-全局時間適配器(LGT-Adapter),這是一個用于視頻時間關(guān)系建模的輕量級模塊。LGT-Adapter包括兩個組件,即局部時間適配器和全局時間適配器,其中前者主要以高效率捕獲局部時間依賴關(guān)系,因為在大多數(shù)情況下,當(dāng)前事件與相鄰事件高度相關(guān),而后者以更全面的視角和更少的參數(shù)平滑特征信息。
針對第二個挑戰(zhàn),與當(dāng)前方法(Joo等,2023年;Lv等,2023年)僅使用視覺特征不同,我們鼓勵VadCLIP盡可能利用文本特征,以保留已學(xué)知識。如圖1所示,VadCLIP被設(shè)計為雙分支方式,其中一個分支(C-分支)簡單直接地利用視覺特征進(jìn)行二分類,而另一個分支(A-分支)則同時利用視覺和文本特征進(jìn)行語言-圖像對齊。此外,這種雙分支無縫實現(xiàn)了粗粒度和細(xì)粒度的WSVAD(Wu,Liu和Liu,2022年)。對于A-分支,我們在視頻和視頻級文本標(biāo)簽之間建立橋梁。此外,我們提出了兩種提示機(jī)制(Wu等,2023年),即可學(xué)習(xí)提示和視覺提示,以指定簡潔的文本與視頻的關(guān)系。與手工設(shè)計的提示相比,可學(xué)習(xí)提示不需要大量的專業(yè)知識,有效地將預(yù)訓(xùn)練知識轉(zhuǎn)移到下游的WSVAD任務(wù)中。視覺提示的靈感來自于視覺上下文可以使文本更準(zhǔn)確和有區(qū)別。想象一下,如果視頻中有一輛車,"車禍"和"打架"這兩種異常事件將更容易區(qū)分。因此,在視覺提示中,我們關(guān)注視頻中的異常信息,并將C-分支中的這些異常焦點視覺內(nèi)容與A-分支中的文本標(biāo)簽集成,用于自動提示工程。這種做法無縫地創(chuàng)建了雙分支之間的連接。
針對第三個挑戰(zhàn),多實例學(xué)習(xí)(MIL)(Sultani,Chen和Shah,2018年;Wu等,2020年)是最常用的方法。對于A-分支中的語言-視覺對齊,我們引入了一個MIL-Align機(jī)制,其核心思想是為每個標(biāo)簽選擇最匹配的視頻幀來代表整個視頻。
請注意,在訓(xùn)練期間,CLIP圖像和文本編碼器的權(quán)重保持固定,并且梯度被反向傳播以優(yōu)化設(shè)計的適配器和提示模塊的這些可學(xué)習(xí)參數(shù)。
總體而言,我們工作的貢獻(xiàn)有三個方面:
(1)我們提出了一種新穎的框架,即VadCLIP,它包含雙分支來分別以視覺分類和語言-視覺對齊方式檢測視頻異常。憑借雙分支的優(yōu)勢,VadCLIP實現(xiàn)了粗粒度和細(xì)粒度的WSVAD。據(jù)我們所知,VadCLIP是首個有效地將預(yù)訓(xùn)練的語言-視覺知識轉(zhuǎn)移到WSVAD的工作。
(2)我們提出了三個非必要組件,以應(yīng)對新框架帶來的挑戰(zhàn)。LGT-Adapter用于從不同角度捕獲時間依賴關(guān)系;兩種提示機(jī)制被設(shè)計出來,以有效地使凍結(jié)的預(yù)訓(xùn)練模型適應(yīng)WSVAD任務(wù);MIL-Align實現(xiàn)了在弱監(jiān)督下對齊范式的優(yōu)化,以盡可能保留預(yù)訓(xùn)練知識。
(3)我們展示了VadCLIP在兩個大規(guī)模熱門基準(zhǔn)數(shù)據(jù)集上的強大和有效性,并且VadCLIP取得了最先進(jìn)的性能,例如,在XD-Violence和UCF-Crime上分別獲得了空前的結(jié)果,AP達(dá)到了84.51%,AUC達(dá)到了88.02%,大大超過了當(dāng)前基于分類的方法。
Related Work
Weakly Supervised Video Anomaly Detection
最近,一些研究者(Zaheer等,2020年;馮,洪,鄭,2021年;吳等,2021年;陳等,2023年)提出了用于VAD的弱監(jiān)督方法。Sultani等人(Sultani,Chen和Shah,2018年)首次提出了一種深度多實例學(xué)習(xí)模型,將視頻視為一個袋子,將其多個片段視為實例。隨后的幾項研究工作努力基于自注意力模型和transformers來建模時間關(guān)系。例如,鐘等人(鐘等,2019年)提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的方法,用于建模視頻片段之間的特征相似性和時間一致性。田等人(田等,2021年)采用自注意力網(wǎng)絡(luò)來捕獲視頻的全局時間上下文關(guān)系。李等人(李,劉,焦,2022年)提出了一種基于transformer的多序列學(xué)習(xí)框架,黃等人(黃等,2022年)提出了一種基于transformer的時間表示聚合框架。周等人(周,于,楊,2023年)提出了一個全局和局部多頭自注意力模塊,用于transformer層,以獲得更具表現(xiàn)力的嵌入,以捕獲視頻中的時間依賴關(guān)系。上述方法只檢測視頻幀是否異常,相反,吳等人(吳,劉,劉,2022年)提出了一種細(xì)粒度的WSVAD方法,區(qū)分不同類型的異常幀。最近,CLIP模型也在VAD社區(qū)引起了極大關(guān)注?;贑LIP的視覺特征,呂等人(呂等,2023年)提出了一種新的MIL框架稱為無偏MIL(UMIL),用于學(xué)習(xí)改善WSVAD性能的無偏異常特征。Joo等人(Joo等,2023年)提出了利用CLIP的視覺特征來有效提取有區(qū)別的表示,并通過時間自注意力來建模長短范圍的時間依賴關(guān)系,并提名感興趣的片段。所有上述方法都基于分類范式,通過預(yù)測異常幀的概率來檢測異常事件。然而,這種分類范式?jīng)]有充分利用文本標(biāo)簽的語義信息。
Vision-Language Pre-training
在過去幾年中,視覺語言預(yù)訓(xùn)練取得了令人矚目的進(jìn)展,旨在通過在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)視覺和語言之間的語義對應(yīng)關(guān)系。作為最具代表性的作品之一,CLIP在一系列視覺語言下游任務(wù)上展現(xiàn)了出色的性能,包括圖像分類(Zhou等人,2022a)、圖像字幕生成(Mokady,Hertz和Bermano,2021)、目標(biāo)檢測(Zhou等人,2022b)、場景文本檢測(Yu等人,2023)、密集預(yù)測(Zhou等人,2022c;Rao等人,2022)等。最近,一些后續(xù)工作嘗試?yán)妙A(yù)訓(xùn)練模型進(jìn)行視頻領(lǐng)域的應(yīng)用。例如,CLIP4Clip(Luo等人,2022)將CLIP模型的知識轉(zhuǎn)移到了視頻-文本檢索領(lǐng)域,一些作品(Wang,Xing和Liu,2021;Lin等人,2022;Ni等人,2022)試圖利用CLIP進(jìn)行視頻識別,此外,CLIP被用于解決更復(fù)雜的視頻動作定位任務(wù)(Nag等人,2022;Ju等人,2022)。更普遍地,Ju等人(Ju等人,2022)提出了一個簡單但強大的基線,以高效地將預(yù)訓(xùn)練的基于圖像的視覺語言模型進(jìn)行適應(yīng),并利用其對于一般視頻理解的強大能力。在本工作中,我們深入探討了如何高效地將CLIP的預(yù)訓(xùn)練視覺語言知識從圖像級別適應(yīng)到視頻級別的下游弱監(jiān)督視頻異常檢測任務(wù)中。
Method
Problem Definition
WSVAD任務(wù)假定在訓(xùn)練階段只提供視頻級別的標(biāo)簽。對于給定的視頻v,如果該視頻的所有幀都不包含異常事件,則將此視頻定義為正常,標(biāo)簽為y = 0;否則,如果至少有一幀包含異常事件,則將此視頻標(biāo)記為異常,標(biāo)簽為y = 1。WSVAD任務(wù)的目標(biāo)是訓(xùn)練一個檢測模型,能夠在僅提供視頻級別注釋的情況下預(yù)測幀級別的異常置信度。
先前的研究通常利用預(yù)訓(xùn)練的3D卷積模型,例如C3D(Tran等人,2015年)和I3D(Carreira和Zisserman,2017年),來提取視頻特征,然后將這些特征輸入基于MIL的二元分類器中。這些范式在本文中被稱為基于分類的范式。最近,作為大規(guī)模語言-視覺預(yù)訓(xùn)練模型的CLIP已經(jīng)在計算機(jī)視覺領(lǐng)域的許多領(lǐng)域中取得了突破,展現(xiàn)出了在廣泛的下游任務(wù)中的強大泛化能力。受到CLIP的啟發(fā),我們的工作不僅使用CLIP的圖像編碼器作為主干來提取視頻特征,還嘗試?yán)肅LIP的文本編碼器充分利用視覺內(nèi)容和文本概念之間強大的關(guān)聯(lián)。我們的工作在圖2中展示。
Local and Global Temporal Adapter
據(jù)我們所知,CLIP是在從網(wǎng)絡(luò)中爬取的大規(guī)模圖像-文本對上進(jìn)行預(yù)訓(xùn)練的。在本節(jié)中,我們研究如何建模時間依賴關(guān)系,以及如何彌合圖像領(lǐng)域和視頻領(lǐng)域之間的差距,以適用于CLIP。與此同時,學(xué)習(xí)WSVAD任務(wù)的長期和短期時間依賴關(guān)系也是非常重要的(Zhou、于和楊,2023年;吳和劉,2021年)。從效率和感受野的角度出發(fā),我們設(shè)計了一種新的與局部和全局感受野兼容的時間建模方法。
Local Module.為了捕捉局部時間依賴關(guān)系,我們在來自CLIP凍結(jié)圖像編碼器的幀級特征 X c l i p ∈ R n × d X_{clip} ∈ \mathbb{R}^{n×d} Xclip?∈Rn×d之上引入了一個Transformer編碼器層,其中 n n n是視頻的長度, d d d是維度大小,在本文中設(shè)置為512。需要注意的是,這一層與普通的Transformer編碼器層不同,因為它將自注意力計算限制在局部窗口(Liu等人,2021年)而不是全局范圍內(nèi)。具體來說,我們將幀級特征分割成等長且重疊的窗口,自注意力計算被限制在每個窗口內(nèi),窗口之間沒有信息交換。這樣的操作具有類似卷積的局部感受野,并且導(dǎo)致較低的計算復(fù)雜度。
Global Module.為了進(jìn)一步捕捉全局時間依賴關(guān)系,我們在局部模塊之后引入了一個輕量級的GCN模塊,由于GCN在VAD中被廣泛采用并證明了其性能(Zhong等人,2019年;Wu等人,2020年;吳和劉,2021年),我們采用GCN來捕獲全局時間依賴關(guān)系。根據(jù)(Zhong等人,2019年;Wu等人,2020年)的設(shè)置,我們使用GCN從特征相似性和相對距離的角度建模全局時間依賴關(guān)系,總結(jié)如下: X g = g e l u ( [ Softmax ( H sim ) ; Softmax ( H dis ) ] X l W ) X_g = gelu \left( \left[ \text{Softmax} (H_{\text{sim}}) ; \text{Softmax} (H_{\text{dis}}) \right] X_l W \right) Xg?=gelu([Softmax(Hsim?);Softmax(Hdis?)]Xl?W)
其中, H sim H_{\text{sim}} Hsim?和 H dis H_{\text{dis}} Hdis?是鄰接矩陣,Softmax標(biāo)準(zhǔn)化用于確保 H sim H_{\text{sim}} Hsim?和 H dis H_{\text{dis}} Hdis?的每一行的和等于 一。 X l X_l Xl?是從局部模塊獲得的幀級視頻特征, W W W是唯一的可學(xué)習(xí)權(quán)重,用于轉(zhuǎn)換特征空間,這個設(shè)置展示了全局模塊的輕量級特性。
Feature similarity branch旨在為GCN生成相似性關(guān)系鄰接矩陣。我們使用逐幀的余弦相似度來計算鄰接矩陣
H
sim
H_{\text{sim}}
Hsim?,其表達(dá)如下:
我們還使用閾值操作來過濾弱關(guān)系(Wu et al. 2020)。
Position distance branch用于基于每兩個幀之間的位置距離來捕獲長范圍依賴性。鄰近鄰接矩陣如下所示:
第i幀和第j幀之間的接近關(guān)系僅由它們的相對時間位置確定。 σ σ σ是一個超參數(shù),用于控制距離關(guān)系的影響范圍。局部Transformer和GCN層都采用殘差連接來防止特征過度平滑。
Dual Branch and Prompt
Dual Branch.
與先前的WSVAD工作不同,我們的VadCLIP包含雙分支,更準(zhǔn)確地說,除了傳統(tǒng)的二元分類分支(C-Branch)外,我們還引入了一種新穎的視頻-文本對齊分支,稱為A-Branch。具體而言,在時間建模之后,視頻特征
X
g
X_g
Xg?被送入一個全連接(FC)層以獲得最終的視頻特征
X
∈
R
n
×
d
X \in \mathbb{R}^{n \times d}
X∈Rn×d。在C-Branch中,我們將
X
X
X饋入一個包含前饋網(wǎng)絡(luò)(FFN)層、一個FC層和一個Sigmoid激活函數(shù)的二元分類器,以獲得異常置信度
A
∈
R
n
×
1
A \in \mathbb{R}^{n \times 1}
A∈Rn×1。
在A-Branch中,文本標(biāo)簽,例如虐待、騷亂、打斗等,不再被編碼為獨熱向量,相反,它們使用CLIP的文本編碼器被編碼為類嵌入。我們始終利用CLIP的凍結(jié)預(yù)訓(xùn)練文本編碼器,因為文本編碼器可以為視頻異常檢測提供語言知識先驗。然后,我們計算類嵌入和幀級視覺特征之間的匹配相似性,以獲得對齊映射
M
∈
R
n
×
m
M \in \mathbb{R}^{n \times m}
M∈Rn×m,其中
m
m
m是文本標(biāo)簽的數(shù)量,這樣的設(shè)置類似于CLIP。在A-Branch中,每個輸入文本標(biāo)簽表示一類異常事件,因此自然實現(xiàn)了細(xì)粒度的WSVAD。
Learnable Prompt.在WSVAD中,文本標(biāo)簽是單詞或短語,它們過于簡潔,無法很好地總結(jié)異常事件。為了學(xué)習(xí)文本嵌入的強大可轉(zhuǎn)移性,我們借鑒了CoOp(Zhou等人,2022a年)的靈感,并在原始類嵌入中添加了可學(xué)習(xí)的提示。具體而言,原始文本標(biāo)簽首先通過CLIP標(biāo)記器轉(zhuǎn)換為類令牌,即
t
i
n
i
t
=
Tokenizer(Label)
t_{init} = \text{Tokenizer(Label)}
tinit?=Tokenizer(Label),其中Label是離散的文本標(biāo)簽,例如fighting,shooting,road accident等。然后,我們將
t
i
n
i
t
t_{init}
tinit?與包含
l
l
l個上下文令牌的可學(xué)習(xí)提示
{
c
1
,
.
.
.
,
c
l
}
\{c_1, ..., c_l\}
{c1?,...,cl?}連接起來,形成一個完整的句子令牌,因此文本編碼器的輸入如下所示:
這里我們將類令牌放置在序列的中間。然后,將這個序列令牌加上位置嵌入以獲取位置信息,最后,CLIP的文本編碼器以
t
p
t_p
tp?作為輸入,并生成類嵌入
t
o
u
t
∈
R
d
t_{out} \in \mathbb{R}^d
tout?∈Rd。
Anomaly-Focus Visual Prompt.為了進(jìn)一步提高文本標(biāo)簽對異常事件的表示能力,我們研究如何利用視覺上下文來完善類嵌入,因為視覺上下文可以使簡潔的文本標(biāo)簽更加準(zhǔn)確。為此,我們提出了一個異常聚焦視覺提示,它聚焦在異常片段中的視覺嵌入,并將這些嵌入聚合為類嵌入的視頻級提示。我們首先使用從C-Branch獲得的異常置信度A作為異常注意力,然后通過異常注意力和視頻特征X的點積計算視頻級提示,如下所示:
其中,
N
o
r
m
Norm
Norm表示歸一化,
V
∈
R
d
V ∈ \mathbb{R}^d
V∈Rd是異常聚焦視覺提示。然后,我們將V添加到類嵌入
t
o
u
t
t_{out}
tout?中,并通過一個簡單的前饋神經(jīng)網(wǎng)絡(luò)(FFN)層和一個跳躍連接獲得最終的特定實例的類嵌入
T
T
T。
其中 A D D ADD ADD是逐元素加法。這樣的實現(xiàn)允許類嵌入從視頻中提取相關(guān)的視覺上下文。
有了 X X X和 T T T,我們計算所有類嵌入與幀級視覺特征之間的匹配相似度,以獲得對齊圖 M M M。
Objective Function
對于C-Branch,我們遵循以前的工作(Wu等人,2020年),使用Top-K機(jī)制在異常和正常視頻中選擇K個高異常置信度作為視頻級預(yù)測。然后,我們使用視頻級預(yù)測與地面實況之間的二元交叉熵來計算分類損失 L b c e \mathcal{L}_{bce} Lbce?。
對于A-Branch,我們面臨著新的挑戰(zhàn):
1)沒有異常置信度;
2)面對的是多類而不是二元類別。
為了解決這個困境,我們提出了MIL-Align機(jī)制,它類似于普通的MIL。具體地,我們考慮對齊映射
M
M
M,因為它表示幀級視頻特征與所有類別嵌入之間的相似性。對于每一行,我們選擇前
K
K
K個相似性,并計算平均值來衡量該視頻與當(dāng)前類別之間的對齊程度。然后,我們可以得到一個向量
S
S
S = {
s
1
,
.
.
.
,
s
m
s_1,...,s_m
s1?,...,sm?},表示該視頻與所有類別之間的相似度。我們希望視頻及其配對的文本標(biāo)簽在其他標(biāo)簽中具有最高的相似度得分。為了實現(xiàn)這一點,首先計算多類預(yù)測,如下所示:
其中,
p
i
p_i
pi?是關(guān)于第
i
i
i個類別的預(yù)測,
τ
τ
τ是用于縮放的溫度超參數(shù)。最后,對齊損失
L
n
c
e
\mathcal{L}_{nce}
Lnce?可以通過交叉熵來計算。
除了分類損失
L
b
c
e
\mathcal{L}_{bce}
Lbce?和對齊損失
L
n
c
e
\mathcal{L}_{nce}
Lnce?之外,我們還引入了對比損失,略微將正常類別嵌入和其他異常類別嵌入分開。首先,我們計算正常類別嵌入和其他異常類別嵌入之間的余弦相似度,然后計算對比損失
L
c
t
s
\mathcal{L}_{cts}
Lcts?如下:
其中
t
n
t_n
tn?是正常類嵌入,
t
a
t_a
ta?是異常類嵌入。
總體而言,VadCLIP的最終總目標(biāo)由下式給出:
Inference
VadCLIP包含雙分支,使其能夠處理精細(xì)和粗粒度的WSVAD任務(wù)。
對于精細(xì)粒度的WSVAD,我們遵循以前的作品(Wu, Liu, and Liu 2022),并利用對齊映射M上的閾值策略來預(yù)測異常事件。
對于粗粒度的WSVAD,有兩種計算幀級異常程度的方式。第一種是直接使用C-Branch中的異常置信度,第二種是使用A-Branch中的對齊映射,具體來說,將視頻與正常類之間的相似度減去一即為異常程度。最后,我們選擇這兩種方式中最佳的一種來計算幀級異常程度。
Experiments
Datasets and Evaluation Metrics
Datasets.我們在兩個流行的WSVAD數(shù)據(jù)集上進(jìn)行實驗,即UCF-Crime和XD-Violence。值得注意的是,這兩個數(shù)據(jù)集上的訓(xùn)練視頻僅具有視頻級別的標(biāo)簽。
Evaluation Metrics.對于粗粒度的WSVAD,我們遵循先前的工作,使用XD-Violence數(shù)據(jù)集的幀級別平均精度(AP),以及UCF-Crime數(shù)據(jù)集的幀級別AUC和異常視頻的AUC(稱為AnoAUC)。對于細(xì)粒度的WSVAD,我們遵循視頻動作檢測中的標(biāo)準(zhǔn)評估協(xié)議,使用不同交并比(IoU)閾值下的平均精度(mAP)值。在這項工作中,我們使用從0.1到0.5的IoU閾值,步長為0.1,來計算mAP值。同時,我們還報告了mAP的平均值(AVG)。需要注意的是,我們僅在測試集的異常視頻上計算mAP。
Implementation Details
網(wǎng)絡(luò)結(jié)構(gòu)方面,我們采用了預(yù)訓(xùn)練的CLIP(ViT-B/16)的凍結(jié)圖像和文本編碼器。FFN是Transformer中的標(biāo)準(zhǔn)層,ReLU被替換為GELU。對于超參數(shù),我們將公式3中的σ設(shè)置為1,將公式8中的τ設(shè)置為0.07,上下文長度l設(shè)置為20。對于LGT-Adapter中的窗口長度,我們分別將其設(shè)置為64和8,用于XD-Violence和UCF-Crime。對于公式10中的λ,我們將其分別設(shè)置為XD-Violence上的 1 × 1 0 ? 4 1 × 10^{-4} 1×10?4和UCF-Crime上的 1 × 1 0 ? 1 1 × 10^{-1} 1×10?1。對于模型訓(xùn)練,VadCLIP在單個NVIDIA RTX 3090 GPU上使用PyTorch進(jìn)行訓(xùn)練。我們使用AdamW作為優(yōu)化器,批量大小為64。在XD-Violence上,學(xué)習(xí)率和總epoch分別設(shè)置為 2 × 1 0 ? 5 2 × 10^{-5} 2×10?5和20,在UCF-Crime上,學(xué)習(xí)率和總epoch分別設(shè)置為 1 × 1 0 ? 5 1 × 10^{-5} 1×10?5和10。
Comparison with State-of-the-Art Methods
VadCLIP可以同時實現(xiàn)粗粒度和細(xì)粒度的WSVAD,因此我們展示了VadCLIP的性能,并將其與幾種最先進(jìn)的方法在粗粒度和細(xì)粒度的WSVAD任務(wù)上進(jìn)行比較。為了公平起見,所有比較方法都使用從CLIP提取的相同視覺特征,就像VadCLIP一樣。
Coarse-grained WSVAD Results.我們在表1和表2中展示了比較結(jié)果。Ju等人(Ju et al. 2022)是一個基于CLIP的動作識別工作,與我們的方法相比明顯不足。這樣的結(jié)果展示了WSVAD任務(wù)的挑戰(zhàn),并且也展示了我們的方法相對于Ju等人(Ju et al. 2022)在特定的WSVAD任務(wù)上的優(yōu)勢。此外,我們發(fā)現(xiàn)VadCLIP在兩個常用基準(zhǔn)數(shù)據(jù)集上顯著優(yōu)于半監(jiān)督方法和基于分類的弱監(jiān)督方法,在所有評估指標(biāo)上都是如此。更具體地說,VadCLIP在XD-Violence和UCF-Crime上分別達(dá)到了84.51%的AP和82.08%的AUC,成為了這兩個數(shù)據(jù)集上的新的最先進(jìn)水平。相比之下,在XD-Violence上,VadCLIP在AP方面比最佳競爭對手CLIP-TSA(Joo et al. 2023)和DMU(Zhou, Yu, and Yang 2023)分別提升了2.3%,在UCF-Crime上,VadCLIP在AUC方面也比它們提升了0.4%和1.3%。更重要的是,在所有比較方法中,AVVD(Wu, Liu, and Liu 2022)確實使用了精細(xì)的類標(biāo)簽,并且在XD-Violence和UCF-Crime上分別只達(dá)到了78.10%的AP和82.45%的AUC,遠(yuǎn)遠(yuǎn)落后于VadCLIP。這樣的結(jié)果表明,簡單地使用精細(xì)的標(biāo)簽不能帶來性能提升,因為標(biāo)簽的過度輸入增加了二分類的難度。VadCLIP的性能優(yōu)勢部分歸因于視覺語言關(guān)聯(lián),因為所有比較基線都使用與VadCLIP相同的視覺特征。
Fine-grained WSVAD Results.對于細(xì)粒度的WSVAD任務(wù),我們在表3和表4中將VadCLIP與之前的作品AVVD和Sultani等人(Sultani, Chen, and Shah 2018; Wu, Liu, and Liu 2022)進(jìn)行了比較。在這里,AVVD是第一個提出細(xì)粒度WSVAD的工作,我們重新使用CLIP的視覺特征對其進(jìn)行了實現(xiàn),然后我們還根據(jù)AVVD中的設(shè)置對Sultani等人的方法進(jìn)行了微調(diào),以適應(yīng)細(xì)粒度的WSVAD。正如我們所看到的,細(xì)粒度的WSVAD相對于粗粒度的WSVAD是一個更具挑戰(zhàn)性的任務(wù),因為前者需要考慮多類別分類準(zhǔn)確性和檢測段的連續(xù)性。在這項任務(wù)上,VadCLIP在XD-Violence和UCF-Crime數(shù)據(jù)集上也明顯優(yōu)于這些優(yōu)秀的比較方法。例如,在XD-Violence上,與Sultani等人和AVVD相比,VadCLIP在AVG方面的性能提升分別為13.1%和4.5%。
Ablation Studies
在XD-Violence數(shù)據(jù)集上進(jìn)行了廣泛的消融。在這里,我們選擇相似性圖來計算粗粒度WSVAD的幀級異常度。
Effectiveness of LGT-Adapter.如表5所示,首先,沒有LGT-Adapter的時間建模輔助,基線模型僅實現(xiàn)了72.22%的AP和15.64%的AVG,導(dǎo)致AP下降了12.3%,AVG下降了9.1%。其次,僅使用全局Transformer編碼器層、局部Transformer編碼器層或GCN層都明顯提升了性能,特別是在AP方面,這明確表明Transformer編碼器和GCN都能通過視頻幀之間的自注意力機(jī)制高效捕獲時間依賴性。第三,全局Transformer編碼器和GCN的組合在AP方面略有提高(+0.4%),而局部Transformer編碼器和GCN的組合在AVG方面表現(xiàn)顯著更好(+3.9%)。我們還嘗試了局部Transformer編碼器和全局Transformer編碼器的組合,但在AP方面性能顯著下降,可能的原因是,與Transformer相比,GCN可以被視為是一種輕量級變體,較少的參數(shù)可以防止CLIP的學(xué)習(xí)知識在傳輸過程中受到影響。因此,局部Transformer編碼器和GCN是最佳組合,可以捕獲不同范圍的時間依賴性。
Effectiveness of Dual Branch.如表6所示,我們僅使用C-Branch的方法屬于基于分類的范式,并且在XD-Violence上可以與當(dāng)前最先進(jìn)的方法競爭。另一方面,我們僅使用A-Branch的方法在AP方面表現(xiàn)不佳,因為它主要專注于細(xì)粒度的WSVAD。在C-Branch中利用粗粒度分類對特征優(yōu)化的幫助下,A-Branch獲得了約7%的AP改進(jìn)。通過進(jìn)一步添加A-Branch中的可學(xué)習(xí)提示和視覺提示,這些是A-Branch中的專門設(shè)計,我們注意到可以實現(xiàn)一致的性能提升,從而達(dá)到新的最先進(jìn)水平。這些結(jié)果清楚地表明,包含粗粒度分類范式和細(xì)粒度對齊范式的雙分支可以通過利用不同粒度的互補性來提高性能。
Effectiveness of Prompt.如表7所示,使用手工設(shè)計的提示會導(dǎo)致AP下降3.5%,AVG下降2.2%,這表明可學(xué)習(xí)的提示更有潛力,可以更好地適應(yīng)從大型語言-視覺模型到WSVAD任務(wù)的預(yù)訓(xùn)練知識。此外,簡單地使用視覺提示中的幀級特征的平均值(Ni等人,2022年)導(dǎo)致AP下降3.2%,AVG下降3.1%,這樣的結(jié)果表明,關(guān)注視頻中的異常片段可以支持VadCLIP獲得更準(zhǔn)確的實例特定文本表示,從而增強了視頻-語言對齊的能力,對WSVAD任務(wù)很有用。我們建議讀者參考補充材料進(jìn)行更多消融研究和定性可視化。
Qualitative Analyses
Feature Discrimination Visualization.我們使用 t-SNE 對 XD-Violence 的特征分布進(jìn)行可視化,結(jié)果如圖3所示,其中星形圖標(biāo)表示文本標(biāo)簽特征。正如我們所看到的,盡管 CLIP 基于圖像-文本對學(xué)習(xí)了廣義的能力,但由于 WSVAD 任務(wù)的內(nèi)在問題,這樣的能力仍然不能讓它有效區(qū)分不同的類別。經(jīng)過 VadCLIP 的專門優(yōu)化后,這些視覺特征具有更明顯的邊界,并且圍繞著相應(yīng)的文本類特征。
Coarse-grained Qualitative Visualization.我們在圖 4 中展示了粗粒度 WSVAD 的定性可視化結(jié)果,其中藍(lán)色曲線代表異常預(yù)測,粉色區(qū)域?qū)?yīng)著地面真實的異常時間位置。正如我們所看到的,VadCLIP 準(zhǔn)確地檢測到了兩個基準(zhǔn)測試中不同類別的異常區(qū)域,同時,它還在正常視頻上產(chǎn)生了相當(dāng)?shù)偷漠惓nA(yù)測值。文章來源:http://www.zghlxwxcb.cn/news/detail-841421.html
Conclusion
在這項工作中,我們提出了一種名為VadCLIP的新范式,用于弱監(jiān)督視頻異常檢測。為了有效地將預(yù)訓(xùn)練的知識和視覺-語言關(guān)聯(lián)從凍結(jié)的CLIP適應(yīng)到WSVAD任務(wù)中,我們首先設(shè)計了一個LGT-Adapter來增強時間建模的能力,然后我們設(shè)計了一系列的提示機(jī)制來提高一般知識對特定任務(wù)的適應(yīng)性。最后,我們引入了MIL-Align操作,以促進(jìn)在弱監(jiān)督下的視覺-語言對齊的優(yōu)化。我們通過對兩個WSVAD基準(zhǔn)測試進(jìn)行了充分的實驗證明了VadCLIP的有效性和最新性能。在未來,我們將繼續(xù)探索視覺-語言預(yù)訓(xùn)練知識,并進(jìn)一步致力于開放集VAD任務(wù)。文章來源地址http://www.zghlxwxcb.cn/news/detail-841421.html
到了這里,關(guān)于【視頻異常檢測】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!