国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀

這篇具有很好參考價值的文章主要介紹了Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

文章信息:
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
發(fā)表于:CVPR 2022
原文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Zaheer_Generative_Cooperative_Learning_for_Unsupervised_Video_Anomaly_Detection_CVPR_2022_paper.pdf

Abstract

視頻異常檢測在弱監(jiān)督和單類別分類(OCC)設置下已經(jīng)得到很好的研究。然而,無監(jiān)督視頻異常檢測方法相對較少,可能是因為異常事件發(fā)生頻率較低,通常定義不清晰,并且在缺乏地面真實監(jiān)督的情況下,這可能會對學習算法的性能產(chǎn)生不利影響。這個問題既具有挑戰(zhàn)性,又具有回報,因為它可以完全消除獲取繁瑣注釋的成本,并使這些系統(tǒng)能夠在無人干預的情況下部署。

為此,我們提出了一種新穎的無監(jiān)督生成合作學習(GCL)方法,用于視頻異常檢測,它利用了異常事件低頻率的特點,構(gòu)建了生成器和鑒別器之間的交叉監(jiān)督。實質(zhì)上,兩個網(wǎng)絡以協(xié)作方式進行訓練,從而實現(xiàn)了無監(jiān)督學習。我們在兩個大規(guī)模視頻異常檢測數(shù)據(jù)集(UCF crime和ShanghaiTech)上進行了大量實驗證明,相對于現(xiàn)有的無監(jiān)督和OCC方法,我們的方法一致取得了改進,證實了其有效性。

1. Introduction

在現(xiàn)實世界中,基于學習的異常檢測任務主要由于這類事件的罕見發(fā)生而極具挑戰(zhàn)性。由于這些事件的不受約束的性質(zhì),這一挑戰(zhàn)進一步加劇。因此,獲取足夠的異常示例相當繁瑣,可以安全地假設永遠不會收集到為訓練完全監(jiān)督模型所需的詳盡集。為了使學習可行,通常將異常歸因為與正常數(shù)據(jù)顯著偏差的事件。因此,異常檢測的一種常見方法是訓練一個僅使用正常訓練示例學習主導數(shù)據(jù)表示的單類分類器[14,17,25,28,41,42,45,47,60,64,66,72](圖1)。一類分類(OCC)方法的一個顯著缺點是正常訓練數(shù)據(jù)的有限可用性,無法捕捉所有正常變化[9]。此外,OCC方法通常不適用于具有多個類別和視頻監(jiān)視中經(jīng)常出現(xiàn)的多種動態(tài)情況的復雜問題。在這種情況下,未見過的正?;顒涌赡芘c學習的正常表示顯著偏離,被預測為異常,從而導致誤報[14,67]。

最近,弱監(jiān)督的異常檢測方法變得越來越受歡迎[24,26,34,46,56,63],通過使用視頻級別的標簽[50,65,67,69,74]減少了獲取手動精細注釋的成本。具體而言,如果視頻的某些內(nèi)容是異常的,則將其標記為異常,如果所有內(nèi)容都是正常的,則標記為正常,需要對完整的視頻進行手動檢查。盡管這樣的標注相對經(jīng)濟實惠,但在許多現(xiàn)實世界的應用中仍然不切實際。有大量的視頻數(shù)據(jù),特別是原始鏡頭,如果沒有注釋成本,可以用于異常檢測訓練。然而,據(jù)我們所知,幾乎沒有人嘗試利用未標記的訓練數(shù)據(jù)進行視頻異常檢測。

在這項工作中,我們探索了視頻異常檢測的無監(jiān)督模式,這顯然比全監(jiān)督、弱監(jiān)督或單類別監(jiān)督更具挑戰(zhàn)性(圖1)。然而,由于對假設較少,它也更具有吸引力,因此將鼓勵開發(fā)新穎且更實用的算法。請注意,文獻中的術語“無監(jiān)督”通常指的是假設所有正常訓練數(shù)據(jù)的OCC方法[11,37,64,66]。然而,它使整體學習問題變得部分監(jiān)督[19]。在處理視頻的無監(jiān)督異常檢測時,我們利用了視頻相對于靜止圖像更豐富的信息和異常事件相對于正常事件更為罕見的簡單事實,并試圖以結(jié)構(gòu)化的方式利用這樣的領域知識。

為此,我們提出了一種生成式協(xié)同學習(GCL)方法,該方法以未標記的視頻作為輸入,并學習預測幀級別的異常分數(shù)預測作為輸出。所提出的GCL包括兩個關鍵組件,一個生成器和一個鑒別器,它們以相互合作的方式進行訓練,以提高異常檢測性能。生成器不僅重建豐富可用的正常表示,還通過使用一種新穎的負學習(NL)方法扭曲可能的高置信度異常表示。相反,鑒別器估計一個實例是異常的概率。對于無監(jiān)督的異常檢測,我們從生成器創(chuàng)建偽標簽并使用這些標簽來訓練鑒別器。在接下來的步驟中,我們從訓練過的鑒別器版本創(chuàng)建偽標簽,然后使用這些標簽來改進生成器。整個系統(tǒng)是以交替的方式進行訓練的,每次迭代中生成器和鑒別器都通過相互合作得到改進。
貢獻:我們提出了一種異常檢測方法,能夠在復雜的監(jiān)控場景中定位異常事件,而無需標記的訓練數(shù)據(jù)。據(jù)我們所知,我們的方法是首次嘗試在完全無監(jiān)督模式下解決監(jiān)控視頻異常檢測問題的方法。我們提出了一種新穎的生成式協(xié)同學習(GCL)框架,包括一個生成器、一個鑒別器和交叉監(jiān)督。通過使用一種新穎的負學習方法,強制生成器網(wǎng)絡不對異常進行重建。在兩個大規(guī)模復雜異常事件檢測數(shù)據(jù)集(UCF-Crime和ShanghaiTech)上進行了廣泛的實驗證明,我們的方法相對于基線和一些現(xiàn)有的無監(jiān)督方法以及OCC方法提供了可見的性能增益。

2. Related Work

異常檢測是圖像[7,16,39]和視頻[49,50,64,67,69]領域中廣泛研究的問題。我們回顧了不同的視頻異常檢測和相互學習策略的監(jiān)督模式。

Anomaly Detection as One-Class Classification (OCC).
OCC方法已經(jīng)在廣泛的異常檢測問題中找到應用,包括醫(yī)學診斷[58]、網(wǎng)絡安全[11]、監(jiān)控安全系統(tǒng)[20,29,32,64]以及工業(yè)檢驗[5]。其中一些方法使用手工設計的特征[3,31,38,55,71],而其他方法使用使用預訓練模型提取的深度特征[42,47]。隨著生成模型的出現(xiàn),許多方法提出了這些網(wǎng)絡的變體,以學習正常數(shù)據(jù)的表示[12,35,36,43–45,61,62,64]。OCC方法在避免對異常測試輸入進行良好重建方面面臨著挑戰(zhàn)。這個問題歸因于這樣一個事實,即由于OCC方法在訓練時只使用正常類別數(shù)據(jù),可能會得到一個無效的分類器邊界,該邊界在包圍正常數(shù)據(jù)的同時排除了異常數(shù)據(jù)[64]。為了解決這個限制,一些研究人員最近提出了偽監(jiān)督方法,其中使用正常訓練數(shù)據(jù)生成偽異常實例[1,64]。

Weakly Supervised (WS) Anomaly Detection.
視頻級二進制注釋用于訓練能夠預測幀級異常分數(shù)的WS分類器[40,50,52,65,67,69,74]。視頻級標簽以這樣的方式提供,即正常標記的視頻是完全正常的,而異常標記的視頻包含正常和異常內(nèi)容,而沒有任何關于時間位置的信息(圖1)。

Unsupervised Anomaly Detection.
使用未標記訓練數(shù)據(jù)的異常檢測方法在文獻中相當稀少。根據(jù)圖1所示的命名法,文獻中的大多數(shù)無監(jiān)督方法實際上屬于OCC類別。例如,MVTecAD [5]基準測試確保訓練數(shù)據(jù)僅正常,因此其評估協(xié)議是OCC,繼承此假設的方法本質(zhì)上也是一類分類器[6,12]。與這些算法相比,我們提出的GCL方法能夠從未標記的訓練數(shù)據(jù)中學習,而無需假設任何常態(tài)。視頻形式的訓練數(shù)據(jù)符合關于異常檢測的幾個重要屬性,例如,異常比正常事件更不頻繁,并且事件通常在時間上是一致的。我們從這些線索中獲得動機,以完全無人監(jiān)督的方式進行培訓。

Teacher Student Networks.
我們提出的GCL與知識蒸餾中的Teacher Student(TS)框架有一些相似之處[18]。GCL與TS框架的主要區(qū)別在于其目標不是知識蒸餾。此外,我們的生成器生成帶有噪聲的標簽,而我們的鑒別器相對于噪聲較為強大,清理這些標簽,而在TS框架中并非如此。

Mutual Learning (ML).
GCL框架與ML算法[73]也有一些相似之處。然而,GCL的兩個組件學習不同類型的信息,并通過交叉監(jiān)督進行訓練,與ML算法使用的監(jiān)督學習形成對比。此外,在GCL中,每個網(wǎng)絡的輸出經(jīng)過一個閾值處理過程,生成偽標簽。在ML中,群體學習以匹配每個成員的分布,而在GCL中,每個成員試圖從其他生成的偽標簽中學習。在無監(jiān)督模式下使用未標記的訓練數(shù)據(jù)進行群體的相互學習尚未被探索。

Dual Learning.。
這也是一種相關的方法,其中兩個語言翻譯模型相互教授[15]。然而,通過使用預先訓練的無條件語言專家模型提供外部監(jiān)督,以檢查翻譯的質(zhì)量。通過這種方式,不同的模型具有不同的學習任務,而在我們提出的GCL方法中,學習任務是相同的。以前曾提出過Cooperative Learning的另一種變體[4],用于在不同領域中共同學習相同任務的多個模型。例如,通過在RGB圖像上訓練一個模型和在深度圖像上訓練另一個模型來制定對象識別,然后這兩個模型傳遞領域不變的對象屬性。而在我們的GCL方法中,兩個模型都在相同的領域中處理相同的任務。

3. Method

我們提出的異常檢測的生成式協(xié)同學習方法(GCL)包括一個特征提取器、一個生成器網(wǎng)絡、一個鑒別器網(wǎng)絡和兩個偽標簽生成器。圖2顯示了整體架構(gòu)。接下來將討論每個組件。
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測

3.1. Training Data Organization

為了最小化GCL的計算復雜性并減少訓練時間,類似于現(xiàn)有的SOTA[50,52,65,67,69,74],我們利用深度特征提取器將視頻數(shù)據(jù)轉(zhuǎn)換為緊湊的特征。所有輸入視頻都被排列為片段,然后提取這些片段的特征。此外,這些特征被隨機排列為批次。在每次迭代中,隨機選擇一個批次用于訓練GCL模型(圖2)。形式上,給定一個包含n個視頻的訓練數(shù)據(jù)集,每個視頻被劃分為不重疊的具有p幀的段 S ( i , j ) S_{(i,j)} S(i,j)?,其中 i ∈ [ 1 , n ] i ∈ [1,n] i[1,n]是視頻索引, j ∈ [ 1 , m i ] j ∈ [1,m_i] j[1,mi?]是段索引。段大小p在數(shù)據(jù)集的所有訓練和測試視頻中保持不變。對于每個 S ( i , j ) S_{(i,j)} S(i,j)?,使用特征提取器 E ( ? ) E(·) E(?)計算一個特征向量 f ( i , j ) ∈ R d f(i,j) ∈ R^d f(i,j)Rd,其中 f ( i , j ) = E ( S ( i , j ) ) f(i,j)=E(S(i,j)) f(i,j)=E(S(i,j))

在現(xiàn)有的弱監(jiān)督異常檢測方法中,每次訓練迭代都在一個或多個完整的視頻上進行[50,74]。最近,CLAWS Net [67]提出提取幾批時間上一致的特征,然后將每個特征隨機輸入到網(wǎng)絡中。這樣的配置用于最小化連續(xù)批次之間的相關性的目的。在這些現(xiàn)有的方法中,重要的是在批處理或視頻級別維持時間順序。然而,在所提出的GCL方法中,我們隨機化輸入特征的順序,從而去除了批內(nèi)和批間的相關性。

3.2. Generative Cooperative Learning

我們提出的用于異常檢測的生成式協(xié)同學習(GCL)方法包括一個生成器G,它是一個自動編碼器(AE),和一個鑒別器D,它是一個全連接(FC)分類器。這兩個模型都是以協(xié)同的方式進行訓練,而無需使用任何數(shù)據(jù)注釋。具體而言,我們既不使用正常類別注釋,如一類分類(OCC)方法[12,37,54]中所使用的,也不使用弱監(jiān)督異常檢測系統(tǒng)[50,67,69,74]中使用的二進制注釋。正如在第1節(jié)中討論的那樣,使用AE的背后的直覺是這樣的模型可以在一定程度上捕捉整體主導的數(shù)據(jù)趨勢[12]。另一方面,作為鑒別器的FC分類網(wǎng)絡在提供監(jiān)督訓練時被認為是有效的,盡管有噪聲[67]。為了進行訓練,首先使用G創(chuàng)建的偽標注用于訓練D。在下一步中,使用D創(chuàng)建的偽標注用于改進G。因此,這兩個模型中的每一個都是通過使用另一個模型創(chuàng)建的標注來進行交替訓練的。訓練配置的目標是在訓練迭代中改進偽標記,從而導致整體異常檢測性能的提高。接下來將討論特定的體系結(jié)構(gòu)細節(jié)和幾個設計選擇。

3.2.1 Generator Network

G將特征作為輸入,并將這些特征的重建作為輸出。通常,通過最小化重建損失 L r L_r Lr?來訓練G,如下:
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
其中 f i , j q f^q_{i,j} fi,jq?是輸入到G的特征向量,并且 f i , j q ^ \widehat{f^q_{i,j}} fi,jq? ?是對應的重構(gòu)向量,B是批量大小。

3.2.2 Pseudo Labels from Generator

在我們提出的協(xié)作學習中,使用G創(chuàng)建偽標簽來訓練D。這些標簽是通過考慮每個實例 q q q在一個批次上的重構(gòu)損失 L G q L^q_G LGq?的分布來創(chuàng)建的。主要思想是將導致更高損失值的特征向量視為異常的,而生成較小損失值的特征向量視為正常的。為了實現(xiàn)這一直覺,可以考慮使用閾值 L G t h L^{th}_G LGth?,如下所示:
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
我們采用了一種簡單的方法來選擇 L G t h L^{th}_G LGth?,即考慮具有最大重構(gòu)誤差的樣本的固定百分比作為異常。在 L G q L^q_G LGq?直方圖中,我們經(jīng)驗性地觀察到朝向最小誤差的較大峰值和朝向最大誤差的較小峰值。由于類別邊界通常落在低密度區(qū)域,誤差直方圖也是選擇適當?shù)?span id="n5n3t3z" class="katex--inline"> L G t h L^{th}_G LGth?的有效工具。有關 L G t h L^{th}_G LGth?選擇的不同替代方案的分析詳見補充材料。

3.2.3 Discriminator Network

作為鑒別器D的二元分類網(wǎng)絡使用G生成的偽標簽進行訓練,通過在一個批次b上最小化二元交叉熵損失來實現(xiàn):
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
其中 l G q l^q_G lGq? ∈{0,1}是由G生成的偽標簽,并且當輸入特征向量 f i , j q f^q_{i,j} fi,jq?時, l i , j q ^ \widehat{l^q_{i,j}} li,jq? ?是D的輸出。

3.2.4 Pseudo Labels from Discriminator

從D生成的偽標簽用于提高G的重構(gòu)判別能力。D的輸出 p i , j q ^ \widehat{p^q_{i,j}} pi,jq? ?是將特征向量 f i , j q f^q_{i,j} fi,jq?視為異常的概率。因此,通過在D的輸出 p i , j q ^ \widehat{p^q_{i,j}} pi,jq? ?上使用閾值機制,認為具有更高概率的特征是異常的。然后,D生成的注釋用于在下一次迭代中微調(diào)G。
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
其中,以與計算閾值 L G t h L^{th}_G LGth?相同的方式計算閾值 L D t h L^{th}_D LDth?

3.2.5 Negative Learning of Generator Network

通過使用D生成的偽標簽,采用負學習(NL)對G進行訓練。為了增加對正常和異常輸入的重構(gòu)之間的區(qū)別,鼓勵G對具有異常偽標簽的樣本進行較差的重構(gòu),而旨在將具有正常偽標簽的樣本正常地重構(gòu)為最小誤差。

文獻中已經(jīng)探索了一些負學習的變體。例如,Munawar等人[33]和Astrid等人[1]對已知的異常輸入的整個批次進行了負損失。然而,這種配置需要對整個數(shù)據(jù)集及其標簽進行先驗知識。在提出的GCL方法中,偽標簽是隨著訓練的進行而迭代生成的,因此在同一個批次中可能會遇到正常和異常樣本。此外,我們不是使損失為負,而是通過使用偽重構(gòu)目標來強制使異常樣本被差異化重構(gòu)。因此,如圖3所示,對于D偽標記為異常的每個特征向量,其重構(gòu)目標將被替換為另一個特征向量。為了廣泛探討這個概念,我們提出以下不同類型的偽目標:

  1. 全1目標:原始重構(gòu)目標被一個維度相似的全1向量替換。
  2. 隨機正常目標:原始重構(gòu)目標被任意選擇的一個正常標記的特征向量替換。
  3. 隨機高斯噪聲目標:通過添加高斯噪聲來擾動原始重構(gòu)目標。
  4. 無負學習:對G不應用負學習。而是僅使用被偽標記為正常的特征向量來訓練G。不同偽目標的詳細分析見圖5。

我們經(jīng)驗觀察到,“全1”作為偽目標能夠提供更有區(qū)分度的重構(gòu)能力,因此更好地區(qū)分正常和異常輸入。損失函數(shù)由公式(1)修改為包括負學習:
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
其中偽目標 t q t_q tq?被定義為:
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測

3.3. Self-Supervised Pre-training

提議的GCL是通過利用G和D的合作使用未標記的視頻進行訓練的。由于異常檢測是一個不明確定義的問題,缺乏約束可能影響收斂性,系統(tǒng)可能會陷入局部最小值。為了改善收斂性,我們探索了通過預訓練G和D來啟動訓練過程。我們經(jīng)驗性地觀察到,使用基于方程(1)的預訓練G對學習系統(tǒng)的整體穩(wěn)定性是有益的,它還改善了收斂性以及系統(tǒng)的性能(第4節(jié))。

自編碼器被認為能夠捕捉訓練數(shù)據(jù)的主導表示[12, 64]。盡管異常是稀疏的,而正常特征在訓練數(shù)據(jù)中豐富,但我們在實驗證明,簡單地利用所有訓練數(shù)據(jù)對G進行預訓練可能不會提供有效的啟動。利用視頻中事件按時間順序發(fā)生以及異常幀通常比正常幀更具事件性的事實,我們利用連續(xù)特征向量之間的時間差作為一個估計器,最初用于清理G的預訓練訓練數(shù)據(jù)集。也就是說,僅當 ∣ ∣ f i , j t + 1 ? f i , j t ∣ ∣ 2 ≤ D t h ||f^{t+1}_{i,j} ? f^t_{i,j} ||_2 ≤ D_{th} ∣∣fi,jt+1??fi,jt?2?Dth? 時,特征向量 f i , j t + 1 f^{t+1}_{i,j} fi,jt+1?將用于預訓練,其中上標 t t t t + 1 t+1 t+1 顯示視頻中特征的時間順序, D t h D_{th} Dth? 是閾值。這種方法并不能保證完全消除異常事件,然而,它為 G G G的有效初始化清理了數(shù)據(jù),以便啟動訓練。一旦 G G G被預訓練,就會用它生成偽標簽,然后這些偽標簽被用于預訓練鑒別器。在這一步中, G G G的作用類似于一個糟糕的老師,因為生成的偽標簽相當嘈雜,而 D D D的作用類似于一個高效的學生,因為它學會了在嘈雜的標簽下更好地區(qū)分正常和異常特征。在接下來的步驟中,預訓練的 G G G D D D都被插入到我們的協(xié)同學習循環(huán)中。

3.4. Anomaly Scoring

為了在測試時計算最終的異常得分,有幾種可能的配置,即使用 G G G的重構(gòu)誤差或 D D D的預測分數(shù)。我們在實驗證明, G G G在連續(xù)的訓練迭代中保持相對糟糕,而 D D D則保持高效。因此,為了簡單起見,除非另有說明,本文中報告的所有結(jié)果都是使用 D D D的預測來計算的。

4. Experiments

在本節(jié)中,我們首先提供實驗細節(jié),然后與現(xiàn)有的SOTA方法進行比較,最后研究GCL方法的不同組成部分。

Datasets.

  • UCF-Crime(UCFC)數(shù)據(jù)集包含13個不同類別的真實世界異常事件,這些事件由CCTV監(jiān)控攝像頭捕獲,時間跨度為128小時[50]。這個數(shù)據(jù)集是復雜的,因為不受約束的背景。訓練分割包含810個異常視頻和800個正常視頻,而測試分割包含140個異常視頻和150個正常視頻。在訓練分割中,提供視頻級標簽,而在測試分割中,提供幀級二進制標簽。在我們的無監(jiān)督設置中,我們放棄了訓練分割標簽,并使用未標記的訓練視頻訓練擬議的GCL。

  • ShanghaiTech包含在大學校園13個不同地點拍攝的437個視頻中的階段性異常事件。該數(shù)據(jù)集最初是為OCC提出的,僅提供正常視頻用于訓練。后來,Zhong et al.[74]重新組織了這個數(shù)據(jù)集,以促進弱監(jiān)督算法的訓練。在訓練和測試分割中,正常和異常視頻都是混合的。新的訓練分割包含63個異常視頻和175個正常視頻,而新的測試分割包含44個異常視頻和155個正常視頻。為了訓練我們提出的GCL,我們在訓練和測試時都遵循后者的分割,而不使用訓練分割視頻標簽。

Evaluation Measures.
根據(jù)現(xiàn)有方法[14,27,50,74],我們使用ROC曲線下面積(AUC)進行評估和比較。AUC是基于兩個數(shù)據(jù)集中測試視頻的幀級注釋計算的。

Implementation Details.
為了展示協(xié)同學習概念的真正本質(zhì),我們選擇了相當簡單的架構(gòu),沒有任何花哨的元素,作為我們的生成器( G G G)和鑒別器( D D D)網(wǎng)絡。G和D的架構(gòu)被設置為全連接層[2048,1024,512,256,512,1024,2048]和[2048,512,32,1]。我們使用RMSprop優(yōu)化器對這兩個網(wǎng)絡進行訓練,學習率為0.00002,動量為0.60,在批量大小為8192的訓練數(shù)據(jù)上進行15個epoch的訓練。用于生成偽標簽的處理是數(shù)據(jù)驅(qū)動的。對于 G G G的每個偽標簽,損失函數(shù) L G t h = μ R + σ R L^{th}_G = μ_R + σ_R LGth?=μR?+σR?,其中 μ R μ_R μR? σ R σ_R σR?是重建誤差的平均值和標準差,如等式(1)所示。

對于每個批次,損失函數(shù) L D t h = μ P + 0.1 σ P L^{th}_D = μ_P + 0.1σ_P LDth?=μP?+0.1σP? 被用于D,其中 μ P μ_P μP? σ P σ_P σP? D D D為每個批次生成的概率 p i , j q ^ \widehat{p^q_{i,j}} pi,jq? ?的平均值和標準差。無監(jiān)督預訓練時使用 D t h = 0.70 D_{th}=0.70 Dth?=0.70的閾值。作為特征提取器,我們采用了ResNext3d框架,由原等人提出[13],在默認模式下運行。用于特征提取的段大小p被設置為16個非重疊幀。所有實驗都在配備Intel Core i7第8代和16GB RAM的NVIDIA RTX 2070上進行。

4.1. Comparisons with State-Of-The-Art (SOTA)

提出的GCL方法是以無監(jiān)督的方式進行訓練,沒有使用任何類型的注釋。沒有預訓練的GCL( G C L B GCL_B GCLB?)被視為基準。此外,進行了GCL的預訓練( G C L P T GCL_{PT} GCLPT?)、與基于OCC的預訓練自編碼器相結(jié)合的GCL( G C L O C C GCL_{OCC} GCLOCC?)以及弱監(jiān)督的GCL( G C L W S GCL_{WS} GCLWS?)的訓練和評估,并應用在UCFC和ShanghaiTech數(shù)據(jù)集上。

如表1所示,在UCFC數(shù)據(jù)集上,提出的 G C L B GCL_B GCLB?獲得了總體AUC為68.17%,比Autoencoder( A E A l l D a t a AE_{AllData} AEAllData?)在包括正常和異常訓練樣本的完整訓練數(shù)據(jù)上以無監(jiān)督方式訓練的AUC高11.85%。圖4(a)中重構(gòu)上的直方圖也提供了 A E A l l D a t a AE_{AllData} AEAllData?無法學習區(qū)分性重構(gòu)的見解。此外,在GCL中,鑒別器D的判別能力(圖4?)明顯優(yōu)于生成器G(圖4(b))。對kim等人[21]的實驗是在重新實現(xiàn)的方法上進行的,用于無標簽的訓練數(shù)據(jù)。
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測
G C L P T GCL_{PT} GCLPT?是提出的GCL的版本,其中包含一個以無監(jiān)督方式預訓練的自編碼器。在這個實驗中,我們獲得了71.04%的AUC性能,比基準GCLB提高了2.87%。這兩種方法在圖10中使用多個隨機種子初始化進行比較,GCLPT展現(xiàn)出一致的性能提升。表1還顯示,提出的GCLPT優(yōu)于所有現(xiàn)有的基于單類分類的異常檢測方法。盡管在訓練 G C L P T GCL_{PT} GCLPT?時沒有使用標簽監(jiān)督,但它表現(xiàn)出色。相反,OCC方法使用干凈的正常類進行訓練,這與我們基于無監(jiān)督訓練的GCL相比提供了額外的信息。

在另一個實驗中,自編碼器僅在訓練數(shù)據(jù)的正常類上進行預訓練,這使得設置與單類分類器的設置相當。在表1中,以正常類標簽形式提供額外信息的這種方案,被稱為 G C L O C C GCL_{OCC} GCLOCC?,獲得了在UCFC上的改進性能,達到了74.20%,顯著優(yōu)于所有現(xiàn)有的最先進的OCC方法。值得注意的是, G C L O C C GCL_{OCC} GCLOCC?的性能與Sultani等人[50]提出的利用視頻級標簽進行訓練的方法相媲美。

盡管GCL的目標是無監(jiān)督的協(xié)同學習,我們還將其擴展以納入弱監(jiān)督。表1中報告了這個版本的結(jié)果,稱為 G C L W S GCL_{WS} GCLWS?。盡管使用相當簡單的G和D網(wǎng)絡,沒有任何花哨的元素,但 G C L W S GCL_{WS} GCLWS?獲得了與幾種現(xiàn)有的弱監(jiān)督學習方法相媲美的結(jié)果。

我們還在ShanghaiTech數(shù)據(jù)集[29]上評估了我們的方法,并將結(jié)果與表1中的現(xiàn)有最先進方法進行了比較。在這個數(shù)據(jù)集上,我們提出的 G C L B GCL_B GCLB?獲得了72.41%的AUC,比 A E A l l D a t a AE_{AllData} AEAllData?高出了超過10%,顯示了基線方法的有效性。 G C L P T GCL_{PT} GCLPT?獲得了78.93%的AUC,比 G C L B GCL_B GCLB?提高了6.5%,證明了無監(jiān)督預訓練對于啟動訓練的重要性。盡管是無監(jiān)督的, G C L P T GCL_{PT} GCLPT?的性能優(yōu)于所有現(xiàn)有的OCC方法。

4.2. Ablation Study and Analysis

表二是消融實驗的結(jié)果:
Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀,論文閱讀,論文閱讀,深度學習,神經(jīng)網(wǎng)絡,人工智能,視覺檢測

5. Conclusion

我們提出了一種無監(jiān)督的異常檢測方法(GCL),利用未標記的訓練視頻,可以在不提供任何手動標注的情況下部署。GCL在兩個具有不同監(jiān)督級別的公共基準數(shù)據(jù)集上表現(xiàn)出色,包括無監(jiān)督、單類和弱監(jiān)督。最后,我們討論了無監(jiān)督設置的局限性,即在訓練數(shù)據(jù)集中假定存在異常。然而,與OCC方法相比,這更為現(xiàn)實,因為在實際情況中存在異常是很自然的情況。文章來源地址http://www.zghlxwxcb.cn/news/detail-822074.html

閱讀總結(jié)

  • 完全意義上的無監(jiān)督
  • 網(wǎng)絡還是挺簡單的,網(wǎng)絡設計個人覺得還是很有意思,要是有源碼就好了
  • 做了很充分的實驗

到了這里,關于Generative Cooperative Learning for Unsupervised Video Anomaly Detection 論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    論文解讀:(UPL)Unsupervised Prompt Learning for Vision-Language Models

    存在的問題 之前的來自目標數(shù)據(jù)集的標記數(shù)據(jù)(有監(jiān)督學習)可能會限制可伸縮性。 動機 通過無監(jiān)督提示學習(UPL)方法,以避免提示工程,同時提高類clip視覺語言模型的遷移性能。 主張top-k而不是top-p 注:top-k是指挑選概率最大的k個,top-p是指挑選預測概率大于p的那些數(shù)據(jù) 看

    2024年04月23日
    瀏覽(69)
  • Learning Memory-guided Normality for Anomaly Detection 論文閱讀

    Learning Memory-guided Normality for Anomaly Detection 論文閱讀

    文章信息: 發(fā)表于:cvpr2020 原文:https://arxiv.org/abs/2003.13228 代碼:https://github.com/cvlab-yonsei/MNAD 我們致力于解決異常檢測的問題,即在視頻序列中檢測異常事件?;诰矸e神經(jīng)網(wǎng)絡(CNNs)的異常檢測方法通常利用代理任務,比如重建輸入視頻幀,以在訓練時學習描述正常情況

    2024年02月03日
    瀏覽(36)
  • 【圖像拼接/視頻拼接】論文精讀:Eliminating Warping Shakes for Unsupervised Online Video Stitching(StabStitch)

    第一次來請先看這篇文章:【圖像拼接(Image Stitching)】關于【圖像拼接論文精讀】專欄的相關說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年03月24日
    瀏覽(22)
  • 【論文閱讀筆記】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

    ?本文提出了一種自監(jiān)督框架,名為“時間鄰域編碼”(Temporal Neighborhood Coding,TNC),用于學習非平穩(wěn)時間序列的可泛化表示。該方法利用信號生成過程的局部平滑性來定義具有平穩(wěn)性質(zhì)的時間鄰域。通過使用去偏差對比目標,該框架通過確保在編碼空間中,來自鄰域內(nèi)的信

    2024年02月21日
    瀏覽(21)
  • 【視頻異常檢測】Delving into CLIP latent space for Video Anomaly Recognition 論文閱讀

    【視頻異常檢測】Delving into CLIP latent space for Video Anomaly Recognition 論文閱讀

    中文題目:視頻異常識別的CLIP潛在空間研究 文章信息: 原文鏈接:https://arxiv.org/abs/2310.02835 源代碼:https://github.com/luca-zanella-dvl/AnomalyCLIP 我們介紹了一種新的方法AnomalyCLIP,它首次將大型語言和視覺(LLV)模型(如CLIP)與多實例學習相結(jié)合,用于聯(lián)合視頻異常檢測和分類。

    2024年04月14日
    瀏覽(20)
  • 【視頻異常檢測 Dual Memory Units with Uncertainty Regulation for Weakly Supervised Video Anomaly...論文閱讀

    【視頻異常檢測 Dual Memory Units with Uncertainty Regulation for Weakly Supervised Video Anomaly...論文閱讀

    中文標題:具有不確定性調(diào)節(jié)的雙存儲單元在弱監(jiān)督視頻異常檢測中的應用 文章信息: 原文鏈接:https://arxiv.org/abs/2403.06154 源碼:https://github.com/henrryzh1/UR-DMU 發(fā)表于:AAAI 2023 學習區(qū)分正常狀態(tài)和異常事件的辨別性特征對于弱監(jiān)督視頻異常檢測(WS-VAD)任務至關重要?,F(xiàn)有方

    2024年04月16日
    瀏覽(26)
  • 3D異常檢測論文筆記 | Shape-Guided Dual-Memory Learning for 3D Anomaly Detection

    3D異常檢測論文筆記 | Shape-Guided Dual-Memory Learning for 3D Anomaly Detection

    參考:https://paperswithcode.com/sota/3d-anomaly-detection-and-segmentation-on 論文:https://openreview.net/pdf?id=IkSGn9fcPz code:https://github.com/jayliu0313/Shape-Guided 我們提出了一個形狀引導的專家學習框架來解決無監(jiān)督的三維異常檢測問題。我們的方法是建立在兩個專門的專家模型的有效性和他們的

    2024年02月09日
    瀏覽(14)
  • 【視頻異常檢測】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 論文閱讀

    【視頻異常檢測】VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection 論文閱讀

    文章信息: 發(fā)表于:AAAI(CCF A) 原文鏈接:https://arxiv.org/abs/2308.11681 源碼鏈接:https://github.com/nwpu-zxr/VadCLIP 最近,對比語言-圖像預訓練(CLIP)模型在各種圖像級任務中取得了巨大成功,展現(xiàn)了學習豐富語義的強大視覺表示能力。一個開放且值得探討的問題是如何高效地將這樣一

    2024年03月19日
    瀏覽(30)
  • 論文閱讀---《Unsupervised Transformer-Based Anomaly Detection in ECG Signals》

    論文閱讀---《Unsupervised Transformer-Based Anomaly Detection in ECG Signals》

    題目:基于Transformer的無監(jiān)督心電圖(ECG)信號異常檢測 ????????異常檢測是數(shù)據(jù)處理中的一個基本問題,它涉及到醫(yī)療感知數(shù)據(jù)中的不同問題。技術的進步使得收集大規(guī)模和高度變異的時間序列數(shù)據(jù)變得更加容易,然而,為了確保一致性和可靠性,需要復雜的預測分析模

    2024年02月14日
    瀏覽(24)
  • 【最新視頻行人重識別綜述】Deep Learning for Video-based Person Re-Identification: A Survey

    【最新視頻行人重識別綜述】Deep Learning for Video-based Person Re-Identification: A Survey

    論文: https://arxiv.org/abs/2303.11332 視頻重識別流行的主要原因是為公共安全提供廣泛的服務,如跟蹤每個具有 唯一ID 的人,預防犯罪,行為分析,法醫(yī)調(diào)查等。在智能視頻監(jiān)控應用中,視頻重識別被定義為從大量圖庫圖像中通過各種不重疊的攝像機識別單個人。 視頻重識別算

    2024年04月14日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包