国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】視頻理解系列論文精讀

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】視頻理解系列論文精讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

視頻理解論文串講(上)【論文精讀】

1. Large-scale Video Classification with Convolutional Neural Networks

摘要

我們研究了多種擴(kuò)展CNN在時(shí)域上的連接性的方法,以利用局部的時(shí)空信息,并建議采用多分辨率、凹陷的架構(gòu)作為加速訓(xùn)練的一種有希望的方式。

1. 介紹

在圖像領(lǐng)域積極成果的鼓舞下,我們研究了CNN在大規(guī)模視頻分類中的表現(xiàn),在這種情況下,網(wǎng)絡(luò)不僅可以獲得單個(gè)靜態(tài)圖像中的外觀信息,還可以獲得其復(fù)雜的時(shí)間演變。在這種情況下,擴(kuò)展和應(yīng)用CNN有幾個(gè)挑戰(zhàn)。

  • 目前還沒有與現(xiàn)有圖像數(shù)據(jù)集的規(guī)模和種類相匹配的視頻分類基準(zhǔn),為了獲得足夠的數(shù)據(jù)量來訓(xùn)練我們的CNN架構(gòu),我們收集了一個(gè)新的Sports-1M數(shù)據(jù)集,以支持這一領(lǐng)域的未來工作。
  • 從建模的角度來看,我們通過評(píng)估多個(gè)CNN架構(gòu)來實(shí)證研究這些問題,這些架構(gòu)都采取了不同的方法來結(jié)合整個(gè)時(shí)域的信息。
  • 從計(jì)算的角度來看,加快CNN運(yùn)行性能的有效方法是修改架構(gòu),使其包含兩個(gè)獨(dú)立的處理流:一個(gè)是在低分辨率幀上學(xué)習(xí)特征的上下文流,一個(gè)是只在幀的中間部分操作的高分辨率凹陷流。我們觀察到,由于輸入維度的降低,網(wǎng)絡(luò)的運(yùn)行時(shí)間性能增加了2-4倍,同時(shí)保留了分類精度。
  • 我們根據(jù)經(jīng)驗(yàn)調(diào)查了轉(zhuǎn)移學(xué)習(xí)問題,通過重新利用在Sports-1M數(shù)據(jù)集上學(xué)到的低級(jí)特征,在UCF-101上取得了明顯更好的性能。

2. 相關(guān)工作

視頻分類的標(biāo)準(zhǔn)方法包括三個(gè)主要階段。首先,描述視頻區(qū)域的局部視覺特征被密集地提取出來或在一組稀疏的興趣點(diǎn)上提取。接下來,這些特征被組合成一個(gè)固定大小的視頻級(jí)描述。最后,訓(xùn)練一個(gè)分類器(如SVM),以區(qū)分感興趣的視覺類別。
與圖像數(shù)據(jù)領(lǐng)域相比,在視頻分類中應(yīng)用CNN的工作相對(duì)較少。由于CNN在圖像領(lǐng)域的所有成功應(yīng)用都有大量的訓(xùn)練集,我們推測(cè)這部分是由于缺乏大規(guī)模的視頻分類基準(zhǔn)。我們的模型是在完全監(jiān)督下進(jìn)行端到端的訓(xùn)練。

3. 模型

3.1 時(shí)間信息的融合

我們將每個(gè)視頻視為一袋短的、固定大小的片段。由于每個(gè)片段在時(shí)間上包含幾個(gè)連續(xù)的幀,我們可以在時(shí)間維度上擴(kuò)展網(wǎng)絡(luò)的連接性,以學(xué)習(xí)空間-時(shí)間特征。對(duì)于擴(kuò)展連接的精確細(xì)節(jié)有多種選擇,我們?cè)谙旅婷枋隽巳N廣泛的連接模式類別(早期融合、晚期融合和緩慢融合)。
【論文閱讀】視頻理解系列論文精讀
紅色、綠色和藍(lán)色方框分別表示卷積層、歸一化和池化層。在慢速融合模型中,所描述的列共享參數(shù)。

  • Single Frame。我們使用一個(gè)單幀基線結(jié)構(gòu)來了解靜態(tài)外觀對(duì)分類準(zhǔn)確性的貢獻(xiàn)。這個(gè)網(wǎng)絡(luò)類似于簡單的卷積神經(jīng)網(wǎng)絡(luò)。最后一層連接到一個(gè)softmax分類器。
  • Late Fusion。在第一個(gè)全連接層中合并這兩個(gè)數(shù)據(jù)流。因此,兩個(gè)單幀塔都不能單獨(dú)檢測(cè)到任何運(yùn)動(dòng),但第一個(gè)全連接層可以通過比較兩個(gè)塔的輸出來計(jì)算全局運(yùn)動(dòng)特征。
  • Early Fusion。將整個(gè)時(shí)間窗口的信息立即在像素層面上結(jié)合起來。這是通過修改單幀模型中第一個(gè)卷積層的過濾器來實(shí)現(xiàn)的,將其擴(kuò)展為11×11×3×T像素大小,其中T是時(shí)間范圍。早期與像素?cái)?shù)據(jù)的直接連接使網(wǎng)絡(luò)能夠精確地檢測(cè)局部運(yùn)動(dòng)方向和速度。
  • Slow Fusion。慢速融合模型是這兩種方法的平衡組合,它在整個(gè)網(wǎng)絡(luò)中緩慢地融合時(shí)間信息,使高層在空間和時(shí)間維度上逐漸獲得更多的全局信息。

3.2 多分辨率CNN

【論文閱讀】視頻理解系列論文精讀
輸入幀被送入兩個(gè)獨(dú)立的處理流:一個(gè)是模擬低分辨率圖像的上下文流,一個(gè)是處理高分辨率中心作物 (因?yàn)楦信d趣的對(duì)象往往占據(jù)中心區(qū)域) 的凹陷流。這兩個(gè)流由交替的卷積(紅色)、歸一化(綠色)和池化(藍(lán)色)層組成。兩個(gè)數(shù)據(jù)流都匯聚到兩個(gè)完全連接層(黃色)。

4. 實(shí)驗(yàn)細(xì)節(jié)、訓(xùn)練結(jié)果

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論和未來工作

  • 多分辨率和slow fusion可以提高網(wǎng)絡(luò)的性能。
  • 我們還確定了混合分辨率架構(gòu),它由低分辨率的上下文和高分辨率的凹流組成,是在不犧牲精度的情況下加快CNN的有效方法。
  • 我們?cè)赨CF-101上進(jìn)行的遷移學(xué)習(xí)實(shí)驗(yàn)表明,所學(xué)的特征是通用的,并能概括其他視頻分類任務(wù)。

未來的工作中,我們希望在數(shù)據(jù)集中納入更廣泛的類別,以獲得更強(qiáng)大和通用的特征,研究明確推理攝像機(jī)運(yùn)動(dòng)的方法,并探索循環(huán)神經(jīng)網(wǎng)絡(luò)作為一種更強(qiáng)大的技術(shù),將片段級(jí)預(yù)測(cè)結(jié)合到全局視頻級(jí)預(yù)測(cè)中。


2. Two-Stream Convolutional Networks for Action Recognition in Videos

摘要

我們研究了用于視頻中動(dòng)作識(shí)別的辨別性訓(xùn)練的深度卷積網(wǎng)絡(luò)(ConvNets)的架構(gòu)。我們面臨的挑戰(zhàn)是如何從靜止幀和幀之間的運(yùn)動(dòng)中捕捉到互補(bǔ)的外觀信息。
我們的貢獻(xiàn)有三個(gè)方面。首先,我們提出了一個(gè)包含空間和時(shí)間網(wǎng)絡(luò)的雙流ConvNet架構(gòu)。其次,我們證明,盡管訓(xùn)練數(shù)據(jù)有限,但在多幀密集光流上訓(xùn)練的ConvNet能夠達(dá)到非常好的性能。最后,我們展示了多任務(wù)學(xué)習(xí),應(yīng)用于兩個(gè)不同的動(dòng)作分類數(shù)據(jù)集,可以用來增加訓(xùn)練數(shù)據(jù)量并提高兩者的性能。

1. 介紹

與靜態(tài)圖像分類相比,視頻的時(shí)間成分為識(shí)別提供了額外的(重要的)線索,因?yàn)橐恍﹦?dòng)作可以根據(jù)運(yùn)動(dòng)信息被可靠地識(shí)別。此外,視頻為單一圖像(視頻幀)分類提供了自然的數(shù)據(jù)增強(qiáng)(抖動(dòng))。
我們研究了一種基于兩個(gè)獨(dú)立識(shí)別流(空間和時(shí)間)的不同架構(gòu),然后通過后期融合將其結(jié)合起來。空間流從靜止的視頻幀中進(jìn)行動(dòng)作識(shí)別,而時(shí)間流則被訓(xùn)練為從密集的光流形式的運(yùn)動(dòng)中識(shí)別動(dòng)作。

2. 用于視頻識(shí)別的雙流架構(gòu)

【論文閱讀】視頻理解系列論文精讀
視頻可以自然地被分解為空間和時(shí)間部分??臻g部分,以單個(gè)幀的形式出現(xiàn),帶有視頻中描述的場(chǎng)景和物體的信息。時(shí)間部分,以跨幀運(yùn)動(dòng)的形式,表達(dá)了觀察者(攝像機(jī))和物體的運(yùn)動(dòng)。

3. 光流卷積網(wǎng)絡(luò)

【論文閱讀】視頻理解系列論文精讀
一個(gè)ConvNet模型,它構(gòu)成了我們架構(gòu)的時(shí)間識(shí)別流,模型的輸入是由幾個(gè)連續(xù)幀之間的光流位移場(chǎng)堆疊而成。這種輸入明確地描述了視頻幀之間的運(yùn)動(dòng),這使得識(shí)別更容易。

3.1 ConvNet輸入配置:

光流的疊加:
密集的光流可以被看作是一組連續(xù)幀t和t+1之間的位移矢量場(chǎng)dt,矢量場(chǎng)的水平和垂直分量,d x t和d y t,可以被看作是圖像通道,非常適合使用卷積網(wǎng)絡(luò)進(jìn)行識(shí)別。為了表示一連串幀的運(yùn)動(dòng),我們將L個(gè)連續(xù)幀的流動(dòng)通道堆疊在一起,形成總共2L個(gè)輸入通道。
【論文閱讀】視頻理解系列論文精讀
軌跡疊加:
【論文閱讀】視頻理解系列論文精讀
左圖:光流堆疊(1)在多幀中的同一位置對(duì)位移向量d進(jìn)行采樣。右圖:軌跡堆疊(2)對(duì)軌跡上的向量進(jìn)行采樣。幀和相應(yīng)的位移向量以相同的顏色顯示。
漲點(diǎn)方法:(需要在代碼中體現(xiàn))

  • 雙向的光流
  • 平均流量減法。一般來說,對(duì)網(wǎng)絡(luò)輸入進(jìn)行零中心化是有益的

4. 實(shí)驗(yàn)細(xì)節(jié)、訓(xùn)練結(jié)果

訓(xùn)練采用了很多技巧:裁剪、翻轉(zhuǎn)、RGB抖動(dòng)、多GPU加速、光流圖被縮放到[0,255]并保存為JPEG格式。

【論文閱讀】視頻理解系列論文精讀
在使用遷移學(xué)習(xí),如果對(duì)所有網(wǎng)絡(luò)做微調(diào),則Dropout率設(shè)大一點(diǎn)可以防止過擬合。如果只做最后一層的參數(shù)更新的話,Dropout率應(yīng)設(shè)置小一點(diǎn),因?yàn)橹挥凶詈笠粚訁?shù)參與學(xué)習(xí)。

【論文閱讀】視頻理解系列論文精讀

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論

(i) 時(shí)間和空間識(shí)別流是互補(bǔ)的,因?yàn)樗鼈兊娜诤蠈?duì)兩者都有明顯的提高(比時(shí)間網(wǎng)提高6%,比空間網(wǎng)提高14%);
(ii) 基于SVM的軟分?jǐn)?shù)融合優(yōu)于平均法的融合;
(iii) 在ConvNet融合的情況下,使用雙向流沒有好處;
(iv) 使用多任務(wù)學(xué)習(xí)訓(xùn)練的時(shí)間ConvNet,單獨(dú)和與空間網(wǎng)融合時(shí)都表現(xiàn)最好。


3. Beyond Short Snippets: Deep Networks for Video Classification

摘要

我們提出了兩種能夠處理全長視頻的方法。第一種方法探索了各種卷積時(shí)間特征池架構(gòu),研究了在為這項(xiàng)任務(wù)調(diào)整CNN時(shí)需要做出的各種設(shè)計(jì)選擇。第二種提議的方法明確地將視頻建模為一個(gè)有序的幀序列。為此,我們采用了一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用長短期記憶(LSTM)單元,這些單元與底層CNN的輸出相連。

1. 介紹

我們?cè)u(píng)估了兩種能夠滿足這一要求的方法:特征集合和遞歸神經(jīng)網(wǎng)絡(luò)。特征匯集網(wǎng)絡(luò)使用CNN獨(dú)立處理每一幀,然后使用各種匯集層結(jié)合幀級(jí)信息。我們采用的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)源自長短時(shí)記憶(LSTM)單元,并使用記憶單元來存儲(chǔ)、修改和訪問內(nèi)部狀態(tài),使其能夠發(fā)現(xiàn)長范圍的時(shí)間關(guān)系。與特征池一樣,LSTM網(wǎng)絡(luò)在幀級(jí)CNN激活的基礎(chǔ)上運(yùn)行,可以學(xué)習(xí)如何隨著時(shí)間的推移整合信息。通過通過時(shí)間共享參數(shù),這兩種架構(gòu)都能夠保持恒定的參數(shù)數(shù)量,同時(shí)捕捉到視頻的時(shí)間演變的全局描述。
為了在保持低計(jì)算量的同時(shí)學(xué)習(xí)視頻的全局描述,我們建議每秒鐘只處理一幀。為了彌補(bǔ)隱性運(yùn)動(dòng)信息的丟失,我們以相鄰幀計(jì)算的光流圖像的形式納入顯性運(yùn)動(dòng)信息。光流使我們能夠保留運(yùn)動(dòng)信息的好處(通常通過高幀率采樣實(shí)現(xiàn)),同時(shí)仍然捕捉到全局視頻信息。
【論文閱讀】視頻理解系列論文精讀
我們的貢獻(xiàn)可以概括為以下幾點(diǎn):

  1. 我們提出了用于獲得全局視頻級(jí)描述符的CNN架構(gòu),并證明使用越來越多的幀數(shù)可以顯著提高分類性能。
  2. 通過時(shí)間共享參數(shù),在特征池和LSTM架構(gòu)中,參數(shù)的數(shù)量與視頻長度的關(guān)系保持不變。
  3. 我們確認(rèn)光流圖像可以極大地有利于視頻分類。

2. 相關(guān)工作

我們沒有試圖在小時(shí)間段內(nèi)學(xué)習(xí)空間-時(shí)間特征,而是考慮了幾種不同的方法,在視頻的長時(shí)間內(nèi)(幾十秒)聚集強(qiáng)大的CNN圖像特征,包括特征池和遞歸神經(jīng)網(wǎng)絡(luò)。由于梯度消失和爆炸的問題,標(biāo)準(zhǔn)的遞歸網(wǎng)絡(luò)在長序列的學(xué)習(xí)上有困難。相比之下,長短時(shí)記憶(LSTM)使用記憶單元來存儲(chǔ)、修改和訪問內(nèi)部狀態(tài),使其能夠更好地發(fā)現(xiàn)長距離的時(shí)間關(guān)系。

3. 模型

3.1 特征池化結(jié)構(gòu)

【論文閱讀】視頻理解系列論文精讀
不同的特征池架構(gòu)。堆疊的卷積層用 "C "表示。藍(lán)色、綠色、黃色和橙色的矩形分別代表最大池、時(shí)域卷積層、全連接層和softmax層。

3.2 LSTM架構(gòu)

與產(chǎn)生順序不變的表征的Max-pooling相比,我們建議使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來明確考慮CNN激活的序列。由于視頻包含動(dòng)態(tài)內(nèi)容,幀與幀之間的變化可能編碼了額外的信息,這對(duì)做出更準(zhǔn)確的預(yù)測(cè)很有幫助。

【論文閱讀】視頻理解系列論文精讀

這里作者介紹了LSTM的模型,但現(xiàn)在LSTM使用的很少。

【論文閱讀】視頻理解系列論文精讀
深度視頻LSTM在每個(gè)連續(xù)的視頻幀中接受最后一個(gè)CNN層的輸出的輸入。CNN輸出通過時(shí)間向前處理,并通過五層堆疊的LSTM向上處理。一個(gè)softmax層預(yù)測(cè)每個(gè)時(shí)間步驟的類別。卷積網(wǎng)絡(luò)(粉色)和softmax分類器(橙色)的參數(shù)在不同的時(shí)間步驟中共享。

4. 訓(xùn)練結(jié)果

【論文閱讀】視頻理解系列論文精讀

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論

與以前在幾秒鐘的視頻上進(jìn)行訓(xùn)練的工作不同,我們的網(wǎng)絡(luò)利用了長達(dá)兩分鐘的視頻(120幀)來獲得最佳的分類性能。如果對(duì)速度有要求,我們的方法可以在一次拍攝中處理整個(gè)視頻。通過將較小的網(wǎng)絡(luò)擴(kuò)展到逐漸變大的網(wǎng)絡(luò)并進(jìn)行微調(diào),可以進(jìn)行訓(xùn)練。由此產(chǎn)生的網(wǎng)絡(luò)在Sports-1M和UCF-101基準(zhǔn)上都達(dá)到了最先進(jìn)的性能,支持了學(xué)習(xí)應(yīng)該在整個(gè)視頻而不是短片段中進(jìn)行的想法。
我們也表明,使用光流并不總是有幫助的,特別是如果視頻沒有被預(yù)處理,如Sports-1M數(shù)據(jù)集的情況。為了在這種情況下利用光流的優(yōu)勢(shì),有必要采用更復(fù)雜的序列處理架構(gòu),如LSTM。此外,在圖像幀上使用LSTM和光流,可以產(chǎn)生Sports-1M基準(zhǔn)的最高公開性能指標(biāo)。


4. Convolutional Two-Stream Network Fusion for Video Action Recognition

摘要

我們研究了一些在空間和時(shí)間上融合ConvNet的方法,有如下的:
(i)利用卷積代替softmax可以節(jié)約參數(shù),不損失精度
(ii)在最后一個(gè)卷積層融合這種網(wǎng)絡(luò)的空間性比早期更好,另外在類預(yù)測(cè)層融合可以提高準(zhǔn)確性
(iii)在時(shí)空鄰域匯集抽象的卷積特征進(jìn)一步提高性能

1. 介紹

利用卷積網(wǎng)絡(luò)解決動(dòng)作識(shí)別問題的效果不如卷積網(wǎng)絡(luò)在其他任務(wù)中的表現(xiàn)??赡茉蚴菙?shù)據(jù)集太小而且噪聲很大,而且卷積網(wǎng)絡(luò)專注與空間信息,無法充分利用時(shí)間信息。

【論文閱讀】視頻理解系列論文精讀
雙流結(jié)構(gòu)(或以前的任何方法)無法利用視頻中兩個(gè)非常重要的線索進(jìn)行動(dòng)作識(shí)別。(i) 識(shí)別什么東西在哪里移動(dòng),即把外觀識(shí)別(空間線索)與光流識(shí)別(時(shí)間線索)登記在一起;
(ii) 這些線索如何隨時(shí)間演變。

2. 相關(guān)工作

C3D在有限時(shí)間學(xué)習(xí)3D卷積,卷積核為3×3×3。另一種方法是將三維卷積拆分成二維空間卷積與一維時(shí)間卷積。
截止到目前為止(2016年),雙流網(wǎng)絡(luò)是深度學(xué)習(xí)應(yīng)用于動(dòng)作識(shí)別的最有效方法。

3. 方法

作者的結(jié)構(gòu)構(gòu)建在雙流網(wǎng)絡(luò)上。該網(wǎng)絡(luò)有兩個(gè)主要缺點(diǎn):

  • 融合只在最后一層,所以不能學(xué)習(xí)空間和時(shí)間的特征。
  • 在時(shí)間尺度上的記憶是有限的,因?yàn)榭臻g卷積只在單幀上操作,而時(shí)間卷積只在時(shí)間上相鄰的L個(gè)光流幀的堆棧。

3.1 空間融合

作者列舉了一系列融合空間層的方式:Sum fusion,Max fusion,Concatenation fusion,Conv fusion,Bilinear fusion
在實(shí)驗(yàn)部分,我們?cè)u(píng)估和比較了這些可能的融合方法在分類準(zhǔn)確性方面的表現(xiàn)

3.2 在哪融合網(wǎng)絡(luò)

【論文閱讀】視頻理解系列論文精讀
左邊的例子顯示了在第四個(gè)卷積層之后的融合。從融合的角度看,只使用了一個(gè)網(wǎng)絡(luò)塔。右圖顯示了在兩層(conv5之后和fc8之后)的融合,其中兩個(gè)網(wǎng)絡(luò)塔都被保留,一個(gè)是混合時(shí)空網(wǎng),一個(gè)是純粹的空間網(wǎng)。
【論文閱讀】視頻理解系列論文精讀
融合時(shí)間信息的不同方式。( a ) 二維匯集忽略了時(shí)間,只是在空間鄰域上進(jìn)行匯集,單獨(dú)縮小每個(gè)時(shí)間樣本的特征圖的大小。( b ) 三維匯集從局部時(shí)空鄰域匯集,首先跨時(shí)間堆疊特征圖,然后收縮這個(gè)時(shí)空立方體。( c ) 三維卷積+三維匯集在三維匯集之前,還用一個(gè)跨越特征通道、空間和時(shí)間的融合核進(jìn)行了卷積。

3.3 時(shí)間融合

將特征圖xt與時(shí)間t相結(jié)合,有3D Pooling,3D Conv + Pooling

【論文閱讀】視頻理解系列論文精讀
在細(xì)的時(shí)間尺度上捕捉短期信息,在粗的時(shí)間尺度上捕捉時(shí)間相鄰的輸入。

4. 實(shí)驗(yàn)與訓(xùn)練結(jié)果

【論文閱讀】視頻理解系列論文精讀

4.1 融合雙流網(wǎng)絡(luò)的方式

【論文閱讀】視頻理解系列論文精讀
對(duì)于表中所示的所有融合方法,與ReLU5相比,F(xiàn)C層的融合導(dǎo)致了較低的性能,方法的排序與表1相同,除了雙線性融合不可能在FC層實(shí)現(xiàn)。在所有FC層中,F(xiàn)C8比FC7和FC6表現(xiàn)更好,Conv融合為85.9%,其次是Sum融合為85.1%。我們認(rèn)為ReLU5表現(xiàn)稍好的原因是在這一層,外觀和運(yùn)動(dòng)之間的空間對(duì)應(yīng)關(guān)系被融合了,這在FC層就已經(jīng)被折疊。

4.2 在哪融合

【論文閱讀】視頻理解系列論文精讀
在ReLU5或ReLU5+FC8融合時(shí),性能最好(但涉及的參數(shù)幾乎是兩倍)。

4.3 精度對(duì)比

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論

(1)相比在最后的Softmax層融合,在中間的卷積層融合既能夠提升性能,又不會(huì)增加太多參數(shù)(見融合方式)
(2)在最后一個(gè)卷積層融合(relu5)的性能是最好的,如果再配合最后一個(gè)全連接層融合(fc8),性能還能再提升一點(diǎn)(見融合位置)
(3)在融合后使用pool3d代替代替pool2d能更進(jìn)一步地提高性能(見3D Conv和3D Pooling)


5. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

摘要

作者主要想通過較少的訓(xùn)練樣本,高效的訓(xùn)練出用于動(dòng)作識(shí)別的ConvNet,主要貢獻(xiàn)有兩點(diǎn):

  1. 提出temporal segment network(TSN)網(wǎng)絡(luò)模型:
    TSN采樣,具備稀疏性和全局性的特征,能夠建模間隔更長幀之間時(shí)間依賴關(guān)系,確保獲取視頻級(jí)信息
    TSN包含提取空間信息和提取時(shí)間信息兩路模型,并基于后期融合方式來融合兩路模型的結(jié)果
  2. 提出了一系列最佳實(shí)踐方案,如數(shù)據(jù)增強(qiáng)、正則化、交叉模態(tài)預(yù)訓(xùn)練等。并取得了非常好的效果

1. 介紹

在動(dòng)作識(shí)別中,有兩個(gè)關(guān)鍵和互補(bǔ)的方面:外觀和動(dòng)態(tài)。識(shí)別系統(tǒng)的性能在很大程度上取決于它是否能夠從中提取和利用相關(guān)信息。然而,由于許多復(fù)雜因素,如比例變化、視點(diǎn)變化和相機(jī)運(yùn)動(dòng),提取此類信息并非易事。
主流ConvNet框架通常側(cè)重于外觀和短期運(yùn)動(dòng),因此缺乏整合長期時(shí)間結(jié)構(gòu)的能力。

ConvNets在基于視頻的動(dòng)作識(shí)別中的應(yīng)用受到兩個(gè)主要障礙的阻礙。首先,長距離的時(shí)間結(jié)構(gòu)在理解動(dòng)作視頻的動(dòng)態(tài)方面起著重要作用。
然而,主流的ConvNet框架通常專注于表象和短期運(yùn)動(dòng),因此缺乏納入長程時(shí)間結(jié)構(gòu)的能力。其次,在實(shí)踐中,訓(xùn)練深度ConvNets需要大量的訓(xùn)練樣本以達(dá)到最佳性能。但數(shù)據(jù)集有限。因此,卷積網(wǎng)絡(luò)面臨著過擬合的風(fēng)險(xiǎn)。
時(shí)空段網(wǎng)絡(luò)(TSN),這個(gè)框架用稀疏的采樣方案在一個(gè)長的視頻序列上提取短的片段,其中的樣本沿著時(shí)間維度均勻分布。在此基礎(chǔ)上,采用分段式結(jié)構(gòu)來匯總采樣片段的信息。在這個(gè)意義上,時(shí)間段網(wǎng)絡(luò)能夠?qū)φ麄€(gè)視頻的長距離時(shí)間結(jié)構(gòu)進(jìn)行建模。此外,這種稀疏的抽樣策略以極低的成本保留了相關(guān)的信息,從而在合理的時(shí)間和計(jì)算資源預(yù)算下實(shí)現(xiàn)了長視頻序列的端到端學(xué)習(xí)。

探索了一些好的做法來克服上述因訓(xùn)練樣本數(shù)量有限而造成的困難,包括:1)跨模態(tài)預(yù)訓(xùn)練;2)正則化;3)增強(qiáng)數(shù)據(jù)增量。

作者認(rèn)為,在訓(xùn)練視頻分類模型時(shí),連續(xù)的幀會(huì)造成冗余,所以密集采樣的策略是沒必要的,所以作者采用了稀疏采樣的策略。

2. 相關(guān)工作

主要有兩種做法:

  • 雙流結(jié)構(gòu),一個(gè)模型學(xué)習(xí)圖像層面的信息,一個(gè)模型學(xué)習(xí)時(shí)間層面的信息,最后融合兩路模型的結(jié)果
  • 使用3D卷積核,同時(shí)抽取圖像層面和時(shí)間層面的信息,這衍生出了不同3D卷積核的變種

3. 模型

3.1 時(shí)序段網(wǎng)絡(luò)TSN

具體來說,我們提出的時(shí)間段網(wǎng)絡(luò)框架,旨在利用整個(gè)視頻的視覺信息來進(jìn)行視頻級(jí)預(yù)測(cè),也是由空間流ConvNets和時(shí)間流ConvNets組成。
時(shí)間段網(wǎng)絡(luò)不是在單幀或幀堆上工作,而是在整個(gè)視頻中稀疏采樣的短片段序列上工作。
【論文閱讀】視頻理解系列論文精讀
一個(gè)輸入視頻被分成K個(gè)片段,并從每個(gè)片段中隨機(jī)選擇一個(gè)簡短的片段。不同片段的等級(jí)分?jǐn)?shù)通過片段共識(shí)函數(shù)進(jìn)行融合,產(chǎn)生片段共識(shí),這是一個(gè)視頻級(jí)別的預(yù)測(cè)。然后,來自所有模式的預(yù)測(cè)被融合以產(chǎn)生最終的預(yù)測(cè)。所有片段的ConvNets共享參數(shù)。

3.2 學(xué)習(xí)時(shí)序段網(wǎng)絡(luò)

  1. 模型架構(gòu):之前的two-stream模型采用的是相對(duì)淺的模型結(jié)構(gòu),作者選擇BN-Inception這種比較深的模型結(jié)構(gòu)來當(dāng)做building block,因?yàn)樵撃P驮谒俣群蜏?zhǔn)確率上都不錯(cuò)。

  2. 模型輸入:之前two-stream模型采用RGB作為spatial stream的輸入,采用光流作為temporal stream的輸入。作者研究了額外的兩種模態(tài),RGB difference和warped光流。

【論文閱讀】視頻理解系列論文精讀

圖2. 四種類型的輸入模式的例子。RGB圖像、RGB差分、光流場(chǎng)(x,y方向)和扭曲的光流場(chǎng)(x,y方向)

。

  1. 模型訓(xùn)練:由于視頻樣本較少,訓(xùn)練較深的ConvNet可能會(huì)過擬合。為了解決該問題,作者提出了如下的策略:
  • 跨模態(tài)預(yù)訓(xùn)練:RGB網(wǎng)絡(luò)可以使用ImageNet預(yù)訓(xùn)練,但是光流網(wǎng)絡(luò)沒有預(yù)訓(xùn)練的數(shù)據(jù)集,所有作者采用ImageNet上預(yù)訓(xùn)練的參數(shù)來初始化光流模型參數(shù)。
  • 正則化:Batch Normalization用來解決協(xié)變量偏移的問題。在學(xué)習(xí)過程中,BN將估計(jì)每批中的激活均值和方差,并使用它們將這些激活值轉(zhuǎn)換為標(biāo)準(zhǔn)高斯分布。該操作會(huì)使得模型收斂速度變快,但是同時(shí)會(huì)帶來了過擬合的問題。因?yàn)椋髡咄ㄟ^固定住除了第一層以外,其他層的BN參數(shù),來解決該問題。而且,作者在BN-Inception模型后面加入了dropout層,來解決過擬合的問題。
  1. 數(shù)據(jù)增強(qiáng):random cropping、horizontal flipping、corner cropping、scale jittering。

4. 訓(xùn)練結(jié)果

(1)跨模態(tài)預(yù)訓(xùn)練和partial BN with dropout實(shí)驗(yàn):
【論文閱讀】視頻理解系列論文精讀
(2)新模態(tài)特征:RGB Difference和warped optical flow fields實(shí)驗(yàn)
【論文閱讀】視頻理解系列論文精讀

RGB Difference和RGB特征有一定的互補(bǔ)性
結(jié)合RGB和光流特征,能取得非常好的效果

【論文閱讀】視頻理解系列論文精讀
所以在下面的實(shí)驗(yàn)中,我們選擇平均池化作為默認(rèn)的聚合函數(shù)。

【論文閱讀】視頻理解系列論文精讀
"BN-Inception+TSN "指的是在性能最好的BN-Inception架構(gòu)上應(yīng)用時(shí)間段網(wǎng)絡(luò)框架的設(shè)置。
【論文閱讀】視頻理解系列論文精讀

UCF101數(shù)據(jù)集上的擬議方法的成分分析。從左到右,我們一個(gè)一個(gè)地添加組件。BN-Inception被用作ConvNet架構(gòu)

【論文閱讀】視頻理解系列論文精讀
基于時(shí)間段網(wǎng)絡(luò)(TSN)的方法與其他最先進(jìn)的方法的比較。分別介紹了使用兩種輸入模式(RGB+Flow)和三種輸入模式(RGB+Flow+Warped Flow)的結(jié)果。

5. 結(jié)論

作者提出了Temporal Segment Network,用于建模視頻級(jí)模型,捕獲長時(shí)間的運(yùn)動(dòng)特征。通過稀疏采樣的分段結(jié)構(gòu)以及各種數(shù)據(jù)增強(qiáng)策略,該模型在HMDB51和UCF101上取得了非常好的效果。文章來源地址http://www.zghlxwxcb.cn/news/detail-408574.html

到了這里,關(guān)于【論文閱讀】視頻理解系列論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [論文精讀] 使用擴(kuò)散模型生成真實(shí)感視頻 - 【李飛飛團(tuán)隊(duì)新作,文生視頻 新基準(zhǔn)】

    [論文精讀] 使用擴(kuò)散模型生成真實(shí)感視頻 - 【李飛飛團(tuán)隊(duì)新作,文生視頻 新基準(zhǔn)】

    論文導(dǎo)讀: 論文背景:2023年12月11日,AI科學(xué)家李飛飛團(tuán)隊(duì)與谷歌合作,推出了視頻生成模型W.A.L.T(Window Attention Latent Transformer)——一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的、基于Transformer架構(gòu)的擴(kuò)散模型。李飛飛是華裔女科學(xué)家、世界頂尖的AI專家,現(xiàn)為美國國家工程院

    2024年02月03日
    瀏覽(33)
  • 【圖像拼接/視頻拼接】論文精讀:Dynamic Video Stitching via Shakiness Removing

    第一次來請(qǐng)先看這篇文章:【圖像拼接(Image Stitching)】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年01月21日
    瀏覽(36)
  • 李沐論文精讀系列二:Vision Transformer、MAE、Swin-Transformer

    李沐論文精讀系列二:Vision Transformer、MAE、Swin-Transformer

    傳送門: 李沐論文精讀系列一: ResNet、Transformer、GAN、BERT 李沐論文精讀系列三:MoCo、對(duì)比學(xué)習(xí)綜述(MoCov1/v2/v3、SimCLR v1/v2、DINO等) 李沐論文精讀系列四:CLIP和改進(jìn)工作串講(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 論文名稱: An Image Is Worth 16x16 Words: Transformers For Imag

    2024年01月17日
    瀏覽(23)
  • 【圖像拼接/視頻拼接】論文精讀:Eliminating Warping Shakes for Unsupervised Online Video Stitching(StabStitch)

    第一次來請(qǐng)先看這篇文章:【圖像拼接(Image Stitching)】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年03月24日
    瀏覽(22)
  • 【論文閱讀筆記】Mamba模型代碼理解

    【論文閱讀筆記】Mamba模型代碼理解

    官方實(shí)現(xiàn):state-spaces/mamba (github.com) 最簡化實(shí)現(xiàn):johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實(shí)現(xiàn):alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量優(yōu)化,目錄層級(jí)較多,對(duì)于理解模型含

    2024年04月13日
    瀏覽(34)
  • 【論文閱讀】StyleganV1 算法理解

    【論文閱讀】StyleganV1 算法理解

    聽過Stylegan的人都覺得他很強(qiáng)!目前stylegan已經(jīng)發(fā)展到第三代v3了,但是為了搞清思想,我還是從v1開始了解,以下是我個(gè)人的一些理解。 傳統(tǒng)GAN采用端對(duì)端的輸入輸出,可以盡可能使用訓(xùn)練集數(shù)據(jù)的信息,但是會(huì)出現(xiàn)兩個(gè)問題。 僅保持一種輸入,縱使網(wǎng)絡(luò)有再強(qiáng)的能力,也可

    2024年02月12日
    瀏覽(29)
  • 李沐論文精讀系列四:CLIP和改進(jìn)工作串講(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    李沐論文精讀系列四:CLIP和改進(jìn)工作串講(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    傳送門: 李沐論文精讀系列一: ResNet、Transformer、GAN、BERT 李沐論文精讀系列二:Vision Transformer、MAE、Swin-Transformer 李沐論文精讀系列三:MoCo、對(duì)比學(xué)習(xí)綜述(MoCov1/v2/v3、SimCLR v1/v2、DINO等) 參考: 論文Learning Transferable Visual Models From Natural Language Supervision、官方代碼 李沐論文

    2024年02月05日
    瀏覽(19)
  • 李沐論文精讀系列三:MoCo、對(duì)比學(xué)習(xí)綜述(MoCov1/v2/v3、SimCLR v1/v2、DINO等)

    李沐論文精讀系列三:MoCo、對(duì)比學(xué)習(xí)綜述(MoCov1/v2/v3、SimCLR v1/v2、DINO等)

    傳送門: 李沐論文精讀系列一: ResNet、Transformer、GAN、BERT 李沐論文精讀系列二:Vision Transformer、MAE、Swin-Transformer 李沐論文精讀系列四:CLIP和改進(jìn)工作串講(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 1.1 導(dǎo)言 參考: 論文:Momentum Contrast for Unsupervised Visual Representation Learni

    2024年02月04日
    瀏覽(21)
  • 【論文閱讀】YOLO系列論文:YOLO v5

    【論文閱讀】YOLO系列論文:YOLO v5

    代碼: https://github.com/ultralytics/yolov5github.com 優(yōu)點(diǎn) 擁有四種模型,可以靈活部署 缺點(diǎn) 在性能上稍弱于YOLO V4 模型的改進(jìn) 增加了Focus切片、自適應(yīng)錨框、自適應(yīng)圖片縮放結(jié)構(gòu),保留信息,加快推理速度 有4個(gè)版本,分別是Yolov5s,Yolov5m,Yolov5l,yolov5x四個(gè)模型,其中Yolov5s網(wǎng)絡(luò)是該

    2024年02月16日
    瀏覽(58)
  • gen1-視頻生成論文閱讀

    gen1-視頻生成論文閱讀

    論文: 《Structure and Content-Guided Video Synthesis with Diffusion Models》 官網(wǎng): https://research.runwayml.com/gen1 github:未開源 現(xiàn)有編輯視頻內(nèi)容方法在保留結(jié)構(gòu)的同時(shí)編輯視頻內(nèi)容需要重新訓(xùn)練,或者跨幀圖像編輯傳播過程易出錯(cuò)。 本文提出一種結(jié)構(gòu)和內(nèi)容導(dǎo)向的視頻擴(kuò)散模型,可基于視

    2024年02月12日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包