視頻理解論文串講(上)【論文精讀】
1. Large-scale Video Classification with Convolutional Neural Networks
摘要
我們研究了多種擴(kuò)展CNN在時(shí)域上的連接性的方法,以利用局部的時(shí)空信息,并建議采用多分辨率、凹陷的架構(gòu)作為加速訓(xùn)練的一種有希望的方式。
1. 介紹
在圖像領(lǐng)域積極成果的鼓舞下,我們研究了CNN在大規(guī)模視頻分類中的表現(xiàn),在這種情況下,網(wǎng)絡(luò)不僅可以獲得單個(gè)靜態(tài)圖像中的外觀信息,還可以獲得其復(fù)雜的時(shí)間演變。在這種情況下,擴(kuò)展和應(yīng)用CNN有幾個(gè)挑戰(zhàn)。
- 目前還沒有與現(xiàn)有圖像數(shù)據(jù)集的規(guī)模和種類相匹配的視頻分類基準(zhǔn),為了獲得足夠的數(shù)據(jù)量來訓(xùn)練我們的CNN架構(gòu),我們收集了一個(gè)新的Sports-1M數(shù)據(jù)集,以支持這一領(lǐng)域的未來工作。
- 從建模的角度來看,我們通過評(píng)估多個(gè)CNN架構(gòu)來實(shí)證研究這些問題,這些架構(gòu)都采取了不同的方法來結(jié)合整個(gè)時(shí)域的信息。
- 從計(jì)算的角度來看,加快CNN運(yùn)行性能的有效方法是修改架構(gòu),使其包含兩個(gè)獨(dú)立的處理流:一個(gè)是在低分辨率幀上學(xué)習(xí)特征的上下文流,一個(gè)是只在幀的中間部分操作的高分辨率凹陷流。我們觀察到,由于輸入維度的降低,網(wǎng)絡(luò)的運(yùn)行時(shí)間性能增加了2-4倍,同時(shí)保留了分類精度。
- 我們根據(jù)經(jīng)驗(yàn)調(diào)查了轉(zhuǎn)移學(xué)習(xí)問題,通過重新利用在Sports-1M數(shù)據(jù)集上學(xué)到的低級(jí)特征,在UCF-101上取得了明顯更好的性能。
2. 相關(guān)工作
視頻分類的標(biāo)準(zhǔn)方法包括三個(gè)主要階段。首先,描述視頻區(qū)域的局部視覺特征被密集地提取出來或在一組稀疏的興趣點(diǎn)上提取。接下來,這些特征被組合成一個(gè)固定大小的視頻級(jí)描述。最后,訓(xùn)練一個(gè)分類器(如SVM),以區(qū)分感興趣的視覺類別。
與圖像數(shù)據(jù)領(lǐng)域相比,在視頻分類中應(yīng)用CNN的工作相對(duì)較少。由于CNN在圖像領(lǐng)域的所有成功應(yīng)用都有大量的訓(xùn)練集,我們推測(cè)這部分是由于缺乏大規(guī)模的視頻分類基準(zhǔn)。我們的模型是在完全監(jiān)督下進(jìn)行端到端的訓(xùn)練。
3. 模型
3.1 時(shí)間信息的融合
我們將每個(gè)視頻視為一袋短的、固定大小的片段。由于每個(gè)片段在時(shí)間上包含幾個(gè)連續(xù)的幀,我們可以在時(shí)間維度上擴(kuò)展網(wǎng)絡(luò)的連接性,以學(xué)習(xí)空間-時(shí)間特征。對(duì)于擴(kuò)展連接的精確細(xì)節(jié)有多種選擇,我們?cè)谙旅婷枋隽巳N廣泛的連接模式類別(早期融合、晚期融合和緩慢融合)。
紅色、綠色和藍(lán)色方框分別表示卷積層、歸一化和池化層。在慢速融合模型中,所描述的列共享參數(shù)。
- Single Frame。我們使用一個(gè)單幀基線結(jié)構(gòu)來了解靜態(tài)外觀對(duì)分類準(zhǔn)確性的貢獻(xiàn)。這個(gè)網(wǎng)絡(luò)類似于簡單的卷積神經(jīng)網(wǎng)絡(luò)。最后一層連接到一個(gè)softmax分類器。
- Late Fusion。在第一個(gè)全連接層中合并這兩個(gè)數(shù)據(jù)流。因此,兩個(gè)單幀塔都不能單獨(dú)檢測(cè)到任何運(yùn)動(dòng),但第一個(gè)全連接層可以通過比較兩個(gè)塔的輸出來計(jì)算全局運(yùn)動(dòng)特征。
- Early Fusion。將整個(gè)時(shí)間窗口的信息立即在像素層面上結(jié)合起來。這是通過修改單幀模型中第一個(gè)卷積層的過濾器來實(shí)現(xiàn)的,將其擴(kuò)展為11×11×3×T像素大小,其中T是時(shí)間范圍。早期與像素?cái)?shù)據(jù)的直接連接使網(wǎng)絡(luò)能夠精確地檢測(cè)局部運(yùn)動(dòng)方向和速度。
- Slow Fusion。慢速融合模型是這兩種方法的平衡組合,它在整個(gè)網(wǎng)絡(luò)中緩慢地融合時(shí)間信息,使高層在空間和時(shí)間維度上逐漸獲得更多的全局信息。
3.2 多分辨率CNN
輸入幀被送入兩個(gè)獨(dú)立的處理流:一個(gè)是模擬低分辨率圖像的上下文流,一個(gè)是處理高分辨率中心作物 (因?yàn)楦信d趣的對(duì)象往往占據(jù)中心區(qū)域) 的凹陷流。這兩個(gè)流由交替的卷積(紅色)、歸一化(綠色)和池化(藍(lán)色)層組成。兩個(gè)數(shù)據(jù)流都匯聚到兩個(gè)完全連接層(黃色)。
4. 實(shí)驗(yàn)細(xì)節(jié)、訓(xùn)練結(jié)果
5. 結(jié)論和未來工作
- 多分辨率和slow fusion可以提高網(wǎng)絡(luò)的性能。
- 我們還確定了混合分辨率架構(gòu),它由低分辨率的上下文和高分辨率的凹流組成,是在不犧牲精度的情況下加快CNN的有效方法。
- 我們?cè)赨CF-101上進(jìn)行的遷移學(xué)習(xí)實(shí)驗(yàn)表明,所學(xué)的特征是通用的,并能概括其他視頻分類任務(wù)。
未來的工作中,我們希望在數(shù)據(jù)集中納入更廣泛的類別,以獲得更強(qiáng)大和通用的特征,研究明確推理攝像機(jī)運(yùn)動(dòng)的方法,并探索循環(huán)神經(jīng)網(wǎng)絡(luò)作為一種更強(qiáng)大的技術(shù),將片段級(jí)預(yù)測(cè)結(jié)合到全局視頻級(jí)預(yù)測(cè)中。
2. Two-Stream Convolutional Networks for Action Recognition in Videos
摘要
我們研究了用于視頻中動(dòng)作識(shí)別的辨別性訓(xùn)練的深度卷積網(wǎng)絡(luò)(ConvNets)的架構(gòu)。我們面臨的挑戰(zhàn)是如何從靜止幀和幀之間的運(yùn)動(dòng)中捕捉到互補(bǔ)的外觀信息。
我們的貢獻(xiàn)有三個(gè)方面。首先,我們提出了一個(gè)包含空間和時(shí)間網(wǎng)絡(luò)的雙流ConvNet架構(gòu)。其次,我們證明,盡管訓(xùn)練數(shù)據(jù)有限,但在多幀密集光流上訓(xùn)練的ConvNet能夠達(dá)到非常好的性能。最后,我們展示了多任務(wù)學(xué)習(xí),應(yīng)用于兩個(gè)不同的動(dòng)作分類數(shù)據(jù)集,可以用來增加訓(xùn)練數(shù)據(jù)量并提高兩者的性能。
1. 介紹
與靜態(tài)圖像分類相比,視頻的時(shí)間成分為識(shí)別提供了額外的(重要的)線索,因?yàn)橐恍﹦?dòng)作可以根據(jù)運(yùn)動(dòng)信息被可靠地識(shí)別。此外,視頻為單一圖像(視頻幀)分類提供了自然的數(shù)據(jù)增強(qiáng)(抖動(dòng))。
我們研究了一種基于兩個(gè)獨(dú)立識(shí)別流(空間和時(shí)間)的不同架構(gòu),然后通過后期融合將其結(jié)合起來。空間流從靜止的視頻幀中進(jìn)行動(dòng)作識(shí)別,而時(shí)間流則被訓(xùn)練為從密集的光流形式的運(yùn)動(dòng)中識(shí)別動(dòng)作。
2. 用于視頻識(shí)別的雙流架構(gòu)
視頻可以自然地被分解為空間和時(shí)間部分??臻g部分,以單個(gè)幀的形式出現(xiàn),帶有視頻中描述的場(chǎng)景和物體的信息。時(shí)間部分,以跨幀運(yùn)動(dòng)的形式,表達(dá)了觀察者(攝像機(jī))和物體的運(yùn)動(dòng)。
3. 光流卷積網(wǎng)絡(luò)
一個(gè)ConvNet模型,它構(gòu)成了我們架構(gòu)的時(shí)間識(shí)別流,模型的輸入是由幾個(gè)連續(xù)幀之間的光流位移場(chǎng)堆疊而成。這種輸入明確地描述了視頻幀之間的運(yùn)動(dòng),這使得識(shí)別更容易。
3.1 ConvNet輸入配置:
光流的疊加:
密集的光流可以被看作是一組連續(xù)幀t和t+1之間的位移矢量場(chǎng)dt,矢量場(chǎng)的水平和垂直分量,d x t和d y t,可以被看作是圖像通道,非常適合使用卷積網(wǎng)絡(luò)進(jìn)行識(shí)別。為了表示一連串幀的運(yùn)動(dòng),我們將L個(gè)連續(xù)幀的流動(dòng)通道堆疊在一起,形成總共2L個(gè)輸入通道。
軌跡疊加:
左圖:光流堆疊(1)在多幀中的同一位置對(duì)位移向量d進(jìn)行采樣。右圖:軌跡堆疊(2)對(duì)軌跡上的向量進(jìn)行采樣。幀和相應(yīng)的位移向量以相同的顏色顯示。
漲點(diǎn)方法:(需要在代碼中體現(xiàn))
- 雙向的光流
- 平均流量減法。一般來說,對(duì)網(wǎng)絡(luò)輸入進(jìn)行零中心化是有益的
4. 實(shí)驗(yàn)細(xì)節(jié)、訓(xùn)練結(jié)果
訓(xùn)練采用了很多技巧:裁剪、翻轉(zhuǎn)、RGB抖動(dòng)、多GPU加速、光流圖被縮放到[0,255]并保存為JPEG格式。
在使用遷移學(xué)習(xí),如果對(duì)所有網(wǎng)絡(luò)做微調(diào),則Dropout率設(shè)大一點(diǎn)可以防止過擬合。如果只做最后一層的參數(shù)更新的話,Dropout率應(yīng)設(shè)置小一點(diǎn),因?yàn)橹挥凶詈笠粚訁?shù)參與學(xué)習(xí)。
5. 結(jié)論
(i) 時(shí)間和空間識(shí)別流是互補(bǔ)的,因?yàn)樗鼈兊娜诤蠈?duì)兩者都有明顯的提高(比時(shí)間網(wǎng)提高6%,比空間網(wǎng)提高14%);
(ii) 基于SVM的軟分?jǐn)?shù)融合優(yōu)于平均法的融合;
(iii) 在ConvNet融合的情況下,使用雙向流沒有好處;
(iv) 使用多任務(wù)學(xué)習(xí)訓(xùn)練的時(shí)間ConvNet,單獨(dú)和與空間網(wǎng)融合時(shí)都表現(xiàn)最好。
3. Beyond Short Snippets: Deep Networks for Video Classification
摘要
我們提出了兩種能夠處理全長視頻的方法。第一種方法探索了各種卷積時(shí)間特征池架構(gòu),研究了在為這項(xiàng)任務(wù)調(diào)整CNN時(shí)需要做出的各種設(shè)計(jì)選擇。第二種提議的方法明確地將視頻建模為一個(gè)有序的幀序列。為此,我們采用了一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用長短期記憶(LSTM)單元,這些單元與底層CNN的輸出相連。
1. 介紹
我們?cè)u(píng)估了兩種能夠滿足這一要求的方法:特征集合和遞歸神經(jīng)網(wǎng)絡(luò)。特征匯集網(wǎng)絡(luò)使用CNN獨(dú)立處理每一幀,然后使用各種匯集層結(jié)合幀級(jí)信息。我們采用的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)源自長短時(shí)記憶(LSTM)單元,并使用記憶單元來存儲(chǔ)、修改和訪問內(nèi)部狀態(tài),使其能夠發(fā)現(xiàn)長范圍的時(shí)間關(guān)系。與特征池一樣,LSTM網(wǎng)絡(luò)在幀級(jí)CNN激活的基礎(chǔ)上運(yùn)行,可以學(xué)習(xí)如何隨著時(shí)間的推移整合信息。通過通過時(shí)間共享參數(shù),這兩種架構(gòu)都能夠保持恒定的參數(shù)數(shù)量,同時(shí)捕捉到視頻的時(shí)間演變的全局描述。
為了在保持低計(jì)算量的同時(shí)學(xué)習(xí)視頻的全局描述,我們建議每秒鐘只處理一幀。為了彌補(bǔ)隱性運(yùn)動(dòng)信息的丟失,我們以相鄰幀計(jì)算的光流圖像的形式納入顯性運(yùn)動(dòng)信息。光流使我們能夠保留運(yùn)動(dòng)信息的好處(通常通過高幀率采樣實(shí)現(xiàn)),同時(shí)仍然捕捉到全局視頻信息。
我們的貢獻(xiàn)可以概括為以下幾點(diǎn):
- 我們提出了用于獲得全局視頻級(jí)描述符的CNN架構(gòu),并證明使用越來越多的幀數(shù)可以顯著提高分類性能。
- 通過時(shí)間共享參數(shù),在特征池和LSTM架構(gòu)中,參數(shù)的數(shù)量與視頻長度的關(guān)系保持不變。
- 我們確認(rèn)光流圖像可以極大地有利于視頻分類。
2. 相關(guān)工作
我們沒有試圖在小時(shí)間段內(nèi)學(xué)習(xí)空間-時(shí)間特征,而是考慮了幾種不同的方法,在視頻的長時(shí)間內(nèi)(幾十秒)聚集強(qiáng)大的CNN圖像特征,包括特征池和遞歸神經(jīng)網(wǎng)絡(luò)。由于梯度消失和爆炸的問題,標(biāo)準(zhǔn)的遞歸網(wǎng)絡(luò)在長序列的學(xué)習(xí)上有困難。相比之下,長短時(shí)記憶(LSTM)使用記憶單元來存儲(chǔ)、修改和訪問內(nèi)部狀態(tài),使其能夠更好地發(fā)現(xiàn)長距離的時(shí)間關(guān)系。
3. 模型
3.1 特征池化結(jié)構(gòu)
不同的特征池架構(gòu)。堆疊的卷積層用 "C "表示。藍(lán)色、綠色、黃色和橙色的矩形分別代表最大池、時(shí)域卷積層、全連接層和softmax層。
3.2 LSTM架構(gòu)
與產(chǎn)生順序不變的表征的Max-pooling相比,我們建議使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來明確考慮CNN激活的序列。由于視頻包含動(dòng)態(tài)內(nèi)容,幀與幀之間的變化可能編碼了額外的信息,這對(duì)做出更準(zhǔn)確的預(yù)測(cè)很有幫助。
這里作者介紹了LSTM的模型,但現(xiàn)在LSTM使用的很少。
深度視頻LSTM在每個(gè)連續(xù)的視頻幀中接受最后一個(gè)CNN層的輸出的輸入。CNN輸出通過時(shí)間向前處理,并通過五層堆疊的LSTM向上處理。一個(gè)softmax層預(yù)測(cè)每個(gè)時(shí)間步驟的類別。卷積網(wǎng)絡(luò)(粉色)和softmax分類器(橙色)的參數(shù)在不同的時(shí)間步驟中共享。
4. 訓(xùn)練結(jié)果
5. 結(jié)論
與以前在幾秒鐘的視頻上進(jìn)行訓(xùn)練的工作不同,我們的網(wǎng)絡(luò)利用了長達(dá)兩分鐘的視頻(120幀)來獲得最佳的分類性能。如果對(duì)速度有要求,我們的方法可以在一次拍攝中處理整個(gè)視頻。通過將較小的網(wǎng)絡(luò)擴(kuò)展到逐漸變大的網(wǎng)絡(luò)并進(jìn)行微調(diào),可以進(jìn)行訓(xùn)練。由此產(chǎn)生的網(wǎng)絡(luò)在Sports-1M和UCF-101基準(zhǔn)上都達(dá)到了最先進(jìn)的性能,支持了學(xué)習(xí)應(yīng)該在整個(gè)視頻而不是短片段中進(jìn)行的想法。
我們也表明,使用光流并不總是有幫助的,特別是如果視頻沒有被預(yù)處理,如Sports-1M數(shù)據(jù)集的情況。為了在這種情況下利用光流的優(yōu)勢(shì),有必要采用更復(fù)雜的序列處理架構(gòu),如LSTM。此外,在圖像幀上使用LSTM和光流,可以產(chǎn)生Sports-1M基準(zhǔn)的最高公開性能指標(biāo)。
4. Convolutional Two-Stream Network Fusion for Video Action Recognition
摘要
我們研究了一些在空間和時(shí)間上融合ConvNet的方法,有如下的:
(i)利用卷積代替softmax可以節(jié)約參數(shù),不損失精度
(ii)在最后一個(gè)卷積層融合這種網(wǎng)絡(luò)的空間性比早期更好,另外在類預(yù)測(cè)層融合可以提高準(zhǔn)確性
(iii)在時(shí)空鄰域匯集抽象的卷積特征進(jìn)一步提高性能
1. 介紹
利用卷積網(wǎng)絡(luò)解決動(dòng)作識(shí)別問題的效果不如卷積網(wǎng)絡(luò)在其他任務(wù)中的表現(xiàn)??赡茉蚴菙?shù)據(jù)集太小而且噪聲很大,而且卷積網(wǎng)絡(luò)專注與空間信息,無法充分利用時(shí)間信息。
雙流結(jié)構(gòu)(或以前的任何方法)無法利用視頻中兩個(gè)非常重要的線索進(jìn)行動(dòng)作識(shí)別。(i) 識(shí)別什么東西在哪里移動(dòng),即把外觀識(shí)別(空間線索)與光流識(shí)別(時(shí)間線索)登記在一起;
(ii) 這些線索如何隨時(shí)間演變。
2. 相關(guān)工作
C3D在有限時(shí)間學(xué)習(xí)3D卷積,卷積核為3×3×3。另一種方法是將三維卷積拆分成二維空間卷積與一維時(shí)間卷積。
截止到目前為止(2016年),雙流網(wǎng)絡(luò)是深度學(xué)習(xí)應(yīng)用于動(dòng)作識(shí)別的最有效方法。
3. 方法
作者的結(jié)構(gòu)構(gòu)建在雙流網(wǎng)絡(luò)上。該網(wǎng)絡(luò)有兩個(gè)主要缺點(diǎn):
- 融合只在最后一層,所以不能學(xué)習(xí)空間和時(shí)間的特征。
- 在時(shí)間尺度上的記憶是有限的,因?yàn)榭臻g卷積只在單幀上操作,而時(shí)間卷積只在時(shí)間上相鄰的L個(gè)光流幀的堆棧。
3.1 空間融合
作者列舉了一系列融合空間層的方式:Sum fusion,Max fusion,Concatenation fusion,Conv fusion,Bilinear fusion
在實(shí)驗(yàn)部分,我們?cè)u(píng)估和比較了這些可能的融合方法在分類準(zhǔn)確性方面的表現(xiàn)
3.2 在哪融合網(wǎng)絡(luò)
左邊的例子顯示了在第四個(gè)卷積層之后的融合。從融合的角度看,只使用了一個(gè)網(wǎng)絡(luò)塔。右圖顯示了在兩層(conv5之后和fc8之后)的融合,其中兩個(gè)網(wǎng)絡(luò)塔都被保留,一個(gè)是混合時(shí)空網(wǎng),一個(gè)是純粹的空間網(wǎng)。
融合時(shí)間信息的不同方式。( a ) 二維匯集忽略了時(shí)間,只是在空間鄰域上進(jìn)行匯集,單獨(dú)縮小每個(gè)時(shí)間樣本的特征圖的大小。( b ) 三維匯集從局部時(shí)空鄰域匯集,首先跨時(shí)間堆疊特征圖,然后收縮這個(gè)時(shí)空立方體。( c ) 三維卷積+三維匯集在三維匯集之前,還用一個(gè)跨越特征通道、空間和時(shí)間的融合核進(jìn)行了卷積。
3.3 時(shí)間融合
將特征圖xt與時(shí)間t相結(jié)合,有3D Pooling,3D Conv + Pooling
在細(xì)的時(shí)間尺度上捕捉短期信息,在粗的時(shí)間尺度上捕捉時(shí)間相鄰的輸入。
4. 實(shí)驗(yàn)與訓(xùn)練結(jié)果
4.1 融合雙流網(wǎng)絡(luò)的方式
對(duì)于表中所示的所有融合方法,與ReLU5相比,F(xiàn)C層的融合導(dǎo)致了較低的性能,方法的排序與表1相同,除了雙線性融合不可能在FC層實(shí)現(xiàn)。在所有FC層中,F(xiàn)C8比FC7和FC6表現(xiàn)更好,Conv融合為85.9%,其次是Sum融合為85.1%。我們認(rèn)為ReLU5表現(xiàn)稍好的原因是在這一層,外觀和運(yùn)動(dòng)之間的空間對(duì)應(yīng)關(guān)系被融合了,這在FC層就已經(jīng)被折疊。
4.2 在哪融合
在ReLU5或ReLU5+FC8融合時(shí),性能最好(但涉及的參數(shù)幾乎是兩倍)。
4.3 精度對(duì)比
5. 結(jié)論
(1)相比在最后的Softmax層融合,在中間的卷積層融合既能夠提升性能,又不會(huì)增加太多參數(shù)(見融合方式)
(2)在最后一個(gè)卷積層融合(relu5)的性能是最好的,如果再配合最后一個(gè)全連接層融合(fc8),性能還能再提升一點(diǎn)(見融合位置)
(3)在融合后使用pool3d代替代替pool2d能更進(jìn)一步地提高性能(見3D Conv和3D Pooling)
5. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
摘要
作者主要想通過較少的訓(xùn)練樣本,高效的訓(xùn)練出用于動(dòng)作識(shí)別的ConvNet,主要貢獻(xiàn)有兩點(diǎn):
- 提出temporal segment network(TSN)網(wǎng)絡(luò)模型:
TSN采樣,具備稀疏性和全局性的特征,能夠建模間隔更長幀之間時(shí)間依賴關(guān)系,確保獲取視頻級(jí)信息
TSN包含提取空間信息和提取時(shí)間信息兩路模型,并基于后期融合方式來融合兩路模型的結(jié)果 - 提出了一系列最佳實(shí)踐方案,如數(shù)據(jù)增強(qiáng)、正則化、交叉模態(tài)預(yù)訓(xùn)練等。并取得了非常好的效果
1. 介紹
在動(dòng)作識(shí)別中,有兩個(gè)關(guān)鍵和互補(bǔ)的方面:外觀和動(dòng)態(tài)。識(shí)別系統(tǒng)的性能在很大程度上取決于它是否能夠從中提取和利用相關(guān)信息。然而,由于許多復(fù)雜因素,如比例變化、視點(diǎn)變化和相機(jī)運(yùn)動(dòng),提取此類信息并非易事。
主流ConvNet框架通常側(cè)重于外觀和短期運(yùn)動(dòng),因此缺乏整合長期時(shí)間結(jié)構(gòu)的能力。
ConvNets在基于視頻的動(dòng)作識(shí)別中的應(yīng)用受到兩個(gè)主要障礙的阻礙。首先,長距離的時(shí)間結(jié)構(gòu)在理解動(dòng)作視頻的動(dòng)態(tài)方面起著重要作用。
然而,主流的ConvNet框架通常專注于表象和短期運(yùn)動(dòng),因此缺乏納入長程時(shí)間結(jié)構(gòu)的能力。其次,在實(shí)踐中,訓(xùn)練深度ConvNets需要大量的訓(xùn)練樣本以達(dá)到最佳性能。但數(shù)據(jù)集有限。因此,卷積網(wǎng)絡(luò)面臨著過擬合的風(fēng)險(xiǎn)。
時(shí)空段網(wǎng)絡(luò)(TSN),這個(gè)框架用稀疏的采樣方案在一個(gè)長的視頻序列上提取短的片段,其中的樣本沿著時(shí)間維度均勻分布。在此基礎(chǔ)上,采用分段式結(jié)構(gòu)來匯總采樣片段的信息。在這個(gè)意義上,時(shí)間段網(wǎng)絡(luò)能夠?qū)φ麄€(gè)視頻的長距離時(shí)間結(jié)構(gòu)進(jìn)行建模。此外,這種稀疏的抽樣策略以極低的成本保留了相關(guān)的信息,從而在合理的時(shí)間和計(jì)算資源預(yù)算下實(shí)現(xiàn)了長視頻序列的端到端學(xué)習(xí)。
探索了一些好的做法來克服上述因訓(xùn)練樣本數(shù)量有限而造成的困難,包括:1)跨模態(tài)預(yù)訓(xùn)練;2)正則化;3)增強(qiáng)數(shù)據(jù)增量。
作者認(rèn)為,在訓(xùn)練視頻分類模型時(shí),連續(xù)的幀會(huì)造成冗余,所以密集采樣的策略是沒必要的,所以作者采用了稀疏采樣的策略。
2. 相關(guān)工作
主要有兩種做法:
- 雙流結(jié)構(gòu),一個(gè)模型學(xué)習(xí)圖像層面的信息,一個(gè)模型學(xué)習(xí)時(shí)間層面的信息,最后融合兩路模型的結(jié)果
- 使用3D卷積核,同時(shí)抽取圖像層面和時(shí)間層面的信息,這衍生出了不同3D卷積核的變種
3. 模型
3.1 時(shí)序段網(wǎng)絡(luò)TSN
具體來說,我們提出的時(shí)間段網(wǎng)絡(luò)框架,旨在利用整個(gè)視頻的視覺信息來進(jìn)行視頻級(jí)預(yù)測(cè),也是由空間流ConvNets和時(shí)間流ConvNets組成。
時(shí)間段網(wǎng)絡(luò)不是在單幀或幀堆上工作,而是在整個(gè)視頻中稀疏采樣的短片段序列上工作。
一個(gè)輸入視頻被分成K個(gè)片段,并從每個(gè)片段中隨機(jī)選擇一個(gè)簡短的片段。不同片段的等級(jí)分?jǐn)?shù)通過片段共識(shí)函數(shù)進(jìn)行融合,產(chǎn)生片段共識(shí),這是一個(gè)視頻級(jí)別的預(yù)測(cè)。然后,來自所有模式的預(yù)測(cè)被融合以產(chǎn)生最終的預(yù)測(cè)。所有片段的ConvNets共享參數(shù)。
3.2 學(xué)習(xí)時(shí)序段網(wǎng)絡(luò)
-
模型架構(gòu):之前的two-stream模型采用的是相對(duì)淺的模型結(jié)構(gòu),作者選擇BN-Inception這種比較深的模型結(jié)構(gòu)來當(dāng)做building block,因?yàn)樵撃P驮谒俣群蜏?zhǔn)確率上都不錯(cuò)。
-
模型輸入:之前two-stream模型采用RGB作為spatial stream的輸入,采用光流作為temporal stream的輸入。作者研究了額外的兩種模態(tài),RGB difference和warped光流。
圖2. 四種類型的輸入模式的例子。RGB圖像、RGB差分、光流場(chǎng)(x,y方向)和扭曲的光流場(chǎng)(x,y方向)
。
- 模型訓(xùn)練:由于視頻樣本較少,訓(xùn)練較深的ConvNet可能會(huì)過擬合。為了解決該問題,作者提出了如下的策略:
- 跨模態(tài)預(yù)訓(xùn)練:RGB網(wǎng)絡(luò)可以使用ImageNet預(yù)訓(xùn)練,但是光流網(wǎng)絡(luò)沒有預(yù)訓(xùn)練的數(shù)據(jù)集,所有作者采用ImageNet上預(yù)訓(xùn)練的參數(shù)來初始化光流模型參數(shù)。
- 正則化:Batch Normalization用來解決協(xié)變量偏移的問題。在學(xué)習(xí)過程中,BN將估計(jì)每批中的激活均值和方差,并使用它們將這些激活值轉(zhuǎn)換為標(biāo)準(zhǔn)高斯分布。該操作會(huì)使得模型收斂速度變快,但是同時(shí)會(huì)帶來了過擬合的問題。因?yàn)椋髡咄ㄟ^固定住除了第一層以外,其他層的BN參數(shù),來解決該問題。而且,作者在BN-Inception模型后面加入了dropout層,來解決過擬合的問題。
- 數(shù)據(jù)增強(qiáng):random cropping、horizontal flipping、corner cropping、scale jittering。
4. 訓(xùn)練結(jié)果
(1)跨模態(tài)預(yù)訓(xùn)練和partial BN with dropout實(shí)驗(yàn):
(2)新模態(tài)特征:RGB Difference和warped optical flow fields實(shí)驗(yàn)
RGB Difference和RGB特征有一定的互補(bǔ)性
結(jié)合RGB和光流特征,能取得非常好的效果
所以在下面的實(shí)驗(yàn)中,我們選擇平均池化作為默認(rèn)的聚合函數(shù)。
"BN-Inception+TSN "指的是在性能最好的BN-Inception架構(gòu)上應(yīng)用時(shí)間段網(wǎng)絡(luò)框架的設(shè)置。
UCF101數(shù)據(jù)集上的擬議方法的成分分析。從左到右,我們一個(gè)一個(gè)地添加組件。BN-Inception被用作ConvNet架構(gòu)
基于時(shí)間段網(wǎng)絡(luò)(TSN)的方法與其他最先進(jìn)的方法的比較。分別介紹了使用兩種輸入模式(RGB+Flow)和三種輸入模式(RGB+Flow+Warped Flow)的結(jié)果。文章來源:http://www.zghlxwxcb.cn/news/detail-408574.html
5. 結(jié)論
作者提出了Temporal Segment Network,用于建模視頻級(jí)模型,捕獲長時(shí)間的運(yùn)動(dòng)特征。通過稀疏采樣的分段結(jié)構(gòu)以及各種數(shù)據(jù)增強(qiáng)策略,該模型在HMDB51和UCF101上取得了非常好的效果。文章來源地址http://www.zghlxwxcb.cn/news/detail-408574.html
到了這里,關(guān)于【論文閱讀】視頻理解系列論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!