国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ruby id="pge3a"><optgroup id="pge3a"></optgroup></ruby>

【論文閱讀】視頻理解系列論文精讀

2年前作者：三木今天學(xué)習(xí)了嘛分類：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】視頻理解系列論文精讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

視頻理解論文串講（上）【論文精讀】

1. Large-scale Video Classification with Convolutional Neural Networks

摘要

我們研究了多種擴(kuò)展CNN在時(shí)域上的連接性的方法，以利用局部的時(shí)空信息，并建議采用多分辨率、凹陷的架構(gòu)作為加速訓(xùn)練的一種有希望的方式。

1. 介紹

在圖像領(lǐng)域積極成果的鼓舞下，我們研究了CNN在大規(guī)模視頻分類中的表現(xiàn)，在這種情況下，網(wǎng)絡(luò)不僅可以獲得單個(gè)靜態(tài)圖像中的外觀信息，還可以獲得其復(fù)雜的時(shí)間演變。在這種情況下，擴(kuò)展和應(yīng)用CNN有幾個(gè)挑戰(zhàn)。

目前還沒有與現(xiàn)有圖像數(shù)據(jù)集的規(guī)模和種類相匹配的視頻分類基準(zhǔn)，為了獲得足夠的數(shù)據(jù)量來訓(xùn)練我們的CNN架構(gòu)，我們收集了一個(gè)新的Sports-1M數(shù)據(jù)集，以支持這一領(lǐng)域的未來工作。
從建模的角度來看，我們通過評(píng)估多個(gè)CNN架構(gòu)來實(shí)證研究這些問題，這些架構(gòu)都采取了不同的方法來結(jié)合整個(gè)時(shí)域的信息。
從計(jì)算的角度來看，加快CNN運(yùn)行性能的有效方法是修改架構(gòu)，使其包含兩個(gè)獨(dú)立的處理流：一個(gè)是在低分辨率幀上學(xué)習(xí)特征的上下文流，一個(gè)是只在幀的中間部分操作的高分辨率凹陷流。我們觀察到，由于輸入維度的降低，網(wǎng)絡(luò)的運(yùn)行時(shí)間性能增加了2-4倍，同時(shí)保留了分類精度。
我們根據(jù)經(jīng)驗(yàn)調(diào)查了轉(zhuǎn)移學(xué)習(xí)問題，通過重新利用在Sports-1M數(shù)據(jù)集上學(xué)到的低級(jí)特征，在UCF-101上取得了明顯更好的性能。

2. 相關(guān)工作

視頻分類的標(biāo)準(zhǔn)方法包括三個(gè)主要階段。首先，描述視頻區(qū)域的局部視覺特征被密集地提取出來或在一組稀疏的興趣點(diǎn)上提取。接下來，這些特征被組合成一個(gè)固定大小的視頻級(jí)描述。最后，訓(xùn)練一個(gè)分類器（如SVM），以區(qū)分感興趣的視覺類別。
與圖像數(shù)據(jù)領(lǐng)域相比，在視頻分類中應(yīng)用CNN的工作相對(duì)較少。由于CNN在圖像領(lǐng)域的所有成功應(yīng)用都有大量的訓(xùn)練集，我們推測(cè)這部分是由于缺乏大規(guī)模的視頻分類基準(zhǔn)。我們的模型是在完全監(jiān)督下進(jìn)行端到端的訓(xùn)練。

3. 模型

3.1 時(shí)間信息的融合

我們將每個(gè)視頻視為一袋短的、固定大小的片段。由于每個(gè)片段在時(shí)間上包含幾個(gè)連續(xù)的幀，我們可以在時(shí)間維度上擴(kuò)展網(wǎng)絡(luò)的連接性，以學(xué)習(xí)空間-時(shí)間特征。對(duì)于擴(kuò)展連接的精確細(xì)節(jié)有多種選擇，我們?cè)谙旅婷枋隽巳N廣泛的連接模式類別（早期融合、晚期融合和緩慢融合）。
【論文閱讀】視頻理解系列論文精讀
紅色、綠色和藍(lán)色方框分別表示卷積層、歸一化和池化層。在慢速融合模型中，所描述的列共享參數(shù)。

Single Frame。我們使用一個(gè)單幀基線結(jié)構(gòu)來了解靜態(tài)外觀對(duì)分類準(zhǔn)確性的貢獻(xiàn)。這個(gè)網(wǎng)絡(luò)類似于簡單的卷積神經(jīng)網(wǎng)絡(luò)。最后一層連接到一個(gè)softmax分類器。
Late Fusion。在第一個(gè)全連接層中合并這兩個(gè)數(shù)據(jù)流。因此，兩個(gè)單幀塔都不能單獨(dú)檢測(cè)到任何運(yùn)動(dòng)，但第一個(gè)全連接層可以通過比較兩個(gè)塔的輸出來計(jì)算全局運(yùn)動(dòng)特征。
Early Fusion。將整個(gè)時(shí)間窗口的信息立即在像素層面上結(jié)合起來。這是通過修改單幀模型中第一個(gè)卷積層的過濾器來實(shí)現(xiàn)的，將其擴(kuò)展為11×11×3×T像素大小，其中T是時(shí)間范圍。早期與像素?cái)?shù)據(jù)的直接連接使網(wǎng)絡(luò)能夠精確地檢測(cè)局部運(yùn)動(dòng)方向和速度。
Slow Fusion。慢速融合模型是這兩種方法的平衡組合，它在整個(gè)網(wǎng)絡(luò)中緩慢地融合時(shí)間信息，使高層在空間和時(shí)間維度上逐漸獲得更多的全局信息。

3.2 多分辨率CNN

【論文閱讀】視頻理解系列論文精讀
輸入幀被送入兩個(gè)獨(dú)立的處理流：一個(gè)是模擬低分辨率圖像的上下文流，一個(gè)是處理高分辨率中心作物 （因?yàn)楦信d趣的對(duì)象往往占據(jù)中心區(qū)域） 的凹陷流。這兩個(gè)流由交替的卷積（紅色）、歸一化（綠色）和池化（藍(lán)色）層組成。兩個(gè)數(shù)據(jù)流都匯聚到兩個(gè)完全連接層（黃色）。

4. 實(shí)驗(yàn)細(xì)節(jié)、訓(xùn)練結(jié)果

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論和未來工作

多分辨率和slow fusion可以提高網(wǎng)絡(luò)的性能。
我們還確定了混合分辨率架構(gòu)，它由低分辨率的上下文和高分辨率的凹流組成，是在不犧牲精度的情況下加快CNN的有效方法。
我們?cè)赨CF-101上進(jìn)行的遷移學(xué)習(xí)實(shí)驗(yàn)表明，所學(xué)的特征是通用的，并能概括其他視頻分類任務(wù)。

未來的工作中，我們希望在數(shù)據(jù)集中納入更廣泛的類別，以獲得更強(qiáng)大和通用的特征，研究明確推理攝像機(jī)運(yùn)動(dòng)的方法，并探索循環(huán)神經(jīng)網(wǎng)絡(luò)作為一種更強(qiáng)大的技術(shù)，將片段級(jí)預(yù)測(cè)結(jié)合到全局視頻級(jí)預(yù)測(cè)中。

2. Two-Stream Convolutional Networks for Action Recognition in Videos

摘要

我們研究了用于視頻中動(dòng)作識(shí)別的辨別性訓(xùn)練的深度卷積網(wǎng)絡(luò)（ConvNets）的架構(gòu)。我們面臨的挑戰(zhàn)是如何從靜止幀和幀之間的運(yùn)動(dòng)中捕捉到互補(bǔ)的外觀信息。
我們的貢獻(xiàn)有三個(gè)方面。首先，我們提出了一個(gè)包含空間和時(shí)間網(wǎng)絡(luò)的雙流ConvNet架構(gòu)。其次，我們證明，盡管訓(xùn)練數(shù)據(jù)有限，但在多幀密集光流上訓(xùn)練的ConvNet能夠達(dá)到非常好的性能。最后，我們展示了多任務(wù)學(xué)習(xí)，應(yīng)用于兩個(gè)不同的動(dòng)作分類數(shù)據(jù)集，可以用來增加訓(xùn)練數(shù)據(jù)量并提高兩者的性能。

1. 介紹

與靜態(tài)圖像分類相比，視頻的時(shí)間成分為識(shí)別提供了額外的（重要的）線索，因?yàn)橐恍﹦?dòng)作可以根據(jù)運(yùn)動(dòng)信息被可靠地識(shí)別。此外，視頻為單一圖像（視頻幀）分類提供了自然的數(shù)據(jù)增強(qiáng)（抖動(dòng)）。
我們研究了一種基于兩個(gè)獨(dú)立識(shí)別流（空間和時(shí)間）的不同架構(gòu)，然后通過后期融合將其結(jié)合起來。空間流從靜止的視頻幀中進(jìn)行動(dòng)作識(shí)別，而時(shí)間流則被訓(xùn)練為從密集的光流形式的運(yùn)動(dòng)中識(shí)別動(dòng)作。

2. 用于視頻識(shí)別的雙流架構(gòu)

【論文閱讀】視頻理解系列論文精讀
視頻可以自然地被分解為空間和時(shí)間部分?？臻g部分，以單個(gè)幀的形式出現(xiàn)，帶有視頻中描述的場(chǎng)景和物體的信息。時(shí)間部分，以跨幀運(yùn)動(dòng)的形式，表達(dá)了觀察者（攝像機(jī)）和物體的運(yùn)動(dòng)。

3. 光流卷積網(wǎng)絡(luò)

【論文閱讀】視頻理解系列論文精讀
一個(gè)ConvNet模型，它構(gòu)成了我們架構(gòu)的時(shí)間識(shí)別流，模型的輸入是由幾個(gè)連續(xù)幀之間的光流位移場(chǎng)堆疊而成。這種輸入明確地描述了視頻幀之間的運(yùn)動(dòng)，這使得識(shí)別更容易。

3.1 ConvNet輸入配置：

光流的疊加：
密集的光流可以被看作是一組連續(xù)幀t和t+1之間的位移矢量場(chǎng)dt，矢量場(chǎng)的水平和垂直分量，d x t和d y t，可以被看作是圖像通道，非常適合使用卷積網(wǎng)絡(luò)進(jìn)行識(shí)別。為了表示一連串幀的運(yùn)動(dòng)，我們將L個(gè)連續(xù)幀的流動(dòng)通道堆疊在一起，形成總共2L個(gè)輸入通道。
【論文閱讀】視頻理解系列論文精讀
軌跡疊加：

左圖：光流堆疊（1）在多幀中的同一位置對(duì)位移向量d進(jìn)行采樣。右圖：軌跡堆疊（2）對(duì)軌跡上的向量進(jìn)行采樣。幀和相應(yīng)的位移向量以相同的顏色顯示。
漲點(diǎn)方法：（需要在代碼中體現(xiàn)）

雙向的光流
平均流量減法。一般來說，對(duì)網(wǎng)絡(luò)輸入進(jìn)行零中心化是有益的

4. 實(shí)驗(yàn)細(xì)節(jié)、訓(xùn)練結(jié)果

訓(xùn)練采用了很多技巧：裁剪、翻轉(zhuǎn)、RGB抖動(dòng)、多GPU加速、光流圖被縮放到[0，255]并保存為JPEG格式。

【論文閱讀】視頻理解系列論文精讀
在使用遷移學(xué)習(xí)，如果對(duì)所有網(wǎng)絡(luò)做微調(diào)，則Dropout率設(shè)大一點(diǎn)可以防止過擬合。如果只做最后一層的參數(shù)更新的話，Dropout率應(yīng)設(shè)置小一點(diǎn)，因?yàn)橹挥凶詈笠粚訁?shù)參與學(xué)習(xí)。

【論文閱讀】視頻理解系列論文精讀

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論

(i) 時(shí)間和空間識(shí)別流是互補(bǔ)的，因?yàn)樗鼈兊娜诤蠈?duì)兩者都有明顯的提高（比時(shí)間網(wǎng)提高6%，比空間網(wǎng)提高14%）；
(ii) 基于SVM的軟分?jǐn)?shù)融合優(yōu)于平均法的融合；
(iii) 在ConvNet融合的情況下，使用雙向流沒有好處；
(iv) 使用多任務(wù)學(xué)習(xí)訓(xùn)練的時(shí)間ConvNet，單獨(dú)和與空間網(wǎng)融合時(shí)都表現(xiàn)最好。

3. Beyond Short Snippets: Deep Networks for Video Classification

摘要

我們提出了兩種能夠處理全長視頻的方法。第一種方法探索了各種卷積時(shí)間特征池架構(gòu)，研究了在為這項(xiàng)任務(wù)調(diào)整CNN時(shí)需要做出的各種設(shè)計(jì)選擇。第二種提議的方法明確地將視頻建模為一個(gè)有序的幀序列。為此，我們采用了一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)使用長短期記憶（LSTM）單元，這些單元與底層CNN的輸出相連。

1. 介紹

我們?cè)u(píng)估了兩種能夠滿足這一要求的方法：特征集合和遞歸神經(jīng)網(wǎng)絡(luò)。特征匯集網(wǎng)絡(luò)使用CNN獨(dú)立處理每一幀，然后使用各種匯集層結(jié)合幀級(jí)信息。我們采用的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)源自長短時(shí)記憶（LSTM）單元，并使用記憶單元來存儲(chǔ)、修改和訪問內(nèi)部狀態(tài)，使其能夠發(fā)現(xiàn)長范圍的時(shí)間關(guān)系。與特征池一樣，LSTM網(wǎng)絡(luò)在幀級(jí)CNN激活的基礎(chǔ)上運(yùn)行，可以學(xué)習(xí)如何隨著時(shí)間的推移整合信息。通過通過時(shí)間共享參數(shù)，這兩種架構(gòu)都能夠保持恒定的參數(shù)數(shù)量，同時(shí)捕捉到視頻的時(shí)間演變的全局描述。
為了在保持低計(jì)算量的同時(shí)學(xué)習(xí)視頻的全局描述，我們建議每秒鐘只處理一幀。為了彌補(bǔ)隱性運(yùn)動(dòng)信息的丟失，我們以相鄰幀計(jì)算的光流圖像的形式納入顯性運(yùn)動(dòng)信息。光流使我們能夠保留運(yùn)動(dòng)信息的好處（通常通過高幀率采樣實(shí)現(xiàn)），同時(shí)仍然捕捉到全局視頻信息。
【論文閱讀】視頻理解系列論文精讀
我們的貢獻(xiàn)可以概括為以下幾點(diǎn)：

我們提出了用于獲得全局視頻級(jí)描述符的CNN架構(gòu)，并證明使用越來越多的幀數(shù)可以顯著提高分類性能。
通過時(shí)間共享參數(shù)，在特征池和LSTM架構(gòu)中，參數(shù)的數(shù)量與視頻長度的關(guān)系保持不變。
我們確認(rèn)光流圖像可以極大地有利于視頻分類。

2. 相關(guān)工作

我們沒有試圖在小時(shí)間段內(nèi)學(xué)習(xí)空間-時(shí)間特征，而是考慮了幾種不同的方法，在視頻的長時(shí)間內(nèi)（幾十秒）聚集強(qiáng)大的CNN圖像特征，包括特征池和遞歸神經(jīng)網(wǎng)絡(luò)。由于梯度消失和爆炸的問題，標(biāo)準(zhǔn)的遞歸網(wǎng)絡(luò)在長序列的學(xué)習(xí)上有困難。相比之下，長短時(shí)記憶（LSTM）使用記憶單元來存儲(chǔ)、修改和訪問內(nèi)部狀態(tài)，使其能夠更好地發(fā)現(xiàn)長距離的時(shí)間關(guān)系。

3. 模型

3.1 特征池化結(jié)構(gòu)

【論文閱讀】視頻理解系列論文精讀
不同的特征池架構(gòu)。堆疊的卷積層用 "C "表示。藍(lán)色、綠色、黃色和橙色的矩形分別代表最大池、時(shí)域卷積層、全連接層和softmax層。

3.2 LSTM架構(gòu)

與產(chǎn)生順序不變的表征的Max-pooling相比，我們建議使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來明確考慮CNN激活的序列。由于視頻包含動(dòng)態(tài)內(nèi)容，幀與幀之間的變化可能編碼了額外的信息，這對(duì)做出更準(zhǔn)確的預(yù)測(cè)很有幫助。

【論文閱讀】視頻理解系列論文精讀

這里作者介紹了LSTM的模型，但現(xiàn)在LSTM使用的很少。

【論文閱讀】視頻理解系列論文精讀
深度視頻LSTM在每個(gè)連續(xù)的視頻幀中接受最后一個(gè)CNN層的輸出的輸入。CNN輸出通過時(shí)間向前處理，并通過五層堆疊的LSTM向上處理。一個(gè)softmax層預(yù)測(cè)每個(gè)時(shí)間步驟的類別。卷積網(wǎng)絡(luò)（粉色）和softmax分類器（橙色）的參數(shù)在不同的時(shí)間步驟中共享。

4. 訓(xùn)練結(jié)果

【論文閱讀】視頻理解系列論文精讀

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論

與以前在幾秒鐘的視頻上進(jìn)行訓(xùn)練的工作不同，我們的網(wǎng)絡(luò)利用了長達(dá)兩分鐘的視頻（120幀）來獲得最佳的分類性能。如果對(duì)速度有要求，我們的方法可以在一次拍攝中處理整個(gè)視頻。通過將較小的網(wǎng)絡(luò)擴(kuò)展到逐漸變大的網(wǎng)絡(luò)并進(jìn)行微調(diào)，可以進(jìn)行訓(xùn)練。由此產(chǎn)生的網(wǎng)絡(luò)在Sports-1M和UCF-101基準(zhǔn)上都達(dá)到了最先進(jìn)的性能，支持了學(xué)習(xí)應(yīng)該在整個(gè)視頻而不是短片段中進(jìn)行的想法。
我們也表明，使用光流并不總是有幫助的，特別是如果視頻沒有被預(yù)處理，如Sports-1M數(shù)據(jù)集的情況。為了在這種情況下利用光流的優(yōu)勢(shì)，有必要采用更復(fù)雜的序列處理架構(gòu)，如LSTM。此外，在圖像幀上使用LSTM和光流，可以產(chǎn)生Sports-1M基準(zhǔn)的最高公開性能指標(biāo)。

4. Convolutional Two-Stream Network Fusion for Video Action Recognition

摘要

我們研究了一些在空間和時(shí)間上融合ConvNet的方法，有如下的：
(i)利用卷積代替softmax可以節(jié)約參數(shù)，不損失精度
(ii)在最后一個(gè)卷積層融合這種網(wǎng)絡(luò)的空間性比早期更好，另外在類預(yù)測(cè)層融合可以提高準(zhǔn)確性
(iii)在時(shí)空鄰域匯集抽象的卷積特征進(jìn)一步提高性能

1. 介紹

利用卷積網(wǎng)絡(luò)解決動(dòng)作識(shí)別問題的效果不如卷積網(wǎng)絡(luò)在其他任務(wù)中的表現(xiàn)?？赡茉蚴菙?shù)據(jù)集太小而且噪聲很大，而且卷積網(wǎng)絡(luò)專注與空間信息，無法充分利用時(shí)間信息。

【論文閱讀】視頻理解系列論文精讀
雙流結(jié)構(gòu)（或以前的任何方法）無法利用視頻中兩個(gè)非常重要的線索進(jìn)行動(dòng)作識(shí)別。(i) 識(shí)別什么東西在哪里移動(dòng)，即把外觀識(shí)別（空間線索）與光流識(shí)別（時(shí)間線索）登記在一起；
(ii) 這些線索如何隨時(shí)間演變。

2. 相關(guān)工作

C3D在有限時(shí)間學(xué)習(xí)3D卷積，卷積核為3×3×3。另一種方法是將三維卷積拆分成二維空間卷積與一維時(shí)間卷積。
截止到目前為止（2016年），雙流網(wǎng)絡(luò)是深度學(xué)習(xí)應(yīng)用于動(dòng)作識(shí)別的最有效方法。

3. 方法

作者的結(jié)構(gòu)構(gòu)建在雙流網(wǎng)絡(luò)上。該網(wǎng)絡(luò)有兩個(gè)主要缺點(diǎn)：

融合只在最后一層，所以不能學(xué)習(xí)空間和時(shí)間的特征。
在時(shí)間尺度上的記憶是有限的，因?yàn)榭臻g卷積只在單幀上操作，而時(shí)間卷積只在時(shí)間上相鄰的L個(gè)光流幀的堆棧。

3.1 空間融合

作者列舉了一系列融合空間層的方式：Sum fusion，Max fusion，Concatenation fusion，Conv fusion，Bilinear fusion
在實(shí)驗(yàn)部分，我們?cè)u(píng)估和比較了這些可能的融合方法在分類準(zhǔn)確性方面的表現(xiàn)

3.2 在哪融合網(wǎng)絡(luò)

【論文閱讀】視頻理解系列論文精讀
左邊的例子顯示了在第四個(gè)卷積層之后的融合。從融合的角度看，只使用了一個(gè)網(wǎng)絡(luò)塔。右圖顯示了在兩層（conv5之后和fc8之后）的融合，其中兩個(gè)網(wǎng)絡(luò)塔都被保留，一個(gè)是混合時(shí)空網(wǎng)，一個(gè)是純粹的空間網(wǎng)。
【論文閱讀】視頻理解系列論文精讀
融合時(shí)間信息的不同方式。( a ) 二維匯集忽略了時(shí)間，只是在空間鄰域上進(jìn)行匯集，單獨(dú)縮小每個(gè)時(shí)間樣本的特征圖的大小。( b ) 三維匯集從局部時(shí)空鄰域匯集，首先跨時(shí)間堆疊特征圖，然后收縮這個(gè)時(shí)空立方體。( c ) 三維卷積+三維匯集在三維匯集之前，還用一個(gè)跨越特征通道、空間和時(shí)間的融合核進(jìn)行了卷積。

3.3 時(shí)間融合

將特征圖xt與時(shí)間t相結(jié)合，有3D Pooling，3D Conv + Pooling

【論文閱讀】視頻理解系列論文精讀
在細(xì)的時(shí)間尺度上捕捉短期信息，在粗的時(shí)間尺度上捕捉時(shí)間相鄰的輸入。

4. 實(shí)驗(yàn)與訓(xùn)練結(jié)果

【論文閱讀】視頻理解系列論文精讀

4.1 融合雙流網(wǎng)絡(luò)的方式

【論文閱讀】視頻理解系列論文精讀
對(duì)于表中所示的所有融合方法，與ReLU5相比，F(xiàn)C層的融合導(dǎo)致了較低的性能，方法的排序與表1相同，除了雙線性融合不可能在FC層實(shí)現(xiàn)。在所有FC層中，F(xiàn)C8比FC7和FC6表現(xiàn)更好，Conv融合為85.9%，其次是Sum融合為85.1%。我們認(rèn)為ReLU5表現(xiàn)稍好的原因是在這一層，外觀和運(yùn)動(dòng)之間的空間對(duì)應(yīng)關(guān)系被融合了，這在FC層就已經(jīng)被折疊。

4.2 在哪融合

【論文閱讀】視頻理解系列論文精讀
在ReLU5或ReLU5+FC8融合時(shí)，性能最好（但涉及的參數(shù)幾乎是兩倍）。

4.3 精度對(duì)比

【論文閱讀】視頻理解系列論文精讀

5. 結(jié)論

（1）相比在最后的Softmax層融合，在中間的卷積層融合既能夠提升性能，又不會(huì)增加太多參數(shù)（見融合方式）
（2）在最后一個(gè)卷積層融合（relu5）的性能是最好的，如果再配合最后一個(gè)全連接層融合（fc8），性能還能再提升一點(diǎn)（見融合位置）
（3）在融合后使用pool3d代替代替pool2d能更進(jìn)一步地提高性能（見3D Conv和3D Pooling）

5. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

摘要

作者主要想通過較少的訓(xùn)練樣本，高效的訓(xùn)練出用于動(dòng)作識(shí)別的ConvNet，主要貢獻(xiàn)有兩點(diǎn)：

提出temporal segment network(TSN)網(wǎng)絡(luò)模型：
TSN采樣，具備稀疏性和全局性的特征，能夠建模間隔更長幀之間時(shí)間依賴關(guān)系，確保獲取視頻級(jí)信息
TSN包含提取空間信息和提取時(shí)間信息兩路模型，并基于后期融合方式來融合兩路模型的結(jié)果
提出了一系列最佳實(shí)踐方案，如數(shù)據(jù)增強(qiáng)、正則化、交叉模態(tài)預(yù)訓(xùn)練等。并取得了非常好的效果

1. 介紹

在動(dòng)作識(shí)別中，有兩個(gè)關(guān)鍵和互補(bǔ)的方面：外觀和動(dòng)態(tài)。識(shí)別系統(tǒng)的性能在很大程度上取決于它是否能夠從中提取和利用相關(guān)信息。然而，由于許多復(fù)雜因素，如比例變化、視點(diǎn)變化和相機(jī)運(yùn)動(dòng)，提取此類信息并非易事。
主流ConvNet框架通常側(cè)重于外觀和短期運(yùn)動(dòng)，因此缺乏整合長期時(shí)間結(jié)構(gòu)的能力。

ConvNets在基于視頻的動(dòng)作識(shí)別中的應(yīng)用受到兩個(gè)主要障礙的阻礙。首先，長距離的時(shí)間結(jié)構(gòu)在理解動(dòng)作視頻的動(dòng)態(tài)方面起著重要作用。
然而，主流的ConvNet框架通常專注于表象和短期運(yùn)動(dòng)，因此缺乏納入長程時(shí)間結(jié)構(gòu)的能力。其次，在實(shí)踐中，訓(xùn)練深度ConvNets需要大量的訓(xùn)練樣本以達(dá)到最佳性能。但數(shù)據(jù)集有限。因此，卷積網(wǎng)絡(luò)面臨著過擬合的風(fēng)險(xiǎn)。
時(shí)空段網(wǎng)絡(luò)（TSN），這個(gè)框架用稀疏的采樣方案在一個(gè)長的視頻序列上提取短的片段，其中的樣本沿著時(shí)間維度均勻分布。在此基礎(chǔ)上，采用分段式結(jié)構(gòu)來匯總采樣片段的信息。在這個(gè)意義上，時(shí)間段網(wǎng)絡(luò)能夠?qū)φ麄€(gè)視頻的長距離時(shí)間結(jié)構(gòu)進(jìn)行建模。此外，這種稀疏的抽樣策略以極低的成本保留了相關(guān)的信息，從而在合理的時(shí)間和計(jì)算資源預(yù)算下實(shí)現(xiàn)了長視頻序列的端到端學(xué)習(xí)。

探索了一些好的做法來克服上述因訓(xùn)練樣本數(shù)量有限而造成的困難，包括：1）跨模態(tài)預(yù)訓(xùn)練；2）正則化；3）增強(qiáng)數(shù)據(jù)增量。

作者認(rèn)為，在訓(xùn)練視頻分類模型時(shí)，連續(xù)的幀會(huì)造成冗余，所以密集采樣的策略是沒必要的，所以作者采用了稀疏采樣的策略。

2. 相關(guān)工作

主要有兩種做法：

雙流結(jié)構(gòu)，一個(gè)模型學(xué)習(xí)圖像層面的信息，一個(gè)模型學(xué)習(xí)時(shí)間層面的信息，最后融合兩路模型的結(jié)果
使用3D卷積核，同時(shí)抽取圖像層面和時(shí)間層面的信息，這衍生出了不同3D卷積核的變種

3. 模型

3.1 時(shí)序段網(wǎng)絡(luò)TSN

具體來說，我們提出的時(shí)間段網(wǎng)絡(luò)框架，旨在利用整個(gè)視頻的視覺信息來進(jìn)行視頻級(jí)預(yù)測(cè)，也是由空間流ConvNets和時(shí)間流ConvNets組成。
時(shí)間段網(wǎng)絡(luò)不是在單幀或幀堆上工作，而是在整個(gè)視頻中稀疏采樣的短片段序列上工作。
【論文閱讀】視頻理解系列論文精讀
一個(gè)輸入視頻被分成K個(gè)片段，并從每個(gè)片段中隨機(jī)選擇一個(gè)簡短的片段。不同片段的等級(jí)分?jǐn)?shù)通過片段共識(shí)函數(shù)進(jìn)行融合，產(chǎn)生片段共識(shí)，這是一個(gè)視頻級(jí)別的預(yù)測(cè)。然后，來自所有模式的預(yù)測(cè)被融合以產(chǎn)生最終的預(yù)測(cè)。所有片段的ConvNets共享參數(shù)。

3.2 學(xué)習(xí)時(shí)序段網(wǎng)絡(luò)

模型架構(gòu)：之前的two-stream模型采用的是相對(duì)淺的模型結(jié)構(gòu)，作者選擇BN-Inception這種比較深的模型結(jié)構(gòu)來當(dāng)做building block，因?yàn)樵撃Ｐ驮谒俣群蜏?zhǔn)確率上都不錯(cuò)。
模型輸入：之前two-stream模型采用RGB作為spatial stream的輸入，采用光流作為temporal stream的輸入。作者研究了額外的兩種模態(tài)，RGB difference和warped光流。

【論文閱讀】視頻理解系列論文精讀

圖2. 四種類型的輸入模式的例子。RGB圖像、RGB差分、光流場(chǎng)（x,y方向）和扭曲的光流場(chǎng)（x,y方向）

。

模型訓(xùn)練：由于視頻樣本較少，訓(xùn)練較深的ConvNet可能會(huì)過擬合。為了解決該問題，作者提出了如下的策略：

跨模態(tài)預(yù)訓(xùn)練：RGB網(wǎng)絡(luò)可以使用ImageNet預(yù)訓(xùn)練，但是光流網(wǎng)絡(luò)沒有預(yù)訓(xùn)練的數(shù)據(jù)集，所有作者采用ImageNet上預(yù)訓(xùn)練的參數(shù)來初始化光流模型參數(shù)。
正則化：Batch Normalization用來解決協(xié)變量偏移的問題。在學(xué)習(xí)過程中，BN將估計(jì)每批中的激活均值和方差，并使用它們將這些激活值轉(zhuǎn)換為標(biāo)準(zhǔn)高斯分布。該操作會(huì)使得模型收斂速度變快，但是同時(shí)會(huì)帶來了過擬合的問題。因?yàn)椋髡咄ㄟ^固定住除了第一層以外，其他層的BN參數(shù)，來解決該問題。而且，作者在BN-Inception模型后面加入了dropout層，來解決過擬合的問題。

數(shù)據(jù)增強(qiáng)：random cropping、horizontal flipping、corner cropping、scale jittering。

4. 訓(xùn)練結(jié)果

（1）跨模態(tài)預(yù)訓(xùn)練和partial BN with dropout實(shí)驗(yàn)：
【論文閱讀】視頻理解系列論文精讀
（2）新模態(tài)特征：RGB Difference和warped optical flow fields實(shí)驗(yàn)

RGB Difference和RGB特征有一定的互補(bǔ)性
結(jié)合RGB和光流特征，能取得非常好的效果

【論文閱讀】視頻理解系列論文精讀
所以在下面的實(shí)驗(yàn)中，我們選擇平均池化作為默認(rèn)的聚合函數(shù)。

【論文閱讀】視頻理解系列論文精讀
"BN-Inception+TSN "指的是在性能最好的BN-Inception架構(gòu)上應(yīng)用時(shí)間段網(wǎng)絡(luò)框架的設(shè)置。

UCF101數(shù)據(jù)集上的擬議方法的成分分析。從左到右，我們一個(gè)一個(gè)地添加組件。BN-Inception被用作ConvNet架構(gòu)

【論文閱讀】視頻理解系列論文精讀
基于時(shí)間段網(wǎng)絡(luò)（TSN）的方法與其他最先進(jìn)的方法的比較。分別介紹了使用兩種輸入模式（RGB+Flow）和三種輸入模式（RGB+Flow+Warped Flow）的結(jié)果。

5. 結(jié)論

作者提出了Temporal Segment Network，用于建模視頻級(jí)模型，捕獲長時(shí)間的運(yùn)動(dòng)特征。通過稀疏采樣的分段結(jié)構(gòu)以及各種數(shù)據(jù)增強(qiáng)策略，該模型在HMDB51和UCF101上取得了非常好的效果。文章來源地址http://www.zghlxwxcb.cn/news/detail-408574.html

到了這里，關(guān)于【論文閱讀】視頻理解系列論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[論文精讀] 使用擴(kuò)散模型生成真實(shí)感視頻 - 【李飛飛團(tuán)隊(duì)新作，文生視頻新基準(zhǔn)】
論文導(dǎo)讀: 論文背景:2023年12月11日，AI科學(xué)家李飛飛團(tuán)隊(duì)與谷歌合作，推出了視頻生成模型W.A.L.T（Window Attention Latent Transformer）——一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的、基于Transformer架構(gòu)的擴(kuò)散模型。李飛飛是華裔女科學(xué)家、世界頂尖的AI專家，現(xiàn)為美國國家工程院
2024年02月03日
瀏覽(33)
【圖像拼接/視頻拼接】論文精讀：Dynamic Video Stitching via Shakiness Removing
第一次來請(qǐng)先看這篇文章：【圖像拼接（Image Stitching）】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明，包含專欄使用說明、創(chuàng)新思路分享等（不定期更新） Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half
2024年01月21日
瀏覽(36)
李沐論文精讀系列二：Vision Transformer、MAE、Swin-Transformer
傳送門：李沐論文精讀系列一： ResNet、Transformer、GAN、BERT 李沐論文精讀系列三：MoCo、對(duì)比學(xué)習(xí)綜述（MoCov1/v2/v3、SimCLR v1/v2、DINO等）李沐論文精讀系列四：CLIP和改進(jìn)工作串講（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）論文名稱： An Image Is Worth 16x16 Words: Transformers For Imag
2024年01月17日
瀏覽(23)
【圖像拼接/視頻拼接】論文精讀：Eliminating Warping Shakes for Unsupervised Online Video Stitching（StabStitch）
第一次來請(qǐng)先看這篇文章：【圖像拼接（Image Stitching）】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明，包含專欄使用說明、創(chuàng)新思路分享等（不定期更新） Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half
2024年03月24日
瀏覽(22)
【論文閱讀筆記】Mamba模型代碼理解
官方實(shí)現(xiàn)：state-spaces/mamba (github.com) 最簡化實(shí)現(xiàn)：johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實(shí)現(xiàn)：alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量優(yōu)化，目錄層級(jí)較多，對(duì)于理解模型含
2024年04月13日
瀏覽(34)
【論文閱讀】StyleganV1 算法理解
聽過Stylegan的人都覺得他很強(qiáng)！目前stylegan已經(jīng)發(fā)展到第三代v3了，但是為了搞清思想，我還是從v1開始了解，以下是我個(gè)人的一些理解。傳統(tǒng)GAN采用端對(duì)端的輸入輸出，可以盡可能使用訓(xùn)練集數(shù)據(jù)的信息，但是會(huì)出現(xiàn)兩個(gè)問題。僅保持一種輸入，縱使網(wǎng)絡(luò)有再強(qiáng)的能力，也可
2024年02月12日
瀏覽(29)
李沐論文精讀系列四：CLIP和改進(jìn)工作串講（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）
傳送門：李沐論文精讀系列一： ResNet、Transformer、GAN、BERT 李沐論文精讀系列二：Vision Transformer、MAE、Swin-Transformer 李沐論文精讀系列三：MoCo、對(duì)比學(xué)習(xí)綜述（MoCov1/v2/v3、SimCLR v1/v2、DINO等）參考：論文Learning Transferable Visual Models From Natural Language Supervision、官方代碼李沐論文
2024年02月05日
瀏覽(19)
李沐論文精讀系列三：MoCo、對(duì)比學(xué)習(xí)綜述（MoCov1/v2/v3、SimCLR v1/v2、DINO等）
傳送門：李沐論文精讀系列一： ResNet、Transformer、GAN、BERT 李沐論文精讀系列二：Vision Transformer、MAE、Swin-Transformer 李沐論文精讀系列四：CLIP和改進(jìn)工作串講（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso） 1.1 導(dǎo)言參考：論文：Momentum Contrast for Unsupervised Visual Representation Learni
2024年02月04日
瀏覽(21)
【論文閱讀】YOLO系列論文：YOLO v5
代碼： https://github.com/ultralytics/yolov5github.com 優(yōu)點(diǎn) 擁有四種模型，可以靈活部署缺點(diǎn) 在性能上稍弱于YOLO V4 模型的改進(jìn) 增加了Focus切片、自適應(yīng)錨框、自適應(yīng)圖片縮放結(jié)構(gòu)，保留信息，加快推理速度有4個(gè)版本，分別是Yolov5s，Yolov5m，Yolov5l，yolov5x四個(gè)模型，其中Yolov5s網(wǎng)絡(luò)是該
2024年02月16日
瀏覽(58)
gen1-視頻生成論文閱讀
論文：《Structure and Content-Guided Video Synthesis with Diffusion Models》官網(wǎng)： https://research.runwayml.com/gen1 github：未開源現(xiàn)有編輯視頻內(nèi)容方法在保留結(jié)構(gòu)的同時(shí)編輯視頻內(nèi)容需要重新訓(xùn)練，或者跨幀圖像編輯傳播過程易出錯(cuò)。本文提出一種結(jié)構(gòu)和內(nèi)容導(dǎo)向的視頻擴(kuò)散模型，可基于視
2024年02月12日
瀏覽(21)