国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

51-15 視頻理解串講—TimeSformer論文精讀

這篇具有很好參考價值的文章主要介紹了51-15 視頻理解串講—TimeSformer論文精讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

今天讀的論文題目是Is Space-Time Attention All You Need for Video Understanding?

Facebook AI提出了一種稱為TimeSformer視頻理解的新架構(gòu),這個架構(gòu)完全基于transformer,不使用卷積層。它通過分別對視頻的時間和空間維度應(yīng)用自注意力機制,有效地捕捉動作的時空特征。自transformer提出以來,在NLP領(lǐng)域得到了非常廣泛的使用,是機器翻譯以及語言理解中最常用的方法。相比于現(xiàn)在的3DCNN,TimeSformer訓(xùn)練要快3倍,推理的時間為它的1/10。除此之外,TimeSformer可以在更長的視頻片段上訓(xùn)練更大的模型。當前的3DCNN最多只能夠處理幾秒鐘的片段,使用TimeSformer甚至可以在數(shù)分鐘的片段上進行訓(xùn)練,它將為AI理解更復(fù)雜的人類行為鋪好路。

那么它具體是如何實現(xiàn)的呢?眾所周知,Transformer的訓(xùn)練非常消耗資源。為了緩解這一問題,TimeSformer通過兩個方式來減少計算量,1)將視頻拆解為不相交的圖像塊序列的子集。2)使用一種獨特的自注意力方式來避免所有的圖像塊序列之間進行復(fù)雜計算。文中把這項技術(shù)叫做分開的時空注意力機制叫Divided Space-Time Attention。

Abstract

我們提出了一種無卷積的視頻分類方法,該方法完全基于空間和時間上的self-attention。我們的方法名為“TimeSformer”,通過直接從一系列幀級patch中學習時空特征,使標準的Transformer架構(gòu)適用于視頻。實驗研究比較了不同的自注意力方案,并表明“時空分割注意力機制”,即在每個塊中分別應(yīng)用時間注意和空間注意,在所選擇的5種設(shè)計方案中有最佳的視頻分類精度。盡管是全新的設(shè)計,TimeSformer在幾個動作識別基準上取得了最先進的結(jié)果,包括在Kinetics-400和Kinetics-600數(shù)據(jù)集上。最后,與3DCNN相比,我們的模型訓(xùn)練速度更快,它可以實現(xiàn)更高的測試效率(精度下降很小),并且它也可以應(yīng)用于更長的視頻剪輯(超過一分鐘)。代碼和模型可在以下網(wǎng)址下載:https://github.com/ facebookresearch/TimeSformer.

Introduction

在過去的幾年里,自然語言處理NLP領(lǐng)域由于self-attention方法的出現(xiàn)而發(fā)生了革命性的變化。由于它在捕獲詞之間的遠程依賴關(guān)系以及訓(xùn)練可擴展性方面的出色能力,自注意架構(gòu),如Transformer模型,代表了廣泛的語言任務(wù)(包括機器翻譯、問答和自回歸詞生成)中的當前最先進的技術(shù)。

視頻理解與NLP有幾個高層次的相似之處。首先,視頻和句子都是順序的。此外,正如一個詞的意思通常只能通過將其與句子中的其他單詞聯(lián)系起來才能理解,可能會有人認為,短片段中的原子動作需要與視頻的其余部分聯(lián)系起來,以便完全消除歧義。因此,人們期望NLP的遠程自注意模型對視頻建模也非常有效。然而,在視頻領(lǐng)域,2D或3D卷積仍然是跨不同視頻任務(wù)進行時空特征學習的核心算子。雖然自注意在卷積層上應(yīng)用得很好,但據(jù)我們所知,沒有人試圖將自注意作為視頻識別模型的唯一構(gòu)件。

在這項工作中,我們提出了一個問題,即是否有可能通過用自注意替換卷積算子來構(gòu)建一個高性能的無卷積視頻架構(gòu)。我們認為,這樣的設(shè)計有可能克服卷積模型在視頻分析中的一些固有限制。首先,盡管它們強大的歸納偏置(例如,局部連通性和平移等價性)對小的訓(xùn)練集無疑是有益的,但在數(shù)據(jù)充足且“所有”都可以從示例中學習的情況下,它們可能會過度限制模型的表達能力。與cnn相比,Transformer施加的限制性歸納偏置更少。這擴大了它們可以表示的功能,并使它們更適合現(xiàn)代大數(shù)據(jù)策略,其中不太需要強歸納先驗。其次,雖然卷積核是專門為捕獲短期時空信息而設(shè)計的,但它們不能對超出接受野的依賴關(guān)系進行建模。而深度卷積堆棧自然地擴展了接受域,這些策略在通過聚合較短范圍的信息來捕獲遠程依賴方面本質(zhì)上是有限的。相反,自注意機制可以通過直接比較所有時空位置的特征激活來捕獲局部和全局遠程依賴關(guān)系,這遠遠超出了傳統(tǒng)卷積濾波器的接受域。最后,盡管在GPU硬件加速方面取得了進步,但訓(xùn)練深度cnn仍然非常昂貴,特別是在應(yīng)用于高分辨率和長視頻時。靜態(tài)圖像領(lǐng)域的最新研究已經(jīng)證明,與cnn相比,transformer的訓(xùn)練和推理速度更快,從而可以在相同的計算預(yù)算下構(gòu)建具有更大學習能力的模型。

基于這些結(jié)果,我們提出了一種完全基于自注意的視頻架構(gòu)。我們通過將自注意機制從圖像空間擴展到時空三維集,將圖像模型ViT應(yīng)用于視頻。我們提出的模型名為“TimeSformer”(來自Time-Space Transformer),它將視頻視為從單個幀中提取的一系列patches。與ViT一樣,每個patch被線性映射到一個嵌入中,并用位置信息進行增強。這使得可以將得到的矢量序列解釋為可以送到Transformer encoder的token embedding,類似于NLP計算詞嵌入特征。

標準Transformer中自注意的一個缺點是,它需要為所有token對計算相似性度量。在我們的設(shè)置中,由于視頻中有大量patch,這在計算上是昂貴的。為了解決這些挑戰(zhàn),我們提出了幾種可擴展的時空自注意設(shè)計,并在大規(guī)模動作分類數(shù)據(jù)集上對它們進行了評估。在提出的方案中,我們發(fā)現(xiàn)最好的設(shè)計是“分割時空注意力”架構(gòu),該架構(gòu)在網(wǎng)絡(luò)的每個塊中分別應(yīng)用時間注意力和空間注意力。與基于卷積的視頻架構(gòu)的既定范例相比,TimeSformer采用了完全不同的設(shè)計。然而,它達到的準確性可與該領(lǐng)域的最新技術(shù)相媲美,在某些情況下甚至更勝一籌。另外模型可以用于長視頻建模。

Related Work

我們的方法受到最近使用自注意進行圖像分類的工作的影響,這些工作要么與卷積算子結(jié)合,要么甚至完全替代卷積算子。在前一類中,非局部網(wǎng)絡(luò)采用非局部均值,有效地概括了transformer的自注意函數(shù)。也有論文提出了一種2D自注意機制,該機制作為2D卷積的替代品具有競爭力,而且當用于用自注意特征增強卷積特征時,結(jié)果會更強。除了圖像分類之外,關(guān)系網(wǎng)絡(luò)和DETR在卷積特征圖上使用自注意進行目標檢測。

我們的方法與利用自注意替代卷積的圖像網(wǎng)絡(luò)更密切相關(guān)。由于這些工作使用單個像素作為查詢,為了保持可管理的計算成本和較小的內(nèi)存消耗,它們必須將自注意的范圍限制在局部鄰域,或者在圖像大幅縮小版本上使用全局自注意??蓴U展到完整圖像的替代策略包括稀疏鍵值采樣或限制沿空間軸計算的自注意。在我們的實驗中考慮的一些自注意算子采用類似的稀疏和軸向計算,推廣到時空volume。然而,我們的方法的效率主要源于將視頻分解成一系列幀級patch,然后將這些patch的線性嵌入作為輸入給Transformer。該策略最近在vision transformer,ViT中被引入,該策略在圖像分類方面提供了令人印象深刻的性能。我們在ViT設(shè)計的基礎(chǔ)上,通過提出并實證比較幾種可擴展的視頻時空自我注意方案,將其擴展到視頻中。

雖然transformer最近被用于視頻生成,但我們并不知道之前的視頻識別架構(gòu)使用自注意作為唯一的構(gòu)建塊。我們也注意到transformer已經(jīng)在卷積特征映射的基礎(chǔ)上被用于動作定位和識別、視頻分類和群體活動識別。我們還注意到,有大量文獻基于使用text transformer與video cnn相結(jié)合來解決各種視頻語言任務(wù),如字幕、問答和對話。最后,multimodal video-text transformers?也通過采用masked-token前置任務(wù),在自然語言領(lǐng)域以無監(jiān)督的方式進行訓(xùn)練或預(yù)訓(xùn)練。

The TimeSformer Model

Input clip

一個視頻是由多幀圖片構(gòu)成。模型進行對視頻進行F幀采樣,輸入為RGB三通道圖像,尺寸H*W,表示為X∈。

Decomposition into patches

與ViT處理方法一樣,我們將每一幀分解為N個不重疊的patch,每個patch的大小為P*P,使N個patch跨越整個幀,即N = H*W/P*P。我們將這些patch拉平,扁平化為向量

p = 1......N 表示空間位置,t = 1......F,描述幀上的索引。

Transformer需要將patch構(gòu)建成sequence進行輸入(類似NLP中由token構(gòu)成sequence),每個patch的尺寸為P*P,所以每patch的數(shù)量N(像素點的總數(shù)/patch像素點數(shù))展開后,可以表示為向量,p = 1,...,N,t = 1...,F (3表示RGB三個通道,X(p,t)表示第t幀第p個patch)。

Linear embedding

我們通過一個可學習的矩陣E將每個Patch?x(p,t) 線性映射到嵌入向量Z中。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

其中 e表示添加的可學習位置嵌入,編碼每個patch的時空位置。生成嵌入向量序列z,p=1......N,t = 1.....F,表示 Transformer 的輸入,并起到類似于在 NLP 中輸入文本,Transformer 嵌入單詞序列的作用。與原始 BERT Transformer? 一樣,我們在序列的第一個位置添加了一個特殊的可學習向量 z(0)? 來表示分類標記的嵌入。

Query-Key-Value computation

Timesforer由 L 個 encoding 塊組成。對每個 encoding 塊 L,從前一個 encoding 塊輸出的 Z(L-1)
向量計算出每個patch的 query/key/value。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

其中 LN() 表示 LayerNorm, = 1, . . . , ?是多頭注意力的索引,?表示注意力頭的總數(shù)。每個注意力頭的維數(shù)設(shè)置為 Dh = D/a。?

Self-attention computation

自注意力權(quán)重通過點積計算。查詢每個patch的自注意力權(quán)重??(黑體)由下式給出

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

其中SM表示softmax激活函數(shù)。注意,當僅在一個維度上計算注意力時(例如,僅在空間上或僅在時間上),計算量會顯著減少。例如,在空間注意力的情況下,只進行N+1個查詢關(guān)鍵字比較,只使用與查詢相同幀的關(guān)鍵字。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Encoding

首先使用每個注意力頭的自注意力系數(shù),計算value向量的加權(quán)和,得到encoding塊?L 處的編碼 Z。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

然后經(jīng)過投影、MLP。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Classification embedding

最終clip?enbedding是從分類token最后塊中獲得。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

在這種表示之上,我們附加了一個1-hidden-layer MLP,用于預(yù)測最終的視頻類。

Space-Time Self-Attention Models

我們可以通過將方程5的時空注意力替換為每幀內(nèi)的空間注意力來降低計算成本(方程6)。但是,這樣的模型忽略了捕獲跨幀的時間依賴關(guān)系。如我們的實驗所示,與全時空注意相比,這種方法導(dǎo)致分類精度下降,特別是在需要強大的時間建模的基準上。

我們提出了一種更有效的時空注意力架構(gòu),稱為“時空分割注意力”(用T+S表示),其中時間注意力和空間注意力分別應(yīng)用。該架構(gòu)與下圖中的空間和聯(lián)合時空注意力的架構(gòu)進行了比較。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Divided Space-Time Attention(時空分割注意力機制T+S),對于分割注意力模型(T+S),模型學習了不同的 query/key/value 矩陣,分別覆蓋時間和空間維度。

先應(yīng)用時間注意力機制,對每一幀的同一位置的patch計算attention(時間注意力關(guān)注的是時間上的變化,即同一位置不同幀t之間的關(guān)系)。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

再應(yīng)用空間注意力機制,對同一幀的不同patch計算attention空間注意力關(guān)注的是空間上的變化,即同一幀不同位置p之間的關(guān)系。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

與聯(lián)合時空注意力模型每個 patch 需要的 (NF + 1)次比較相比,分割注意力僅進行每個patch (N+F+2)次比較,作者發(fā)現(xiàn),分開的時空注意力機制效果要好于聯(lián)合使用的時空注意力機制。

下面來看注意力機制是如何運作的。

下圖給出了視頻示例中不同注意力模型的可視化。圖中藍色的圖像塊是query的圖像塊,其余顏色的圖像塊是每個自注意力策略使用到的圖像塊。沒有顏色的圖像塊沒有被使用到策略中,有多種顏色的圖像塊代表注意力機制是分開進行的,比如T+S就是先T后S,L+G也是同理。注意,這里圖中只展示了三幀,但是作用在整個序列上的。通過對輸入圖像進行分塊,本論文中一共研究了五種不同的注意力機制。1)空間注意力機制S,只取同一幀內(nèi)的圖像塊進行自注意力機制。2)時空共同注意力機制S+T,需所有幀中的所有圖像塊進行注意力機制。3)分開的時空注意力機制T+S,先對同一幀中的所有圖像塊進行自注意力機制,然后對不同幀中對應(yīng)位置的圖像塊進注意力機制。4)吸收局部全局注意力機制L+G,先利用所有針中相鄰的H和W的圖像塊計算局部的注意力,然后在空間上使用兩個圖像塊的布長在整個序列中計算自注意力機制,這個可以看作全局的時空注意力以更快的近似。5)軸向的注意力機制T+W+H。先在時間維度上進行自注意力機制,然后在縱坐標相同的圖像塊上行自注意力機制,最后在橫坐標相同的圖像塊上進行自注意力機制。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Experiments

我們在四個流行的動作識別數(shù)據(jù)集上對TimeSformer進行了評估:Kinetics-400、Kinetics-600、Something-SomethingV2和Diving-48。我們采用在ImageNet-1K或ImageNet-21K預(yù)訓(xùn)練的“基礎(chǔ)”上的ViT架構(gòu),如每個實驗所規(guī)定的。除非另有說明,否則我們使用大小為8×224×224的剪輯,幀的采樣率為1/32。patch大小為16×16像素。在推理過程中,除非另有說明,否則我們在視頻中間采樣一個時間片段。我們使用時間片段中的3個空間裁剪(左上、中、右下),并通過對這3個剪裁的得分進行平均來獲得最終預(yù)測。

Analysis of Self-Attention Schemes

對于第一組實驗,我們從在ImageNet-21K上預(yù)訓(xùn)練的ViT開始。在表中,我們給出了在K400和SSv2上使用TimeSformer獲得的五個提出的時空注意力方案的結(jié)果。首先,我們注意到只有空間注意力(S)的TimeSformer在K400上表現(xiàn)良好。這是一個有趣的發(fā)現(xiàn)。事實上,先前的工作已經(jīng)表明,在K400上,為了實現(xiàn)較強的準確性,空間線索比時間信息更重要。在這里,我們表明,在沒有任何時間建模的情況下,可以在K400上獲得可靠的精度。然而,請注意,僅關(guān)注空間在SSv2上表現(xiàn)不佳。這強調(diào)了在后一個數(shù)據(jù)集上進行時間建模的重要性。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

此外,我們觀察到,分割的時空注意力在K400和SSv2上都達到了最佳的準確性。這是有道理的,因為與聯(lián)合時空注意力相比,分割時空注意力具有更大的學習能力(見上表),因為它包含時間注意力和空間注意力的不同學習參數(shù)。

當使用更高的空間分辨率(左)和更長的視頻(右)時,我們還比較了聯(lián)合時空注意力與分割時空注意力的計算成本。我們注意到,在這兩種情況下,分割時空的方案都能很好地擴展。相反,當分辨率或視頻長度增加時,聯(lián)合時空注意力的方案導(dǎo)致顯著更高的成本。在實踐中,一旦空間幀分辨率達到448像素,或者一旦幀數(shù)增加到32,聯(lián)合時空注意力就會導(dǎo)致GPU內(nèi)存溢出,因此它實際上不適用于大幀或長視頻。因此,盡管有更多的參數(shù),但當在更高的空間分辨率或更長的視頻上操作時,分割時空注意力比聯(lián)合時空注意力更有效。因此,對于所有后續(xù)實驗,我們使用由分割的時空自注意塊構(gòu)建的TimeSformer。

Comparison to 3D CNNs

在本小節(jié)中,我們進行了一項實證研究,旨在了解TimeSformer與3D卷積架構(gòu)相比的區(qū)別特性,3D卷積架構(gòu)是近年來視頻理解的主要方法。我們將比較重點放在兩個3D CNN模型上:1)SlowFast(這是視頻分類中最先進的;2)I3D,它已被證明受益于基于圖像的預(yù)訓(xùn)練,與我們自己的模型類似。我們在表中對這兩個網(wǎng)絡(luò)進行了定量比較,并強調(diào)了以下關(guān)鍵觀察結(jié)果。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

從Model Capacity,Video Training Time,The Importance of Pretraining,The Impact of Video-Data Scale進行了比較。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Varying the Number of Tokens

與大多數(shù)3DCNN相比,我們模型的可擴展性使其能夠在更高的空間分辨率和更長的視頻上運行。我們注意到,這兩個方面都會影響提供給Transformer的token序列的長度。具體地說,增加空間分辨率導(dǎo)致每幀更高數(shù)量的patch(N)。當使用更多的幀時,輸入token的數(shù)量也會增加。我們進行了一項實證研究,在這兩個軸上分別增加token的數(shù)量。

我們在下圖中報告了研究結(jié)果。我們看到,提高空間分辨率(達到一定程度)會提高性能。類似地,我們觀察到,增加輸入片段的長度會導(dǎo)致一致的精度增益。由于GPU內(nèi)存限制,我們無法在超過96幀的剪輯上測試我們的模型。盡管如此,我們還是想指出,使用96幀的剪輯與當前的卷積模型有很大的不同,后者通常僅限于處理8?32幀的輸入。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

The Importance of Positional Embeddings

為了研究我們學習的時空位置嵌入的重要性,我們還對TimeSformer的一些變體進行了實驗,這些變體使用:1)無位置嵌入,2)僅空間位置嵌入,以及3)時空位置嵌入。我們在表4中報告了這些結(jié)果?;谶@些結(jié)果,我們觀察到,使用時空位置嵌入的模型變體在Kinetics-400和Something-Something-V2上都產(chǎn)生了最佳精度。有趣的是,我們還觀察到,在Kinetics-400上使用僅限空間的位置嵌入會產(chǎn)生可靠的結(jié)果,但在Something-Something-V2上會產(chǎn)生更糟糕的結(jié)果。這是有道理的,因為Kinetics-400在空間上更偏向,而SomethingSomething-V2需要復(fù)雜的時間推理。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Comparison to the State-of-the-Art

K400數(shù)據(jù)集

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

K600數(shù)據(jù)集?

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

SSv2和Diving-48數(shù)據(jù)集

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Long-Term Video Modeling

我們首先注意到,對于相同的單剪輯覆蓋率,TimeSformer以8-11%的大幅度優(yōu)于相應(yīng)的SlowFast。我們還觀察到,較長范圍的TimeSformer做得更好,即,我們的最長范圍變體實現(xiàn)了最佳的視頻級分類精度。這些結(jié)果表明,我們的模型非常適合需要長期視頻建模的任務(wù)。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Additional Ablations

Smaller & Larger Transformers

除了ViT基礎(chǔ)模型之外,我們還試驗了large ViT。報告說,在 Kinetics-400 和 Something-Something-V2 上的結(jié)果都差了 1%。鑒于基礎(chǔ)模型已經(jīng)有 121M 個參數(shù),我們懷疑當前的數(shù)據(jù)集還不夠大,不足以證明進一步增加模型容量的合理性。我們還嘗試了“小型”ViT變體,其精度比我們默認的“基本”ViT模型差約5%。

Larger Patch Size

我們還試驗了不同的patch大小,即P=32,結(jié)果比使用P=16的默認變體差約3%。我們推測,P=32時性能的下降是由于空間粒度的減小。我們沒有訓(xùn)練任何P值低于16的模型,因為這些模型的計算成本要高得多。

The Order of Space and Time Self-Attention

研究了顛倒時空注意力的順序(即先應(yīng)用空間注意力,然后應(yīng)用時間注意力)是否會對結(jié)果產(chǎn)生影響。首先應(yīng)用空間注意力,然后應(yīng)用時間注意力會導(dǎo)致Kinetics-400和Something-Something-V2的準確率下降0.5%,平行時空比采用“分時空注意力”方案相比,它的準確率降低了0.4%。

Qualitative Results

Visualizing Learned Space-Time Attention

在圖7中,我們展示了通過在Something-Something-V2視頻上應(yīng)用TimeSformer獲得的時空注意力可視化。為了使學習到的注意力可視化,我們使用了注意力滾動方案。結(jié)果表明,TimeSformer學習關(guān)注視頻中的相關(guān)區(qū)域,以執(zhí)行復(fù)雜的時空推理。例如,我們可以觀察到,模型在可見時關(guān)注手的形狀,而在不可見時僅關(guān)注這個對象。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Visualizing Learned Feature Embeddings

我們還可視化了TimeSformer在Something-Something-V2上學習到的特征??梢暬鞘褂胻-SNE完成的,其中每個點表示單個視頻,不同的顏色描繪不同的動作類別?;谶@一說明,我們觀察到具有劃分的時空注意力的TimeSformer比具有僅空間注意力或ViT的TimeSformer在語義上學習到更多的可分離特征。

51-15 視頻理解串講—TimeSformer論文精讀,AutoGPT 自動駕駛大模型,自動駕駛,transformer,gpt-3,智慧城市

Conclusion

TimeSformer,這是一種與基于卷積的視頻網(wǎng)絡(luò)的既定范式截然不同的視頻建模方法。我們展示了設(shè)計一個有效的、可擴展的視頻架構(gòu)是可能的,它完全建立在時空自我關(guān)注的基礎(chǔ)上。我們的方法1)概念簡單,2)在主要動作識別基準上獲得了最先進的結(jié)果,3)具有較低的訓(xùn)練和推理成本,4)可以應(yīng)用于超過一分鐘的視頻剪輯,從而實現(xiàn)長視頻建模。未來,我們計劃將該方法擴展到其他視頻分析任務(wù),如動作定位、視頻字幕和問答等。

原論文地址?https://arxiv.org/abs/2102.05095文章來源地址http://www.zghlxwxcb.cn/news/detail-821651.html

到了這里,關(guān)于51-15 視頻理解串講—TimeSformer論文精讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 51 -25 Scene as Occupancy,場景作為占用 論文精讀

    51 -25 Scene as Occupancy,場景作為占用 論文精讀

    本文閱讀的文章是Scene as Occupancy,介紹了一種將物體表示為3D occupancy的新方法,以描述三維場景,并用于檢測、分割和規(guī)劃。 文章提出了OccNet和OpenOcc兩個核心概念。 OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺為中心的方法,通過層級化的體素解碼器,可以重建3D感知模型和3D占用,

    2024年02月22日
    瀏覽(19)
  • 51 -25 Scene as Occupancy 場景即占用 論文精讀

    51 -25 Scene as Occupancy 場景即占用 論文精讀

    本文閱讀的文章是Scene as Occupancy,介紹了一種將物體表示為3D occupancy的新方法,以描述三維場景,并用于檢測、分割和規(guī)劃。 文章提出了OccNet和OpenOcc兩個核心概念。 OccNet 3D占用網(wǎng)絡(luò)是一種以多視圖視覺為中心的方法,通過層級化的體素解碼器,可以重建3D感知模型和3D占用,

    2024年02月21日
    瀏覽(16)
  • BERT 論文精讀與理解

    BERT 論文精讀與理解

    1.論文題目 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2.論文摘要 本文引入了一種名為 BERT 的新語言表示模型,它代表 Transformers 的雙向編碼器表示。與最近的語言表示模型(Peters et al., 2018a;Radford et al., 2018)不同,BERT 旨在通過聯(lián)合調(diào)節(jié)所有層中的左右上

    2024年02月13日
    瀏覽(24)
  • 51-16 FusionAD 用于自動駕駛預(yù)測與規(guī)劃任務(wù)的多模態(tài)融合論文精讀

    51-16 FusionAD 用于自動駕駛預(yù)測與規(guī)劃任務(wù)的多模態(tài)融合論文精讀

    今天要分享的是基于BEV的多模態(tài)、多任務(wù)、端到端自動駕駛模型FusionAD,其專注于自動駕駛預(yù)測和規(guī)劃任務(wù)。這項工作首次發(fā)表于2023年8月2日,性能超越了2023 CVPR最佳論文UniAD模型。論文題目是FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving,主要作者來自

    2024年01月24日
    瀏覽(27)
  • [論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】

    [論文精讀] 使用擴散模型生成真實感視頻 - 【李飛飛團隊新作,文生視頻 新基準】

    論文導(dǎo)讀: 論文背景:2023年12月11日,AI科學家李飛飛團隊與谷歌合作,推出了視頻生成模型W.A.L.T(Window Attention Latent Transformer)——一個在共享潛在空間中訓(xùn)練圖像和視頻生成的、基于Transformer架構(gòu)的擴散模型。李飛飛是華裔女科學家、世界頂尖的AI專家,現(xiàn)為美國國家工程院

    2024年02月03日
    瀏覽(33)
  • 【圖像拼接/視頻拼接】論文精讀:Dynamic Video Stitching via Shakiness Removing

    第一次來請先看這篇文章:【圖像拼接(Image Stitching)】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年01月21日
    瀏覽(36)
  • 使用TimeSformer預(yù)訓(xùn)練模型提取視頻特征

    使用TimeSformer預(yù)訓(xùn)練模型提取視頻特征

    github:GitHub - facebookresearch/TimeSformer: The official pytorch implementation of our paper \\\"Is Space-Time Attention All You Need for Video Understanding?\\\" ?直接按照官方步驟安裝即可,torchvision在安裝pytorch時就一起安裝好了,我這里選擇安裝1.8版本的pytorch,可以根據(jù)自己的cuda版本自行選擇 pytorch安裝:Previ

    2023年04月15日
    瀏覽(31)
  • 【圖像拼接/視頻拼接】論文精讀:Eliminating Warping Shakes for Unsupervised Online Video Stitching(StabStitch)

    第一次來請先看這篇文章:【圖像拼接(Image Stitching)】關(guān)于【圖像拼接論文精讀】專欄的相關(guān)說明,包含專欄使用說明、創(chuàng)新思路分享等(不定期更新) Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation Adaptive As-Natural-As-Possible Image Stitching Shape-Preserving Half

    2024年03月24日
    瀏覽(22)
  • 7.15 SpringBoot項目實戰(zhàn) 【學生入駐】(上):從API接口定義 到 Mybatis查詢 串講

    7.15 SpringBoot項目實戰(zhàn) 【學生入駐】(上):從API接口定義 到 Mybatis查詢 串講

    接下來我們實戰(zhàn)【學生入駐】,對于C端學生端,一切交互開始于知道 當前學生是否入駐 、 是否有借閱資格 ,所以SpringBoot后端需要提供給vue前端的第一個API是:當前登錄的學生信息(是否入駐、是否有借閱資格)! 所以,本文將使用SpringBoot實現(xiàn)C端學生端第一個接口:查詢

    2024年02月08日
    瀏覽(15)
  • 深度學習應(yīng)用篇-計算機視覺-視頻分類[8]:時間偏移模塊(TSM)、TimeSformer無卷積視頻分類方法、注意力機制

    深度學習應(yīng)用篇-計算機視覺-視頻分類[8]:時間偏移模塊(TSM)、TimeSformer無卷積視頻分類方法、注意力機制

    【深度學習入門到進階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預(yù)訓(xùn)練模型、對抗神經(jīng)網(wǎng)絡(luò)等 專欄詳細介紹:【深度學習入門到進階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、

    2024年02月08日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包