通過有效的時空特征融合進行多模態(tài)步態(tài)識別
paper題目:Multi-modal Gait Recognition via Effective Spatial-Temporal Feature Fusion
paper是北航發(fā)表在CVPR 2023的工作
paper地址
Abstract
步態(tài)識別是一種生物識別技術(shù),通過步行模式識別人。基于剪影的方法和基于骨架的方法是兩種最流行的方法。但是剪影數(shù)據(jù)容易受到衣服遮擋的影響,骨架數(shù)據(jù)缺乏體型信息。為了獲得更穩(wěn)健、更全面的步態(tài)識別表示,我們提出了一種基于 transformer 的步態(tài)識別框架,稱為 MMGaitFormer,它有效地融合和聚合了來自骨架和輪廓的時空信息。具體來說,空間融合模塊(SFM)和時間融合模塊(TFM)分別被提出用于有效的空間級和時間級特征融合。 SFM進行細粒度的身體部位空間融合,通過attention機制引導輪廓各部位、骨架各關(guān)節(jié)對齊。 TFM 通過循環(huán)位置嵌入 (CPE) 執(zhí)行時間建模,并融合兩種模式的時間信息。實驗表明,我們的 MMGaitFormer 在流行的步態(tài)數(shù)據(jù)集上實現(xiàn)了最先進的性能。對于 CASIAB 中最具挑戰(zhàn)性的“CL”(即穿著不同衣服行走)條件,我們的方法達到了 94.8% 的 rank-1 準確率,大大優(yōu)于最先進的單模態(tài)方法。
1. Introduction
步態(tài)識別是一種通過步行模式識別人的生物識別技術(shù),是遠距離識別系統(tǒng)中最有前途的基于視頻的生物識別技術(shù)之一。然而,執(zhí)行可靠的步態(tài)識別仍然具有挑戰(zhàn)性,因為它的性能受到許多復雜因素的嚴重影響,包括服裝、攜帶條件、交叉視圖等。為了緩解這些問題,已經(jīng)提出了各種方法?;谕庥^和基于模型的方法是基于視頻的步態(tài)識別的兩種最流行的方法?;谕庥^(即基于輪廓)的方法 [5、9、14、19、27] 依賴于從原始視頻幀中分割出來的二進制人體輪廓圖像,以消除外部因素的影響。他們利用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 提取時空特征并實現(xiàn)了最先進的性能。基于模型的方法 [2,16,17,23] 考慮身體的基本物理結(jié)構(gòu),并以更易于理解的模型表達步態(tài)。最近的基于模型的方法是基于骨架的,其中它們用通過姿勢估計模型從視頻中獲得的骨架來表示步態(tài)。憑借清晰而穩(wěn)健的骨架表示,與基于外觀的方法相比,最近的基于骨架的方法甚至可以顯示出有競爭力的結(jié)果。
盡管基于剪影和基于骨架的方法都有其優(yōu)點,但我們認為步態(tài)信息的兩種輸入表示的不完整性限制了這些方法的進一步改進。如圖1(a)所示,雖然輪廓保留了大部分身體形狀信息,但當身體區(qū)域重疊時會出現(xiàn)自遮蔽問題。此外,當服裝條件發(fā)生變化時,如圖1(b)所示,服裝遮蔽會顯著改變外部身體形狀。然而,骨架僅保留內(nèi)部身體結(jié)構(gòu)信息,有效解決了服裝遮擋和自遮擋問題,但完全忽略了可區(qū)分的身體形狀信息,導致性能不佳。因此,我們可以觀察到輪廓保留了外部身體形狀信息并省略了一些身體結(jié)構(gòu)線索,而骨骼保留了內(nèi)部身體結(jié)構(gòu)信息。兩種數(shù)據(jù)模態(tài)互為補充,它們的結(jié)合有望更全面地表征步態(tài)。
圖 1. CASIA-B 步態(tài)數(shù)據(jù)集中受試者在正常行走 (a) 和穿著不同衣服行走 (b) 的不同時間步長的不同步態(tài)表示的比較。每行從上到下分別描繪了與剪影圖像相同的幀,以及 2D 骨架姿勢,即骨架和剪影的組合。結(jié)合剪影和骨骼的互補優(yōu)勢,有望成為更全面的步態(tài)表征。
受上述觀察的啟發(fā),為了獲得用于識別的穩(wěn)健和全面的步態(tài)表示,我們提出了一種基于 transformer 的步態(tài)識別框架,稱為 MMGaitFormer,它有效地融合和聚合了來自骨架和輪廓的時空信息。準確地說,擬議的框架由三個階段的四個主要模塊組成。首先,分別通過分割和姿態(tài)估計方法從原始RGB視頻中提取剪影序列和骨架序列。之后,我們將輪廓和骨架輸入到獨立的編碼模塊中,為每個模態(tài)提取獨特的時空特征圖。最后,我們分別提出了用于空間和時間特征融合的空間融合模塊(SFM)和時間融合模塊(TFM)。作為基于視頻的識別任務(wù),如何有效地從時空信息中提取具有鑒別力的步態(tài)特征是最關(guān)鍵的問題。在這項工作中,我們考慮了空間級別的細粒度融合和時間級別的精細對齊融合。在 SFM 中,我們設(shè)計了一個共同注意模塊來實現(xiàn)輪廓和骨架之間的交互。具體來說,我們構(gòu)建了稱為細粒度身體部位融合 (FBPF) 的策略,以根據(jù)骨骼中的關(guān)節(jié)與輪廓中相應(yīng)部位之間的先驗位置關(guān)系,指導 SFM 進行細粒度特征融合學習。在 TFM 中,我們引入了用于精細對齊時間建模的嵌入建模操作,我們在其中設(shè)計了周期位置嵌入 (CPE) 以有效捕獲步態(tài)周期特征并更好地為步態(tài)序列的時間信息建模。
所提出方法的主要貢獻總結(jié)如下:(1)我們提出了一種有效且新穎的多模態(tài)步態(tài)識別框架,稱為 MMGaitFormer,它利用由輪廓和骨架構(gòu)建的更全面的步態(tài)表示,以實現(xiàn)更好的識別。 (2) 提出了一種基于共同注意的空間融合模塊,利用每個骨架關(guān)節(jié)和每個輪廓部分的先驗位置關(guān)系,對空間步態(tài)特征進行細粒度身體部位融合 (FBPF)。(3) 我們提出了一種用于時間級特征融合的新型時間融合模塊,其中我們設(shè)計了循環(huán)位置嵌入 (CPE) 來模擬任意長度步態(tài)序列的時間關(guān)系。實驗表明,我們的 MMGaitFormer 在流行的步態(tài)數(shù)據(jù)集上實現(xiàn)了最先進的性能。對于 CASIAB [26] 中最具挑戰(zhàn)性的條件(即穿著不同的衣服行走),我們的方法達到了 94.8% 的 rank-1 準確率,大大優(yōu)于最先進的單模態(tài)方法( +11.2% 準確度提升)。
2. Related work
基于外觀的方法依賴于從原始圖像中提取的二進制人體輪廓圖像。大多數(shù)最近的方法直接將步態(tài)視為一系列輪廓。這些方法 [5、6、9、18、20] 遵循類似的管道,即在幀級別使用設(shè)計良好的網(wǎng)絡(luò)提取空間特征,然后使用時空聚合模塊獲得步態(tài)表示。例如,GaitPart [9] 設(shè)計了一個微動捕捉模塊(MCM)模塊來模擬局部微動特征。 GaitGL [20] 提出了一個 3D CNN 網(wǎng)絡(luò)來同時聚合局部時空信息。 GaitTransformer [6] 提出了用于步態(tài)時間建模的多時間尺度轉(zhuǎn)換器 (MTST)。盡管基于剪影的方法取得了最先進的性能,但剪影數(shù)據(jù)不可避免地會遇到服裝遮擋和自遮擋的問題,限制了其進一步改進。
基于模型的方法考慮身體的基本物理結(jié)構(gòu),并在更易于理解的模型中表達步態(tài) [2、16、17]。最近基于模型的方法通常將骨架作為原始輸入數(shù)據(jù),從帶有姿勢估計模型的原始視頻中提取。 PoseGait [17] 利用人類先驗知識設(shè)計姿勢特征,并使用 CNN 提取特征表示以進行識別。 GaitGraph [23] 基于圖卷積網(wǎng)絡(luò)(GCN)從人體二維關(guān)節(jié)中提取步態(tài)信息,并取得了有競爭力的結(jié)果。雖然基于骨架的方法對視圖和外觀變化具有魯棒性,但骨架數(shù)據(jù)包含的身體形狀信息少于剪影圖像。
集成深度、多傳感器和視頻數(shù)據(jù)的多模態(tài)步態(tài)識別 [4、7、13] 方法在早期研究中顯示出識別性能的改進。然而,完全依賴視頻數(shù)據(jù)的同質(zhì)多模態(tài)方法尚未得到充分探索,現(xiàn)有方法 [15, 21, 25] 仍然存在關(guān)鍵問題:(1)簡單地連接兩種模態(tài)的最終全局特征不能有效捕獲細粒度的空間信息。 (2) 兩種模態(tài)序列的時間信息沒有得到充分利用,如何有效融合它們的時間特征仍然是一個懸而未決的問題。受 Transformer [24] 在多模式學習中取得的顯著成功的啟發(fā),我們提出了一種基于 Transformer 的方法,該方法利用兩種互補的數(shù)據(jù)模式,即輪廓和骨架,進行全面的步態(tài)識別。
3. Method
在本節(jié)中,我們將描述 MMGaitFormer 的技術(shù)細節(jié)。在第 3.1 節(jié)中,我們概述了我們的方法。在第 3.2 節(jié)中,我們討論了 SiEM 和 SkEM 的設(shè)計動機。在第 3.3 節(jié)中,我們介紹了我們提出的空間融合模塊,介紹如何通過細粒度身體部位融合 (FBPF) 來整合骨架信息和輪廓信息。在第 3.4 節(jié)中,我們詳細闡述了我們提出的時間融合模塊,介紹如何使用循環(huán)位置嵌入 (CPE) 來建模和融合兩種模態(tài)序列的時間信息。
3.1. Pipeline
圖 2. 我們的 MMGaitFormer 的管道。在預處理階段,分別通過分割方法和姿態(tài)估計方法從原始RGB視頻中提取輪廓序列和骨架序列。在編碼階段,我們將輸入的輪廓和骨架分別輸入到輪廓編碼模塊 (SiEM) 和骨架編碼模塊 (SkEM) 中,以學習時空特征圖。在融合階段,提出了空間融合模塊(SFM)和時間融合模塊(TFM),分別用于有效的細粒度空間和精細對齊的時間特征融合。 ATT表示cross-attention block,兩個ATT形成一個co-attention結(jié)構(gòu)進行特征融合。 TFM 中的嵌入建模 (EM) 用于時間建模。單獨的全連接層 (SFC) 用于編碼和融合階段的特征映射。
為了有效地獲取、處理和融合兩種模態(tài)的步態(tài)表示,我們提出了一個有效且新穎的框架,稱為 MMGaitFormer,它有效地融合了兩種模態(tài)的互補時空信息,同時保留了每種模態(tài)的獨特辨別特征。所提出的多模態(tài)步態(tài)識別框架的流程如圖 2 所示。
在預處理階段,將從原始步態(tài)視頻中離線獲得兩種類型的步態(tài)表示。一種是通過分割方法提取的剪影序列 S ∈ R C 1 s × T 1 s × H 1 × W 1 S \in \mathbb{R}^{C_1^s \times T_1^s \times H_1 \times W_1} S∈RC1s?×T1s?×H1?×W1?,其中 C 1 C_1 C1?為通道數(shù), T 1 s T_1^s T1s?為剪影序列的長度, ( H 1 , W 1 ) \left(H_1, W_1\right) (H1?,W1?)為圖像每個幀的大小。另一個輸入是由姿勢估計模型 [10, 22] 提取的骨架序列。骨架序列在結(jié)構(gòu)上可以用 A ∈ R N 1 × N 1 A \in \mathbb{R}^{N_1 \times N_1} A∈RN1?×N1?描述,在特征上可以用 K ∈ R C 1 k × T 1 k × N 1 K \in \mathbb{R}^{C_1^k \times T_1^k \times N_1} K∈RC1k?×T1k?×N1?描述,其中 C 1 k C_1^k C1k?是通道數(shù), T 1 k T_1^k T1k?是序列的長度 N 1 N_1 N1?為關(guān)節(jié)數(shù)。
在編碼階段,給定輪廓 S S S和骨架 K K K的序列,然后從輪廓編碼模塊(SiEM)中提取特征映射 F s ∈ R C 2 s × T 2 s × H 2 F_s \in \mathbb{R}^{C_2^s \times T_2^s \times H_2} Fs?∈RC2s?×T2s?×H2?和 F k ∈ R C 2 k × T 2 k × N 2 F_k \in \mathbb{R}^{C_2^k \times T_2^k \times N_2} Fk?∈RC2k?×T2k?×N2?和骨架編碼模塊(SkEM),分別為了學習每個步態(tài)表示的獨特時空信息.
在融合階段,這些特征圖被送入兩個分支:(1)空間融合模塊使用共同注意結(jié)構(gòu)以細粒度融合每個輪廓部分和每個骨架節(jié)點,并獲得空間特征表示 Y s Y_s Ys?。 (2) Temporal Fusion Module通過Embedding Modeling對時態(tài)關(guān)系進行建模,融合每個模態(tài)的長時特征信息用于時態(tài)特征表示 Y t Y_t Yt?。我們連接 Y s Y_s Ys?和 Y t Y_t Yt?作為步態(tài)序列的最終特征表示 Y Y Y。
最后,我們選擇一個組合損失來訓練所提出的網(wǎng)絡(luò),包括融合損失 L fuse? L_{\text {fuse }} Lfuse??、輪廓損失 L sil? L_{\text {sil }} Lsil??和骨架損失 L ske? L_{\text {ske }} Lske????倱p失定義為 L = L fuse? + L sil? + L ske? L=L_{\text {fuse }}+L_{\text {sil }}+L_{\text {ske }} L=Lfuse??+Lsil??+Lske??。我們使用單獨的 Batch All 三元組損失 [12] 作為損失函數(shù)。
3.2. Silhouette and Skeleton Encoding Module
動機。兩種模態(tài)表示的數(shù)據(jù)結(jié)構(gòu)差異太大,很難在數(shù)據(jù)層面直接融合。因此,我們設(shè)計了獨立的編碼模塊來捕獲每個模態(tài)的獨特判別信息,并增強后續(xù)融合的時空特征表示。為了加快模型收斂速度,我們專門進行了剪影損失 L s i l L_{s i l} Lsil?和骨架損失 L s k e L_{s k e} Lske?來分別監(jiān)督每個模態(tài)特征的學習。
操作。受 GaitGL [19] 和 GaitGraph [23] 的啟發(fā),我們設(shè)計了 SiEM 網(wǎng)絡(luò)和 SkEM 網(wǎng)絡(luò)。 SiEM 網(wǎng)絡(luò)由 3D CNN 塊 [20]、最大池化層和微動捕捉模塊 (MCM) [9] 組成。對于 SkEM,我們引入了圖卷積網(wǎng)絡(luò) (GCN) 以從骨架圖序列中提取時空步態(tài)特征。最后一個block的輸出通道設(shè)置為128,與SiEM的輸出相同,方便后續(xù)的融合處理。我們框架中的 SiEM 和 SkEM 也可以替換為任何步態(tài)識別網(wǎng)絡(luò)。 SiEM 和 SkEM 的更復雜架構(gòu)可能會帶來更可觀的性能提升,但這不是所提出方法的優(yōu)先考慮。因此,SiEM 和 SkEM 可以被視為我們方法的基線。
3.3. Spatial Fusion Module
動機。在這項工作的同時,個別方法 [21、25] 也開始通過融合多種步態(tài)模式來探索更強大的特征。然而,如圖3(a)所示,這些方法具有相對簡單的融合方式,并通過級聯(lián)操作專注于全局特征級別的融合[25]。這種融合操作缺乏可解釋性和靈活性,也缺乏對人體先驗空間信息的利用。此外,這些方法通常依賴于每個模態(tài)的預訓練模型,這使得它們更像是集成模型而不是多模態(tài)模型。為了解決這些問題,我們提出了一種基于共同注意的融合模塊,如圖 5(a)所示,它采用注意機制(即 Fine-grained Body Parts Fusion),如圖3(b)所示。基于注意力的學習結(jié)構(gòu)也使該方法更加靈活,允許端到端訓練而不依賴于每個模態(tài)的預訓練模型。
精細的身體部位融合。如圖4(a)所示,人體區(qū)域可分為頭部、軀干和腿部三部分,人體步態(tài)的不同身體部位在行走過程中具有不同的形狀和運動模式。受上述觀察的啟發(fā),我們認為空間特征融合應(yīng)該是細粒度的,并提出了一種簡單但有效的策略,以利用人類先驗知識實現(xiàn)更全面的細粒度空間特征融合。我們通過構(gòu)造注意力掩碼 m s S m_s^S msS?和 m k S m_k^S mkS?來限制輪廓和骨架特征以僅計算與相應(yīng)身體部位的交叉注意力,如圖 4(b)所示。一方面,各個身體部位之間的融合有效地利用了人體的先驗知識,因此更具可解釋性。另一方面,受限注意力計算可以將計算復雜度降低一半,有效降低過擬合的風險。
在這項工作中,我們在輪廓和骨架之間建立了一個簡單的映射關(guān)系,以構(gòu)建如圖 4 (b) 所示的預定義注意掩碼。特征嵌入 f s S f_s^S fsS?的上四分之一 (0-1/4)、中半部分 (1/4-3/4) 和下四分之一 (3/41) 代表頭部、軀干和腿部的輪廓特征分別。同理,骨骼節(jié)點向量也同樣分為頭部( f k S f_k^S fkS?中鼻子、眼睛、耳朵的節(jié)點特征)、軀干(肩、肘、腕、臀)、腿(膝、踝)三個區(qū)域). m s S m_s^S msS?和 m k S m_k^S mkS?互為轉(zhuǎn)置。
空間共同注意聚合。 co-attention fusion 模塊使輪廓和骨骼之間的交互成為可能,它在輪廓部分和骨骼關(guān)節(jié)之間建立各種空間關(guān)系,以利用兩種數(shù)據(jù)模式的互補優(yōu)勢,為識別提供更穩(wěn)健和全面的步態(tài)特征表示。相較于單獨的crossattention modules,co-attention structure可以更好的整合skeleton和silhouette的互補優(yōu)勢。并且通過為受限的注意力計算構(gòu)造注意力掩碼,在提高可解釋性的同時,降低了基于 Transforbased 方法的過度擬合風險。
操作。如圖 5 (a) 所示,共同注意模塊包括交錯的多頭交叉注意塊。在這項工作中,我們的交叉注意塊遵循 ViT 的 [8] 多頭注意結(jié)構(gòu)。對于特征映射 F s ∈ R C 2 s × T 2 s × H 2 F_s \in \mathbb{R}^{C_2^s \times T_2^s \times H_2} Fs?∈RC2s?×T2s?×H2?和 F k ∈ R C 2 k × T 2 k × N 2 F_k \in \mathbb{R}^{C_2^k \times T_2^k \times N_2} Fk?∈RC2k?×T2k?×N2?,在時間軸上使用最大池化得到空間特征嵌入 f s S ∈ R C 3 × H 2 f_s^S \in \mathbb{R}^{C_3 \times H_2} fsS?∈RC3?×H2?和 f k S ∈ R C 3 × N 2 f_k^S \in \mathbb{R}^{C_3 \times N_2} fkS?∈RC3?×N2?。然后將這些特征嵌入輸入到注意結(jié)構(gòu)中以進行互補信息融合,隨后是前饋網(wǎng)絡(luò) (FFN) 層以生成空間特征表示 Y s Y_s Ys?。
3.4. Temporal Fusion Module
動機。作為基于視頻的識別任務(wù),步態(tài)幀之間的時間關(guān)系包含對識別至關(guān)重要的獨特生物信息。為了更好地利用兩種模態(tài)的步態(tài)序列的時間信息,我們提出了一種基于注意力的時間融合模塊 (TFM) 來聚合兩種模態(tài)的時間特征。此外,如圖 4(a) 所示,步態(tài)是一個周期性的對稱過程。因此,我們提出了循環(huán)位置嵌入來更好地建模和對齊兩個模態(tài)序列的時間信息。
循環(huán)位置嵌入。注意機制無法區(qū)分輸入特征序列的位置信息。如圖6所示,對于現(xiàn)有的視覺轉(zhuǎn)換器方法[8],使用與輸入序列相同長度的位置嵌入來指示輸入標記的順序。然而,這種方法限制了 transformer 只能從固定長度的步態(tài)序列中提取時空信息。針對這個缺點,我們提出了Cycle Position Embedding (CPE),表示為 P s = { p i ∣ i = 1 , … , s } P_s=\left\{p_i \mid i=1, \ldots, s\right\} Ps?={pi?∣i=1,…,s}, s s s是位置嵌入的循環(huán)大小。我們重復位置嵌入,直到它與特征嵌入的長度相同,以處理任何大小的序列。一方面,位置嵌入的重復過程模擬了步態(tài)周期過程,這是一種更有效的順序建模步態(tài)周期的方法。并且可以根據(jù)步態(tài)周期中的幀數(shù)可解釋地設(shè)置周期 s s s的大小。另一方面,通過限制可學習參數(shù)的數(shù)量進一步降低了過度擬合的風險,有助于所提出的基于 Transformer 的模型更好地收斂。
此外,兩個序列中的相同幀都使用相同的位置嵌入來執(zhí)行,以進行精細對齊的時間建模。我們?yōu)槊總€模態(tài)添加了一系列特征嵌入,其中包含可學習的類嵌入(表示為 C L S s T C L S_s^T CLSsT?和 C L S k T C L S_k^T CLSkT?),其在注意塊輸出處的狀態(tài)用作相應(yīng)模態(tài)的時間特征表示。
時間共同注意聚合。 TFM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖 5(b)所示。與 SFM 類似,我們還設(shè)計了一個共同注意模塊來融合和聚合兩個模態(tài)的時間信息。具體來說,兩種模態(tài)的時間特征差異很大,因此我們使用兩個獨立的 FFN 層來分別映射兩種模態(tài)的獨特時間特征。文章來源:http://www.zghlxwxcb.cn/news/detail-472505.html
操作 對于特征映射 F s ∈ R C 2 s × T 2 s × H 2 F_s \in \mathbb{R}^{C_2^s \times T_2^s \times H_2} Fs?∈RC2s?×T2s?×H2?和 F k ∈ R C 2 k × T 2 k × N 2 F_k \in \mathbb{R}^{C_2^k \times T_2^k \times N_2} Fk?∈RC2k?×T2k?×N2?,在空間軸上使用均值池化得到時間特征嵌入 f s T ∈ R C 3 × T 2 s f_s^T \in \mathbb{R}^{C_3 \times T_2^s} fsT?∈RC3?×T2s?和 f k T ∈ R C 3 × T 2 k f_k^T \in \mathbb{R}^{C_3 \times T_2^k} fkT?∈RC3?×T2k?。嵌入建模操作應(yīng)用于這些特征嵌入以進行時間建模。然后將這些特征嵌入輸入到共同注意結(jié)構(gòu)中進行特征融合和增強,并獲得時間融合特征表示 Y t Y_t Yt?。文章來源地址http://www.zghlxwxcb.cn/news/detail-472505.html
到了這里,關(guān)于(CVPR-2023)通過有效的時空特征融合進行多模態(tài)步態(tài)識別的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!