因為文件太大需要分多個包下載,下載后放一個文件夾內(nèi)解壓。壓縮包內(nèi)有訓(xùn)練數(shù)據(jù)集,訓(xùn)練代碼,訓(xùn)練后模型,項目源碼。
下載鏈接:
https://download.csdn.net/download/babyai996/88741189
https://download.csdn.net/download/babyai996/88741257?
https://download.csdn.net/download/babyai996/88741262?
https://download.csdn.net/download/babyai996/88741266?
https://download.csdn.net/download/babyai996/88741272?
https://download.csdn.net/download/babyai996/88741274?
效果演示:
視頻演示:
python行為識別行為骨骼框架檢測動作識別動作檢測行為動作分類
0環(huán)境項目配置教程:https://download.csdn.net/download/babyai996/87552768
一、背景技術(shù)
由于在人機交互、智能交通系統(tǒng)、視頻監(jiān)控等多個領(lǐng)域的巨大需求,人體的動作識別越來越受到計算機視覺領(lǐng)域的重視。為了能使計算機識別來自不同場景的動作,其核心是利用判別特征來表征動作,然后對其進行分類。與靜態(tài)圖像識別不同,除了空間運動特征外,還有更為重要的時間運動特征,那么,如何有效提取動作的空間運動特征和時間運動特征是人體動作識別要解決的兩個主要問題。
傳統(tǒng)的動作識別方法側(cè)重于手工提取有效的時空特征,然后使用不同的分類器對特征進行分類?;谑止ぬ卣鞯膭幼髯R別方法的第一步是提取局部特征,在各種外觀特征中,方向梯度直方圖(HOG)因其對人體空間運動特征的高魯棒性和高效性而被廣泛研究。受HOG的啟發(fā),Laptev等人將HOG與光流相結(jié)合,設(shè)計了光流直方圖(HOF)。此外,HOG還被擴展為HOG-3D來提取時空特征。Wang和Schmid提出融合了HOG、HOF和運動邊界直方圖(MotionBoundary Histograms,MBH)的密集軌跡算法(Dense Trajectories,DT)。在此基礎(chǔ)上,又提出了改進的密集軌跡算法(ImprovedDense Trajectories,iDT),主要引進了對背景光流的消除方法,使得所提取的運動特征更集中于對人體動作的描述。同時,Harris-3D、Hessian-3D和3D-SIFT等都是常用的局部描述子。
隨著CNNs在圖像分類領(lǐng)域取得的巨大成功,人們嘗試從原始圖像通過多層的卷積層和池化層自動學習動作特征。與圖像分類相比動作具有時間運動特征,用于動作識別的CNNs通常會比較復(fù)雜,大多數(shù)基于CNNs的動作識別方法按照兩個步驟來實現(xiàn):首先利用靜態(tài)圖像建立空間CNNs,然后在時間上將它們?nèi)诤?,這就導(dǎo)致動作之間的時間關(guān)系丟失,因此Ji等人設(shè)計了3D-CNNs架構(gòu),提出通過3D卷積核去提取視頻數(shù)據(jù)的時間和空間特征,這些3D特征提取器在空間和時間維度上操作,因此可以捕捉視頻流的運動信息,但是動作識別的準確率較低。
二、內(nèi)容
本發(fā)明的目的是為解決傳統(tǒng)動作識別方法存在的動作識別的準確率低的問題。
本發(fā)明為解決上述技術(shù)問題采取的技術(shù)方案是:
步驟一、選用InceptionV3為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),建立空間通道卷積神經(jīng)網(wǎng)絡(luò);
步驟二、遷移在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的InceptionV3基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)模型的前10層參數(shù)至步驟一建立的空間通道卷積神經(jīng)網(wǎng)絡(luò);將UCF101視頻數(shù)據(jù)集切割為單幀靜態(tài)圖像,將切割好的單幀靜態(tài)圖像隨機分成訓(xùn)練集和測試集數(shù)據(jù),對空間通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試;
步驟三、采集待識別視頻序列,將待識別視頻序列切割為每幀靜態(tài)圖像來作為訓(xùn)練集和測試集數(shù)據(jù),對步驟二訓(xùn)練好的空間通道卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào)后,利用訓(xùn)練集和測試集的每幀靜態(tài)圖像對空間通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試,輸出待識別視頻序列的每幀靜態(tài)圖像對應(yīng)的各個類別的概率值P1,P2,…,PN;
步驟四、建立全局時域通道卷積神經(jīng)網(wǎng)絡(luò),所述全局時域通道卷積神經(jīng)網(wǎng)絡(luò)僅在空間通道卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后增加一層卷積核尺寸為3×3的卷積層,其余的網(wǎng)絡(luò)結(jié)構(gòu)與空間通道卷積神經(jīng)網(wǎng)絡(luò)相同;
步驟五、利用步驟二訓(xùn)練集中每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖來訓(xùn)練步驟四建立的全局時域通道卷積神經(jīng)網(wǎng)絡(luò);利用步驟二測試集中每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖來測試全局時域通道卷積神經(jīng)網(wǎng)絡(luò);
步驟六、對步驟五訓(xùn)練好的全局時域通道卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào)后,利用步驟三訓(xùn)練集和測試集的每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖對全局時域通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試,輸出待識別視頻序列每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖的各個類別的概率值P1′,P2′,…,PN′;
步驟七、在待識別視頻序列中,分別將每幀靜態(tài)圖像對應(yīng)的空間通道卷積神經(jīng)網(wǎng)絡(luò)輸出與全局時域通道卷積神經(jīng)網(wǎng)絡(luò)輸出融合,即計算出每幀靜態(tài)圖像的每個類別的概率平均值將概率平均值最大的類別作為每幀靜態(tài)圖像的動作識別結(jié)果。
本發(fā)明的有益效果是:本發(fā)明提供了一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法,本發(fā)明建立空間通道卷積神經(jīng)網(wǎng)絡(luò)和全局時域通道卷積神經(jīng)網(wǎng)絡(luò),利用UCF101視頻數(shù)據(jù)集對建立的空間通道卷積神經(jīng)網(wǎng)絡(luò)和全局時域通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試;將待識別視頻序列的每幀靜態(tài)圖像輸入訓(xùn)練好的空間通道卷積神經(jīng)網(wǎng)絡(luò),對網(wǎng)絡(luò)參數(shù)進行微調(diào)后,進行訓(xùn)練和測試,并輸出待識別視頻序列的每幀靜態(tài)圖像對應(yīng)的各個類別的概率值;將待識別視頻序列的每幀圖像對應(yīng)的能量運動歷史圖依次輸入訓(xùn)練好的全局時域通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試,并輸出待識別視頻序列每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖的各個類別的概率值;再將空間通道卷積神經(jīng)網(wǎng)絡(luò)和全局時域通道卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果融合,得到待識別視頻序列中每幀靜態(tài)圖像的動作識別結(jié)果;與傳統(tǒng)的動作識別方法相比,本發(fā)明的動作識別方法的識別準確率可以提高至87%以上。
本發(fā)明融合了人體動作的空間和時間特征,對人體動作的識別起到很好的作用。
附圖說明
圖1為本發(fā)明所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法的流程圖;
圖2為本發(fā)明所述的空間通道多幀融合示意圖;
圖中表示3幀靜態(tài)圖像的輸出融合;
圖3為本發(fā)明所述的全局時域通道輸入配置的示意圖;
其中:299×299×1為輸入層,299×299×3為經(jīng)過卷積層后的結(jié)果。
三、具體實施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案作進一步的說明,但并不局限于此,凡是對本發(fā)明技術(shù)方案進行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,均應(yīng)涵蓋在本發(fā)明的保護范圍中。
具體實施方式一:結(jié)合圖1說明本實施方式。本實施方式所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法,該方法的具體步驟為:
步驟一、選用InceptionV3為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),建立空間通道卷積神經(jīng)網(wǎng)絡(luò);
步驟二、遷移在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的InceptionV3基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)模型的前10層參數(shù)至步驟一建立的空間通道卷積神經(jīng)網(wǎng)絡(luò);將UCF101視頻數(shù)據(jù)集切割為單幀靜態(tài)圖像,將切割好的單幀靜態(tài)圖像隨機分成訓(xùn)練集和測試集數(shù)據(jù),對空間通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試;
步驟三、采集待識別視頻序列,將待識別視頻序列切割為每幀靜態(tài)圖像來作為訓(xùn)練集和測試集數(shù)據(jù),對步驟二訓(xùn)練好的空間通道卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào)后,利用訓(xùn)練集和測試集的每幀靜態(tài)圖像對空間通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試,輸出待識別視頻序列的每幀靜態(tài)圖像對應(yīng)的各個類別的概率值P1,P2,…,PN;
步驟四、建立全局時域通道卷積神經(jīng)網(wǎng)絡(luò),所述全局時域通道卷積神經(jīng)網(wǎng)絡(luò)僅在空間通道卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后增加一層卷積核尺寸為3×3的卷積層,其余的網(wǎng)絡(luò)結(jié)構(gòu)與空間通道卷積神經(jīng)網(wǎng)絡(luò)相同;
步驟五、利用步驟二訓(xùn)練集中每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖來訓(xùn)練步驟四建立的全局時域通道卷積神經(jīng)網(wǎng)絡(luò);利用步驟二測試集中每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖來測試全局時域通道卷積神經(jīng)網(wǎng)絡(luò);
步驟六、對步驟五訓(xùn)練好的全局時域通道卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào)后,利用步驟三訓(xùn)練集和測試集的每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖對全局時域通道卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和測試,輸出待識別視頻序列每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖的各個類別的概率值P1′,P2′,…,PN′;
步驟七、在待識別視頻序列中,分別將每幀靜態(tài)圖像對應(yīng)的空間通道卷積神經(jīng)網(wǎng)絡(luò)輸出與全局時域通道卷積神經(jīng)網(wǎng)絡(luò)輸出融合,即計算出每幀靜態(tài)圖像的每個類別的概率平均值將概率平均值最大的類別作為每幀靜態(tài)圖像的動作識別結(jié)果。
本實施方式提出的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò),可以更好的提取動作的時空信息。
具體實施方式二:本實施方式對實施方式一所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法進行進一步的限定,本實施方式中步驟一具體過程為:
選用InceptionV3為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),去掉基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)最后的全連接層后,從前往后依次增加神經(jīng)元個數(shù)為1024的全連接層、神經(jīng)元個數(shù)為256的全連接層和神經(jīng)元個數(shù)為N個動作類別的全連接層。
本實施方式中的神經(jīng)元個數(shù)為1024的全連接層和神經(jīng)元個數(shù)為256的全連接層的激活函數(shù)為relu,神經(jīng)元個數(shù)為10個動作類別的全連接層的激活函數(shù)為softmax。
具體實施方式三:本實施方式對實施方式二所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法進行進一步的限定,本實施方式中的步驟二的的具體過程為:
遷移在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的InceptionV3基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)模型的前10層的參數(shù),即將模型的第1個卷積層到第3個Inception模塊的參數(shù)遷移至步驟一建立的空間通道卷積神經(jīng)網(wǎng)絡(luò),將UCF101視頻數(shù)據(jù)集切割為尺寸299×299的標準輸入單幀靜態(tài)圖像,將切割好的單幀靜態(tài)圖像隨機分成訓(xùn)練集和測試集數(shù)據(jù),將訓(xùn)練集中的靜態(tài)圖像依次輸入空間通道卷積神經(jīng)網(wǎng)絡(luò),采用Adam梯度下降法進行訓(xùn)練,mini-batch大小設(shè)置為32,參數(shù)采用Keras默認參數(shù),若對測試集靜態(tài)圖像的識別準確率至少連續(xù)10次都未增加,則停止訓(xùn)練。
具體實施方式四:本實施方式對實施方式三所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法進行進一步的限定,本實施方式中的步驟三中采集摔倒動作數(shù)據(jù)集作為待識別視頻序列,待識別視頻序列包括摔倒、走路和坐下的動作,每個動作包含M個視頻序列,將M個視頻序列隨機分為訓(xùn)練集和測試集,且每個視頻序列切割為K幀靜態(tài)圖像;
對空間通道卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào),即修改空間通道卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出類別為3;
將訓(xùn)練集靜態(tài)圖像依次輸入?yún)?shù)微調(diào)后的空間通道卷積神經(jīng)網(wǎng)絡(luò),采用Adam梯度下降法訓(xùn)練最后一層全連接層,訓(xùn)練至少10次epoch后,采用隨機梯度下降法訓(xùn)練最后兩層全連接層,學習率設(shè)置為0.0001,Momentum設(shè)置為0.9,若對測試集靜態(tài)圖像的識別準確率至少連續(xù)10次都未增加,則停止訓(xùn)練;
在空間通道卷積神經(jīng)網(wǎng)絡(luò)中采用多幀融合的方式進行動作識別,將輸入的當前幀靜態(tài)圖像和之前幀靜態(tài)圖像的輸出取平均;輸出待識別視頻序列的每幀靜態(tài)圖像對應(yīng)的3個類別的概率值P1,P2和P3。
本實施方式中,多幀融合的方式是指:若輸入的當前幀靜態(tài)圖像為第n幀,輸出的結(jié)果三個類別的概率分別為Pn?1,Pn?2和Pn?3,那么,取平均是指:Pn?1,Pn?2和Pn?3是當前幀單獨的輸出結(jié)果與前面n-1幀的輸出結(jié)果取平均值。
因為動作是一個三維的時空信號,若空間通道只以當前幀的輸出作為判別依據(jù)可能會出現(xiàn)較大誤差,所以本實施方式在空間通道采用多幀融合的方式進行動作識別,對當前幀和之前固定幀數(shù)的識別結(jié)果加權(quán)平均。如圖2所示,將當前幀與前2幀的輸出融合,雖然當前幀的識別出現(xiàn)錯誤,但通過前2幀的矯正最終輸出了正確的結(jié)果,提高了識別的準確率。
具體實施方式五:本實施方式對實施方式四所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法進行進一步的限定,本實施方式中的步驟五的具體過程為:
將步驟二訓(xùn)練集的單幀靜態(tài)圖像的能量運動歷史圖依次輸入建立好的全局時域通道卷積神經(jīng)網(wǎng)絡(luò),采用Adam梯度下降法來訓(xùn)練全局時域通道卷積神經(jīng)網(wǎng)絡(luò),mini-batch大小設(shè)置為32,參數(shù)采用Keras默認參數(shù),若測試集的動作識別準確率至少連續(xù)10次都未增加,則停止訓(xùn)練;
第t幀靜態(tài)圖像對應(yīng)的能量運動歷史圖中的坐標為(x,y)的像素點的灰度值為Hτ(x,y,t),按照更新函數(shù)得到:
式中:(x,y)是第t幀靜態(tài)圖像對應(yīng)的能量運動歷史圖中的像素點的位置,max代表取0和Hτ(x,y,t-1)-δ中較大的值,Hτ(x,y,t-1)是第t-1幀靜態(tài)圖像對應(yīng)的能量運動歷史圖中的坐標為(x,y)的像素點的灰度值;τ為持續(xù)時間,δ為衰退參數(shù);
ψ(x,y,t)為更新函數(shù),判斷各個像素點在當前幀是否為前景,若為前景則ψ(x,y,t)等于1,否則ψ(x,y,t)等于0;
ψ(x,y,t)通過幀間差分法得到:
D(x,y,t)=|I(x,y,t)-I(x,y,te)|
式中:I(x,y,t)是第t幀靜態(tài)圖像中位于(x,y)坐標的像素點的灰度值;I(x,y,te)是前一有效幀靜態(tài)圖像中位于(x,y)坐標的像素點的灰度值;ξ是用來判別前景和背景的閾值;D(x,y,t)是I(x,y,t)與I(x,y,te)的差的絕對值;
計算能量運動歷史圖的過程為:
若當前幀靜態(tài)圖像為有效幀,則更新一次能量運動歷史圖,否則不更新;
有效幀的判斷原則是:設(shè)第一幀靜態(tài)圖像為有效幀,若當前幀靜態(tài)圖像相對于前一有效幀靜態(tài)圖像的運動能量大于閾值μ,則當前幀為有效幀;
定義Et為第t幀靜態(tài)圖像It相對于前一個有效幀靜態(tài)圖像Ite的運動能量:
其中:C為第t幀靜態(tài)圖像相對于前一有效幀靜態(tài)圖像的有位移的像素點的個數(shù);h和w分別是第t幀靜態(tài)圖像的寬度和高度;dt(x,y)是第t幀靜態(tài)圖像中像素點(x,y)相對于前一有效幀靜態(tài)圖像的位移;是第t幀靜態(tài)圖像與前一有效幀靜態(tài)圖像之間像素點(x,y)在水平方向的位移,是第t幀靜態(tài)圖像與前一有效幀靜態(tài)圖像之間像素點(x,y)在豎直方向的位移;
計算全局性的稠密光流:
式中:
是第t幀靜態(tài)圖像與前一有效幀靜態(tài)圖像之間水平方向和豎直方向的光流;CalcOpticalFlowFarneback是光流函數(shù)。
EMHI是一種基于視覺的模板,通過計算一段時間內(nèi)同一位置的像素變化,將人體動作用圖像灰度值的形式表現(xiàn)出來??紤]到很多動作是跨越很多幀的,若利用每一幀來更新EMHI,則較早期的動作會失去作用,所以提出一種基于有效幀的方法來更新。
實質(zhì)上是通過像素點的位移大小來判斷是否為有效幀,但如果只是通過求圖像內(nèi)所有像素點的位移之和是不可行的。由于視角不同,運動的人物在圖像中的比例是不同的,距離鏡頭近的人物做一個微小動作就可能得到很大的運動能量,所以通過除以有效像素的個數(shù)來消除視角的影響。
具體實施方式六:本實施方式對實施方式五所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法進行進一步的限定,本實施方式中的步驟六根據(jù)步驟三中采集的摔倒動作數(shù)據(jù)集,對全局時域通道卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進行微調(diào),即修改全局時域通道卷積神經(jīng)網(wǎng)絡(luò)最后一層的輸出類別為3;
將訓(xùn)練集中每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖依次輸入?yún)?shù)微調(diào)后的全局時域通道卷積神經(jīng)網(wǎng)絡(luò),采用Adam梯度下降法訓(xùn)練最后一層全連接層,至少訓(xùn)練10次epoch后,采用隨機梯度下降法訓(xùn)練最后兩層全連接層,學習率設(shè)置為0.0001,Momentum設(shè)置為0.9,若對測試集能量運動歷史圖的識別準確率至少連續(xù)10次都未增加,則停止訓(xùn)練;輸出待識別視頻序列每幀靜態(tài)圖像對應(yīng)的能量運動歷史圖的3個類別的概率值P1′,P2′和P3′。
具體實施方式七:本實施方式對實施方式六所述的一種融合全局時空特征的卷積神經(jīng)網(wǎng)絡(luò)人體動作識別方法進行進一步的限定,本實施方式計算出所述摔倒動作數(shù)據(jù)集的每幀靜態(tài)圖像的每個類別的概率平均值
和將概率平均值最大的類別作為每幀靜態(tài)圖像的動作識別結(jié)果。
四、實施
本文選用UCF101數(shù)據(jù)庫對識別效果進行判定,UCF101數(shù)據(jù)庫包含101種動作的13320段視頻,動作的場景復(fù)雜。隨后將訓(xùn)練好的網(wǎng)絡(luò)遷移至本文項目中的小樣本數(shù)據(jù)集。
本發(fā)明設(shè)計的是雙通道CNNs,空間通道卷積神經(jīng)網(wǎng)絡(luò)和全局時域通道卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)均采用Inception V3基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),空間通道卷積神經(jīng)網(wǎng)絡(luò)的輸入為單幀靜態(tài)圖像,全局時域通道卷積神經(jīng)網(wǎng)絡(luò)的輸入為單幀圖像的運動能量歷史圖(EMHI),采用兩個通道單獨訓(xùn)練的方法,最后將兩個通道輸出的結(jié)果進行融合,來識別人體動作。
在UCF101空間通道數(shù)據(jù)集上訓(xùn)練至較高的識別率后遷移至小樣本數(shù)據(jù)集進行微調(diào),測試集選用每個視頻序列中連續(xù)30幀進行評估.同時,為了對多幀融合算法的有效性進行探究,在空間卷積通道分別采用3幀融合、5幀融合和10幀融合的方式。
測試結(jié)果如表1所示,在UCF101數(shù)據(jù)集,空間通道識別準確率為70.2%,利用多幀融合的方式將準確率分別提升到70.9%、71.3%和71.5%。在本發(fā)明的小樣本數(shù)據(jù)集上表現(xiàn)更好,空間通道識別準確率為73.4%,利用多幀融合的方式將準確率分別提升到74.7%、74.9%和75.1%。小樣本數(shù)據(jù)集只有3類動作,動作類別遠少于UCF101數(shù)據(jù)集,所以誤差更小。而通過多幀融合的方式確實能提高識別準確率,減小誤差,證明了多幀融合方法的有效性。
表1空間通道平均識別率
利用視頻數(shù)據(jù)集分別計算MHI和EMHI作為全局時域通道訓(xùn)練數(shù)據(jù)集,在UCF101全局時域通道數(shù)據(jù)集上訓(xùn)練至較高的識別率后遷移至小樣本數(shù)據(jù)集進行微調(diào),測試方法與空間通道相同,分別比較MHI和EMHI的識別效果。由于我們的全局時域通道的輸入是單通道的灰度圖,而時域通道的輸入是RGB圖。如圖3所示,本發(fā)明在輸入層之后多加一層卷積層,卷積核的數(shù)量為3,邊界處采取補0的方法,這樣就滿足了時域通道的輸入層結(jié)構(gòu)。
測試結(jié)果如表2所示,在UCF101數(shù)據(jù)集,利用MHI的動作識別準確率為75.8%,EMHI的動作識別率為78.3%。在小樣本數(shù)據(jù)集上MHI的動作識別準確率為78.4%,EMHI的動作識別率為80.2%。總體來看,EMHI的動作識別準確率要高于MHI,驗證了本發(fā)明提出的EMHI在動作識別中的有效性。
表2全局時域通道平均識別率
將空間通道卷積網(wǎng)絡(luò)與全局時域通道卷積網(wǎng)絡(luò)的識別結(jié)果融合,測試方法相同。測試結(jié)果如表3所示,在UCF101數(shù)據(jù)集的平均識別率為85.2%,在小樣本數(shù)據(jù)集的平均識別率為87.2%。可知,空間通道和全局時域通道的深度特征學習能力彼此間互補。
表3雙通道平均識別率
本發(fā)明提出一種基于空間和全局時域特征的雙通道卷積神經(jīng)網(wǎng)絡(luò)人體動作識別框架,能夠?qū)θ梭w動作信息進行很好地深度特征提取。其中空間通道采用多幀融合的方式進行識別,實驗結(jié)果表明該方法能有效提高空間通道的識別準確率;全局時域通道采用本發(fā)明提出的基于運動能量的具有自適應(yīng)能力的EMHI,相比較于傳統(tǒng)的MHI能夠更加有效的提取全局動作時域特征。雙通道采取平均融合的方式對動作綜合識別,實驗結(jié)果表明兩個通道彼此互補,提高了動作識別的精度。此外本文提出的利用大型動作數(shù)據(jù)集進行預(yù)訓(xùn)練,遷移至小樣本數(shù)據(jù)集表現(xiàn)出更好的識別精度,驗證了該方法的有效性。
因為文件太大需要分多個包下載,下載后放一個文件夾內(nèi)解壓。壓縮包內(nèi)有訓(xùn)練數(shù)據(jù)集,訓(xùn)練代碼,訓(xùn)練后模型,項目源碼。
下載鏈接:
https://download.csdn.net/download/babyai996/88741189
https://download.csdn.net/download/babyai996/88741257
https://download.csdn.net/download/babyai996/88741262
https://download.csdn.net/download/babyai996/88741266
https://download.csdn.net/download/babyai996/88741272文章來源:http://www.zghlxwxcb.cn/news/detail-419169.html
https://download.csdn.net/download/babyai996/88741274文章來源地址http://www.zghlxwxcb.cn/news/detail-419169.html
0環(huán)境項目配置教程:https://download.csdn.net/download/babyai996/87552768
到了這里,關(guān)于python姿態(tài)檢測實現(xiàn)多人多姿態(tài)識別python行為識別openpose行為骨骼框架檢測動作識別動作檢測行為動作分類的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!