??????本文摘要:介紹了學(xué)生課堂行為檢測,并使用YOLOv8進(jìn)行訓(xùn)練模型,以及引入BRA注意力和最新的Shape IoU提升檢測能力
1.SCB介紹
摘要:利用深度學(xué)習(xí)方法自動檢測學(xué)生的課堂行為是分析學(xué)生課堂表現(xiàn)和提高教學(xué)效果的一種很有前途的方法。然而,缺乏關(guān)于學(xué)生行為的公開數(shù)據(jù)集給這一領(lǐng)域的研究人員帶來了挑戰(zhàn)。為了解決這個(gè)問題,我們提出了學(xué)生課堂行為數(shù)據(jù)集(SCB-dataset3),它代表了現(xiàn)實(shí)生活中的場景。我們的數(shù)據(jù)集包括5686張圖像,45578個(gè)標(biāo)簽,重點(diǎn)關(guān)注六種行為:舉手、閱讀、寫作、使用電話、低頭和俯身在桌子上。我們使用YOLOv5、YOLOv7和YOLOv8算法對數(shù)據(jù)集進(jìn)行評估,平均精度(map)高達(dá)80.3%。我們相信我們的數(shù)據(jù)集可以作為未來學(xué)生行為檢測研究的堅(jiān)實(shí)基礎(chǔ),并有助于該領(lǐng)域的進(jìn)步。
在本研究中,我們對之前的工作進(jìn)行了迭代優(yōu)化,以進(jìn)一步擴(kuò)展scb數(shù)據(jù)集。最初,我們只關(guān)注學(xué)生舉手的行為,但現(xiàn)在我們已經(jīng)擴(kuò)展到六種行為:舉手,閱讀,寫作,使用電話,低頭,靠在桌子上。通過這項(xiàng)工作,我們進(jìn)一步解決了課堂教學(xué)場景中學(xué)生行為檢測的研究空白。我們進(jìn)行了廣泛的數(shù)據(jù)統(tǒng)計(jì)和基準(zhǔn)測試,以確保數(shù)據(jù)集的質(zhì)量,提供可靠的訓(xùn)練數(shù)據(jù)。
我們的主要貢獻(xiàn)如下:
1. ? ?我們已經(jīng)將scb數(shù)據(jù)集更新到第三個(gè)版本(SCB-Dataset3),增加了6個(gè)行為類別。該數(shù)據(jù)集共包含5686張圖像和45578個(gè)注釋。它涵蓋了從幼兒園到大學(xué)的不同場景。
2. ? ?我們對SCBDataset3進(jìn)行了廣泛的基準(zhǔn)測試,為今后的研究提供了堅(jiān)實(shí)的基礎(chǔ)。
3. ? ?對于SCB-Dataset3中的大學(xué)場景數(shù)據(jù),我們采用了“幀插值”方法并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,該方法顯著提高了行為檢測的準(zhǔn)確率。
4. ? ?我們提出了一種新的度量標(biāo)準(zhǔn)——行為相似指數(shù)(BSI),用來衡量網(wǎng)絡(luò)模型下不同行為之間在形式上的相似性。
學(xué)生課堂行為不同數(shù)據(jù)集如下:
?不同YOLO模型性能如下:
2.如何提高YOLOv8課堂行為檢測能力
通過加入Biformer中的注意力機(jī)制和多種IoU優(yōu)化方法
?2.1??Biformer介紹
Yolov8 引入CVPR 2023 BiFormer: 基于動態(tài)稀疏注意力構(gòu)建高效金字塔網(wǎng)絡(luò)架構(gòu),對小目標(biāo)漲點(diǎn)明顯_biformer復(fù)現(xiàn)-CSDN博客
?
論文:https://arxiv.org/pdf/2303.08810.pdf
背景:注意力機(jī)制是Vision Transformer的核心構(gòu)建模塊之一,可以捕捉長程依賴關(guān)系。然而,由于需要計(jì)算所有空間位置之間的成對令牌交互,這種強(qiáng)大的功能會帶來巨大的計(jì)算負(fù)擔(dān)和內(nèi)存開銷。為了減輕這個(gè)問題,一系列工作嘗試通過引入手工制作和內(nèi)容無關(guān)的稀疏性到關(guān)注力中來解決這個(gè)問題,如限制關(guān)注操作在局部窗口、軸向條紋或擴(kuò)張窗口內(nèi)。
本文方法:本文提出一種動態(tài)稀疏注意力的雙層路由方法。對于一個(gè)查詢,首先在粗略的區(qū)域級別上過濾掉不相關(guān)的鍵值對,然后在剩余候選區(qū)域(即路由區(qū)域)的并集中應(yīng)用細(xì)粒度的令牌對令牌關(guān)注力。所提出的雙層路由注意力具有簡單而有效的實(shí)現(xiàn)方式,利用稀疏性來節(jié)省計(jì)算和內(nèi)存,只涉及GPU友好的密集矩陣乘法。在此基礎(chǔ)上構(gòu)建了一種新的通用Vision Transformer,稱為BiFormer。
?其中圖(a)是原始的注意力實(shí)現(xiàn),其直接在全局范圍內(nèi)操作,導(dǎo)致高計(jì)算復(fù)雜性和大量內(nèi)存占用;而對于圖(b)-(d),這些方法通過引入具有不同手工模式的稀疏注意力來減輕復(fù)雜性,例如局部窗口、軸向條紋和擴(kuò)張窗口等;而圖(e)則是基于可變形注意力通過不規(guī)則網(wǎng)格來實(shí)現(xiàn)圖像自適應(yīng)稀疏性;作者認(rèn)為以上這些方法大都是通過將 手工制作 和 與內(nèi)容無關(guān) 的稀疏性引入到注意力機(jī)制來試圖緩解這個(gè)問題。因此,本文通過雙層路由(bi-level routing
)提出了一種新穎的動態(tài)稀疏注意力(dynamic sparse attention?
),以實(shí)現(xiàn)更靈活的計(jì)算分配和內(nèi)容感知,使其具備動態(tài)的查詢感知稀疏性,如圖(f)所示。
YOLOv8-BRA結(jié)構(gòu)圖
yolov8-bra.yaml
# Ultralytics YOLO ??, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect
# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
# [depth, width, max_channels]
n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers, 3157200 parameters, 3157184 gradients, 8.9 GFLOPs
s: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients, 28.8 GFLOPs
m: [0.67, 0.75, 768] # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients, 79.3 GFLOPs
l: [1.00, 1.00, 512] # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
x: [1.00, 1.25, 512] # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs
# YOLOv8.0n backbone
backbone:
# [from, repeats, module, args]
- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2
- [-1, 1, Conv, [128, 3, 2]] # 1-P2/4
- [-1, 3, C2f, [128, True]]
- [-1, 1, Conv, [256, 3, 2]] # 3-P3/8
- [-1, 6, C2f, [256, True]]
- [-1, 1, Conv, [512, 3, 2]] # 5-P4/16
- [-1, 6, C2f, [512, True]]
- [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32
- [-1, 3, C2f, [1024, True]]
- [-1, 1, SPPF, [1024, 5]] # 9
- [-1, 1, BiLevelRoutingAttention, [1024]] # 10
# YOLOv8.0n head
head:
- [-1, 1, nn.Upsample, [None, 2, 'nearest']]
- [[-1, 6], 1, Concat, [1]] # cat backbone P4
- [-1, 3, C2f, [512]] # 13
- [-1, 1, nn.Upsample, [None, 2, 'nearest']]
- [[-1, 4], 1, Concat, [1]] # cat backbone P3
- [-1, 3, C2f, [256]] # 16 (P3/8-small)
- [-1, 1, Conv, [256, 3, 2]]
- [[-1, 13], 1, Concat, [1]] # cat head P4
- [-1, 3, C2f, [512]] # 19 (P4/16-medium)
- [-1, 1, Conv, [512, 3, 2]]
- [[-1, 10], 1, Concat, [1]] # cat head P5
- [-1, 3, C2f, [1024]] # 22 (P5/32-large)
- [[16, 19, 22], 1, Detect, [nc]] # Detect(P3, P4, P5)
2.2 Shape-IoU介紹
論文:https://arxiv.org/pdf/2312.17663.pdf?
源碼博客:YOLOv8獨(dú)家原創(chuàng)改進(jìn):提出一種新的Shape IoU,更加關(guān)注邊界框本身的形狀和尺度,對小目標(biāo)檢測也很友好 | 2023.12.29收錄_shape_iou yolov8-CSDN博客?
?摘要:邊界盒回歸損失作為檢測器定位分支的重要組成部分,在目標(biāo)檢測任務(wù)中起著重要的作用。現(xiàn)有的邊界盒回歸方法通??紤]GT盒與預(yù)測盒之間的幾何關(guān)系,利用邊界盒的相對位置和形狀來計(jì)算損失,而忽略了邊界盒的形狀和規(guī)模等固有屬性對邊界盒回歸的影響。為了彌補(bǔ)已有研究的不足,本文提出了一種關(guān)注邊界盒本身形狀和尺度的邊界盒回歸方法。首先,我們分析了邊界框的回歸特征,發(fā)現(xiàn)邊界框本身的形狀和尺度因素都會對回歸結(jié)果產(chǎn)生影響。基于以上結(jié)論,我們提出了Shape IoU方法,該方法可以通過關(guān)注邊界框本身的形狀和尺度來計(jì)算損失,從而使邊界框回歸更加準(zhǔn)確。最后,我們通過大量的對比實(shí)驗(yàn)驗(yàn)證了我們的方法,結(jié)果表明,我們的方法可以有效地提高檢測性能,并且優(yōu)于現(xiàn)有的方法,在不同的檢測任務(wù)中達(dá)到了最先進(jìn)的性能。
本文貢獻(xiàn):
1.我們分析了邊界盒回歸的特點(diǎn),得出邊界盒回歸過程中,邊界盒回歸樣本本身的形狀和尺度因素都會對回歸結(jié)果產(chǎn)生影響。
2.在已有的邊界盒回歸損失函數(shù)的基礎(chǔ)上,考慮到邊界盒回歸樣本本身的形狀和尺度對邊界盒回歸的影響,提出了shape- iou損失函數(shù),針對微小目標(biāo)檢測任務(wù)提出了 the shape-dotdistance and shape-nwd loss
3.我們使用最先進(jìn)的單級探測器對不同的檢測任務(wù)進(jìn)行了一系列的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明本文方法的檢測效果優(yōu)于現(xiàn)有的方法來實(shí)現(xiàn)sota。
文章來源:http://www.zghlxwxcb.cn/news/detail-810759.html
3.源碼獲取方式
私信獲取源碼文章來源地址http://www.zghlxwxcb.cn/news/detail-810759.html
到了這里,關(guān)于基于YOLOv8的學(xué)生課堂行為檢測,引入BRA注意力和Shape IoU改進(jìn)提升檢測能力的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!