摘 要:
- 針對在人員密集區(qū)或相互擁擠場景下進(jìn)行的行人目標(biāo)檢測時(shí),因行人遮擋或人像交疊所導(dǎo)致的跟蹤目標(biāo)丟失、檢測識(shí)別率低的問題,提出了一種融合注意力機(jī)制的改進(jìn) YOLO V5 算法。 通過引入注意力機(jī)制來深入挖掘特征通道間關(guān)系和特征圖空間信息,進(jìn)一步增強(qiáng)了對行人目標(biāo)可視區(qū)域的特征提取。為提高模型的收斂能力,利用 CIoU、 DIoU_NMS代替YOLO V5 的原有損失函數(shù)優(yōu)化 anchor 的回歸預(yù)測,降低了網(wǎng)絡(luò)的訓(xùn)練難度,提升了遮擋情況下的 檢測率; 同時(shí), 結(jié)合數(shù)據(jù)增強(qiáng)及標(biāo)簽平滑算法進(jìn)一步提高了特征模型的泛化能力和分類器性能。 相比于一般的 YOLOV5算法,論文所提出的改進(jìn)算法在人員密集區(qū)或相互擁擠場景下進(jìn)行行人檢測時(shí),具有更高的準(zhǔn)確率和更低 的漏檢率,同時(shí)保持了原有算法的實(shí)時(shí)性。
- 關(guān)鍵詞: 行人檢測;擁擠場景;YOLO V5;注意力機(jī)制
- 行人檢測在輔助駕駛系統(tǒng)、車輛監(jiān)控系統(tǒng)和預(yù)警防護(hù)系統(tǒng)等多個(gè)領(lǐng)域扮演著重要角色,是目標(biāo)檢測領(lǐng)域中的一個(gè)重要的基礎(chǔ)研究課題[1],可以為商場和景區(qū)等人流密度較大的公共場所以及智能安防領(lǐng)域提供有效的信息支撐[2]。
- 隨著人工智能產(chǎn)業(yè)的高速發(fā)展與計(jì)算機(jī)硬件計(jì)算能力的提升,國內(nèi)外學(xué)者已經(jīng)開展了基于深度學(xué)習(xí)的研究行人檢測方案,并且取得了一些的效果[3]。
- 而目前的行人檢測算法在實(shí)際大規(guī)模擁擠場景應(yīng)用過程中,始終存在著由于行人交疊、遮擋而導(dǎo)致的漏檢率較高的問題,此類問題依然困擾著很多研究者,也是目前行人檢測面臨的巨大挑戰(zhàn)[4]。
- 許多學(xué)者基于深度學(xué)習(xí)理論提出了不同措施以提高算法的性能。 2019 年,Wojke 等人[5]提出了 Deep Sort算法,運(yùn)用一個(gè)殘差網(wǎng)絡(luò)結(jié)構(gòu)來提取目標(biāo)的外觀信息,用匈牙利算法將外觀特征向量的余弦距離與運(yùn)動(dòng)信息關(guān)聯(lián)起來,然而其跟蹤效果依賴目標(biāo)檢測器的精確度和特征區(qū)分程度,跟蹤速度與目標(biāo)檢測速度密切相關(guān)。
- 2019 年,徐誠極等人[6]使用注意力機(jī)制改進(jìn)了 YOLO V3,提出了Attention-YOLO 算法,有效提高了檢測準(zhǔn)確率,但是其短板在于對小范圍的不連續(xù)的信息上的表現(xiàn)并不準(zhǔn)確。 2021 年,周大可等人[7]以 RetinaNet 作為基礎(chǔ)框架,在回歸和分類支路分別添加空間注意力和通道注意力子網(wǎng)絡(luò),提出一種結(jié)合雙重注意力機(jī)制的遮擋感知行人檢測算法,有效提高了行人檢測算法在嚴(yán)重遮擋情況下的性能,降低遮擋對檢測造成的影響,但由于雙重注意力機(jī)制子網(wǎng)絡(luò)帶來了附加的計(jì)算量,因此檢測幀率只有 11.8 fps。 沈軍宇等人[8]基于 YOLO 算法進(jìn)行端到端訓(xùn)練,快速檢測實(shí)時(shí)視頻中目標(biāo)的數(shù)量,根據(jù)預(yù)先設(shè)置的閾值觸發(fā)截圖與保存視頻功能,實(shí)現(xiàn)魚群高效地檢測與跟蹤,系統(tǒng)魯棒性強(qiáng),對數(shù)據(jù)處理與存儲(chǔ)效率較高,但是并未針對視頻中的魚群由于數(shù)量較多,處于密集狀態(tài)的這一特殊情況進(jìn)行考慮,在進(jìn)行密集魚群的檢測計(jì)數(shù)時(shí)會(huì)有較高的漏檢率。
- SENet(通道注意力機(jī)制,Squeeze-and-Excitation Networks)是一種將各個(gè)通道之間的特征進(jìn)行通道卷積來改善模型的表達(dá)能力,注重各類通道特征關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)。 將 SENet 應(yīng)用在公共大規(guī)模場景擁擠情況下的行人檢測上,可以增強(qiáng)重要特征的通道權(quán)重,從而提高檢測的效果。
- 針對上述學(xué)者研究中的問題與不足,筆者在文獻(xiàn)[6-8]研究的基礎(chǔ)上提出一種融合注意力機(jī)制的改進(jìn)YOLO V5 的密集行人檢測算法。 該算法利用 SENet 融合網(wǎng)絡(luò)特征對融合的特征圖采用自適應(yīng)調(diào)整的方式更新不同特征通道的權(quán)重,提高網(wǎng)絡(luò)特征提取和特征融合的能力,并通過數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑的方式提高模型的泛化能力,豐富行人的樣本特征,以及利用 CIoU、DIoU_NMS 參數(shù)對 YOLO V5 原有的損失函數(shù)進(jìn)行改進(jìn),提升算法的檢測準(zhǔn)確率和降低漏檢率。
1 YOLO V5
- YOLO V5 由 Ultralytics LLC 公司于 2020 年 5 月提出,按照網(wǎng)絡(luò)深度和特征圖寬度大小分為 YOLOV5s、YOLO V5m、YOLO V5l、YOLO V5x。 文中采用了 YOLO V5s 作為使用模型,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖 1 所示。從網(wǎng)絡(luò)結(jié)構(gòu)圖中可看出,YOLO V5s 模型主要分為 4 個(gè)部分,分別為 Input、Backbone、Neck 和 Prediction。
2 SENet 通道注意力機(jī)制
- SENet(通道注意力機(jī)制)最早見于 2017 年,由國內(nèi)自動(dòng)駕駛公司 Momenta的胡杰團(tuán)隊(duì)[9]在《Squeezeand-Excitation Networks》一文中提出。通道注意力機(jī)制通過研究特征圖的各個(gè)通道之間的相關(guān)性,計(jì)算了各個(gè)通道的重要性得分,并且作為分配給各個(gè)通道的不同權(quán)重,以此凸顯出包含重要特征信息的相關(guān)通道 表達(dá)[10]。
- SENet主要由壓縮(Squeeze)和激勵(lì)(Excitation)兩部分組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖 2 所示[11]。
-
3 改進(jìn)的 YOLO V5 模型
3.1 訓(xùn)練數(shù)據(jù)處理改進(jìn)
- 在大多數(shù)應(yīng)用場景中,訓(xùn)練模型使用的原始數(shù)據(jù)集并不能滿足理想的訓(xùn)練需要,而獲取更多的數(shù)據(jù)集也會(huì)增加訓(xùn)練的成本和帶來更多的工作量,所以更好的處理方式是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)增強(qiáng)和標(biāo)簽平滑處理兩個(gè)部分。
- 應(yīng)用數(shù)據(jù)增強(qiáng)進(jìn)行數(shù)據(jù)預(yù)處理的主要目的是:通過數(shù)據(jù)增強(qiáng)的方式擴(kuò)充訓(xùn)練集圖片,可以讓用于訓(xùn)練的數(shù)據(jù)集樣本更加多樣,降低各方面的額外因素對識(shí)別的影響。而圖像中添加隨機(jī)噪聲,也可以有效提高模型的泛化能力和魯棒性[12]。 在實(shí)際應(yīng)用過程中使用次數(shù)較多的單樣本數(shù)據(jù)增強(qiáng)方法包括對圖像進(jìn)行縮放并進(jìn)行長和寬的扭曲、對圖像進(jìn)行翻轉(zhuǎn)的幾何變換類數(shù)據(jù)增強(qiáng),以及在圖像上添加噪聲和修改對比度、亮度等的顏色變換類數(shù)據(jù)增強(qiáng)。 文中實(shí)驗(yàn)過程中所采用的數(shù)據(jù)增強(qiáng)方法在原有的傳統(tǒng)增強(qiáng)方法基礎(chǔ)上增加了噪聲圖片隨機(jī)裁剪-拼接法,即將多個(gè)待檢測圖像添加噪聲后,再從每一張圖片中截取一部分,合成一張圖片進(jìn)行整體檢測。這種方式能夠同時(shí)有效提升微小擾動(dòng)和大量擾動(dòng)條件下模型的檢測準(zhǔn)確性。標(biāo)簽平滑處理(label smooth)其本質(zhì)是一種正則化處理,能夠減少過擬合訓(xùn)練的可能性,使得模型對測試集預(yù)測的概率分布更接近真實(shí)的分布情況,從而提升分類器性能[13]。 文中實(shí)驗(yàn)過程中采用的標(biāo)簽平滑方法為隨機(jī)增加訓(xùn)練集中的錯(cuò)誤標(biāo)注,并在訓(xùn)練過程中使其擁有負(fù)的學(xué)習(xí)率,由此促使模型的分類結(jié)果更快地向正確的分類結(jié)果靠近。
3.2 YOLO V5 網(wǎng)絡(luò)改進(jìn)
- 為了進(jìn)一步提升密集場景的行人檢測效果,文中提出了一種改進(jìn)的 YOLO V5 算法,引入通道注意力機(jī)制 SELayer 改進(jìn) YOLO V5 的骨干網(wǎng)絡(luò),提升特征圖不同通道間目標(biāo)信息的相關(guān)性表述。 將 SELayer 加入后的 YOLO V5 網(wǎng)絡(luò)結(jié)構(gòu)如圖 3所示(圖中黑色方框?yàn)榧尤氲?SENet 結(jié)構(gòu))。
- 從文中擴(kuò)充后的擁擠行人數(shù)據(jù)集中隨機(jī)抽取了如圖 4(a)、圖 4(d)2 張圖片。 利用原始 YOLO V5 算法與增加了 SENet 后的
YOLO V5 算法進(jìn)行檢測,檢測結(jié)果分別如圖 4(b)、圖 4(e)與圖 4(c)、圖 4(f)所示。 - 在圖 4(a)與背景差別不大的被遮擋目標(biāo)和中間部分的由于距離較遠(yuǎn)的小尺度目標(biāo)檢測中,僅增加了SENet 后的改進(jìn)算法對其進(jìn)行了正確標(biāo)注,如圖 4(c)的白色箭頭指向所示,而傳統(tǒng) YOLO V5 算法的檢測結(jié)果圖 4(b)中并未對其標(biāo)注,如圖 4(b)中白色箭頭指向所示;對于圖 4(d)存在相似物體的行人檢測,原始YOLO V5 算法的檢測結(jié)果圖 4(e)出現(xiàn)了錯(cuò)誤標(biāo)注的情況,而增加了 SENet 的 YOLO V5 算法并未受到相似物體的干擾,其檢測結(jié)果如圖 4(f)所示。 從圖 4 的實(shí)驗(yàn)結(jié)果可以看出,SENet 模塊的引入,有效地濾除了密集行人檢測中的背景干擾,降低了誤檢率,提高了檢測精度。
3.3 損失函數(shù)改進(jìn)
3.3.1 使用 CIoU
- 在對畫面中的目標(biāo)進(jìn)行檢測時(shí),因視場內(nèi)存在不止一個(gè)目標(biāo),算法將生成不止一個(gè)預(yù)測框,因此需要使用非極大值抑制方法刪除多余的預(yù)測框,選擇最接近真實(shí)框的預(yù)測框[14]。在 YOLO V5 中采用 GIoU_Loss 作為損失函數(shù),其原理見公式(1)[15]。 GIoU 加了相交尺度的衡量方式,有效解決了邊界框不重合時(shí)問題。 但當(dāng)預(yù)測框和目標(biāo)框出現(xiàn)互相包含關(guān)系,或者寬和高對齊的情況時(shí),GIoU 就會(huì)在回歸的過程中,逐漸退化為 IoU,從而無法評(píng)估相對位置,容易出現(xiàn)迭代次數(shù)增加和檢測速度減慢的情況,且存在發(fā)散的風(fēng)險(xiǎn)[16]。
- 針對上述問題,Zheng 等人[16]將不同目標(biāo)框中心點(diǎn)之間的中心距離一同考慮進(jìn)去,提出了回歸更加穩(wěn)定、 收斂更快更難發(fā)散的Distance-IoU(DIoU) Loss。 但是在進(jìn)行實(shí)際目標(biāo)檢測時(shí),還需要將邊框的高寬比的 一致性列入考慮范圍。為此,文中在文獻(xiàn)[16]的基礎(chǔ)上,將邊框的高寬比的一致性列入考慮范圍,引入 CIoU_Loss 作為損失函數(shù)對 YOLO V5算法進(jìn)行改進(jìn)。 相比于 DIoU,CIoU_Loss 的收斂速度更快,回歸的效果 也更好。
- CIoU_Loss 的懲罰項(xiàng)定義如下:
CIoU_Loss 的最終定義如下 - 在上述公式中,α 為一個(gè)正的權(quán)衡參數(shù),v 為衡量長寬比的一致性。 上述損失函數(shù)中,檢測框和目標(biāo)框的 中心點(diǎn)用 b,bgt表示,其歐式距離為 ρ。 c 為覆蓋檢測框和目標(biāo)框之間的最小矩形的斜距。
- 如圖 5 所示, 利用 Opencv+numpy繪制了不同尺寸和長寬比的兩個(gè)矩形框模擬算法的預(yù)測框和實(shí)際框 之間的交并情況,并利用公式(1)得到 GIoU,利用公式(2)-(5)計(jì)算得到CIoU,計(jì)算結(jié)果如圖 5(b)、圖 5(a) 所示。從圖 5 中 CIoU 與 GIoU 的計(jì)算結(jié)果可以看出,由于此時(shí) GIoU損失退化,導(dǎo)致在預(yù)測框 bbox 和 ground truth bbox 包含的時(shí)候優(yōu)化變得非常困難,特別是在水平和垂直方向收斂難,而 CIoU 仍可以使回歸更快。
- 因此,文中利用 CIoU 來代替原始 YOLO V5 算法中的 GIoU 進(jìn)行 anchor 的回歸,實(shí)現(xiàn)真實(shí)框和預(yù)測框無重合時(shí)的梯度回傳,提高模型收斂能力。 當(dāng)邊界框與真實(shí)框上下或左右相鄰時(shí),CIoU 能夠優(yōu)化不相交的邊界框,保留位置更準(zhǔn)確的邊界框,提高模型對目標(biāo)位置預(yù)測的精確度,使其通過非極大值抑制篩選得到的結(jié)果 更加合理。 同時(shí),使用 CIoU能夠降低模型的訓(xùn)練難度,提高檢測的準(zhǔn)確率。
3.3.2 非極大值抑制改進(jìn)
- 在原始 YOLO V5 算法目標(biāo)檢測預(yù)測結(jié)果處理階段,針對出現(xiàn)的眾多目標(biāo)框的篩選,采用加權(quán) NMS 操作,獲得最優(yōu)目標(biāo)框。 但是加權(quán) NMS 只考慮兩個(gè)目標(biāo)框的重疊區(qū)域面積,容易出現(xiàn)定位與得分不一致的 問題[16]。 在抑制準(zhǔn)則中,不僅應(yīng)考慮重疊區(qū)域,還應(yīng)該考慮兩個(gè) box 之間的中心點(diǎn)間距,DIoU_NMS 則同時(shí)考 慮了這兩點(diǎn)。因此,文中使用 DIoU_NMS 進(jìn)行評(píng)判,使得效果更符合實(shí)際。對于score 最高的預(yù)測 box M,可以 將 DIoU_NMS 的 si 更新公式正式定義為:
- 其中通過同時(shí)考慮 IoU 和兩個(gè) box 的中心點(diǎn)之間的距離來刪除 box Bi,M 為當(dāng)前得分最高預(yù)測框,Bi 表示與M 相交的第 i
個(gè)預(yù)測框,si 是分類得分,ε 是 NMS 閾值。 - 如圖 6 所示,分別利用 LCIoU+加權(quán) NMS 與 LCIoU+DIoU_NMS 同時(shí)對圖6(a)的行人進(jìn)行檢測,CIoU+加權(quán)NMS 的檢測結(jié)果如圖 6(b)所示,出現(xiàn)了由于目標(biāo)框重疊導(dǎo)致的漏檢率增大,而在 LCIoU+DIoU_NMS 的檢測結(jié)果圖 6(c)中,圖 6(b)中未能框選出的目標(biāo)得到了正確的標(biāo)注,檢測率高于圖 6(b),如圖 6(b)與圖 6(c)中的白色箭頭指向所示。 實(shí)驗(yàn)表明,利用 DIoU_NMS 來代替原始 YOLO V5 的加權(quán) NMS,有效提升了由于行人密 集導(dǎo)致的遮擋情況的檢測率。
注:圖中方框?yàn)轭A(yù)測框。 圖 6(a)為文中擴(kuò)充后的擁擠行人數(shù)據(jù)集(不在訓(xùn)練集)中隨機(jī)抽取出的圖片,畫面中存在多個(gè)行人目標(biāo)且不同行人目標(biāo)之間存在由于擁擠引起的遮擋、交疊情況;圖 6(b)為原始 YOLO V5 利用 CIoU+加權(quán) NMS 的檢測結(jié)果;圖 6(c)為在原始 YOLO V5 的基礎(chǔ)上利用 CIoU+DIoU_NMS 的檢測結(jié)果。 白色箭頭指向的部分為加權(quán) NMS 時(shí)漏檢的部分,以及修改為 DIoU_NMS 后能夠正確標(biāo)注出來的部分
4 研究方案與結(jié)果分析
4.1 實(shí)驗(yàn)平臺(tái)與數(shù)據(jù)集
- 文中進(jìn)行模型訓(xùn)練與驗(yàn)證測試的硬件平臺(tái) CPU 為 Core(TM) i5-10400F CPU @ 2.90 GHz,內(nèi)存 16 GB,選用的 GPU 是 RTX 2060S 8 GB,在 Windows 10 操作系統(tǒng)上運(yùn)行。 根據(jù) YOLO 系列算法訓(xùn)練集格式要求,筆者從野外密集行人檢測的 WiderPerson 數(shù)據(jù)集與曠世發(fā)布的 CrowdHuman 數(shù)據(jù)集中各隨機(jī)選擇了 8 000 張與 5000 張圖片,并將數(shù)據(jù)集標(biāo)注格式全部轉(zhuǎn)化為 VOC 格式, 同時(shí)使用上文中提到的數(shù)據(jù)增強(qiáng)的方法對數(shù)據(jù)集進(jìn)行擴(kuò)容,最終得到數(shù)據(jù)集共 20000 張,按照 8∶2 的比例 區(qū)分訓(xùn)練集、測試集。
4.2 網(wǎng)絡(luò)訓(xùn)練
- 文中利用 Python 語言應(yīng)用 Pytorch 深度學(xué)習(xí)框架對 YOLO V5 網(wǎng)絡(luò)模型進(jìn)行結(jié)構(gòu)搭建與編寫程序,并且在訓(xùn)練過程中應(yīng)用隨機(jī)梯度下降算法 ( stochastic gradient descent,SGD[17])作為優(yōu)化算法,對訓(xùn)練過程中的參數(shù)進(jìn)行優(yōu)化[18]。 訓(xùn)練過程中設(shè)置動(dòng)量為 0.7,權(quán)重衰減 0.000 2,初始學(xué)習(xí)率設(shè)定為 0.01,每訓(xùn)練 10 次后學(xué) 習(xí)率衰減0.01,總的訓(xùn)練次數(shù)為 300 次。
4.3 模型評(píng)價(jià)與對比
- 文中在進(jìn)行模型訓(xùn)練時(shí),將準(zhǔn)確率、召回率、平均精度均值以及調(diào)和均值作為評(píng)估指標(biāo)[19]。 利用準(zhǔn)確率和召回率作為判別行人檢測識(shí)別效果的標(biāo)準(zhǔn),但兩者為負(fù)相關(guān)關(guān)系[20]。 平均精度均值與調(diào)和均值是同時(shí)考慮準(zhǔn)確率和召回率的量化指標(biāo),它們的數(shù)值越大,則識(shí)別效果越好[21]。
- 為了驗(yàn)證修改后網(wǎng)絡(luò)的有效性,文中比較了原始 YOLO V5 網(wǎng)絡(luò)與改進(jìn)后的 YOLO V5 網(wǎng)絡(luò)在同一數(shù)據(jù)集中訓(xùn)練時(shí)間及實(shí)際檢測效果。 在同一數(shù)據(jù)集中分別訓(xùn)練 300 次,訓(xùn)練中的損失值與 mAP 的收斂曲線對比如圖 7 所示,準(zhǔn)確率變化與召回率曲線如圖 8 所示。 迭代完成后損失值大約為 0.021 76,mAP 最終的收斂值在 0.976 4,繪制 Loss、mAP 曲線后對參數(shù)的收斂情況進(jìn)行對比分析可得,文中提出的基于 YOLO V5 的改進(jìn)模型訓(xùn)練結(jié)果相比于原始 YOLO V5 模型準(zhǔn)確率更高、Loss 更低。
4.4 檢測效果對比
- 訓(xùn)練結(jié)束后利用得到的權(quán)重參數(shù)模型對待檢測目標(biāo)樣本進(jìn)行檢測,同時(shí)標(biāo)出檢測的對象位置,結(jié)果如圖 9 所示,左中右三幅圖依次為原圖、文中改進(jìn)算法檢測圖與原始 YOLO V5 檢測圖。 在光線明亮、遮擋較少的正常情況的圖 9(a)的檢測對比實(shí)驗(yàn)中,原始 YOLO V5 能框選出圖 9(a)中的大 部分行人目標(biāo),但仍然是出現(xiàn)了漏檢率較高的情況,如圖9(c)所示;在光線正常、不同目標(biāo)之間存在相互遮 擋的圖 9(d)檢測對比中,原始 YOLO V5 的漏檢率與文中算法均存在漏檢情況,但從圖 9(e)、圖 9(f)中的框 選結(jié)果可以看出,原始 YOLO V5算法的漏檢率更高;在對比度較低情況下的圖 9(g)檢測對比實(shí)驗(yàn)中,由于拍攝圖片角度與距離原因,行人與陰影部分的重疊區(qū)域較大,且行人目標(biāo)也較前兩個(gè)實(shí)驗(yàn)的目標(biāo)更小,原始 YOLO V5的在該次實(shí)驗(yàn)中的漏檢率進(jìn)一步增加,如圖 9(i)所示,而文中的改進(jìn)算法依舊能夠?qū)D片中的行 人框選出來,如圖9(h)所示,雖然也出現(xiàn)了漏檢情況,但從檢測結(jié)果可以看出,文中算法的魯棒性比原始 YOLO V5 算法更好。
- - 注:圖中方框?yàn)轭A(yù)測框,person 為類別,數(shù)字為置信度。 圖 9(a)、圖 9(d)、圖 9(g)為文中在 widerperson 與CrowdHuman 基礎(chǔ)上利用數(shù)據(jù)增 強(qiáng)的方法擴(kuò)充后的擁擠行人數(shù)據(jù)集(不在訓(xùn)練集)中隨機(jī)抽取出來的三張圖片。 圖9(a)是光線明亮、遮擋較少的正常情況的圖片,圖 9(d)是光 線正常但不同目標(biāo)之間的遮擋較多的圖片,圖9(g)是由于拍攝距離較遠(yuǎn)目標(biāo)較小且目標(biāo)與背景之間對比度較低情況下的圖片。 圖 9(b)、 圖 9(e)、圖9(h)為利用文中改進(jìn)算法檢測的結(jié)果;圖 9(c)、圖 9(f)、圖 9(i)為原始 YOLO V5 算法檢測結(jié)果 圖 9正常情況、存在遮擋、對比度較低情況下的對比實(shí)驗(yàn)結(jié)果。
-
為統(tǒng)計(jì)分析各種算法的性能,在上文提到的軟硬件環(huán)境下利用文中擴(kuò)充后的擁擠行人數(shù)據(jù)集將 SSD、原 始 YOLO V5以及文中改進(jìn)算法進(jìn)行訓(xùn)練和測試。 IoU 設(shè)定為 0.5,它是 VOC 數(shù)據(jù)集的測試標(biāo)準(zhǔn),也是常用指 標(biāo)[22]。文中以這一指標(biāo)進(jìn)行準(zhǔn)確率對比,各算法的實(shí)驗(yàn)結(jié)果見表 1。文章來源:http://www.zghlxwxcb.cn/news/detail-790726.html
-
實(shí)驗(yàn)表明,相比原始 YOLO V5 算法,文中改進(jìn)算法 mAP 提升了 10.5%,精準(zhǔn)率提升接近 16%,漏檢率降 低了接近10%,同時(shí)保持了原始 YOLO V5 算法的高幀率。 改進(jìn)后的模型對行人檢測較為精準(zhǔn),在多目標(biāo)、行人相互遮擋的情況下也可以很好地進(jìn)行檢測,有效地避免了漏檢的問題,整體表現(xiàn)良好,目標(biāo)定位準(zhǔn)確,識(shí)別 率較高。文章來源地址http://www.zghlxwxcb.cn/news/detail-790726.html
5 結(jié)語
- 筆者針對公共場景下的行人檢測問題,研究了當(dāng)下主流的 YOLO V5 算法,并在原始 YOLO V5 算法的基礎(chǔ)上進(jìn)行了以下改進(jìn):(1)引入SENet 對原始 YOLO V5網(wǎng)絡(luò)進(jìn)行改進(jìn),對融合的特征圖進(jìn)行自適應(yīng)的調(diào)整;(2)通過引入數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑的方式對原有數(shù)據(jù)集數(shù)據(jù)進(jìn)行拓展得到大量新的訓(xùn)練數(shù)據(jù),有效提升模型訓(xùn)練集大小,快速提升目標(biāo)檢測效果;(3)引入CIoU、DIoU_NMS 參數(shù),提高網(wǎng)絡(luò)特征提取和特征融合的能力,同時(shí)提升算法的檢測準(zhǔn)確率和檢測速度。
- 與原算法相比,在文中擴(kuò)充后的擁擠行人數(shù)據(jù)集上,筆者提出基于 YOLO V5 的改進(jìn)算法檢測的準(zhǔn)確率和漏檢率明顯優(yōu)于原始 YOLO V5 算法,同時(shí)保持了原有算法的實(shí) 時(shí)性,mAP 達(dá)到了 0.976 4,幀率達(dá)到了 140fps,滿足公共大規(guī)模擁擠場景下進(jìn)行行人檢測時(shí)的速度與精度 的要求。
到了這里,關(guān)于改進(jìn) YOLO V5 的密集行人檢測算法研究(論文研讀)——目標(biāo)檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!