国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08

這篇具有很好參考價(jià)值的文章主要介紹了計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、RCNN系列

1、RCNN

RCNN是用于目標(biāo)檢測(cè)的經(jīng)典方法,其核心思想是將目標(biāo)檢測(cè)任務(wù)分解為兩個(gè)主要步驟:候選區(qū)域生成和目標(biāo)分類。

  • 候選區(qū)域生成:RCNN的第一步是生成可能包含目標(biāo)的候選區(qū)域,RCNN使用傳統(tǒng)的計(jì)算機(jī)視覺技術(shù),特別是選擇性搜索(Selective Search)算法,這是一種Region Proposal區(qū)域提議方法,它根據(jù)圖像中的紋理、顏色和形狀等信息來生成潛在的候選區(qū)域。選擇性搜索生成的候選區(qū)域通常數(shù)千個(gè),因此需要對(duì)這些區(qū)域進(jìn)行裁剪和調(diào)整,以使它們具有相同的大小和縱橫比。
  • 特征提?。簩?duì)于每個(gè)候選區(qū)域,RCNN使用深度卷積神經(jīng)網(wǎng)絡(luò)(通常是在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的AlexNet)來提取特征。這些特征用于表示每個(gè)候選區(qū)域的內(nèi)容。RCNN通過將每個(gè)候選區(qū)域的圖像塊調(diào)整為固定大小,然后通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,得到一個(gè)固定維度的特征向量。
  • 目標(biāo)分類:對(duì)于每個(gè)候選區(qū)域,RCNN將提取的特征向量輸入到一個(gè)支持向量機(jī)(SVM)分類器中共,以確定該區(qū)域是否包含感興趣的目標(biāo)物體。RCNN還對(duì)每個(gè)目標(biāo)物體的類別進(jìn)行分類,使用不同的SVM分類器來表示不同的類別。每個(gè)分類器被訓(xùn)練為將包含目標(biāo)物體的候選區(qū)域與不包含目標(biāo)物體的區(qū)域進(jìn)行區(qū)分。
  • 邊界框回歸:為了提高目標(biāo)的位置精度,RCNN還使用了一個(gè)回歸器來微調(diào)每個(gè)候選區(qū)域的邊界框,這個(gè)回歸器被訓(xùn)練為預(yù)測(cè)候選區(qū)域與實(shí)際目標(biāo)邊界框之間的差異。
  • 訓(xùn)練:RCNN的訓(xùn)練分為兩個(gè)階段,預(yù)訓(xùn)練和微調(diào)。①預(yù)訓(xùn)練階段,卷積神經(jīng)網(wǎng)絡(luò)(Alexnet)在大規(guī)模圖像分類任務(wù)上進(jìn)行與訓(xùn)練,以獲得有用的特征提取器。②微調(diào)階段,使用標(biāo)注的目標(biāo)檢測(cè)數(shù)據(jù)對(duì)整個(gè)RCNN模型進(jìn)行微調(diào),包括SVM分類器和邊界框回歸器。
  • 優(yōu)點(diǎn)和缺點(diǎn):①優(yōu)點(diǎn):RCNN在目標(biāo)檢測(cè)上取得了很好的性能,特別是在大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集上。它能夠處理不同大小和形狀的目標(biāo),并且可以適應(yīng)多類別目標(biāo)檢測(cè)。②缺點(diǎn):RCNN是一個(gè)復(fù)雜的多階段模型,難以實(shí)現(xiàn)端到端的訓(xùn)練,后續(xù)版本(如Fast R-CNN和Faster R-CNN)針對(duì)這些缺點(diǎn)進(jìn)行了改進(jìn),提高了速度和性能。

2、Fast R-CNN(Fast Region-based Convolutional Neural Network)

Fast R-CNN是在RCNN和Selective Search基礎(chǔ)上提出的改進(jìn)方法,主要?jiǎng)?chuàng)新是將整個(gè)目標(biāo)檢測(cè)流程集成到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)種,從而顯著提高了速度和性能。

  • 候選區(qū)域生成:不同于RCNN中使用選擇性搜索,F(xiàn)astRCNN使用卷積網(wǎng)絡(luò)直接從輸入圖像中生成候選區(qū)域。使用一個(gè)稱為Region Proposal Network(RPN)的子網(wǎng)絡(luò),RPN可以高效地生成多尺度和多形狀地候選區(qū)域,這些區(qū)域被稱為錨框(Anchor Boxes)。
  • 特征提取:FastRCNN使用卷積神經(jīng)網(wǎng)絡(luò)來提取每個(gè)候選區(qū)域的特征。這些區(qū)域特征被送入網(wǎng)絡(luò)中以進(jìn)行目標(biāo)分類和邊界框回歸。使用卷積層和ROI(Region of Interest)池化層來提取固定維度的特征向量
  • 目標(biāo)分類和邊界框回歸:對(duì)于每個(gè)候選區(qū)域,F(xiàn)ast R-CNN使用兩個(gè)并行的全連接層,一個(gè)用于目標(biāo)分類(哪個(gè)類別?)和用于邊界框回歸(目標(biāo)位置)。分類層使用softmax來預(yù)測(cè)目標(biāo)的類別概率,而回歸層用于微調(diào)候選區(qū)域的邊界框。
  • 訓(xùn)練:Fast R-CNN進(jìn)行端到端的訓(xùn)練,可以同時(shí)優(yōu)化RPN、目標(biāo)分類和邊界框回歸的損失函數(shù)。訓(xùn)練數(shù)據(jù)包括正樣本(包含目標(biāo)的錨框)、負(fù)樣本(不包含目標(biāo)的錨框)以及他們的標(biāo)簽。

3、Faster R-CNN(Faster Region-based Convolutional Neural Network)

Faster R-CNN 進(jìn)一步改進(jìn)了 Fast R-CNN,將目標(biāo)檢測(cè)模型的速度提高到了一個(gè)新的水平,同時(shí)保持了很高的準(zhǔn)確性。

  • 候選區(qū)域生成:Faster R-CNN引入了一個(gè)完全卷積網(wǎng)絡(luò),作為RPN,用來生成候選區(qū)域。RPN是一個(gè)端到端可訓(xùn)練的網(wǎng)絡(luò),可以生成候選區(qū)域。
  • 特征提取:與Fast-RCNN類似,F(xiàn)aster R-CNN 使用卷積神經(jīng)網(wǎng)絡(luò)來提取候選區(qū)域的特征。
  • 目標(biāo)分類和邊界框回歸:Faster R-CNN 與 Fast R-CNN 具有相似的目標(biāo)分類和邊界框回歸步驟。
  • 訓(xùn)練:Faster R-CNN 通過聯(lián)合訓(xùn)練 RPN 和檢測(cè)網(wǎng)絡(luò)(包括目標(biāo)分類和邊界框回歸)來優(yōu)化整個(gè)系統(tǒng)。整個(gè)模型可以一次性生成候選區(qū)域并執(zhí)行目標(biāo)檢測(cè),從而提高了速度。

二、yolo系列

計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測(cè)是一個(gè)十分重要的研究主題, 廣泛應(yīng)用在人臉識(shí)別、車牌識(shí)別、安防、智慧交通、自動(dòng)駕駛等領(lǐng)域。主要經(jīng)典算法有:YOLO

1、YOLOv1

以往的二階段檢測(cè)算法,如Faster-RCNN,在檢測(cè)時(shí)需要經(jīng)過兩步:邊框回歸和softmax分類。由于大量預(yù)選框的生成,該方法檢測(cè)精度較高,但實(shí)時(shí)性較差。YOLO之父Joseph Redmon提出了通過直接回歸的方式獲取目標(biāo)檢測(cè)的具體位置信息和類別分類信息。極大的降低了計(jì)算量,顯著提升了檢測(cè)的速度。達(dá)到了45FPS(Fast YOLO版本達(dá)到了155FPS)。

  • 思路:①將輸入圖片縮放至448x448x3大??;②經(jīng)過卷積網(wǎng)絡(luò)backbone提取特征圖;③把提取到的特征圖送入兩層全連接層,最終輸出7x7x30大小的特征圖。更進(jìn)一步講,就是將輸入的圖片整體劃分為SxS的網(wǎng)格(例如7x7),物體中心落在哪一個(gè)格子中,那么該各自就負(fù)責(zé)該物體的檢測(cè),每一個(gè)格子預(yù)測(cè)B個(gè)邊框,輸出SxS(B*5+C)。對(duì)于YOLOv1而言,常用的是7x7的網(wǎng)格劃分,預(yù)測(cè)2個(gè)邊框,輸出7x7x30,30個(gè)通道包含每個(gè)類別的概率+邊框置信度+邊框位置信息。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 網(wǎng)絡(luò)結(jié)構(gòu):骨干網(wǎng)絡(luò)是GoogleNet網(wǎng)絡(luò),24個(gè)卷積層+2個(gè)全連接層。使用7x7卷積。
  • 優(yōu)勢(shì)與不足:①優(yōu)點(diǎn):與二階段檢測(cè)算法相比,利用直接回歸的方式,大大縮小了計(jì)算量,提升了運(yùn)行速度。②不足:每一個(gè)網(wǎng)格僅有兩個(gè)預(yù)測(cè)框,當(dāng)存在多物體密集挨著或者小目標(biāo)的時(shí)候,檢測(cè)效果不好。

2、YOLOv2

與YOLOv1相比,v2做了三點(diǎn)改變①更換骨干網(wǎng)絡(luò);②引入PassThrough;③借鑒了二階段檢測(cè)的思想,添加了預(yù)選框。

  • 思路:將圖片輸入到darknet19網(wǎng)絡(luò)中提取特征圖,然后輸出目標(biāo)框類別信息和位置信息。
  • 網(wǎng)絡(luò)結(jié)構(gòu):骨干網(wǎng)絡(luò)為darknet19,如下圖所示針對(duì)1000類別的分類任務(wù),只不過對(duì)于檢測(cè)任務(wù)而言,需要使用3x3卷積(輸出通道1024)取代上表中最后的卷積層,再添加Passthrough操作后,進(jìn)行輸出。已不再使用7x7這樣的大卷積核:

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • ?技巧1:?PassThrough操作-該方法將28x28x512調(diào)整為14x14x2048,后續(xù)v5版本中的Focus操作類似該操作。將生成的14x14x2048與原始的14x14x1024進(jìn)行concat操作。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • ?技巧2:引入anchor,調(diào)整位置預(yù)測(cè)為偏移預(yù)測(cè)借鑒了Faster-RCNN的思想,引入了anchor,將目標(biāo)框的位置預(yù)測(cè)由直接預(yù)測(cè)坐標(biāo)調(diào)整為偏移量預(yù)測(cè),大大降低了預(yù)測(cè)難度,提升了預(yù)測(cè)準(zhǔn)確性。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 優(yōu)勢(shì)與不足:①優(yōu)勢(shì):利用passthrough操作對(duì)高低層語(yǔ)義信息進(jìn)行融合,在一定程度上增強(qiáng)了小目標(biāo)的檢測(cè)能力。采用小卷積核代替7x7的大卷積核,降低了計(jì)算量,同時(shí)改進(jìn)的位置偏移策略降低了檢測(cè)目標(biāo)框的難度。②?尚未采用殘差網(wǎng)絡(luò)結(jié)構(gòu),且當(dāng)存在多物體密集挨著的時(shí)候或者小目標(biāo)的時(shí)候,檢測(cè)效果有待提升。

3、YOLOv3

針對(duì)YOLOv2的問題,YOLOv3引入了殘差網(wǎng)絡(luò)模塊。①再darknet19的基礎(chǔ)上推陳出新,引入殘差,并加深網(wǎng)絡(luò)深度,提出了Darknet53;②借鑒了金字塔的思想,在三個(gè)不同的尺寸上分別進(jìn)行預(yù)測(cè)。

  • 思路:YOLOv3檢測(cè)算法是將圖片輸入到darknet53網(wǎng)絡(luò)中提取特征圖,然后借鑒特征金字塔網(wǎng)絡(luò)思想,將高級(jí)和低級(jí)語(yǔ)義信息進(jìn)行融合,在低、中、高三個(gè)層次上分別預(yù)測(cè)目標(biāo)狂,最后輸出三個(gè)尺度的特征圖信息(52×52×75、26×26×75、13×13×75)。?

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

其中, 52×52 大小的特征圖負(fù)責(zé)檢測(cè)小目標(biāo), 26×26大小的特征圖負(fù)責(zé)檢測(cè)中目標(biāo), 13×13大小的特征圖負(fù)責(zé)檢測(cè)大目標(biāo)。下圖中,黃色表示目標(biāo)框真值,藍(lán)色表示3個(gè)預(yù)選框。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

?在訓(xùn)練之前,預(yù)先通過聚類的方式生成小,中,大三個(gè)尺寸的預(yù)選框,共9個(gè)。預(yù)測(cè)時(shí)最終會(huì)輸出

3x(20+1+4)的數(shù)據(jù)。一個(gè)目標(biāo)框的輸出數(shù)據(jù)如下:

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • ?網(wǎng)絡(luò)結(jié)構(gòu):骨干網(wǎng)絡(luò)是Darknet53

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • ?技巧:特征金字塔,該版本借鑒了特征金字塔的思想,只不過與普通的FPN相比略有不同。①選擇融合的層不同;②融合方式不同。對(duì)于普通FPN而言,是將高級(jí)語(yǔ)義的小尺寸特征圖上采樣后與上一層進(jìn)行逐像素相加的融合,融合后尺寸大小和通道數(shù)保持不變。而對(duì)于YOLOv3而言,是將高級(jí)語(yǔ)義的小尺寸特征圖上采樣到SxS后,選擇前面的同為SxS的特征圖進(jìn)行通道方向拼接的融合,融合后,尺寸大小不變但通道數(shù)為兩者之和。
  • 優(yōu)勢(shì):基本解決了小目標(biāo)檢測(cè)的問題,在速度和精度上實(shí)現(xiàn)了較好的平衡。

4、YOLOv4

Alexey Bochkovskiy大神對(duì)YOLOv3進(jìn)行了升級(jí)改造,核心思想與之前基本一致,不過從數(shù)據(jù)處理、主干網(wǎng)絡(luò)、網(wǎng)絡(luò)訓(xùn)練、激活函數(shù)、損失函數(shù)等方面對(duì)子結(jié)構(gòu)進(jìn)行了大量的改進(jìn)。

  • 重要升級(jí):①將CSP結(jié)構(gòu)融入Darknet53中,生成了新得主干網(wǎng)絡(luò)CSPDarknet53;②采用SPP空間金字塔池化來擴(kuò)大感受野;③在Neck部分引入PAN皆否,即FPN+PAN形式;④引入Mish激活函數(shù);⑤引入Mosaic數(shù)據(jù)增強(qiáng);⑥訓(xùn)練時(shí)采用CIOU_loss,同時(shí)預(yù)測(cè)時(shí)采用DIOU_nms。
  • 網(wǎng)絡(luò)結(jié)構(gòu):骨干網(wǎng)絡(luò)時(shí)CSPDarknet53(含spp) Neck:FPN+PAN,檢測(cè)頭同v3版本。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧1:輸入數(shù)據(jù)采用Mosaic數(shù)據(jù)增強(qiáng),借鑒了2019年CutMix的思路,并在此基礎(chǔ)上進(jìn)行了拓展,Mosaic數(shù)據(jù)增強(qiáng)方式采用了4張圖片,隨機(jī)縮放,隨機(jī)裁剪,隨機(jī)排布的方式進(jìn)行拼接,從而對(duì)小目標(biāo)的檢測(cè)起到了進(jìn)一步的提升的作用。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧2 :修改骨干網(wǎng)絡(luò)為CSPDarkbet53,借鑒了2019CSPNet的經(jīng)驗(yàn),并結(jié)合先前的Darknet53,獲得了新的骨干網(wǎng)絡(luò)CSPDarknet53。在CSPNet中,存在如下操作,即進(jìn)入每個(gè)stage先將數(shù)據(jù)劃分為兩部分,如下圖中的part1, part2,區(qū)別在于CSPNet中直接對(duì)通道維度進(jìn)行劃分,而YOLOv4應(yīng)用時(shí)是利用兩個(gè)1x1卷積層來實(shí)現(xiàn)的。兩個(gè)分支的信息在交匯處及進(jìn)行concat拼接。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧3:引入SPP空間金字塔池化模塊, 引入SPP結(jié)構(gòu)來增加感受野,采用1x1、5x5、9x9、13x13的最大池化的方式,進(jìn)行多尺度融合,輸出按照通道進(jìn)行concat融合。類似于語(yǔ)義分割網(wǎng)絡(luò)PSPNet中的PPM模塊。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧4:在Neck部分采用FPN+PAN的結(jié)構(gòu),借鑒了?2018年圖像分割領(lǐng)域PANet,相比于原始的PAN結(jié)構(gòu),YOLOv4實(shí)際采用的PAN結(jié)構(gòu)將addition的方式改為了concatenation,如下圖:

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • ?由于FPN結(jié)構(gòu)是自頂向下的,將高級(jí)特征信息以上采樣的方式向下傳遞,但是融合的信息依舊存在不足,因此YOLOv4在FPN之后又添加了PAN結(jié)構(gòu),再次將信息從底部傳遞到頂部,如此一來,F(xiàn)PN自頂向下傳遞強(qiáng)語(yǔ)義信息,而PAN則底向上傳遞強(qiáng)定位信息,達(dá)到更強(qiáng)的特征聚合效果。整個(gè)NECK結(jié)構(gòu)如下圖所示:

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 優(yōu)勢(shì): 對(duì)比v3和v4版本,在COCO數(shù)據(jù)集上,同樣FPS等于83左右時(shí),Yolov4的AP是43,而Yolov3是33,直接上漲了10個(gè)百分點(diǎn)。

5、YOLOv5

YOLOv5版本 UltralyticsLLC 公司推出的,是在YOLOv4的基礎(chǔ)上做了少許的修補(bǔ),①將v4版本骨干網(wǎng)絡(luò)中的CSP結(jié)構(gòu)拓展到NECK結(jié)構(gòu)中。②增加了FOCUS操作,但是后續(xù)6.1版本又剔除掉了該操作,使用一個(gè)6x6的卷積進(jìn)行了替代。③使用SPPF結(jié)構(gòu)代替SPP。

  • 思路:與v4版本基本一致
  • 技巧1:SPPF,主要區(qū)別就是MaxPool由原來的并行調(diào)整為串行,值得注意的是:串行兩個(gè) 5 x 5 大小的 MaxPool 和一個(gè) 9 x 9 大小的 MaxPool 是等價(jià)的,串行三個(gè) 5 x 5 大小的 MaxPool 層和一個(gè) 13 x 13 大小的 MaxPool 是等價(jià)的。雖然并行和串行的效果一樣,但是串行的效率更高,降低了耗時(shí)。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • ?技巧2:自適應(yīng)錨框計(jì)算:比較簡(jiǎn)單,就是把錨框的聚類改為了使用程序自適應(yīng)計(jì)算,此處就不再贅述了。
  • 技巧3:Focus操作,?后續(xù)版本提出了該操作,此處就不展開介紹了。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

6、Yolov6

YOLOv6是由美團(tuán)推出的,所作的主要工作是為了更加適應(yīng)GPU設(shè)備,將2021年RepVGG結(jié)構(gòu)引入到了YOLO。

  • YOLOv6檢測(cè)算法的思路類似YOLOv5(backbone+neck)+YOLOX(head),主要有如下改動(dòng)①骨干網(wǎng)絡(luò)由CSPDarknet換為了EfficientRep;②Neck是基于Rep和PAN構(gòu)建了Rep-PAN;③檢測(cè)頭部分模仿YOLOX,進(jìn)行了解耦操作,并進(jìn)行了少許優(yōu)化。
  • 網(wǎng)絡(luò)結(jié)構(gòu):骨干網(wǎng)絡(luò)是EfficientRep; Neck: FPN+RepPAN; 檢測(cè)頭:類似YOLOX.。
  • 技巧1:引入RepVGG ,按照RepVGG的思路,為每一個(gè)3X3的卷積添加平行了一個(gè)1x1的卷積分支和恒等映射分支,然后在推理時(shí)融合為3x3的結(jié)構(gòu),這種方式對(duì)計(jì)算密集型的硬件設(shè)備會(huì)比較友好。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧2:骨干網(wǎng)絡(luò)?EfficientRep,把backbone中stride = 2的卷積層換成了stride=2的RepConv層,并且也將CSP-Block修改為了RepBlock。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧3:Neck中引入Rep, 為了進(jìn)一步降低硬件上的耗時(shí),將PAN中的CSP-BLOCK替換為RepBlock,從而生成了Rep-PAN結(jié)構(gòu)。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧4:對(duì)檢測(cè)頭解耦并重新設(shè)計(jì)了高效的解耦頭,為了加快收斂速度和降低檢測(cè)頭復(fù)雜度,YOLOv6模仿YOLOX對(duì)檢測(cè)頭進(jìn)行了解耦,分開了目標(biāo)檢測(cè)中的邊框回歸過程和類別分類過程。 由于YOLOX的解耦頭中,新增了兩個(gè)額外的3x3卷積,會(huì)在一定程度增加運(yùn)算的復(fù)雜度。鑒于此,YOLOv6基于Hybrid Channels的策略重新設(shè)計(jì)出了一個(gè)更高效的解耦頭結(jié)構(gòu)。在不怎么改變精度的情況下降低延時(shí),從而達(dá)到了速度與精度的權(quán)衡。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 優(yōu)勢(shì):對(duì)耗時(shí)做了進(jìn)一步的優(yōu)化,進(jìn)一步提升YOLO檢測(cè)算法性能。?

?7、Yolov7

YOLOv7是YOLO4團(tuán)隊(duì)的續(xù)作,主要是針對(duì)模型結(jié)構(gòu)重參化和動(dòng)態(tài)標(biāo)簽分配問題進(jìn)行了優(yōu)化。

  • 思路:YOLOv7檢測(cè)算法的思路是與YOLOv4、v5類似。
  • 主要改動(dòng):①提出了計(jì)劃的模型結(jié)構(gòu)重參化。②借鑒了YOLOv5、Scale YOLOv4、YOLOX,“拓展”和“復(fù)合縮放”方法,以便高效的利用參數(shù)和計(jì)算量。③提出了一種新的標(biāo)簽分配方法。
  • 網(wǎng)絡(luò)結(jié)構(gòu):在YOLOv4、YOLOv5、YOLOv6基礎(chǔ)上通過添加了以下tricks進(jìn)行了進(jìn)一步的升級(jí)改造。
  • 技巧1:高效的聚合網(wǎng)絡(luò),E-ELAN采用expand、shuffle、merge cardinality結(jié)構(gòu),實(shí)現(xiàn)在不破壞原始梯度路徑的情況下,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。在體系結(jié)構(gòu)方面,E-ELAN只改變了計(jì)算模塊中的結(jié)構(gòu),而過渡層的結(jié)構(gòu)則完全不變。作者的策略是利用分組卷積來擴(kuò)展計(jì)算模塊的通道和基數(shù),將相同的group parameter和channel multiplier用于計(jì)算每一層中的所有模塊。然后,將每個(gè)模塊計(jì)算出的特征圖根據(jù)設(shè)置的分組數(shù)打亂成G組,最后將它們連接在一起。此時(shí),每一組特征圖中的通道數(shù)將與原始體系結(jié)構(gòu)中的通道數(shù)相同。最后,作者添加了G組特征來merge cardinality。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧2:模型縮放,?類似于YOLOv5、Scale YOLOv4、YOLOX,一般是對(duì)depth、width或者module scale進(jìn)行縮放,實(shí)現(xiàn)擴(kuò)大或縮小baseline的目的。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

  • 技巧3:?引入了卷積重參化并進(jìn)行了改進(jìn)采用梯度傳播路徑來分析不同的重參化模塊應(yīng)該和哪些網(wǎng)絡(luò)搭配使用。同時(shí)分析出RepConv中的identity破壞了ResNet中的殘差結(jié)構(gòu)和DenseNet中的跨層連接,因此作者做了改進(jìn),采用沒有Identity連接的RepConv結(jié)構(gòu)進(jìn)行卷積重參數(shù)化。下圖是設(shè)計(jì)的用于PlainNet和ResNet的計(jì)劃重參數(shù)卷積。

    計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)

技巧4:?引入了輔助訓(xùn)練模塊-coarse-to-fine(由粗到細(xì))引導(dǎo)標(biāo)簽分配策略,常用的方式是圖(c)所示,即輔助頭和引導(dǎo)頭各自獨(dú)立,分別利用ground truth和它們(輔助頭、引導(dǎo)頭)各自的預(yù)測(cè)結(jié)果實(shí)現(xiàn)標(biāo)簽分配。YOLOV7算法中提出了利用引導(dǎo)頭的預(yù)測(cè)結(jié)果作為指導(dǎo),生成從粗到細(xì)的層次標(biāo)簽,將這些層次標(biāo)簽分別用于輔助頭和引導(dǎo)頭的學(xué)習(xí),如下圖(d)和(e)所示。

計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08,神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí)文章來源地址http://www.zghlxwxcb.cn/news/detail-701491.html

  • 優(yōu)勢(shì):參數(shù)量和計(jì)算量大幅度減少,但性能仍能保持少量的提升。?

到了這里,關(guān)于計(jì)算機(jī)視覺領(lǐng)域經(jīng)典模型匯總(2023.09.08的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 計(jì)算機(jī)畢業(yè)設(shè)計(jì)選題-最新最全機(jī)器視覺 計(jì)算機(jī)視覺選題推薦匯總

    ? 大四是整個(gè)大學(xué)期間最忙碌的時(shí)光,一邊要忙著準(zhǔn)備考研、考公、考教資或者實(shí)習(xí)為畢業(yè)后面臨的升學(xué)就業(yè)做準(zhǔn)備,一邊要為畢業(yè)設(shè)計(jì)耗費(fèi)大量精力。學(xué)長(zhǎng)給大家整理了機(jī)器視覺,計(jì)算機(jī)視覺不同方向最新精選選題,如對(duì)選題有任何疑問,都可以問學(xué)長(zhǎng)哦! 以下是學(xué)長(zhǎng)精心整

    2024年02月06日
    瀏覽(35)
  • 計(jì)算機(jī)視覺領(lǐng)域常見英文期刊和會(huì)議的縮寫

    TPAMI: IEEE Trans. Pattern Anal. Mach. Intell. IEEE Transactions on Image Processing(TIP): IEEE Trans. Image Process. IEEE Transactions on Medical Imaging(TMI):IEEE Trans. Med. Imaging IEEE Transactions on Geoscience and Remote Sensing(TGRS): IEEE Trans. Geosci. Remote Sens. Remote Sensing Letters: Remote Sens. Lett. Remote Sensing: Remote Sens

    2024年02月16日
    瀏覽(26)
  • 計(jì)算機(jī)視覺 (Computer Vision) 領(lǐng)域頂級(jí)會(huì)議歸納

    計(jì)算機(jī)視覺 (Computer Vision) 領(lǐng)域頂級(jí)會(huì)議歸納

    ?? Author :Horizon Max ? 編程技巧篇 :各種操作小結(jié) ?? 機(jī)器視覺篇 :會(huì)變魔術(shù) OpenCV ?? 深度學(xué)習(xí)篇 :簡(jiǎn)單入門 PyTorch ?? 神經(jīng)網(wǎng)絡(luò)篇 :經(jīng)典網(wǎng)絡(luò)模型 ?? 算法篇 :再忙也別忘了 LeetCode 機(jī)器視覺 領(lǐng)域三大頂尖國(guó)際會(huì)議 : CVPR、ICCV、ECCV ; 其他一些 著名 會(huì)議: WACV、NIPS、

    2024年02月01日
    瀏覽(22)
  • 自動(dòng)駕駛:深度學(xué)習(xí)在計(jì)算機(jī)視覺和定位領(lǐng)域的應(yīng)用

    自動(dòng)駕駛技術(shù)是未來交通運(yùn)輸?shù)年P(guān)鍵技術(shù)之一,它旨在通過將計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、傳感器技術(shù)等多種技術(shù)整合,使汽車在特定條件下自主決策、自主行駛,實(shí)現(xiàn)無人駕駛。自動(dòng)駕駛技術(shù)的發(fā)展將有助于減少交通事故、提高交通效率、減少氣候變化等。 自動(dòng)駕駛技術(shù)的主要

    2024年02月02日
    瀏覽(26)
  • 計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念

    計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念

    知乎:深度學(xué)習(xí)中的多尺度模型設(shè)計(jì) 知乎:計(jì)算機(jī)視覺中的多尺度模型都有哪些設(shè)計(jì)? CSDN:多尺度理解? 所謂多尺度,實(shí)際就是對(duì)信號(hào)的不同粒度的采樣。 通常在不同的尺度下我們可以觀察到不同的特征,從而完成不同的任務(wù)。 粒度更小/更密集的采樣可以看到更多的細(xì)節(jié)

    2023年04月08日
    瀏覽(17)
  • 每天五分鐘計(jì)算機(jī)視覺:經(jīng)典架構(gòu)的力量與啟示

    每天五分鐘計(jì)算機(jī)視覺:經(jīng)典架構(gòu)的力量與啟示

    在深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡(jiǎn)稱CNN)無疑是最為經(jīng)典的架構(gòu)之一。近年來,隨著研究的不斷深入和新架構(gòu)的不斷涌現(xiàn),許多初學(xué)者可能會(huì)忽視這些經(jīng)典架構(gòu)的重要性。然而,理解并學(xué)習(xí)這些經(jīng)典架構(gòu),對(duì)于我們深入理解卷積神經(jīng)網(wǎng)

    2024年02月05日
    瀏覽(25)
  • 《高級(jí)計(jì)算機(jī)視覺》期末樣題匯總

    《高級(jí)計(jì)算機(jī)視覺》期末樣題匯總

    說明:電子科技大學(xué)2022年研究生課程《高級(jí)計(jì)算機(jī)視覺》期末樣題。 給出下列數(shù)據(jù),寫出按照行的方向的游程長(zhǎng)度編碼。 答: (1,2),(2,4),(3,2) (1,2),(2,4),(3,2) (3,2),(5,6) (3,2),(5,6) (2,4),(7,4) (2,4),(7,4) (2,

    2024年02月04日
    瀏覽(23)
  • 計(jì)算機(jī)視覺圖像處理常用方法匯總

    計(jì)算機(jī)視覺圖像處理常用方法匯總

    光線進(jìn)入眼睛:當(dāng)光線從一個(gè)物體反射或散射出來,進(jìn)入人的眼睛時(shí),它們通過角膜和晶狀體進(jìn)入眼球內(nèi)部。 聚焦光線:角膜和晶狀體將光線聚焦在視網(wǎng)膜上。晶狀體可以通過調(diào)整其形狀來調(diào)節(jié)聚焦距離,使物體的圖像清晰地映射在視網(wǎng)膜上。 光敏細(xì)胞感受光線:視網(wǎng)膜是

    2024年02月07日
    瀏覽(24)
  • 雜記——計(jì)算機(jī)視覺頂級(jí)會(huì)議及醫(yī)學(xué)圖像處理領(lǐng)域頂級(jí)會(huì)議

    1. 計(jì)算機(jī)視覺頂級(jí)會(huì)議 序號(hào) 會(huì)議名稱 會(huì)議簡(jiǎn)介 官網(wǎng)鏈接 1 CVPR(Conference on Computer Vision and Pattern Recognition) 每年由IEEE計(jì)算機(jī)協(xié)會(huì)(IEEE Computer Society)主辦 CVPR 2023 2 ICCV(International Conference on Computer Vision) 由IEEE計(jì)算機(jī)協(xié)會(huì)主辦。與CVPR一樣 Accueil - International Conference on Comput

    2024年02月14日
    瀏覽(21)
  • 農(nóng)業(yè)中的計(jì)算機(jī)視覺 2023

    農(nóng)業(yè)中的計(jì)算機(jī)視覺 2023

    物體檢測(cè)應(yīng)用于檢測(cè)田間收割機(jī)和果園蘋果 ????????歡迎來到Voxel51的計(jì)算機(jī)視覺行業(yè)聚焦博客系列的第一期。每個(gè)月,我們都將重點(diǎn)介紹不同行業(yè)(從建筑到氣候技術(shù),從零售到機(jī)器人等)如何使用計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和人工智能來推動(dòng)創(chuàng)新。我們將深入探討正在使用

    2024年02月15日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包