国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶

這篇具有很好參考價(jià)值的文章主要介紹了計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

大家好,我是微學(xué)AI,今天給大家介紹一下計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶。YOLO(You Only Look Once)是一種目標(biāo)檢測深度學(xué)習(xí)模型。想象一下,傳統(tǒng)的目標(biāo)檢測方法就像偵探一樣,需要仔細(xì)觀察整個(gè)場景,逐個(gè)研究每個(gè)細(xì)節(jié)來找出目標(biāo)。但YOLO卻跟超級英雄一樣,只需要一眼掃過整個(gè)畫面,就能立即捕捉到所有的目標(biāo)。YOLO可以實(shí)現(xiàn)如此高效的目標(biāo)檢測,是因?yàn)樗鼘⒛繕?biāo)檢測問題轉(zhuǎn)化為了一個(gè)回歸問題。它通過一個(gè)神奇的神經(jīng)網(wǎng)絡(luò),在一次前向傳播中,直接從圖像像素預(yù)測出目標(biāo)的邊界框和類別概率。這意味著,YOLO不僅快速,而且準(zhǔn)確。它能夠同時(shí)捕捉到不同大小、不同位置的目標(biāo),并且還能告訴你它們屬于哪個(gè)類別。

無論是追蹤移動(dòng)的車輛,還是尋找行走的行人,YOLO都能在瞬間給你一個(gè)準(zhǔn)確的答案。它的快速性和準(zhǔn)確性使得YOLO成為許多計(jì)算機(jī)視覺應(yīng)用中的首選方法,是目標(biāo)檢測領(lǐng)域的超級明星!

一、YOLO網(wǎng)絡(luò)的詳細(xì)介紹

1.設(shè)計(jì)思想:
傳統(tǒng)的目標(biāo)檢測算法,如R-CNN系列,都采用了兩步驟:首先生成候選區(qū)域,然后對這些區(qū)域進(jìn)行分類。而YOLO則采取了“一次看完”的策略。它將目標(biāo)檢測任務(wù)看作一個(gè)回歸問題,并直接在一個(gè)網(wǎng)絡(luò)中完成邊界框(bounding box)的預(yù)測和類別判斷。
2.網(wǎng)絡(luò)結(jié)構(gòu):
YOLO使用全卷積網(wǎng)絡(luò),并在最后引入全連接層進(jìn)行預(yù)測。輸入圖像被分成SxS個(gè)網(wǎng)格,如果某個(gè)對象的中心落在網(wǎng)格內(nèi),則這個(gè)網(wǎng)格就負(fù)責(zé)預(yù)測這個(gè)對象。每個(gè)網(wǎng)格會預(yù)測B個(gè)邊界框以及這些邊界框含有對象的置信度,同時(shí)還會預(yù)測C個(gè)條件類別概率。
3.損失函數(shù):
由于任務(wù)涉及到坐標(biāo)回歸和分類兩部分,所以損失函數(shù)也由這兩部分組成。坐標(biāo)誤差和置信度誤差使用平方差損失計(jì)算;類別誤差使用交叉熵?fù)p失計(jì)算。
4.優(yōu)點(diǎn):
速度快: 因?yàn)橹恍枰\(yùn)行一次前向傳播即可得到結(jié)果。
泛化能力強(qiáng):可以很好地處理新顏色、尺度、角度等變化。
5.缺點(diǎn):
對小物體處理不佳、定位精度相對較低。

下面我將詳細(xì)介紹從YOLOv1到Y(jié)OLOv5的網(wǎng)絡(luò)結(jié)構(gòu),并闡述每個(gè)版本相比前一版本所做的改進(jìn):

YOLOv1模型

YOLOv1是第一個(gè)引入端到端物體檢測概念的模型,它在單個(gè)神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)了邊界框預(yù)測和類別概率。
網(wǎng)絡(luò)結(jié)構(gòu):使用了一個(gè)單一的卷積網(wǎng)絡(luò),最后接上2個(gè)全連接層和一個(gè)線性回歸層。輸入為448x448大小的圖片,輸出為7x7網(wǎng)格,每個(gè)網(wǎng)格預(yù)測2個(gè)邊界框和20個(gè)類別概率。

模型改進(jìn)方面

相比于以前需要多階段處理過程才能完成目標(biāo)檢測任務(wù)的方法(例如R-CNN系列),YOLOv1顯著地提高了速度,并且在處理圖像中存在多目標(biāo)、小目標(biāo)以及模糊不清目標(biāo)時(shí)表現(xiàn)出色。
計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶,計(jì)算機(jī)視覺的應(yīng)用,計(jì)算機(jī)視覺,目標(biāo)檢測,算法,YOLO,改進(jìn)方案

YOLOv2模型

YOLOv2在保持高速度同時(shí)提高了準(zhǔn)確性。它引入了Darknet-19作為基礎(chǔ)架構(gòu),并添加“anchor boxes”來更好地處理不同形狀和大小的對象。
網(wǎng)絡(luò)結(jié)構(gòu):Darknet-19包含19層卷積層和5個(gè)maxpooling層。最后一層全連接被移除并用一個(gè)新卷積層替代,這樣可以直接輸出13x13網(wǎng)格結(jié)果。

模型改進(jìn)方面

1.Batch Normalization算法實(shí)現(xiàn):在卷積或池化之后,激活函數(shù)之前,對每個(gè)數(shù)據(jù)輸出進(jìn)行標(biāo)準(zhǔn)化。這樣能夠大大提高訓(xùn)練速度,提升訓(xùn)練效果。
2.引入“anchor boxes”解決了對不同形狀與尺寸物體識別困難問題;
3.增加"multi-scale training"讓模型能夠適應(yīng)各種分辨率;
4.新增"Darknet-19"架構(gòu)使得模型更深,但計(jì)算效率仍然很高。
Darknet-19整體網(wǎng)絡(luò)架構(gòu):
計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶,計(jì)算機(jī)視覺的應(yīng)用,計(jì)算機(jī)視覺,目標(biāo)檢測,算法,YOLO,改進(jìn)方案

YOLOv3模型

YOLOv3通過使用三種不同尺度進(jìn)行預(yù)測來改善對小物體的檢測效果,并采用三種不同大小“anchor boxes”來更好地匹配真實(shí)對象大小。
網(wǎng)絡(luò)結(jié)構(gòu):采用了Darknet-53,包含53層卷積層,增加了殘差連接來改善訓(xùn)練過程。最后輸出3個(gè)不同尺度(13x13, 26x26, 52x52)的預(yù)測。

模型改進(jìn)方面

1.三種不同尺度的預(yù)測:
YOLOv3引入了三種不同尺度(13x13, 26x26, 52x52)的預(yù)測,每個(gè)尺度都會生成一組邊界框。這是通過在網(wǎng)絡(luò)中添加更多的特征圖層并在不同層級上進(jìn)行預(yù)測來實(shí)現(xiàn)的。這樣做可以幫助模型更好地檢測不同大小的物體。具體來說,小尺度(13x13)主要用于檢測大物體,中等尺度(26x26)用于檢測中等大小物體,大尺度(52x52)主要用于檢測小物體。
2.使用三種不同大小“anchor boxes”:
在每個(gè)預(yù)測尺度上,YOLOv3為每個(gè)網(wǎng)格單元使用了三個(gè)固定比例的“anchor boxes”。這些"anchor boxes"是根據(jù)訓(xùn)練集中所有真實(shí)邊界框的寬高比例分布得出的。"Anchor boxes"可以幫助模型更好地匹配和預(yù)測真實(shí)對象大小。
3.Darknet-53網(wǎng)絡(luò)結(jié)構(gòu):
YOLOv3采用了Darknet-53作為其骨干網(wǎng)絡(luò)。Darknet-53包含53層卷積層,并且與ResNet-50相比,在相似性能下計(jì)算量減少近一半。它通過交替使用1×1卷積和3×3卷積提取特征,并利用連續(xù)塊增加了網(wǎng)絡(luò)深度以提取更復(fù)雜、抽象級別高的特征。
4.殘差連接:
Darknet-53還引入了殘差連接或者稱之為shortcut connection或skip connection(類似ResNet)。這是一種典型技術(shù),旨在解決深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中梯度消失和表示瓶頸問題。殘差連接使得輸入可以直接流向輸出或者后面幾層,從而保證信息能夠有效傳播,并有助于捕獲低級別和高級別特征。
5.多標(biāo)簽分類:
在分類器部分,YOLOv3采用了sigmoid函數(shù)代替softmax進(jìn)行多標(biāo)簽分類。這樣做使得模型能夠?yàn)橐粋€(gè)物體預(yù)測多個(gè)類別,有助于處理一些復(fù)雜場景,如一個(gè)物體同時(shí)屬于多個(gè)類別。
計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶,計(jì)算機(jī)視覺的應(yīng)用,計(jì)算機(jī)視覺,目標(biāo)檢測,算法,YOLO,改進(jìn)方案

YOLOv4模型

YOLOv4在保持速度優(yōu)勢的同時(shí),進(jìn)一步提高了準(zhǔn)確性。它引入了CSPDarknet53、PANet和SAM block等新技術(shù)。
網(wǎng)絡(luò)結(jié)構(gòu):CSPDarknet53作為骨干網(wǎng)絡(luò),PANet用于特征融合,SAM block用于注意力機(jī)制。它還引入了Mish激活函數(shù)和CIOU loss等技術(shù)來提高性能。
改進(jìn)引入了幾種新技術(shù):
1.CSPDarknet53:
CSPDarknet53作為骨干網(wǎng)絡(luò),是YOLOv4的主要組成部分。它基于Darknet53網(wǎng)絡(luò)結(jié)構(gòu),并采用跨階段部分連接(Cross Stage Partial connections, CSP)的策略來提高效率和性能。CSP策略可以有效地降低網(wǎng)絡(luò)前向傳播過程中的內(nèi)存消耗,并且能夠增加信息流動(dòng)性以提升模型表現(xiàn)。
2.PANet:
PANet (Path Aggregation Network) 是用于特征融合的模塊。通過自底向上和自頂向下兩個(gè)路徑進(jìn)行信息交流和融合,PANet可以更好地利用各層次特征圖之間的語義信息,從而提高目標(biāo)檢測精度。
3.SAM block:
SAM (Spatial Attention Module) block 是一個(gè)注意力機(jī)制模塊。通過對輸入特征圖進(jìn)行空間注意力調(diào)制,SAM block 可以強(qiáng)化有價(jià)值區(qū)域(即需要關(guān)注的目標(biāo)位置)并抑制不重要區(qū)域的影響。
4.Mish激活函數(shù):
Mish激活函數(shù)是一個(gè)新型非線性激活函數(shù),在某些任務(wù)上表現(xiàn)出比ReLU和其他常見激活函數(shù)更好的效果。Mish激活函數(shù)能夠保持正值區(qū)域內(nèi)單調(diào)遞增且平滑連續(xù),在負(fù)值區(qū)域則有更大范圍內(nèi)接近零但非零輸出,這使得神經(jīng)元有更大可能在反向傳播時(shí)保持活躍狀態(tài)。

Mish激活函數(shù)的數(shù)學(xué)公式表示為:
Mish ( x ) = x ? tanh ? ( softplus ( x ) ) \text{Mish}(x) = x \cdot \tanh(\text{softplus}(x)) Mish(x)=x?tanh(softplus(x))
其中, softplus ( x ) = log ? ( 1 + e x ) \text{softplus}(x) = \log(1+e^x) softplus(x)=log(1+ex)表示軟正函數(shù)。

5.CIOU loss:
CIOU loss 是一種新型損失函數(shù),相比于原始IoU損失、GIoU損失等方式具有更全面考慮因素包括形狀、大小、位置等多方面差異性評估,并且在訓(xùn)練過程中具備較好穩(wěn)定性。

以下是CIOU損失函數(shù)的數(shù)學(xué)公式表示:

CIOU = 1 ? IoU + d ( g , p ) c 2 + α v \text{CIOU} = 1 - \text{IoU} + \frac{{\textn5n3t3z(g, p)}}{{\text{c}^2}} + \alpha v CIOU=1?IoU+c2d(g,p)?+αv

其中, g g g表示ground truth目標(biāo)框, p p p表示預(yù)測目標(biāo)框, IoU \text{IoU} IoU表示交并比(Intersection over Union), d ( g , p ) \textn5n3t3z(g, p) d(g,p)表示目標(biāo)框之間的距離, c \text{c} c表示對角線長度的歸一化系數(shù), α \alpha α是一個(gè)平衡項(xiàng), v v v表示一個(gè)輔助項(xiàng),用于懲罰預(yù)測框與真實(shí)框之間的偏移和尺度差異。
計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶,計(jì)算機(jī)視覺的應(yīng)用,計(jì)算機(jī)視覺,目標(biāo)檢測,算法,YOLO,改進(jìn)方案

YOLOv5模型

YOLOv5是一種實(shí)時(shí)對象檢測算法,雖然其名稱包含“YOLO”(You Only Look Once),但并非由YOLO原作者Joseph Redmon開發(fā),而是由一個(gè)開源社區(qū)推動(dòng)的項(xiàng)目。盡管其名稱為“v5”,但實(shí)際上并沒有顯著創(chuàng)新或突破。主要是對模型結(jié)構(gòu)進(jìn)行了一些調(diào)整以優(yōu)化速度和精度,并提供了一套完整的訓(xùn)練、檢測、部署工具鏈。
網(wǎng)絡(luò)結(jié)構(gòu)方面,YOLOv5采用類似于YOLOv3/v4的設(shè)計(jì),并在此基礎(chǔ)上做出一些調(diào)整:
1.修改卷積塊配置:
這個(gè)改動(dòng)主要針對網(wǎng)絡(luò)中的卷積層,通過修改各層的配置參數(shù)(如卷積核大小、步長等),可以改變網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而影響模型性能和計(jì)算復(fù)雜度。
添加PANet:PANet(Path Aggregation Network)是一種特征金字塔網(wǎng)絡(luò),它可以有效地聚合多尺度、多級別的特征信息。通過引入PANet,可以提高模型對于不同尺寸目標(biāo)的識別能力。
2.微調(diào)優(yōu)化速度和精度:
開發(fā)者對模型進(jìn)行了大量微調(diào)操作以優(yōu)化其運(yùn)行速度和預(yù)測精度。這包括但不限于選擇更適合任務(wù)需求的激活函數(shù)、損失函數(shù);修改學(xué)習(xí)率策略;使用數(shù)據(jù)增強(qiáng)技術(shù)等。
提供全面且易于使用的工具鏈:這包括自動(dòng)超參數(shù)搜索功能,用戶只需要設(shè)定搜索范圍和目標(biāo)評價(jià)指標(biāo)即可自動(dòng)找到最佳超參數(shù)組合;模型剪枝功能,則可以幫助用戶去除模型中冗余或效果不明顯的部分以減小模型大小并提高運(yùn)行速率。
3.Focus模塊:
YOLOv5引入了Focus模塊,它是一種輕量級的卷積結(jié)構(gòu),用于替代YOLOv4中的下采樣操作。Focus模塊可以在減少特征圖尺寸的同時(shí)保留更多的信息,從而提高了小目標(biāo)的檢測性能和精度。
計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶,計(jì)算機(jī)視覺的應(yīng)用,計(jì)算機(jī)視覺,目標(biāo)檢測,算法,YOLO,改進(jìn)方案文章來源地址http://www.zghlxwxcb.cn/news/detail-732483.html

到了這里,關(guān)于計(jì)算機(jī)視覺的應(yīng)用14-目標(biāo)檢測經(jīng)典算法之YOLOv1-YOLOv5的模型架構(gòu)與改進(jìn)過程詳解,便于記憶的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包