国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò)

2年前作者：慕溪同學(xué)分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
【yolov1：背景介紹與算法精講】

一、回顧yolov1

為什么要提出yolov2呢，因?yàn)閥olov1在目標(biāo)檢測過程中存在很多缺陷，并且在檢測性能方面還需要有很大提升，yolov1算法缺點(diǎn)如下：

1.定位性能較差：一方面是下采樣太多會(huì)導(dǎo)致空間信息的缺失，所以信息是粗粒度的。另外一方面生成的bbox大小是不受限制的。
2.recall召回率比較差：YOLOv1在預(yù)測過程中只預(yù)測一個(gè)邊界框，而不是多個(gè)尺度或形狀的邊界框。這種設(shè)計(jì)使得YOLOv1對目標(biāo)的位置相對敏感。如果目標(biāo)物體的中心位置不在預(yù)測的網(wǎng)格單元中，模型可能會(huì)難以準(zhǔn)確地檢測到目標(biāo)。
3.檢測小目標(biāo)和密集目標(biāo)性能比較差：v1中的圖像被劃分為7x7個(gè)grid cell,每個(gè)網(wǎng)格只能預(yù)測一個(gè)類別，所以一張圖片最多預(yù)測48個(gè)類別，每個(gè)網(wǎng)格太大，無法精準(zhǔn)預(yù)測小目標(biāo)物體。
4.雖然速度快，但是map準(zhǔn)確度比較低：YOLOv1僅在一個(gè)尺度上進(jìn)行目標(biāo)檢測，無法充分利用多尺度信息。多尺度特征融合可以幫助模型更好地捕捉不同尺度目標(biāo)的特征，提高檢測的準(zhǔn)確性。因此，YOLOv1在處理不同尺度目標(biāo)時(shí)可能表現(xiàn)較差，導(dǎo)致mAP值低下。

一個(gè)cell單元只能屬于一個(gè)類，如果一個(gè)cell單元里面存在兩個(gè)物體，只能預(yù)測一種類別，下面是以一個(gè)cell為中心點(diǎn)生成的紅和綠bounding box框，紅色框?yàn)楣奉?，綠色框中為一個(gè)鳥，如果已經(jīng)預(yù)測該cell為狗了，則無法識(shí)別綠色框中的鳥。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

二、yolov2詳細(xì)講解

YOLOv2相對v1版本，在繼續(xù)保持處理速度的基礎(chǔ)上，從預(yù)測更準(zhǔn)確（Better），速度更快（Faster），識(shí)別對象更多（Stronger）這三個(gè)方面進(jìn)行了改進(jìn)。其中識(shí)別更多對象也就是擴(kuò)展到能夠檢測9000種不同對象，稱之為YOLO9000。

YOLOv2的提出是盡可能的去解決v1中無法解決的難題。yolov2是在2016年提出來的，發(fā)布在CVPR2017上，主要?jiǎng)?chuàng)新點(diǎn)集中在原文中的Better章節(jié)里面，原文鏈接：yolo9000論文
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

2.1 Better部分創(chuàng)新點(diǎn)

YOLOv2的Better部分主要的創(chuàng)新點(diǎn)可以歸納為以下幾項(xiàng)：

Batch Normalization—批量歸一化處理
High Resolution Classifier—高分辨率分類器
Anchor Boxes—錨框
Dimension Clusters—數(shù)據(jù)集標(biāo)準(zhǔn)框的長寬進(jìn)行聚類
Direct location prediction—位置預(yù)測
Fine-Grained Features—細(xì)粒度特征
Multi-Scale Training—多尺度訓(xùn)練

下面這個(gè)表列出了從 YOLO 到 YOLOv2不同改進(jìn)方法對mAP值的提升效果。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

（1）Batch Normalization(批量歸一化)

批量歸一化可顯著提高收斂性，同時(shí)消除對其他形式正則化的需要。通過在 YOLO 中的所有卷積層上添加批量歸一化，我們的 mAP 提高了 2% 以上。批量歸一化還有助于規(guī)范模型。通過批量歸一化，我們可以從模型中刪除 dropout，而不會(huì)過度擬合。

BN的提出最開始是要解決ICS現(xiàn)象，那么什么是ICS現(xiàn)象呢？從下面這幅圖理解，我們神經(jīng)網(wǎng)絡(luò)是累乘的形式，當(dāng)中間的乘積出現(xiàn)增加或者減少的情況，會(huì)導(dǎo)致梯度爆炸或者梯度消失的現(xiàn)象。

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

內(nèi)部協(xié)變量偏移（Internal Covariate Shift）是深度學(xué)習(xí)中一個(gè)常見的問題。它指的是在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中，網(wǎng)絡(luò)的每一層輸入分布的變化導(dǎo)致模型難以訓(xùn)練的情況。這種現(xiàn)象通常在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中出現(xiàn)，尤其是在使用批量歸一化（Batch Normalization）等技術(shù)之前。

使用BN之后有以下優(yōu)點(diǎn)：

可以用更大學(xué)習(xí)率，加速模型收斂，如果學(xué)習(xí)率過大，會(huì)導(dǎo)致梯度的遞增，從而導(dǎo)致模型無法訓(xùn)練，使用BN之后可以使用較大的學(xué)習(xí)率，從而加速學(xué)習(xí)率的收斂；
可以不用精心設(shè)計(jì)權(quán)值初始化：因?yàn)閿?shù)據(jù)的尺度可能會(huì)逐漸的變大或者變小，從而導(dǎo)致梯度激增或者減小，使用BN可以規(guī)范我們的數(shù)據(jù)尺度；
可以不用dropout或較小的dropout：在實(shí)驗(yàn)過程中得到的結(jié)果；
可以不用L2或者較小的weight decay：實(shí)驗(yàn)所得；
可以不用LRN(local response normalization)：對數(shù)據(jù)尺度進(jìn)行規(guī)范

BN層原理
說通俗點(diǎn)就是將我們的輸入的批量數(shù)據(jù)給歸一化到0均值，1標(biāo)準(zhǔn)差，首先計(jì)算mini-batch的平均值，再計(jì)算方差，然進(jìn)行normalize(減均值除以標(biāo)準(zhǔn)差操作)，完成0均值，1標(biāo)準(zhǔn)差，最后再進(jìn)行affine transform縮放和位移；
關(guān)于批量歸一化的詳細(xì)解釋和實(shí)驗(yàn)可以參考該博客：正則化(weight_decay、dropout、Batch Normalization)
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

注意：均值、方差采用指數(shù)加權(quán)平均計(jì)算得來，測試時(shí)候采用當(dāng)前統(tǒng)計(jì)值；
γ、β是在模型訓(xùn)練過程中計(jì)算出來的，會(huì)發(fā)生變化；

（2）High Resolution Classifier—高分辨率分類器

所有最先進(jìn)的檢測方法都使用在 ImageNet上預(yù)訓(xùn)練的分類器。從 AlexNet 開始，大多數(shù)分類器對小于 256 × 256 的輸入圖像進(jìn)行操作。最初的YOLOV1以224×224訓(xùn)練分類器網(wǎng)絡(luò)，并將分辨率提高到448進(jìn)行檢測。這意味著網(wǎng)絡(luò)必須同時(shí)切換到學(xué)習(xí)對象檢測并適應(yīng)新的輸入分辨率。由于訓(xùn)練階段和測試階段輸入圖像的尺寸大小不一致，這會(huì)對模型產(chǎn)生一定的影響，所以在YOLOV2中，我們的訓(xùn)練階段和測試階段的圖像大小尺寸保持了一致，都為448x448。

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
對于 YOLOv2，首先在 ImageNet 上以全 448×448 分辨率微調(diào)分類網(wǎng)絡(luò)訓(xùn)練 10 個(gè) epoch。這使得網(wǎng)絡(luò)有時(shí)間調(diào)整其濾波器，讓網(wǎng)絡(luò)逐漸去適應(yīng)448x448分辨率的圖像，以便在更高分辨率的輸入上更好地工作。然后我們在檢測時(shí)使用同樣分辨率的圖像，這樣就能減輕圖像分辨率突然切換所帶來的影響。這個(gè)高分辨率分類網(wǎng)絡(luò)使mAP值增加了近 4%。

（3）Anchor Boxes—錨框

借鑒Faster RCNN的做法，YOLO2也嘗試采用先驗(yàn)框（anchor）。在每個(gè)grid預(yù)先設(shè)定一組不同大小和寬高比的邊框，來覆蓋整個(gè)圖像的不同位置和多種尺度，這些先驗(yàn)框作為預(yù)定義的候選區(qū)在神經(jīng)網(wǎng)絡(luò)中將檢測其中是否存在對象，以及微調(diào)邊框的位置。這樣的方法使得召回率大幅提升到88%，同時(shí)mAP輕微下降了0.2。

之前YOLO1并沒有采用先驗(yàn)框，并且每個(gè)grid只預(yù)測兩個(gè)bounding box，整個(gè)圖像98個(gè)，yolov1生成的2個(gè)bounding box是隨機(jī)尺度，不受限制，生成的bbox可能很大也可能很小，這樣會(huì)導(dǎo)致很多bbox無法使用；如果bbox太大，預(yù)測的物體太小，需要經(jīng)過多次調(diào)整才能達(dá)到合適的大小。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolov1的bbox尺寸沒有任何限制，完全就是野蠻生長，會(huì)導(dǎo)致很多bbox太大或者太小，YOLOv2使用anchor之后可以指定我們錨框的長寬大小。YOLO2每個(gè)grid采用5個(gè)先驗(yàn)框，總共有13135=845個(gè)先驗(yàn)框，在訓(xùn)練過程中，我們只使用與標(biāo)注框IOU最大的anchor進(jìn)行擬合。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

YOLOv2中移除了全連接層，并使用錨定框來預(yù)測邊界框。首先，消除一個(gè)池化層，使網(wǎng)絡(luò)的卷積層的輸出具有更高的分辨率。還將網(wǎng)絡(luò)縮小到416個(gè)輸入圖像，而不是448×448。這樣做是因?yàn)橄胍谔卣鲌D中有奇數(shù)個(gè)位置所以只有一個(gè)中心單元格。物體，尤其是大的物體，往往占據(jù)圖像的中心，所以最好在圖像中心有一個(gè)位置來預(yù)測這些物體，而不是四個(gè)位置都在附近。YOLO的卷積層對圖像進(jìn)行了32倍的采樣，所以通過使用416的輸入圖像，得到了13 × 13的輸出特征圖，所以在訓(xùn)練階段改成了416x416尺寸的圖像。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

如果沒有錨框，YOLOv1模型的 mAP 為 69.5，召回率為 81%。使用錨框，我們的模型獲得了 69.2 mAP，召回率為 88%。盡管 mAP 下降，但召回率的增加意味著我們的模型還有更大的改進(jìn)空間。recall增加了，導(dǎo)致precision降低了(因?yàn)轭A(yù)測框的個(gè)數(shù)大大增加了，無用的框太多了。)

（4）Dimension Clusters—數(shù)據(jù)集標(biāo)準(zhǔn)框的長寬進(jìn)行聚類

在將錨框與 YOLO 一起使用時(shí)，遇到了兩個(gè)問題。首先，bbox尺寸是手工挑選的。網(wǎng)絡(luò)可以學(xué)習(xí)適當(dāng)?shù)卣{(diào)整框，但如果我們?yōu)榫W(wǎng)絡(luò)選擇更好的先驗(yàn)框，我們可以使網(wǎng)絡(luò)更容易學(xué)習(xí)并且預(yù)測良好的結(jié)果。

之前先驗(yàn)框都是手工設(shè)定的，YOLO2嘗試統(tǒng)計(jì)出更符合樣本中對象尺寸的先驗(yàn)框，這樣就可以減少網(wǎng)絡(luò)微調(diào)先驗(yàn)框到實(shí)際位置的難度。YOLO2的做法是對訓(xùn)練集中標(biāo)注的邊框進(jìn)行聚類分析，以尋找盡可能匹配樣本的邊框尺寸。

如果選取anchor的數(shù)量和尺寸使用的是k-means聚類方法，聚類算法最重要的是選擇如何計(jì)算兩個(gè)邊框之間的“距離”，對于常用的歐式距離，大邊框會(huì)產(chǎn)生更大的誤差，但我們關(guān)心的是邊框的IOU。所以，YOLO2在聚類時(shí)采用以下公式來計(jì)算兩個(gè)邊框之間的“距離”。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
在 VOC 和 COCO 上對框尺寸進(jìn)行聚類。在邊界框的尺寸上運(yùn)行 k 均值聚類，以獲得模型的良好先驗(yàn)。左圖顯示了在 k 的各種選擇下得到的平均 IOU。 k = 5 可以很好地權(quán)衡模型的召回率和復(fù)雜性。右圖顯示了 VOC 和 COCO 的相對質(zhì)心。 COCO 的尺寸變化比 VOC 更大。

通過聚類圖可以發(fā)現(xiàn)，雖然anchor越多 AVG IOU的值越高，但是這會(huì)增加網(wǎng)絡(luò)訓(xùn)練過程中的負(fù)擔(dān)，無用的框越多會(huì)導(dǎo)致模型精度的降低。

（5）Direct location prediction—位置預(yù)測

當(dāng)將錨框與 YOLO 一起使用時(shí)，遇到第二個(gè)問題是：模型不穩(wěn)定，尤其是在早期迭代期間。大多數(shù)不穩(wěn)定性來自于預(yù)測盒子的 (x, y) 位置。在區(qū)域提議網(wǎng)絡(luò)中，網(wǎng)絡(luò)預(yù)測值 tx 和 ty，并且 (x, y) 中心坐標(biāo)計(jì)算如下：
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

由于tx和ty的取值沒有任何約束，因此預(yù)測邊框的中心可能出現(xiàn)在任何位置，訓(xùn)練早期階段不容易穩(wěn)定。YOLOV2調(diào)整了預(yù)測公式，使用sigmoid激活函數(shù)將預(yù)測的偏移量規(guī)范在0 和 1 之間，將預(yù)測邊框的中心約束在特定gird網(wǎng)格內(nèi)，公式如下：
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

參考上圖，由于σ函數(shù)將tx和ty約束在(0,1)范圍內(nèi)，所以根據(jù)上面的計(jì)算公式，預(yù)測邊框的藍(lán)色中心點(diǎn)被約束在黃色背景的網(wǎng)格內(nèi)。約束邊框位置使得模型更容易學(xué)習(xí)，且預(yù)測更為穩(wěn)定。由于限制了位置預(yù)測，因此參數(shù)化更容易學(xué)習(xí)，從而使網(wǎng)絡(luò)更加穩(wěn)定。使用維度聚類并直接預(yù)測邊界框中心位置，與使用錨框的版本相比，YOLO 提高了近 5%。

（6）Fine-Grained Features—細(xì)粒度特征

對于目標(biāo)檢測而言，一個(gè)常見問題是輸入圖像中的對象大小各異。在經(jīng)過多層卷積網(wǎng)絡(luò)提取特征后，最終輸出的特征圖（如YOLOv2中的13x13）可能已經(jīng)無法準(zhǔn)確捕捉較小對象的特征，甚至可能忽略它們。為了更好地檢測小尺寸的對象，需要在最終輸出的特征圖中保留更豐富的細(xì)節(jié)信息。

為了解決這個(gè)問題，YOLOv2引入了一種稱為"passthrough層"的方法，用于在特征圖中保留細(xì)節(jié)信息。具體而言，在最后一個(gè)池化層之前，特征圖的尺寸為26x26x512。通過將特征圖進(jìn)行1拆4的操作，將其直接傳遞（passthrough）到經(jīng)過池化后（并經(jīng)過一組卷積操作）的特征圖上，然后將兩者疊加在一起作為輸出的特征圖，拼接成為13x13x3072的特征圖。

通過這種方式，YOLOv2可以將較低層級的特征信息與較高層級的特征信息相結(jié)合，使得輸出的特征圖能夠同時(shí)包含更多的上下文信息和細(xì)節(jié)信息。這樣一來，YOLOv2在檢測小尺寸對象時(shí)會(huì)更加準(zhǔn)確，因?yàn)榧?xì)粒度的特征得到了保留和利用。這種passthrough層的引入提高了YOLOv2的目標(biāo)檢測性能，尤其是對于小尺寸對象的檢測。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
具體特征圖是如何1拆4的呢，可以參考下面這張圖片，假設(shè)下面是一個(gè)3通道的特征圖，尺寸是4X4的，拆分之后變成12通道的2x2特征圖，面積變?yōu)樵瓉淼?/4，通道數(shù)變?yōu)樵瓉淼?倍。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

（7）Multi-Scale Training—多尺度訓(xùn)練

我們先看一下原文是怎么說的：原始YOLO使用的輸入分辨率為448×448。通過添加錨框，我們將分辨率更改為416×416。然而，由于我們的模型僅使用卷積層和池化層，因此可以動(dòng)態(tài)調(diào)整大小。我們希望 YOLOv2 能夠在不同大小的圖像上運(yùn)行，因此我們將其訓(xùn)練到模型中。我們不是固定輸入圖像的大小，而是每隔幾次迭代就改變網(wǎng)絡(luò)。

我們的網(wǎng)絡(luò)每 10 個(gè)批次隨機(jī)選擇新的圖像尺寸。由于我們的模型按 32 倍下采樣，因此我們從以下 32 的倍數(shù)中提?。簕320, 352, …, 608}。因此，最小的選項(xiàng)是 320×320，最大的選項(xiàng)是 608×608。我們將網(wǎng)絡(luò)大小調(diào)整到該尺寸并繼續(xù)訓(xùn)練。

使用這種方法在低分辨率下，YOLOv2 作為一種廉價(jià)且相當(dāng)準(zhǔn)確的檢測器運(yùn)行。在 288×288 分辨率下，它的運(yùn)行速度超過 90 FPS，mAP 幾乎與 Fast R-CNN 一樣好。這使得它非常適合較小的 GPU、高幀率視頻或多視頻流。

注意：為什么yolov1沒辦法實(shí)現(xiàn)多尺度訓(xùn)練，這是由于網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致的，因?yàn)閥olov1網(wǎng)絡(luò)中有兩個(gè)全連接層，導(dǎo)致我們輸入的尺寸必須固定為224x224，但是YOLOv2采用全卷積網(wǎng)絡(luò)結(jié)構(gòu)，沒有全連接層。這使得網(wǎng)絡(luò)能夠接受不同尺寸的輸入圖片，因?yàn)榫矸e層不關(guān)心輸入圖像的維度，而是在整個(gè)圖像上執(zhí)行卷積操作。所以輸入任何尺寸的圖像都能進(jìn)行訓(xùn)練。 Darknet-19網(wǎng)絡(luò)結(jié)構(gòu)圖如下。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

使用不同尺度訓(xùn)練得到的mAP和實(shí)時(shí)檢測FPS如下，使用了多尺度訓(xùn)練YOLOV2mAP值最高，也達(dá)到了實(shí)時(shí)檢測的FPS：
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

2.2 Faster快速訓(xùn)練創(chuàng)新

VGG-16
大多數(shù)檢測框架依賴 VGG-16 作為基本特征提取器。 VGG-16 是一個(gè)強(qiáng)大、準(zhǔn)確的分類網(wǎng)絡(luò)，但它過于復(fù)雜。 VGG-16 的卷積層需要 306.9 億次浮點(diǎn)運(yùn)算才能以 224 × 224 分辨率處理單個(gè)圖像，下圖是VGG-16的網(wǎng)絡(luò)參數(shù)圖，光三個(gè)全連接層所占的參數(shù)都將近70M。YOLO 的自定義模型在 ImageNet 上的準(zhǔn)確率達(dá)到 88.0%，而 VGG-16 的準(zhǔn)確率為 90.0%。
yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

Darknet-19
與 VGG 模型類似，我們主要使用 3 × 3 濾波器，并在每個(gè)池化步驟后將通道數(shù)量加倍 [17]。繼 Network in Network (NIN) 的工作之后，我們使用全局平均池化進(jìn)行預(yù)測，并使用 1 × 1 濾波器來壓縮 3 × 3 卷積之間的特征表示，最終模型稱為 Darknet-19，具有 19 個(gè)卷積層和 5 個(gè)最大池層。Darknet-19 僅需要 55.8 億次操作來處理圖像，卻在 ImageNet 上實(shí)現(xiàn)了 72.9% 的 top-1 準(zhǔn)確率和 91.2% 的 top-5 準(zhǔn)確率。

YOLOV2的輸入與輸出

圖像尺寸從4164163 變換到 13135*25，一共劃分了13x13個(gè)grid cell，每個(gè)grid cell設(shè)置5個(gè)anchor，去掉了全連接層，采用了5個(gè)先驗(yàn)框，每個(gè)anchor有邊框坐標(biāo)（x,y,w,h）+1個(gè)邊框置信度+20個(gè)類別。

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

2.3 Stronger更強(qiáng)的網(wǎng)絡(luò)改進(jìn)

該部分主要是提出了一種對分類和檢測數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練的機(jī)制。該方法使用標(biāo)記為檢測的圖像來學(xué)習(xí)特定于檢測的信息，例如邊界框坐標(biāo)預(yù)測和對象性以及如何對常見對象進(jìn)行分類。它使用僅具有類標(biāo)簽的圖像來擴(kuò)展它可以檢測的類別數(shù)量。

在訓(xùn)練期間，混合來自檢測和分類數(shù)據(jù)集的圖像。當(dāng)網(wǎng)絡(luò)看到標(biāo)記為檢測的圖像時(shí)，可以基于完整的 YOLOv2 損失函數(shù)進(jìn)行反向傳播。當(dāng)它看到分類圖像時(shí)，僅從架構(gòu)的分類特定部分反向傳播損失。也就是不同的數(shù)據(jù)集用不同的損失函數(shù)。

該方法的初衷是非常好的，但是存在以下局限性，所以后面也不使用該方法進(jìn)行模型訓(xùn)練：

類別不平衡：聯(lián)合訓(xùn)練可能導(dǎo)致分類和檢測兩個(gè)任務(wù)之間的類別不平衡。一些類別可能在分類任務(wù)中有大量的樣本，而在檢測任務(wù)中只有少數(shù)樣本，或者反之。這可能導(dǎo)致模型在某些類別上過度擬合或欠擬合。
標(biāo)簽噪聲：聯(lián)合訓(xùn)練中的標(biāo)簽可能存在噪聲。分類任務(wù)和檢測任務(wù)通常涉及到不同的數(shù)據(jù)集和標(biāo)注方式，這可能導(dǎo)致標(biāo)簽的不一致性和噪聲，進(jìn)而影響模型的性能。
訓(xùn)練復(fù)雜性：聯(lián)合訓(xùn)練引入了兩個(gè)不同任務(wù)的訓(xùn)練，增加了訓(xùn)練的復(fù)雜性。需要調(diào)整不同任務(wù)的損失函數(shù)權(quán)重，確保兩者在訓(xùn)練過程中能夠平衡地更新模型參數(shù)。
資源需求：聯(lián)合訓(xùn)練通常需要更多的計(jì)算資源和時(shí)間，因?yàn)樾枰瑫r(shí)處理分類和檢測任務(wù)。這可能對硬件和訓(xùn)練時(shí)間的要求提出了一定的挑戰(zhàn)。
不同尺度的任務(wù)結(jié)合：分類和檢測任務(wù)可能在不同的尺度上具有不同的難度。某些類別可能在小尺度上容易識(shí)別，而在大尺度上較難，反之亦然。聯(lián)合訓(xùn)練要求模型在不同尺度上具有良好的泛化能力，這可能增加了訓(xùn)練的難度。

yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo 文章來源地址http://www.zghlxwxcb.cn/news/detail-804023.html

到了這里，關(guān)于yolo9000：Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò)的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

目標(biāo)檢測網(wǎng)絡(luò)系列——YOLO V1
2024年02月07日
瀏覽(19)
【pytorch】目標(biāo)檢測：YOLO的基本原理與YOLO系列的網(wǎng)絡(luò)結(jié)構(gòu)
利用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測的算法可分為兩類：two-stage和one-stage。two-stage類的算法，是基于Region Proposal的，它包括R-CNN，F(xiàn)ast R-CNN, Faster R-CNN；one-stage類的算法僅僅使用一個(gè)CNN網(wǎng)絡(luò)直接預(yù)測不同目標(biāo)的類別與位置，它包括YOLO系列算法、SSD算法。two-stage類算法精度高，但速度慢，
2024年02月12日
瀏覽(21)
經(jīng)典目標(biāo)檢測神經(jīng)網(wǎng)絡(luò) - RCNN、SSD、YOLO
目標(biāo)檢測算法主要分兩類：One-Stage與Two-Stage。One-Stage與Two-Stage是兩種不同的思路，其各有各的優(yōu)缺點(diǎn)。 One-Stage ????主要思路：直接通過卷積神經(jīng)網(wǎng)絡(luò)提取特征，預(yù)測目標(biāo)的分類與定位； Two-Stage ????主要思路：先進(jìn)行區(qū)域生成，即生成候選區(qū)域（Region Proposal），在通
2024年02月08日
瀏覽(18)
第六章:YOLO v1網(wǎng)絡(luò)詳解(統(tǒng)一的實(shí)時(shí)目標(biāo)檢測)
文章目錄系列文章目錄技術(shù)干貨集錦前言一、摘要二、正文分析 1.引入庫 2.讀入數(shù)據(jù) 總結(jié) 我們提出了YOLO，一種新的目標(biāo)檢測方法。之前的目標(biāo)檢測工作將分類器重新用于檢測。相反，我們將目標(biāo)檢測視為一個(gè)回歸問題，用于空間分離的邊界框和相關(guān)類別概率。一個(gè)單一
2024年02月13日
瀏覽(13)
突破極限：YOLO9000 論文解讀 - 構(gòu)建更好、更快、更強(qiáng)大的實(shí)時(shí)檢測系統(tǒng)
YOLOv2 論文全篇完整翻譯摘要我們介紹了 YOLO9000 ，這是一種先進(jìn)的、實(shí)時(shí)的目標(biāo)檢測系統(tǒng)，可以檢測超過 9000 個(gè)物體類別。首先，我們對 YOLO 檢測方法進(jìn)行了各種改進(jìn)，包括新穎的方法和借鑒自先前工作的方法。改進(jìn)后的模型 YOLOv2 在標(biāo)準(zhǔn)的檢測任務(wù)（如 PASCAL VOC 和 COCO ）上
2024年02月06日
瀏覽(24)
目標(biāo)檢測改進(jìn)系列1：yolo v5網(wǎng)絡(luò)中OTA損失函數(shù)替換
標(biāo)簽分配（Label Assignment）標(biāo)簽分配策略是對訓(xùn)練過程中各個(gè)Anchor劃分正負(fù)屬性，并分配各自學(xué)習(xí)目標(biāo)的策略方法，在整體上通過標(biāo)簽是否是非負(fù)即正可以分為硬標(biāo)簽分配和軟標(biāo)簽分配。其中，硬標(biāo)簽分配可以分成靜態(tài)分配策略和動(dòng)態(tài)分配策略兩類。動(dòng)態(tài) 靜態(tài)分配策略靜態(tài)標(biāo)
2024年02月13日
瀏覽(33)
目標(biāo)檢測YOLO實(shí)戰(zhàn)應(yīng)用案例100講-基于卷積神經(jīng)網(wǎng)絡(luò)的車輛目標(biāo)檢測及跟蹤方法研究（續(xù)）
目錄基于JDE算法的實(shí)時(shí)多目標(biāo)車輛跟蹤方法 4.1引言 4.2 JDE多目標(biāo)跟蹤算法
2024年02月09日
瀏覽(25)
ConvNeXt網(wǎng)絡(luò)詳解，最新ConvNeXt結(jié)合YOLO，催生YOLOv5目標(biāo)檢測巨變
2023年05月20日
瀏覽(15)
Drone-Yolo:一種高效的無人機(jī)圖像目標(biāo)檢測神經(jīng)網(wǎng)絡(luò)方法
https://www.mdpi.com/2504-446X/7/8/526 在各種研究領(lǐng)域中，對無人機(jī)的圖像進(jìn)行目標(biāo)檢測是一項(xiàng)有意義的任務(wù)。然而，無人機(jī)的圖像帶來了獨(dú)特的挑戰(zhàn)，包括圖像尺寸大、檢測對象尺寸小、對象密集分布、對象重疊以及光線不足影響目標(biāo)檢測的準(zhǔn)確性。本文提出了Drone-YOLO，這是一系列
2024年02月04日
瀏覽(18)
目標(biāo)檢測算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3，yoloV4,yoloV5,yoloV6，yoloV7）
深度學(xué)習(xí)目前已經(jīng)應(yīng)用到了各個(gè)領(lǐng)域，應(yīng)用場景大體分為三類：物體識(shí)別，目標(biāo)檢測，自然語言處理。目標(biāo)檢測可以理解為是物體識(shí)別和物體定位的綜合，不僅僅要識(shí)別出物體屬于哪個(gè)分類，更重要的是得到物體在圖片中的具體位置。為了完成這兩個(gè)任務(wù)，目標(biāo)檢測模型分
2024年02月02日
瀏覽(27)

<tt id="lriv9"><meter id="lriv9"><samp id="lriv9"></samp></meter></tt>