国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò)

這篇具有很好參考價(jià)值的文章主要介紹了yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
【yolov1:背景介紹與算法精講】

一、回顧yolov1

為什么要提出yolov2呢,因?yàn)閥olov1在目標(biāo)檢測過程中存在很多缺陷,并且在檢測性能方面還需要有很大提升,yolov1算法缺點(diǎn)如下:

  • 1.定位性能較差:一方面是下采樣太多會(huì)導(dǎo)致空間信息的缺失,所以信息是粗粒度的。另外一方面生成的bbox大小是不受限制的。
  • 2.recall召回率比較差:YOLOv1在預(yù)測過程中只預(yù)測一個(gè)邊界框,而不是多個(gè)尺度或形狀的邊界框。這種設(shè)計(jì)使得YOLOv1對目標(biāo)的位置相對敏感。如果目標(biāo)物體的中心位置不在預(yù)測的網(wǎng)格單元中,模型可能會(huì)難以準(zhǔn)確地檢測到目標(biāo)。
  • 3.檢測小目標(biāo)和密集目標(biāo)性能比較差:v1中的圖像被劃分為7x7個(gè)grid cell,每個(gè)網(wǎng)格只能預(yù)測一個(gè)類別,所以一張圖片最多預(yù)測48個(gè)類別,每個(gè)網(wǎng)格太大,無法精準(zhǔn)預(yù)測小目標(biāo)物體。
  • 4.雖然速度快,但是map準(zhǔn)確度比較低:YOLOv1僅在一個(gè)尺度上進(jìn)行目標(biāo)檢測,無法充分利用多尺度信息。多尺度特征融合可以幫助模型更好地捕捉不同尺度目標(biāo)的特征,提高檢測的準(zhǔn)確性。因此,YOLOv1在處理不同尺度目標(biāo)時(shí)可能表現(xiàn)較差,導(dǎo)致mAP值低下。

一個(gè)cell單元只能屬于一個(gè)類,如果一個(gè)cell單元里面存在兩個(gè)物體,只能預(yù)測一種類別,下面是以一個(gè)cell為中心點(diǎn)生成的紅和綠bounding box框,紅色框?yàn)楣奉?,綠色框中為一個(gè)鳥,如果已經(jīng)預(yù)測該cell為狗了,則無法識(shí)別綠色框中的鳥。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

二、yolov2詳細(xì)講解

YOLOv2相對v1版本,在繼續(xù)保持處理速度的基礎(chǔ)上,從預(yù)測更準(zhǔn)確(Better),速度更快(Faster),識(shí)別對象更多(Stronger)這三個(gè)方面進(jìn)行了改進(jìn)。其中識(shí)別更多對象也就是擴(kuò)展到能夠檢測9000種不同對象,稱之為YOLO9000。

YOLOv2的提出是盡可能的去解決v1中無法解決的難題。yolov2是在2016年提出來的,發(fā)布在CVPR2017上,主要?jiǎng)?chuàng)新點(diǎn)集中在原文中的Better章節(jié)里面,原文鏈接:yolo9000論文
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

2.1 Better部分創(chuàng)新點(diǎn)

YOLOv2的Better部分主要的創(chuàng)新點(diǎn)可以歸納為以下幾項(xiàng):

  1. Batch Normalization—批量歸一化處理
  2. High Resolution Classifier—高分辨率分類器
  3. Anchor Boxes—錨框
  4. Dimension Clusters—數(shù)據(jù)集標(biāo)準(zhǔn)框的長寬進(jìn)行聚類
  5. Direct location prediction—位置預(yù)測
  6. Fine-Grained Features—細(xì)粒度特征
  7. Multi-Scale Training—多尺度訓(xùn)練

下面這個(gè)表列出了從 YOLO 到 YOLOv2不同改進(jìn)方法對mAP值的提升效果。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

(1)Batch Normalization(批量歸一化)

批量歸一化可顯著提高收斂性,同時(shí)消除對其他形式正則化的需要。通過在 YOLO 中的所有卷積層上添加批量歸一化,我們的 mAP 提高了 2% 以上。批量歸一化還有助于規(guī)范模型。通過批量歸一化,我們可以從模型中刪除 dropout,而不會(huì)過度擬合。

BN的提出最開始是要解決ICS現(xiàn)象,那么什么是ICS現(xiàn)象呢?從下面這幅圖理解,我們神經(jīng)網(wǎng)絡(luò)是累乘的形式,當(dāng)中間的乘積出現(xiàn)增加或者減少的情況,會(huì)導(dǎo)致梯度爆炸或者梯度消失的現(xiàn)象。

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

內(nèi)部協(xié)變量偏移(Internal Covariate Shift)是深度學(xué)習(xí)中一個(gè)常見的問題。它指的是在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,網(wǎng)絡(luò)的每一層輸入分布的變化導(dǎo)致模型難以訓(xùn)練的情況。這種現(xiàn)象通常在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中出現(xiàn),尤其是在使用批量歸一化(Batch Normalization)等技術(shù)之前。

使用BN之后有以下優(yōu)點(diǎn):

  • 可以用更大學(xué)習(xí)率,加速模型收斂,如果學(xué)習(xí)率過大,會(huì)導(dǎo)致梯度的遞增,從而導(dǎo)致模型無法訓(xùn)練,使用BN之后可以使用較大的學(xué)習(xí)率,從而加速學(xué)習(xí)率的收斂;
  • 可以不用精心設(shè)計(jì)權(quán)值初始化:因?yàn)閿?shù)據(jù)的尺度可能會(huì)逐漸的變大或者變小,從而導(dǎo)致梯度激增或者減小,使用BN可以規(guī)范我們的數(shù)據(jù)尺度;
  • 可以不用dropout或較小的dropout:在實(shí)驗(yàn)過程中得到的結(jié)果;
  • 可以不用L2或者較小的weight decay:實(shí)驗(yàn)所得;
  • 可以不用LRN(local response normalization):對數(shù)據(jù)尺度進(jìn)行規(guī)范

BN層原理
說通俗點(diǎn)就是將我們的輸入的批量數(shù)據(jù)給歸一化到0均值,1標(biāo)準(zhǔn)差,首先計(jì)算mini-batch的平均值,再計(jì)算方差,然進(jìn)行normalize(減均值除以標(biāo)準(zhǔn)差操作),完成0均值,1標(biāo)準(zhǔn)差,最后再進(jìn)行affine transform縮放和位移;
關(guān)于批量歸一化的詳細(xì)解釋和實(shí)驗(yàn)可以參考該博客:正則化(weight_decay、dropout、Batch Normalization)
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

注意:均值、方差采用指數(shù)加權(quán)平均計(jì)算得來,測試時(shí)候采用當(dāng)前統(tǒng)計(jì)值;
γ、β是在模型訓(xùn)練過程中計(jì)算出來的,會(huì)發(fā)生變化;

(2)High Resolution Classifier—高分辨率分類器

所有最先進(jìn)的檢測方法都使用在 ImageNet上預(yù)訓(xùn)練的分類器。從 AlexNet 開始,大多數(shù)分類器對小于 256 × 256 的輸入圖像進(jìn)行操作。最初的YOLOV1以224×224訓(xùn)練分類器網(wǎng)絡(luò),并將分辨率提高到448進(jìn)行檢測。這意味著網(wǎng)絡(luò)必須同時(shí)切換到學(xué)習(xí)對象檢測并適應(yīng)新的輸入分辨率。由于訓(xùn)練階段和測試階段輸入圖像的尺寸大小不一致,這會(huì)對模型產(chǎn)生一定的影響,所以在YOLOV2中,我們的訓(xùn)練階段和測試階段的圖像大小尺寸保持了一致,都為448x448。

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
對于 YOLOv2,首先在 ImageNet 上以全 448×448 分辨率微調(diào)分類網(wǎng)絡(luò)訓(xùn)練 10 個(gè) epoch。這使得網(wǎng)絡(luò)有時(shí)間調(diào)整其濾波器,讓網(wǎng)絡(luò)逐漸去適應(yīng)448x448分辨率的圖像,以便在更高分辨率的輸入上更好地工作。然后我們在檢測時(shí)使用同樣分辨率的圖像,這樣就能減輕圖像分辨率突然切換所帶來的影響。這個(gè)高分辨率分類網(wǎng)絡(luò)使mAP值 增加了近 4%。

(3)Anchor Boxes—錨框

借鑒Faster RCNN的做法,YOLO2也嘗試采用先驗(yàn)框(anchor)。在每個(gè)grid預(yù)先設(shè)定一組不同大小和寬高比的邊框,來覆蓋整個(gè)圖像的不同位置和多種尺度,這些先驗(yàn)框作為預(yù)定義的候選區(qū)在神經(jīng)網(wǎng)絡(luò)中將檢測其中是否存在對象,以及微調(diào)邊框的位置。這樣的方法使得召回率大幅提升到88%,同時(shí)mAP輕微下降了0.2。

之前YOLO1并沒有采用先驗(yàn)框,并且每個(gè)grid只預(yù)測兩個(gè)bounding box,整個(gè)圖像98個(gè),yolov1生成的2個(gè)bounding box是隨機(jī)尺度,不受限制,生成的bbox可能很大也可能很小,這樣會(huì)導(dǎo)致很多bbox無法使用;如果bbox太大,預(yù)測的物體太小,需要經(jīng)過多次調(diào)整才能達(dá)到合適的大小。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo


yolov1的bbox尺寸沒有任何限制,完全就是野蠻生長,會(huì)導(dǎo)致很多bbox太大或者太小,YOLOv2使用anchor之后可以指定我們錨框的長寬大小。YOLO2每個(gè)grid采用5個(gè)先驗(yàn)框,總共有13135=845個(gè)先驗(yàn)框,在訓(xùn)練過程中,我們只使用與標(biāo)注框IOU最大的anchor進(jìn)行擬合。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

YOLOv2中移除了全連接層,并使用錨定框來預(yù)測邊界框。首先,消除一個(gè)池化層,使網(wǎng)絡(luò)的卷積層的輸出具有更高的分辨率。還將網(wǎng)絡(luò)縮小到416個(gè)輸入圖像,而不是448×448。這樣做是因?yàn)橄胍谔卣鲌D中有奇數(shù)個(gè)位置所以只有一個(gè)中心單元格。物體,尤其是大的物體,往往占據(jù)圖像的中心,所以最好在圖像中心有一個(gè)位置來預(yù)測這些物體,而不是四個(gè)位置都在附近。YOLO的卷積層對圖像進(jìn)行了32倍的采樣,所以通過使用416的輸入圖像,得到了13 × 13的輸出特征圖,所以在訓(xùn)練階段改成了416x416尺寸的圖像。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

如果沒有錨框,YOLOv1模型的 mAP 為 69.5,召回率為 81%。使用錨框,我們的模型獲得了 69.2 mAP,召回率為 88%。盡管 mAP 下降,但召回率的增加意味著我們的模型還有更大的改進(jìn)空間。recall增加了,導(dǎo)致precision降低了(因?yàn)轭A(yù)測框的個(gè)數(shù)大大增加了,無用的框太多了。)

(4)Dimension Clusters—數(shù)據(jù)集標(biāo)準(zhǔn)框的長寬進(jìn)行聚類

在將錨框與 YOLO 一起使用時(shí),遇到了兩個(gè)問題。首先,bbox尺寸是手工挑選的。網(wǎng)絡(luò)可以學(xué)習(xí)適當(dāng)?shù)卣{(diào)整框,但如果我們?yōu)榫W(wǎng)絡(luò)選擇更好的先驗(yàn)框,我們可以使網(wǎng)絡(luò)更容易學(xué)習(xí)并且預(yù)測良好的結(jié)果。

之前先驗(yàn)框都是手工設(shè)定的,YOLO2嘗試統(tǒng)計(jì)出更符合樣本中對象尺寸的先驗(yàn)框,這樣就可以減少網(wǎng)絡(luò)微調(diào)先驗(yàn)框到實(shí)際位置的難度。YOLO2的做法是對訓(xùn)練集中標(biāo)注的邊框進(jìn)行聚類分析,以尋找盡可能匹配樣本的邊框尺寸。

如果選取anchor的數(shù)量和尺寸使用的是k-means聚類方法,聚類算法最重要的是選擇如何計(jì)算兩個(gè)邊框之間的“距離”,對于常用的歐式距離,大邊框會(huì)產(chǎn)生更大的誤差,但我們關(guān)心的是邊框的IOU。所以,YOLO2在聚類時(shí)采用以下公式來計(jì)算兩個(gè)邊框之間的“距離”。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
在 VOC 和 COCO 上對框尺寸進(jìn)行聚類。在邊界框的尺寸上運(yùn)行 k 均值聚類,以獲得模型的良好先驗(yàn)。左圖顯示了在 k 的各種選擇下得到的平均 IOU。 k = 5 可以很好地權(quán)衡模型的召回率和復(fù)雜性。右圖顯示了 VOC 和 COCO 的相對質(zhì)心。 COCO 的尺寸變化比 VOC 更大。

通過聚類圖可以發(fā)現(xiàn),雖然anchor越多 AVG IOU的值越高,但是這會(huì)增加網(wǎng)絡(luò)訓(xùn)練過程中的負(fù)擔(dān),無用的框越多會(huì)導(dǎo)致模型精度的降低。

(5)Direct location prediction—位置預(yù)測

當(dāng)將錨框與 YOLO 一起使用時(shí),遇到第二個(gè)問題是:模型不穩(wěn)定,尤其是在早期迭代期間。大多數(shù)不穩(wěn)定性來自于預(yù)測盒子的 (x, y) 位置。在區(qū)域提議網(wǎng)絡(luò)中,網(wǎng)絡(luò)預(yù)測值 tx 和 ty,并且 (x, y) 中心坐標(biāo)計(jì)算如下:
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

由于tx和ty的取值沒有任何約束,因此預(yù)測邊框的中心可能出現(xiàn)在任何位置,訓(xùn)練早期階段不容易穩(wěn)定。YOLOV2調(diào)整了預(yù)測公式,使用sigmoid激活函數(shù)將預(yù)測的偏移量規(guī)范在0 和 1 之間,將預(yù)測邊框的中心約束在特定gird網(wǎng)格內(nèi),公式如下:
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
參考上圖,由于σ函數(shù)將tx和ty約束在(0,1)范圍內(nèi),所以根據(jù)上面的計(jì)算公式,預(yù)測邊框的藍(lán)色中心點(diǎn)被約束在黃色背景的網(wǎng)格內(nèi)。約束邊框位置使得模型更容易學(xué)習(xí),且預(yù)測更為穩(wěn)定。由于限制了位置預(yù)測,因此參數(shù)化更容易學(xué)習(xí),從而使網(wǎng)絡(luò)更加穩(wěn)定。使用維度聚類并直接預(yù)測邊界框中心位置,與使用錨框的版本相比,YOLO 提高了近 5%。

(6)Fine-Grained Features—細(xì)粒度特征

對于目標(biāo)檢測而言,一個(gè)常見問題是輸入圖像中的對象大小各異。在經(jīng)過多層卷積網(wǎng)絡(luò)提取特征后,最終輸出的特征圖(如YOLOv2中的13x13)可能已經(jīng)無法準(zhǔn)確捕捉較小對象的特征,甚至可能忽略它們。為了更好地檢測小尺寸的對象,需要在最終輸出的特征圖中保留更豐富的細(xì)節(jié)信息。

為了解決這個(gè)問題,YOLOv2引入了一種稱為"passthrough層"的方法,用于在特征圖中保留細(xì)節(jié)信息。具體而言,在最后一個(gè)池化層之前,特征圖的尺寸為26x26x512。通過將特征圖進(jìn)行1拆4的操作,將其直接傳遞(passthrough)到經(jīng)過池化后(并經(jīng)過一組卷積操作)的特征圖上,然后將兩者疊加在一起作為輸出的特征圖,拼接成為13x13x3072的特征圖。

通過這種方式,YOLOv2可以將較低層級的特征信息與較高層級的特征信息相結(jié)合,使得輸出的特征圖能夠同時(shí)包含更多的上下文信息和細(xì)節(jié)信息。這樣一來,YOLOv2在檢測小尺寸對象時(shí)會(huì)更加準(zhǔn)確,因?yàn)榧?xì)粒度的特征得到了保留和利用。這種passthrough層的引入提高了YOLOv2的目標(biāo)檢測性能,尤其是對于小尺寸對象的檢測。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo
具體特征圖是如何1拆4的呢,可以參考下面這張圖片,假設(shè)下面是一個(gè)3通道的特征圖,尺寸是4X4的,拆分之后變成12通道的2x2特征圖,面積變?yōu)樵瓉淼?/4,通道數(shù)變?yōu)樵瓉淼?倍。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

(7)Multi-Scale Training—多尺度訓(xùn)練

我們先看一下原文是怎么說的:原始YOLO使用的輸入分辨率為448×448。通過添加錨框,我們將分辨率更改為416×416。然而,由于我們的模型僅使用卷積層和池化層,因此可以動(dòng)態(tài)調(diào)整大小。我們希望 YOLOv2 能夠在不同大小的圖像上運(yùn)行,因此我們將其訓(xùn)練到模型中。我們不是固定輸入圖像的大小,而是每隔幾次迭代就改變網(wǎng)絡(luò)。

我們的網(wǎng)絡(luò)每 10 個(gè)批次隨機(jī)選擇新的圖像尺寸。由于我們的模型按 32 倍下采樣,因此我們從以下 32 的倍數(shù)中提?。簕320, 352, …, 608}。因此,最小的選項(xiàng)是 320×320,最大的選項(xiàng)是 608×608。我們將網(wǎng)絡(luò)大小調(diào)整到該尺寸并繼續(xù)訓(xùn)練。

使用這種方法在低分辨率下,YOLOv2 作為一種廉價(jià)且相當(dāng)準(zhǔn)確的檢測器運(yùn)行。在 288×288 分辨率下,它的運(yùn)行速度超過 90 FPS,mAP 幾乎與 Fast R-CNN 一樣好。這使得它非常適合較小的 GPU、高幀率視頻或多視頻流。

注意:為什么yolov1沒辦法實(shí)現(xiàn)多尺度訓(xùn)練,這是由于網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致的,因?yàn)閥olov1網(wǎng)絡(luò)中有兩個(gè)全連接層,導(dǎo)致我們輸入的尺寸必須固定為224x224,但是YOLOv2采用全卷積網(wǎng)絡(luò)結(jié)構(gòu),沒有全連接層。這使得網(wǎng)絡(luò)能夠接受不同尺寸的輸入圖片,因?yàn)榫矸e層不關(guān)心輸入圖像的維度,而是在整個(gè)圖像上執(zhí)行卷積操作。所以輸入任何尺寸的圖像都能進(jìn)行訓(xùn)練。 Darknet-19網(wǎng)絡(luò)結(jié)構(gòu)圖如下。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

使用不同尺度訓(xùn)練得到的mAP和實(shí)時(shí)檢測FPS如下,使用了多尺度訓(xùn)練YOLOV2mAP值最高,也達(dá)到了實(shí)時(shí)檢測的FPS:
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

2.2 Faster快速訓(xùn)練創(chuàng)新

VGG-16
大多數(shù)檢測框架依賴 VGG-16 作為基本特征提取器。 VGG-16 是一個(gè)強(qiáng)大、準(zhǔn)確的分類網(wǎng)絡(luò),但它過于復(fù)雜。 VGG-16 的卷積層需要 306.9 億次浮點(diǎn)運(yùn)算才能以 224 × 224 分辨率處理單個(gè)圖像,下圖是VGG-16的網(wǎng)絡(luò)參數(shù)圖,光三個(gè)全連接層所占的參數(shù)都將近70M。YOLO 的自定義模型在 ImageNet 上的準(zhǔn)確率達(dá)到 88.0%,而 VGG-16 的準(zhǔn)確率為 90.0%。
yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

Darknet-19
與 VGG 模型類似,我們主要使用 3 × 3 濾波器,并在每個(gè)池化步驟后將通道數(shù)量加倍 [17]。繼 Network in Network (NIN) 的工作之后,我們使用全局平均池化進(jìn)行預(yù)測,并使用 1 × 1 濾波器來壓縮 3 × 3 卷積之間的特征表示,最終模型稱為 Darknet-19,具有 19 個(gè)卷積層和 5 個(gè)最大池層。Darknet-19 僅需要 55.8 億次操作來處理圖像,卻在 ImageNet 上實(shí)現(xiàn)了 72.9% 的 top-1 準(zhǔn)確率和 91.2% 的 top-5 準(zhǔn)確率。

YOLOV2的輸入與輸出

圖像尺寸從4164163 變換到 13135*25,一共劃分了13x13個(gè)grid cell,每個(gè)grid cell設(shè)置5個(gè)anchor,去掉了全連接層,采用了5個(gè)先驗(yàn)框,每個(gè)anchor有邊框坐標(biāo)(x,y,w,h)+1個(gè)邊框置信度+20個(gè)類別。

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo

2.3 Stronger更強(qiáng)的網(wǎng)絡(luò)改進(jìn)

該部分主要是提出了一種對分類和檢測數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練的機(jī)制。該方法使用標(biāo)記為檢測的圖像來學(xué)習(xí)特定于檢測的信息,例如邊界框坐標(biāo)預(yù)測和對象性以及如何對常見對象進(jìn)行分類。它使用僅具有類標(biāo)簽的圖像來擴(kuò)展它可以檢測的類別數(shù)量。

在訓(xùn)練期間,混合來自檢測和分類數(shù)據(jù)集的圖像。當(dāng)網(wǎng)絡(luò)看到標(biāo)記為檢測的圖像時(shí),可以基于完整的 YOLOv2 損失函數(shù)進(jìn)行反向傳播。當(dāng)它看到分類圖像時(shí),僅從架構(gòu)的分類特定部分反向傳播損失。也就是不同的數(shù)據(jù)集用不同的損失函數(shù)。

該方法的初衷是非常好的,但是存在以下局限性,所以后面也不使用該方法進(jìn)行模型訓(xùn)練:

  • 類別不平衡: 聯(lián)合訓(xùn)練可能導(dǎo)致分類和檢測兩個(gè)任務(wù)之間的類別不平衡。一些類別可能在分類任務(wù)中有大量的樣本,而在檢測任務(wù)中只有少數(shù)樣本,或者反之。這可能導(dǎo)致模型在某些類別上過度擬合或欠擬合。
  • 標(biāo)簽噪聲: 聯(lián)合訓(xùn)練中的標(biāo)簽可能存在噪聲。分類任務(wù)和檢測任務(wù)通常涉及到不同的數(shù)據(jù)集和標(biāo)注方式,這可能導(dǎo)致標(biāo)簽的不一致性和噪聲,進(jìn)而影響模型的性能。
  • 訓(xùn)練復(fù)雜性: 聯(lián)合訓(xùn)練引入了兩個(gè)不同任務(wù)的訓(xùn)練,增加了訓(xùn)練的復(fù)雜性。需要調(diào)整不同任務(wù)的損失函數(shù)權(quán)重,確保兩者在訓(xùn)練過程中能夠平衡地更新模型參數(shù)。
  • 資源需求: 聯(lián)合訓(xùn)練通常需要更多的計(jì)算資源和時(shí)間,因?yàn)樾枰瑫r(shí)處理分類和檢測任務(wù)。這可能對硬件和訓(xùn)練時(shí)間的要求提出了一定的挑戰(zhàn)。
  • 不同尺度的任務(wù)結(jié)合: 分類和檢測任務(wù)可能在不同的尺度上具有不同的難度。某些類別可能在小尺度上容易識(shí)別,而在大尺度上較難,反之亦然。聯(lián)合訓(xùn)練要求模型在不同尺度上具有良好的泛化能力,這可能增加了訓(xùn)練的難度。

yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò),YOLO,目標(biāo)檢測,目標(biāo)檢測,人工智能,YOLO,深度學(xué)習(xí),yolo文章來源地址http://www.zghlxwxcb.cn/news/detail-804023.html

到了這里,關(guān)于yolo9000:Better, Faster, Stronger的目標(biāo)檢測網(wǎng)絡(luò)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包