原創(chuàng) | 文 BFT機(jī)器人?
01
摘要
YOLO是一種新的目標(biāo)檢測方法,與以前的方法不同之處在于它將目標(biāo)檢測問題視為回歸問題,同時預(yù)測邊界框和類別概率。這一方法使用單個神經(jīng)網(wǎng)絡(luò),可以從完整圖像中直接預(yù)測目標(biāo)邊界框和類別概率,實現(xiàn)端到端的性能優(yōu)化。
YOLO的速度非???,基本模型每秒可以處理45幀圖像,而快速版本每秒可處理155幀,同時仍然具有很高的準(zhǔn)確率。雖然在定位方面可能會產(chǎn)生一些誤差,但不太可能出現(xiàn)背景誤報。它能夠?qū)W習(xí)通用的目標(biāo)表示,不僅在自然圖像中表現(xiàn)出色,還在其他領(lǐng)域(如藝術(shù)品)中表現(xiàn)優(yōu)于其他檢測方法,包括DPM和R-CNN。
02
介紹
將目標(biāo)檢測重新定義為一個單一的回歸問題,直接從圖像像素到邊界框坐標(biāo)和類概率。這種系統(tǒng)被稱為YOLO(You Only Look Once),它允許在一次圖像觀察中實時預(yù)測存在的物體以及它們的位置。
YOLO的核心思想是使用一個簡單的卷積神經(jīng)網(wǎng)絡(luò),同時預(yù)測多個邊界框和它們的類別概率,如圖一。與傳統(tǒng)方法相比,YOLO有三個主要優(yōu)點:
速度快:由于將檢測視為回歸問題,不需要復(fù)雜的處理管道。YOLO的基本網(wǎng)絡(luò)以每秒45幀的速度運行,快速版本更快,超過150fps。這意味著可以實時處理流媒體視頻,延遲低于25毫秒,并且精度優(yōu)于其他實時系統(tǒng)。
全局推理:YOLO在進(jìn)行預(yù)測時可以看到整個圖像,而不像其他方法使用滑動窗口或區(qū)域提議。這使得它能夠隱式地編碼關(guān)于物體及其外觀的上下文信息,減少了背景誤報。與其他方法相比,YOLO的邊界框數(shù)量較少。
通用性:YOLO能夠?qū)W習(xí)通用的目標(biāo)表示,表現(xiàn)出色不僅在自然圖像中,在其他領(lǐng)域(如藝術(shù)品)的測試中也表現(xiàn)出色,超過了其他頂級檢測方法,如DPM和R-CNN。
然而,盡管速度快且通用性強(qiáng),YOLO在精確度方面仍然落后于一些最先進(jìn)的目標(biāo)檢測系統(tǒng),特別是在精確定位小物體方面存在挑戰(zhàn)。研究進(jìn)一步探討了這些權(quán)衡和挑戰(zhàn)。
圖一
03
統(tǒng)一檢查
核心思想和工作原理
統(tǒng)一神經(jīng)網(wǎng)絡(luò)模型:YOLO將目標(biāo)檢測的獨立組件整合到一個單一的神經(jīng)網(wǎng)絡(luò)中,該網(wǎng)絡(luò)利用整個圖像的特征來預(yù)測每個邊界框,同時可以同時預(yù)測圖像中所有類別的邊界框。這使得網(wǎng)絡(luò)能夠進(jìn)行全局推理,同時處理整個圖像和所有對象。
端到端訓(xùn)練和實時速度:YOLO的設(shè)計旨在實現(xiàn)端到端的訓(xùn)練,同時保持實時處理速度,并且能夠保持高平均精度。
S×S網(wǎng)格劃分:輸入圖像被分成S×S網(wǎng)格單元,其中每個網(wǎng)格單元負(fù)責(zé)檢測其中心位于該單元的物體。
每個網(wǎng)格單元的預(yù)測:每個網(wǎng)格單元預(yù)測了B個邊界框和這些邊界框的置信度得分,該得分反映了模型對于盒子內(nèi)是否有物體的自信程度以及預(yù)測的準(zhǔn)確度。置信度分?jǐn)?shù)定義為Pr(Object) * IOU_truth_pred,如果單元格中沒有對象,則置信度分?jǐn)?shù)為零。
邊界框預(yù)測:每個邊界框由五個預(yù)測組成,包括?(x, y) 坐標(biāo)表示相對于網(wǎng)格單元邊界的框的中心,以及寬度和高度相對于整個圖像的預(yù)測。最后,置信度預(yù)測表示預(yù)測框與真實框之間的交集。
類別概率預(yù)測:每個網(wǎng)格單元還預(yù)測了 C 個條件類別概率 Pr(Class_i|Object),這些概率取決于包含對象的網(wǎng)格單元。無論邊界框數(shù)量如何,每個網(wǎng)格單元只預(yù)測一組分類概率。
網(wǎng)絡(luò)設(shè)計
檢測網(wǎng)絡(luò)有24個卷積層,后面是2個全連接層。交替的1 × 1卷積層減少了前一層的特征空間。在ImageNet分類任務(wù)上以一半的分辨率(224 × 224輸入圖像)預(yù)訓(xùn)練卷積層,然后將分辨率提高一倍用于檢測。
訓(xùn)練
預(yù)訓(xùn)練:他們在ImageNet 1000類競爭數(shù)據(jù)集上對卷積層進(jìn)行了預(yù)訓(xùn)練,使用了模型的前20個卷積層、平均池化層和完全連接層。這個預(yù)訓(xùn)練過程提高了模型的性能。
檢測模型轉(zhuǎn)換:然后,他們將模型轉(zhuǎn)換為執(zhí)行目標(biāo)檢測。為了增加性能,作者添加了四個卷積層和兩個隨機(jī)初始化權(quán)重的完全連接層。因為檢測需要更多的視覺信息,所以他們將網(wǎng)絡(luò)的輸入分辨率從224×224增加到448×448。
最后一層預(yù)測:模型的最后一層用于預(yù)測類別概率和邊界框坐標(biāo)。邊界框的寬度和高度被標(biāo)準(zhǔn)化到0和1之間,并且x和y坐標(biāo)參數(shù)化為特定網(wǎng)格單元格位置的偏移量。
激活函數(shù):最后一層使用線性激活函數(shù),而其他層使用漏整流線性激活函數(shù)。
損失函數(shù):作者使用平方和誤差作為優(yōu)化目標(biāo),盡管它不完全符合他們最大化平均精度的目標(biāo)。為了解決訓(xùn)練中的不穩(wěn)定性問題,他們增加了邊界框坐標(biāo)預(yù)測的損失,并減少了不包含對象的框的置信度預(yù)測的損失。
04
結(jié)論
該論文介紹了一種名為YOLO的目標(biāo)檢測統(tǒng)一模型。YOLO模型的構(gòu)建簡單,能夠在完整圖像上進(jìn)行訓(xùn)練,與以前的分類器方法不同,它使用了與檢測性能直接相關(guān)的損失函數(shù)進(jìn)行訓(xùn)練,并且整個模型進(jìn)行了聯(lián)合訓(xùn)練。
其中的快速版本YOLO是文獻(xiàn)中最快的通用對象檢測器,推動了實時對象檢測領(lǐng)域的進(jìn)展。此外,YOLO還能夠成功應(yīng)用于新領(lǐng)域,使其成為依賴于快速和強(qiáng)大的對象檢測的應(yīng)用程序的理想選擇。
作者 | 不加糖
排版?|?小河
審核?| 貓文章來源:http://www.zghlxwxcb.cn/news/detail-744819.html
若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,我們將及時回應(yīng)。如果想要了解更多的前沿資訊,記得點贊關(guān)注哦~文章來源地址http://www.zghlxwxcb.cn/news/detail-744819.html
到了這里,關(guān)于論文解讀 | YOLO系列開山之作:統(tǒng)一的實時對象檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!