計算機視覺
計算機視覺概述:計算機視覺是一種利用計算機算法和數(shù)學模型來模擬和自動化人類視覺的學科領(lǐng)域。
計算機視覺的地位:計算機視覺(CV)與自然語言處理(NLP)、語音識別(SR)并列為機器學習方向的三大熱點方向。
計算機視覺的常見任務(wù):下面將從粗粒度到細粒度介紹四種常見的計算機視覺任務(wù)。
- 圖像分類:為一張圖像賦予一個或多個表示類別的標簽。
- 目標檢測:確定圖像中物體的類別及其所在的位置,其中位置使用一個框進行勾出。
- 圖像語義分割:確定圖像中物體的類別并精準勾勒其所在的位置,需要為每一個像素進行分類。
- 圖像實例分割:在圖像語義分割的基礎(chǔ)上,需要進一步將同一類物體的不同實例進行區(qū)分,同樣也是進行像素級別的分類。
目標檢測
目標檢測概述
目標檢測任務(wù)概述:目標檢測任務(wù)是計算機視覺中的一項任務(wù),旨在從圖像或視頻中檢測和定位出目標物體,并給出其所屬的類別標簽。
目標檢測任務(wù)的難點:
- 物體的尺寸變化范圍很大‘;
- 物體擺放的角度和姿態(tài)不固定;
- 物體可以出現(xiàn)在圖像中的任意位置;
- 物體可以同時屬于多個類別;
- 物體時常被遮擋截斷。
目標檢測模型的發(fā)展歷程:
- R-CNN模型(2014):RCNN模型是一種基于區(qū)域建議的卷積神經(jīng)網(wǎng)絡(luò)模型,通過候選區(qū)域提取和卷積特征提取兩個階段完成目標檢測任務(wù)。
- SPP-net模型(2014年末,何凱明):SPP-net模型是一種可以對任意尺寸的輸入圖像進行處理的卷積神經(jīng)網(wǎng)絡(luò)模型,通過空間金字塔池化層實現(xiàn)對不同尺度的特征提取和融合。
- Fast R-CNN模型(2015):Fast R-CNN模型是一種基于區(qū)域建議的卷積神經(jīng)網(wǎng)絡(luò)模型,通過RoI pooling層實現(xiàn)了端到端的目標檢測,相較于RCNN模型速度更快且精度更高。
- Faster R-CNN模型(2015):Faster R-CNN模型是一種基于深度神經(jīng)網(wǎng)絡(luò)的目標檢測模型,通過引入RPN網(wǎng)絡(luò)實現(xiàn)了端到端的目標檢測,并在檢測速度和準確率上取得了較大的提升。
- YOLO模型(2016):YOLO(You Only Look Once)模型是一種基于深度神經(jīng)網(wǎng)絡(luò)的實時目標檢測模型,通過將目標檢測問題轉(zhuǎn)換為回歸問題來實現(xiàn)快速檢測,并可以同時處理多個目標。
- SSD模型(2016):SSD模型是一種基于深度神經(jīng)網(wǎng)絡(luò)的目標檢測模型,通過在多個層級上預(yù)測目標的類別和位置信息來實現(xiàn)快速檢測。
- FPN模型(2017):FPN(Feature Pyramid Network)模型是一種基于特征金字塔的網(wǎng)絡(luò)結(jié)構(gòu),通過融合不同層級的特征并保留高分辨率信息來提高目標檢測和語義分割的性能。
- Mask R-CNN模型(2018):Mask R-CNN模型是一種基于Faster R-CNN模型的目標檢測和實例分割模型,通過添加分割分支在檢測分支的基礎(chǔ)上實現(xiàn)了對物體實例的像素級別的分割。
- IoU-Net模型(2019):IoU-Net模型是一種基于U-Net模型的目標檢測模型,通過引入IoU損失函數(shù)來實現(xiàn)了對目標檢測的更精確的優(yōu)化。
- GIoU-Net模型(2019):GIoU-Net模型是一種基于U-Net模型的目標檢測模型,通過引入GIoU損失函數(shù)來實現(xiàn)了對目標檢測的更精確的優(yōu)化。
目標檢測任務(wù)的發(fā)展歷程:
- 早期的非深度學習目標檢測著重于設(shè)計更強的特征;
- 深度學習目標檢測著重于網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化方法和損失函數(shù)的設(shè)計過程。
目標檢測的其他內(nèi)容:
- 目標檢測系統(tǒng)的重要要求:準確性和實時性。
- 運動目標檢測:從不斷變化的序列圖像中進行目標檢測,分為靜態(tài)背景下的目標檢測動態(tài)背景下的運動檢測。
傳統(tǒng)的目標檢測方法
R-CNN模型
R-CNN模型的提出:R-CNN(Region-based Convolutional Neural Network)是一種經(jīng)典的目標檢測算法,由Ross Girshick等人在2014年提出。
R-CNN的算法流程:R-CNN模型主要分為三個步驟:區(qū)域提取、特征提取和目標分類。
- R-CNN首先使用選擇性搜索(Selective Search)等算法從圖像中提取出一系列候選區(qū)域;
- 然后對每個候選區(qū)域進行特征提取,得到固定維度的特征向量。這個特征提取過程是通過在候選區(qū)域上使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來實現(xiàn)的。
- 最后,使用支持向量機(SVM)或多層感知器(MLP)等分類器對每個候選區(qū)域進行目標分類。
R-CNN的優(yōu)點:R-CNN通過使用CNN進行特征提取,可以克服傳統(tǒng)目標檢測算法中需要手工設(shè)計特征的問題,從而提高了檢測的精度。
R-CNN模型的缺點:R-CNN的速度較慢,無法實時地處理大規(guī)模圖像數(shù)據(jù)。
SPP-Net模型
SPP-Net模型的提出:SPP-Net是一種用于解決卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理可變尺寸的輸入圖像時,需要固定尺寸的輸出問題的方法。SPP-Net由Kaiming He等人在2014年提出,是一種在R-CNN目標檢測算法基礎(chǔ)上的改進算法。
SPP-Net的功能特點:SPP-Net通過引入空間金字塔池化的思想,對不同尺寸的輸入圖像進行特征提取,并將其轉(zhuǎn)換為固定長度的特征向量。具體來說,SPP-Net在最后一層卷積層之后,加入了一個空間金字塔池化層,該層可以對不同大小的特征圖進行池化操作,并將不同尺寸的池化結(jié)果拼接起來,形成一個固定長度的特征向量。
SPP-Net的優(yōu)點:可以對不同尺寸的輸入圖像進行特征提取,并將其轉(zhuǎn)換為固定長度的特征向量,從而避免了CNN網(wǎng)絡(luò)輸出尺寸不一致的問題。
Fast R-CNN模型
Fast R-CNN模型的提出:Fast R-CNN是一種基于深度學習的目標檢測算法,由Ross Girshick在2015年提出,是R-CNN系列算法的改進版。
Fast R-CNN的特點:
- RoI池化:Fast R-CNN將R-CNN中的特征提取和目標分類合并成一個網(wǎng)絡(luò),使用RoI池化(Region of Interest pooling)來處理不同尺度的候選框。RoI池化通過對每個候選框進行分割,并對每個分割區(qū)域進行最大池化,從而得到固定長度的特征向量,用于目標分類和邊界框回歸。
- 多任務(wù)損失函數(shù):Fast R-CNN引入了多任務(wù)損失函數(shù),包括目標分類損失和邊界框回歸損失,同時考慮了兩個任務(wù)之間的相互影響。通過最小化多任務(wù)損失函數(shù),可以同時優(yōu)化目標分類和邊界框回歸的性能。
- 特征共享:Fast R-CNN在整個網(wǎng)絡(luò)中使用了特征共享的策略,即不同的候選框共享相同的卷積特征圖,從而減少了計算量和存儲空間。
Fast R-CNN的優(yōu)點:具有更快的訓練和測試速度,并且可以端到端地訓練和優(yōu)化。
Faster R-CNN模型
Faster R-CNN模型的提出:Faster R-CNN是一種基于深度學習的目標檢測算法,由Shaoqing Ren等人在2015年提出,是R-CNN系列算法的又一次改進。
Faster R-CNN模型的改進內(nèi)容:
- 區(qū)域提議網(wǎng)絡(luò):Faster R-CNN引入了區(qū)域提議網(wǎng)絡(luò)(RPN),用于生成候選框。RPN是一種特殊的卷積神經(jīng)網(wǎng)絡(luò),可以對輸入圖像進行特征提取,并輸出一系列候選框的坐標和得分。RPN可以共享卷積層的特征圖,并通過不同尺度和長寬比的錨框來生成候選框,從而實現(xiàn)了快速和準確的候選框生成。
- 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化:為了進一步提高目標檢測的準確性和速度,F(xiàn)aster R-CNN對網(wǎng)絡(luò)結(jié)構(gòu)進行了優(yōu)化。具體來說,F(xiàn)aster R-CNN將RPN和Fast R-CNN中的目標檢測網(wǎng)絡(luò)進行了融合,共享了卷積層的特征圖,從而使整個網(wǎng)絡(luò)可以端到端地訓練和優(yōu)化。此外,F(xiàn)aster R-CNN還使用了RoI對齊(RoI Align)代替了RoI池化,可以更精確地對齊候選框和特征圖之間的位置關(guān)系。
Faster R-CNN的優(yōu)點:
- 可以實現(xiàn)端到端的訓練和優(yōu)化,具有更快的檢測速度和更高的準確性。
- 區(qū)域提議網(wǎng)絡(luò)可以共享卷積特征圖,從而減少了計算量和存儲空間,使整個網(wǎng)絡(luò)更加輕量化和高效。
YOLO V1
YOLO V1的提出:YOLO(You Only Look Once)是一種基于深度學習的目標檢測算法,由Joseph Redmon等人于2015年提出,是一種端到端的目標檢測算法,具有較快的檢測速度和較好的準確性。
YOLO V1的優(yōu)點:可以實現(xiàn)端到端的訓練和優(yōu)化,具有較快的檢測速度和較好的實時性,尤其適合實時應(yīng)用場景。
YOLO V1的缺點:準確性相對較低,尤其是在小目標檢測方面表現(xiàn)較差。
YOLO V2
YOLO V2的提出:YOLO V2是YOLO系列目標檢測算法的第二個版本,由Joseph Redmon等人于2016年提出。
YOLO V2的優(yōu)點:在保持較快的檢測速度的同時,具有較好的檢測準確性,尤其在多尺度目標檢測方面表現(xiàn)出色。
YOLO V2的缺點:相比于其他目標檢測算法,YOLO V2的檢測速度仍然較慢,且在處理小目標和遮擋目標方面仍有一定的挑戰(zhàn)。文章來源:http://www.zghlxwxcb.cn/news/detail-472460.html
YOLO V3
YOLO V3的提出:YOLO V3是YOLO系列目標檢測算法的第三個版本,由Joseph Redmon等人于2018年提出。文章來源地址http://www.zghlxwxcb.cn/news/detail-472460.html
到了這里,關(guān)于人工智能詳細筆記:計算機視覺、目標檢測與R-CNN系列 YOLO系列模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!