目錄
1 深度學(xué)習(xí)
1.1?人工智能
1.2?機(jī)器學(xué)習(xí)
1.3?深度學(xué)習(xí)
1.3.1 深度學(xué)習(xí)發(fā)展歷程
1.3.2 深度學(xué)習(xí)中的核心因素
1.3.3 深度學(xué)習(xí)模型分類
1.3.4?深度學(xué)習(xí)框架
2?計算機(jī)視覺
1 深度學(xué)習(xí)
人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這三者的關(guān)系:
在實現(xiàn)人工智能的眾多算法中,機(jī)器學(xué)習(xí)是發(fā)展較為快速的一支,是實現(xiàn)人工智能的途徑之一。而深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的算法之一。如果把人工智能比喻成人類的大腦,機(jī)器學(xué)習(xí)則是人類通過大量數(shù)據(jù)來認(rèn)知學(xué)習(xí)的過程,而深度學(xué)習(xí)則是學(xué)習(xí)過程中非常高效的一種算法。
1.1?人工智能
人工智能(Artificial Intelligence, AI)是為了賦予計算機(jī)以人類的理解能力與邏輯思維,其本質(zhì)是希望機(jī)器能夠像人類的大腦一樣思考,并作出反應(yīng)。
根據(jù)人工智能實現(xiàn)的水平,可分為3類:弱人工智能、強(qiáng)人工智能、超人工智能。
1.2?機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的思想是讓機(jī)器自動地從大量的數(shù)據(jù)中學(xué)習(xí)出規(guī)律,并利用該規(guī)律對未知的數(shù)據(jù)做出預(yù)測。
機(jī)器學(xué)習(xí)算法中最重要的就是數(shù)據(jù),根據(jù)使用的數(shù)據(jù)形式,可以分為三大類:監(jiān)督學(xué)習(xí)(Supervised Learning)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning)與強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。
(1)監(jiān)督學(xué)習(xí)
通常包括訓(xùn)練與預(yù)測階段。在訓(xùn)練時利用帶有人工標(biāo)注標(biāo)簽的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,在預(yù)測時則根據(jù)訓(xùn)練好的模型對輸入進(jìn)行預(yù)測。監(jiān)督學(xué)習(xí)通常分為分類與回歸兩個問題,常見算法有決策樹(Decision Tree, DT)、支持向量機(jī)(Support Vector Machine,SVM)和神經(jīng)網(wǎng)絡(luò)等。
(2)無監(jiān)督學(xué)習(xí)
對沒有類別標(biāo)記的樣本進(jìn)行學(xué)習(xí),學(xué)習(xí)目的通常是發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu),典型任務(wù)是聚類和降維。
聚類:在非監(jiān)督學(xué)習(xí)中,所有數(shù)據(jù)沒有標(biāo)記,但是這些數(shù)據(jù)會呈現(xiàn)出聚群的結(jié)構(gòu),相似類型的數(shù)據(jù)會聚集在一起。把這些沒有標(biāo)記的數(shù)據(jù)分成一個個組合即聚類。
降維:指在某些限定條件下,降低隨機(jī)變量個數(shù)??蛇M(jìn)一步細(xì)分為變量選擇和特征提取兩大方法。
變量選擇是指當(dāng)數(shù)據(jù)中包含大量冗余或無關(guān)變量時,在原有變量中找出主要變量,從而簡化模型,使之更容易被機(jī)器學(xué)習(xí)。
特征提取是從原始資料中構(gòu)建富含資訊性且不冗余的特征值,它可以幫助接續(xù)的學(xué)習(xí)過程和歸納步驟,初始的資料集合被降到更容易管理的族群(特征)以便于學(xué)習(xí),同時保持描述原始資料集的精準(zhǔn)性與完整性。
(3)強(qiáng)化學(xué)習(xí)
讓模型在一定的環(huán)境中學(xué)習(xí),每次行動會有對應(yīng)的獎勵,目標(biāo)是使獎勵最大化。常見的強(qiáng)化學(xué)習(xí)有基于價值、策略與模型3種方法。
注:
半監(jiān)督學(xué)習(xí):介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間,它要求對小部分的樣本提供預(yù)測量的真實值。這種方法通過有效利用所提供的小部分監(jiān)督信息,通常可以獲得比無監(jiān)督學(xué)習(xí)更好的效果,同時也把獲取監(jiān)督信息的成本控制在可以接受的范圍。
1.3?深度學(xué)習(xí)
深度學(xué)習(xí)是特指利用深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)完成訓(xùn)練和預(yù)測的算法。主要是通過搭建深層的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)來進(jìn)行知識的學(xué)習(xí),輸入數(shù)據(jù)通常較為復(fù)雜、規(guī)模大、維度高。
1.3.1 深度學(xué)習(xí)發(fā)展歷程
?MCP(McCulloch and Pitts)人工神經(jīng)元網(wǎng)絡(luò):希望使用簡單的加權(quán)求和與激活函數(shù)來模擬人類的神經(jīng)元過程。
感知器(Perception)模型:使用了梯度下降算法來學(xué)習(xí)多維的訓(xùn)練數(shù)據(jù),成功地實現(xiàn)了二分類問題。
感知器線性問題:感知器僅僅是一種線性模型,對簡單的亦或判斷都無能為力,而生活中的大部分問題都是非線性的。
反向傳播BP:將非線性的Sigmoid函數(shù)應(yīng)用到了多層感知器中,并利用反向傳播(Backpropagation)算法進(jìn)行模型學(xué)習(xí),使得模型能夠有效地處理非線性問題。
LSTM:長短期記憶(Long short-term memory, LSTM)是一種特殊的RNN,主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡單來說,就是相比普通的RNN,LSTM能夠在更長的序列中有更好的表現(xiàn)。
LeNet:卷積神經(jīng)網(wǎng)絡(luò)LeNet模型,可有效解決圖像數(shù)字識別問題,被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的鼻祖。
ReLU激活函數(shù):有效地緩解了梯度消失現(xiàn)象
AlexNet網(wǎng)絡(luò):(重要節(jié)點)2012年,Alex等人提出的AlexNet網(wǎng)絡(luò)在ImageNet大賽上以遠(yuǎn)超第二名的成績奪冠,深度學(xué)習(xí)從此一發(fā)不可收拾,VGGNet、ResNet等優(yōu)秀的網(wǎng)絡(luò)接連問世。
AlexNet是在LeNet的基礎(chǔ)上加深了網(wǎng)絡(luò)的結(jié)構(gòu),學(xué)習(xí)更豐富更高維的圖像特征。AlexNet的特點:
- 更深的網(wǎng)絡(luò)結(jié)構(gòu)
- 使用層疊的卷積層,即卷積層+卷積層+池化層來提取圖像的特征
- 使用Dropout抑制過擬合
- 使用數(shù)據(jù)增強(qiáng)Data Augmentation抑制過擬合
- 使用Relu替換之前的sigmoid的作為激活函數(shù)
- 多GPU訓(xùn)練
VGGNet:在AlexNet的基礎(chǔ)上拓寬了網(wǎng)絡(luò)深度,本質(zhì)上網(wǎng)絡(luò)模型仍然是由卷積層和全連接層組成。經(jīng)常被用來提取圖像特征。
論文原文:《Very Deep Convolutional Networks for Large-Scale Image Recognition》
ResNet:該卷積神經(jīng)網(wǎng)絡(luò)又稱殘差網(wǎng)絡(luò),在2015年的ImageNet大賽中獲得了圖像分類和物體識別的優(yōu)勝。其特點是容易優(yōu)化,并且能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率。其內(nèi)部的殘差塊使用了跳躍連接,緩解了在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來的梯度消失問題。
論文原文:《Deep Residual Learning for Image Recognition》
1.3.2 深度學(xué)習(xí)中的核心因素
a.大數(shù)據(jù):當(dāng)前大部分的深度學(xué)習(xí)模型是有監(jiān)督學(xué)習(xí),依賴于數(shù)據(jù)的有效標(biāo)注。
b.GPU:GPU為深度學(xué)習(xí)模型的快速訓(xùn)練提供了可能。GPU以及CUDA計算庫專注于數(shù)據(jù)的并行計算,為模型訓(xùn)練提供了強(qiáng)有力的工具。
c.模型:在大數(shù)據(jù)與GPU的強(qiáng)有力支撐下,無數(shù)研究學(xué)者的奇思妙想,催生出了VGGNet、ResNet和FPN等一系列優(yōu)秀的深度學(xué)習(xí)模型,并且在學(xué)習(xí)任務(wù)的精度、速度等指標(biāo)上取得了顯著的進(jìn)步。
1.3.3 深度學(xué)習(xí)模型分類
根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,深度學(xué)習(xí)模型可以分為
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN):一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),卷積結(jié)構(gòu)可以減少深層網(wǎng)絡(luò)占用的內(nèi)存量,其三個關(guān)鍵的操作局部感受野、權(quán)值共享和pooling層,有效的減少了網(wǎng)絡(luò)的參數(shù)個數(shù),緩解了模型的過擬合問題。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN):一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。相比一般的神經(jīng)網(wǎng)絡(luò)來說,他能夠處理序列變化的數(shù)據(jù)。
生成式對抗網(wǎng)絡(luò)(Generative Adviserial Network, GAN):一種生成式模型,通過讓兩個神經(jīng)網(wǎng)絡(luò)(生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)) 相互博弈的方式進(jìn)行學(xué)習(xí),從而生成新的樣本數(shù)據(jù),能有效解決樣本數(shù)據(jù)不足的問題。
1.3.4?深度學(xué)習(xí)框架
PyTorch、TensorFlow、MXNet、Keras、Caffe和Theano等多種深度學(xué)習(xí)框架,廣泛應(yīng)用于計算機(jī)視覺、自然語言處理、語音識別等領(lǐng)域。
2?計算機(jī)視覺
視覺是人類最為重要的感知系統(tǒng),大腦皮層中近一半的神經(jīng)元與視覺有關(guān)系。計算機(jī)視覺則是研究如何使機(jī)器學(xué)會“看”的學(xué)科。
(1)圖像成像:成像是計算機(jī)視覺較為底層的技術(shù),深度學(xué)習(xí)在此發(fā)揮的空間更多的是成像后的應(yīng)用,如修復(fù)圖像的DCGAN網(wǎng)絡(luò),圖像風(fēng)格遷移的CycleGAN,在醫(yī)學(xué)成像、衛(wèi)星成像等領(lǐng)域中,超分辨率也至關(guān)重要,例如SRCNN(Super-Resolution CNN)。
(2)2.5D空間:通常將涉及2D運動或者視差的任務(wù)定義為2.5D空間問題,因為其任務(wù)跳出了單純的2D圖像,但又缺乏3D空間的信息。
(3)3D空間:3D空間的任務(wù)通常應(yīng)用于機(jī)器人或者自動駕駛領(lǐng)域,將2D圖像檢測與3D空間進(jìn)行結(jié)合。主要任務(wù)有相機(jī)標(biāo)定(Camera Calibration)、視覺里程計(Visual Odometry, VO)及SLAM(Simultaneous Localization and Mapping)等。
(4)環(huán)境理解:環(huán)境的高語義理解是深度學(xué)習(xí)在計算機(jī)視覺中的主戰(zhàn)場,相比傳統(tǒng)算法其優(yōu)勢更為明顯。主要任務(wù)有圖像分類(Classification)、物體檢測(Object Detection)、圖像分割(Segmentation)、物體跟蹤(Tracking)及關(guān)鍵點檢測。其中,圖像分割又可以細(xì)分為語義分割(Semantic Segmentation)與實例分割(Instance Segmentation)。
參考文獻(xiàn):
1.《深度學(xué)習(xí)之PyTorch物體檢測實戰(zhàn)》
2.無監(jiān)督學(xué)習(xí)-https://www.xakpw.com/single/24075
3.卷積神經(jīng)網(wǎng)絡(luò)之AlexNet - Brook_icv - 博客園 (cnblogs.com)
注:文章來源:http://www.zghlxwxcb.cn/news/detail-461038.html
本文是學(xué)習(xí)所參考文獻(xiàn)與資料后的整理與歸納,僅作學(xué)習(xí)記錄,如有侵權(quán)請聯(lián)系作者刪除!歡迎大家指正與交流。文章來源地址http://www.zghlxwxcb.cn/news/detail-461038.html
到了這里,關(guān)于深度學(xué)習(xí)與計算機(jī)視覺的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!