李松斌,劉鵬著,科學(xué)出版社
2023年5月20日16:32:38開始閱讀,2023年7月12日讀完。
1.基礎(chǔ)知識(shí)
獲得泛化能力是深度學(xué)習(xí)的最終目標(biāo)。泛化能力是指處理未被觀察個(gè)的數(shù)據(jù)的能力(即不包含在訓(xùn)練數(shù)據(jù)中的數(shù)據(jù))。
訓(xùn)練集:訓(xùn)練模型
測(cè)試集:測(cè)試模型的泛化能力
驗(yàn)證集:驗(yàn)證模型是否過(guò)擬合
數(shù)據(jù)增強(qiáng)的常用方法:
● 翻折(類似于鏡面的翻折);
● 旋轉(zhuǎn)
● 縮放
● 裁剪
● 平移
● 添加噪聲
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目的就是為了找出能使得損失函數(shù)的值達(dá)到最小的權(quán)重參數(shù)。
深度學(xué)習(xí)中常見的兩大類問(wèn)題:分類和回歸。
分類問(wèn)題是依據(jù)已有的信息進(jìn)行整合,最后輸出離散的類別值;
回歸是指通過(guò)已知去預(yù)測(cè)未知,輸出是連續(xù)的。
最優(yōu)化的方法:
● 梯度下降法(尋找最小值)
● 梯度上升法 (尋找最大值)
● 隨機(jī)梯度下降法 SGD
● 自適應(yīng)梯度法(AdaGrad):對(duì)每個(gè)參數(shù)乘以不同的系數(shù),每個(gè)參數(shù)所乘的系數(shù)通過(guò)之前積累的梯度大小的平方和來(lái)決定,對(duì)于更新頻率高的參數(shù),可以設(shè)置較小的學(xué)習(xí)率,更新慢一點(diǎn);對(duì)于更新頻率低的參數(shù)可以設(shè)置較大一點(diǎn)的學(xué)習(xí)率,更新快一點(diǎn)。
【具體做法】將每一維參數(shù)各自的歷史梯度的平方疊加起來(lái),然后在更新的時(shí)候除以該歷史梯度值。
● 自適應(yīng)矩估計(jì)(Adam)
2.深度學(xué)習(xí)圖像分類算法核心
圖像分類要解決的**“是什么”**的問(wèn)題,也就是輸入一張圖像,輸出該圖像所屬的類別。
基于深度學(xué)習(xí)的圖像分類屬于一種端到端的模型。
圖像分類的難點(diǎn)可以分為:實(shí)例層次、類別層次、語(yǔ)義層次。
● 實(shí)例層次:尺度、光照、視角、變形、遮擋
● 類別層次:類內(nèi)差別、類間模糊、背景干擾
● 語(yǔ)義層次:多重穩(wěn)定。
- 基于深度學(xué)習(xí)圖像分類算法的誕生——LeNet5,1998年
- 開創(chuàng)基于深度學(xué)習(xí)圖像分類算法的新局面——AlexNet,2012年
- 基于小卷積核的圖像分類算法——VGGNet,2014年
- 基于最優(yōu)局部稀疏結(jié)構(gòu)的圖像分類算法——Inception系列
● Inception-v1,2014年
● Inception-v2、v3,2016年 - 基于恒等映射殘差單元的圖像分類算法——ResNet,2015年
- 基于聚合轉(zhuǎn)換殘差單元的圖像分類算法——ResNeXt,2016年,在ResNet的基礎(chǔ)上同時(shí)采用VGGNet和Inception的思想,提出一種可擴(kuò)展性更強(qiáng)的“聚合轉(zhuǎn)換殘差單元”,可以在增加準(zhǔn)確率的同時(shí)降低或者不改變模型的復(fù)雜度。
- 基于多層密集連接的圖像分類算法——DenseNet,2017年,受ResNet的啟發(fā),提出一種更加密集的前饋式跳躍連接。從特征的角度出發(fā),通過(guò)增加網(wǎng)絡(luò)信息流的隱性深層監(jiān)督和特征復(fù)用極大程度上緩解了梯度消失的問(wèn)題,也使得模型的性能得到大幅度的提升。
- 基于特征通道重標(biāo)定的圖像分類算法——SENet,2018年。并非是一個(gè)完整的網(wǎng)絡(luò),可以嵌入到任何主干網(wǎng)絡(luò)中的子模塊。
- 基于通道壓縮與擴(kuò)展的圖像分類算法——SqueezeNet,2016年。開啟了模型輕量化的開端,對(duì)神經(jīng)網(wǎng)絡(luò)走向?qū)嶋H化具有重要的意義。
- 基于深度可分離卷積的圖像分類算法——MobileNet,2017年。一種專注于資源受限的移動(dòng)設(shè)備或嵌入式設(shè)備的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。基于逐點(diǎn)群卷積與通道混洗的圖像分類算法——ShuffleNet,2017年?;谏窠?jīng)架構(gòu)自動(dòng)搜索的圖像分類算法——NASNet,2018年。
從圖像中提取關(guān)鍵信息并轉(zhuǎn)化為能夠進(jìn)行分類的特征是圖像分類算法的最基本的要求,關(guān)鍵信息提取是完成圖像分類最基本的先決條件。圖像分類的本質(zhì)實(shí)際上就是濾除非關(guān)鍵信息,保留關(guān)鍵信息的過(guò)程。
3.深度學(xué)習(xí)目標(biāo)檢測(cè)算法核心
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域一個(gè)基礎(chǔ)但十分重要的研究方向。
如何充分利用深度卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的淺層和深層特征來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的檢測(cè)性能,并在一定檢測(cè)精度的前提下降低網(wǎng)絡(luò)的時(shí)間復(fù)雜度,是當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法的主要研究目標(biāo)。
目標(biāo)檢測(cè)要解決目標(biāo)定位的回歸問(wèn)題,又要解決目標(biāo)分類的問(wèn)題。
為評(píng)估定位精度,需要計(jì)算交并比IoU(預(yù)測(cè)框與真實(shí)框之間的重疊程度)。
- R-CNN,2014年(候選區(qū)域推薦 -> 候選區(qū)域特征提取 -> 候選區(qū)域分類 -> 候選區(qū)域邊界框回歸)
- 基于空間金字塔池化的目標(biāo)檢測(cè)算法——SPPNet, 2015年。
- 基于R-CNN和SPPNet改進(jìn)的目標(biāo)檢測(cè)算法—— Fast R-CNN,2015年。
- 基于語(yǔ)義分割和Faster R-CNN的目標(biāo)檢測(cè)網(wǎng)絡(luò)——Mask R-CNN,2017年。解決圖像實(shí)例分割問(wèn)題。
- 一步式目標(biāo)檢測(cè)算法的提出——YOLO系列,2015年。
- 基于特征金字塔的目標(biāo)檢測(cè)算法——FPN,2017年。利用特征圖間不同的表達(dá)特性,提出對(duì)輸入圖像生成多維度特征表達(dá)的方法,從而生成更具有代表性、表達(dá)能力更強(qiáng)的特征圖以供后續(xù)使用。本質(zhì)上說(shuō),F(xiàn)PN是一種加強(qiáng)骨干網(wǎng)絡(luò)特征表達(dá)的方法。
- 基于單發(fā)細(xì)化目標(biāo)的檢測(cè)算法——RefineDet,基于SSD,融合了一步式和兩步式的思想,在保持一步式方法速度的前提下,獲得了二步式的精度。(Faster R-CNN兩步式,YOLO一步式)。該算法由錨框優(yōu)化模塊ARM和目標(biāo)檢測(cè)模塊ODM兩個(gè)模塊,由轉(zhuǎn)換連接模塊TCB連接。
- 基于主干架構(gòu)搜索的目標(biāo)檢測(cè)算法——DetNAS,基于單步檢測(cè)網(wǎng)絡(luò)空間提出搜索目標(biāo)檢測(cè)骨干網(wǎng)絡(luò)框架。
- 基于神經(jīng)架構(gòu)搜索的目標(biāo)檢測(cè)算法——NAS-FPN,F(xiàn)PN是一種有效表達(dá)深度卷積網(wǎng)絡(luò)特征的方法,通過(guò)提取多維度特征形成強(qiáng)表達(dá)特征,可緩解不同尺度檢測(cè)的難題,能極大提升小物體的檢測(cè)效果。NAS-FPN基于RetinaNet一步式網(wǎng)絡(luò)(兩個(gè)主要模塊:骨干網(wǎng)絡(luò)模塊和FPN網(wǎng)絡(luò)模塊)。
4.深度學(xué)習(xí)語(yǔ)義分割算法本質(zhì)與革新
語(yǔ)義分割是計(jì)算機(jī)視覺領(lǐng)域較為典型的像素點(diǎn)標(biāo)注問(wèn)題,不僅解決是什么的問(wèn)題,還需對(duì)該物體所在的圖像區(qū)域進(jìn)行精確的定位。
- 基于深度學(xué)習(xí)的語(yǔ)義分割算法——FCN,首個(gè)。2015年,Long等。全卷積神經(jīng)網(wǎng)絡(luò)FCN的提出,實(shí)現(xiàn)了基于深度學(xué)習(xí)的圖像語(yǔ)義分割,使得語(yǔ)義分割模型也能夠進(jìn)行端到端的訓(xùn)練。
- 基于深度編解碼結(jié)構(gòu)的語(yǔ)義分割算法——SegNet。
- 基于空洞卷積的語(yǔ)義分割算法—— dilate convolution 。傳統(tǒng)卷積方式,保留空間細(xì)節(jié)信息與獲得全局上下文信息是相互矛盾的。Yu引入空洞卷積,通過(guò)在卷積核之間產(chǎn)生空洞,從而在不增加參數(shù)量的前提下擴(kuò)大感受野。
- 基于金字塔池化句很多尺度信息的語(yǔ)義分割算法——PSPNet,2016年。通過(guò)全局先驗(yàn)表示能夠有效生成高質(zhì)量的場(chǎng)景解析結(jié)果,且PSPNet為像素級(jí)預(yù)測(cè)提供了一個(gè)優(yōu)越的框架。
- 基于卷積神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)的語(yǔ)義分割算法——DeepLab-v1,。
- 基于空洞空間金字塔池化與條件隨機(jī)場(chǎng)的語(yǔ)義分割算法——DeepLab-v2,2017年。
- 基于級(jí)聯(lián)空洞卷積與并行多空洞率金字塔池化的語(yǔ)義分割算法——DeepLab-v3
- 基于深度可分離卷積與并行多空洞率金字塔池化的語(yǔ)義分割算法——DeepLab-v3+,2018年。
- 基于多路徑優(yōu)化的語(yǔ)義分割算——RefineNet。通過(guò)遠(yuǎn)距離的殘差連接有效利用不同分辨率的圖像信息,可以直接使用來(lái)自早期卷積的細(xì)粒度特性對(duì)捕獲高級(jí)語(yǔ)義特性的更深層進(jìn)行細(xì)化。
- 基于注意力優(yōu)化與特征融合的語(yǔ)義分割算法——BiSeNet(雙通道語(yǔ)義分割網(wǎng)絡(luò)),空間路徑和上下文語(yǔ)義路徑。
- 基于增強(qiáng)特征融合的語(yǔ)義分割算法——ExFuse
- 基于雙路注意力機(jī)制的語(yǔ)義分割算法——DANet,通過(guò)自注意力機(jī)制捕獲豐富的上下文依賴關(guān)系來(lái)解決場(chǎng)景分割任務(wù)。
基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割算法首先需要利用卷積神經(jīng)網(wǎng)絡(luò)提取特征,必然會(huì)面臨多次下采樣而導(dǎo)致細(xì)節(jié)信息丟失,過(guò)少的下采樣又會(huì)導(dǎo)致無(wú)法捕獲足夠視野的上下文信息。編碼結(jié)構(gòu)能夠融合不同尺度的高低層次特征,從而使得語(yǔ)義分割算法在回復(fù)分辨率的過(guò)程中有效利用了不同層次的特征;金字塔池化成功解決了高層特征無(wú)法捕獲全局語(yǔ)義信息的問(wèn)題;空洞卷積能夠在有限下采樣次數(shù)的情況下,擴(kuò)大編碼端的感受野,捕獲足夠尺度上的上下文信息;自注意力機(jī)制能夠增強(qiáng)特征點(diǎn)之間的空間關(guān)聯(lián)關(guān)系以及通道間的一致性,從而達(dá)到優(yōu)化語(yǔ)義分割結(jié)果的目的。
5.深度學(xué)習(xí)的圖像生成算法原理及發(fā)展
5章和剩下的應(yīng)用部分在目前看來(lái)可能不是很好吸收,覺得最重要的是自己沒(méi)有相關(guān)的項(xiàng)目經(jīng)驗(yàn),有必要抽出部分部件來(lái)做與代碼相關(guān)的項(xiàng)目,目前吸收更多的是理論知識(shí),而且理論知識(shí)也是那種廣泛泛泛而談的理論,實(shí)踐的東西是越做越少了。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-651476.html
書評(píng)
是一本不錯(cuò)的深度學(xué)習(xí)與圖像分析基礎(chǔ)與應(yīng)用的書籍,在梳理算法的時(shí)候,從應(yīng)用(分割、分類、生成等幾個(gè)部分)到時(shí)間上的細(xì)分,從基礎(chǔ)到改進(jìn)上的細(xì)分,相對(duì)來(lái)說(shuō),比較適合新手做系統(tǒng)的概念了解和老手做系統(tǒng)知識(shí)梳理與回顧。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-651476.html
到了這里,關(guān)于《深度學(xué)習(xí)與圖像分析——基礎(chǔ)與應(yīng)用》書籍閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!