隨著計(jì)算機(jī)硬件的升級(jí)與性能的提高,運(yùn)算量已不再是阻礙深度學(xué)習(xí)發(fā)展的難題。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是深度學(xué)習(xí)中一項(xiàng)代表性的工作,其雛形是 1998 年 LeCun 提出的 LeNet-5 模型。如今,卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。本文主要介紹卷積神經(jīng)網(wǎng)絡(luò)中的經(jīng)典網(wǎng)絡(luò),包括 LeNet-5, AlexNet 和 VGG-16.
目錄
1 LeNet-5
2 AlexNet
3 VGG-16
1 LeNet-5
? ? ? ? LeNet-5 是經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)之一,1998 年由 Yann LeCun 等人在論文 《Gradient-Based Learning Applied to Document Recognition》中提出。LeNet-5 網(wǎng)絡(luò)使用了卷積層、池化層和全連接層,實(shí)現(xiàn)可以應(yīng)用于手寫體識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。
論文鏈接如下:
《Gradient-Based Learning Applied to Document Recognition》
? ? ? ? LeNet-5 包含 2 個(gè)卷積層和 3 個(gè)全連接層,包含學(xué)習(xí)參數(shù)的網(wǎng)絡(luò)層有 5 層。LeNet-5 的輸入圖像大小是 32 x 32,顏色通道數(shù)為 1,這表明 LeNet-5 僅支持輸入黑白圖像。?
卷積 / 池化操作 | 圖像大小 / 神經(jīng)元個(gè)數(shù) | 待訓(xùn)練的參數(shù)個(gè)數(shù) | |
Input | 32 × 32 × 1 | / | |
Conv1 | 5 × 5, s = 1 | 28 × 28?× 6 | 150 |
avg pool1 | 2?× 2, s = 2 | 14?× 14?× 6 | / |
Conv2 | 5?× 5, s = 1 | 10?× 10?× 16 | 2,400 |
avg pool2 | 2?× 2, s = 2 | 5?× 5?× 16 | / |
FC1 | 120 | 48,000 | |
FC2 | 84 | 10,080 | |
FC3 (Output) | 10 | 840 |
????????LeNet-5 網(wǎng)絡(luò)擁有約 6.1 萬(wàn)個(gè)待訓(xùn)練的參數(shù),與如今常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)不同, LeNet-5 激活層使用了 Sigmoid 函數(shù),池化層采用平均池化,另外最后一層的輸出使用 RBF 函數(shù)處理(而現(xiàn)在常用的處理方法是 Softmax 函數(shù))。
2 AlexNet
? ? ? ? 與?LeNet-5?類似,AlexNet?是另一個(gè)用于圖像識(shí)別的經(jīng)典神經(jīng)網(wǎng)絡(luò)。AlexNet?的名字來(lái)源于其第一作者?Alex?Krizhevsky,于?2012?年?ImageNet?賽事奪冠之后為人們所熟知。AlexNet?沿用了?LeNet-5?的思路,把卷積,池化操作應(yīng)用于更深層的神經(jīng)網(wǎng)絡(luò)中。
論文鏈接如下:
《ImageNet Classification with Deep Convolutional Neural Networks》
卷積 / 池化操作 | 圖像大小 / 神經(jīng)元個(gè)數(shù) | 待訓(xùn)練的參數(shù)個(gè)數(shù) | |
Input | 224??× 224??× 3 | / | |
Conv1 | 11?× 11, s = 4 | 55?× 55?× 96 | 34,848 |
max pool1 | 3?× 3, s = 2 | 27?× 27?× 96 | / |
Conv2 | 5?× 5, p = 1, s = 1 | 27?× 27?× 256 | 614,400 |
max pool2 | 3?× 3, s = 2 | 13?× 13?× 256 | / |
Conv3 | 3?× 3, p = 1, s = 1 | 13?× 13?× 384 | 884,736 |
Conv4 | 3?× 3, p = 1, s = 1 | 13?× 13?× 384 | 1,327,104 |
Conv5 | 3?× 3, p = 1, s = 1 | 13?× 13?× 256 | 884,736 |
max pool3 | 3?× 3, s = 2 | 6?× 6?× 256 | / |
FC1 | 4,096 | 37,748,736 | |
FC2 | 4,096 | 16,777,216 | |
FC3 (Output) | 1,000 | 4,096,000 |
????????AlexNet 網(wǎng)絡(luò)擁有約 6200?萬(wàn)個(gè)參數(shù),AlexNet?的創(chuàng)新點(diǎn)包括:
(1)使用?ReLU?作為卷積層的激活函數(shù),避免了?Sigmoid?函數(shù)在網(wǎng)絡(luò)層數(shù)增加時(shí)梯度消失或爆炸問(wèn)題;
(2)全連接層使用?DropOut?隨機(jī)失活方式,屏蔽一部分神經(jīng)元的輸出值,避免模型的過(guò)擬合;
(3)使用重疊的最大池化。AlexNet?使用最大池化替代此前人們常用的平均池化,避免了平均池化的模糊問(wèn)題,并且池化的步長(zhǎng)比池化核小,使池化輸出有一定的重疊,豐富輸出特征。
3 VGG-16
????????VGG 網(wǎng)絡(luò)是 Oxford 的 Visual Geometry Group 團(tuán)隊(duì)提出,在 2014 年的 ImageNet 賽事中取得亞軍。VGG 在 AlexNet 的基礎(chǔ)上進(jìn)一步增加了神經(jīng)網(wǎng)絡(luò)的深度,表明當(dāng)網(wǎng)絡(luò)層數(shù)增加到 16~19 個(gè)時(shí)可以實(shí)現(xiàn)顯著改進(jìn)。
論文鏈接如下:
《Very Deep Convolutional Networks for Large-Scale Image Recognition》
????????VGG 網(wǎng)絡(luò)有兩個(gè)常見(jiàn)的版本,VGG-16 和 VGG-19,分別對(duì)應(yīng)上圖中的模型 D 和模型 E,數(shù)字 16 和 19 表示帶有待訓(xùn)練權(quán)重的網(wǎng)絡(luò)層數(shù)。VGG-16 有 13 個(gè)卷積層和 3 個(gè)全連接層,VGG-19 比 VGG-16 多 3 個(gè)卷積層,有 16 個(gè)卷積層和 3 個(gè)全連接層。
卷積 / 池化操作 | 圖像大小 / 神經(jīng)元個(gè)數(shù) | 待訓(xùn)練的參數(shù)個(gè)數(shù) | |
Input | 224?× 224?× 3 | / | |
Conv1 | 3?× 3, p = 1, s = 1 | 224?× 224?× 64 | 1,728 |
Conv2 | 3?× 3, p = 1, s = 1 | 224?× 224??× 64 | 36,864 |
max pool1 | 2?× 2, s = 2 | 112?× 112?× 64 | / |
Conv3 | 3?× 3, p = 1, s = 1 | 112?× 112?× 128 | 73,728 |
Conv4 | 3?× 3, p = 1, s = 1 | 112?× 112?× 128 | 147,456 |
max pool2 | 2?× 2, s = 2 | 56?× 56?× 128 | / |
Conv5 | 3?× 3, p = 1, s = 1 | 56?× 56?× 256 | 294,912 |
Conv6 | 3?× 3, p = 1, s = 1 | 56?× 56?× 256 | 589,824 |
Conv7 | 3?× 3, p = 1, s = 1 | 56?× 56?× 256 | 589,824 |
max pool3 | 2?× 2, s = 2 | 28?× 28?× 256 | / |
Conv8 | 3?× 3, p = 1, s = 1 | 28?× 28?× 512 | 1,179,648 |
Conv9 | 3?× 3, p = 1, s = 1 | 28?× 28?× 512 | 2,359,296 |
Conv10 | 3?× 3, p = 1, s = 1 | 28?× 28?× 512 | 2,359,296 |
max pool4 | 2?× 2, s = 2 | 14?× 14?× 512 | / |
Conv11 | 3?× 3, p = 1, s = 1 | 14?× 14?× 512 | 2,359,296 |
Conv12 | 3?× 3, p = 1, s = 1 | 14?× 14?× 512 | 2,359,296 |
Conv13 | 3?× 3, p = 1, s = 1 | 14?× 14?× 512 | 2,359,296 |
max pool5 | 2?× 2, s = 2 | 7?× 7?× 512 | / |
FC1 | 4,096 | 102,760,448 | |
FC2 | 4,096 | 16,777,216 | |
FC3 (Output) | 1,000 | 4,096,000 |
????????VGG-16 網(wǎng)絡(luò)擁有約 1.38 億個(gè)參數(shù)。它的主要?jiǎng)?chuàng)新之處在于,VGG 使用了多個(gè)連續(xù)的卷積層,以及尺寸更小的卷積核(3 × 3 大小),替代 AlexNet 中大尺寸的卷積核(11 × 11,5 × 5 等大小),以更好地提取圖像的深層特征。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-665458.html
? ? ? ? 另外,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,輸出圖像的寬高減半,卷積層的輸出特征數(shù)從最初的 64,增加到 128,256 和 512。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-665458.html
到了這里,關(guān)于【卷積神經(jīng)網(wǎng)絡(luò)】經(jīng)典網(wǎng)絡(luò)之 LeNet-5, AlexNet 與 VGG-16的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!