??歡迎來到深度學(xué)習(xí)的世界?
??博客主頁:卿云閣??歡迎關(guān)注??點(diǎn)贊??收藏??留言??
??本文由卿云閣原創(chuàng)!
??作者水平很有限,如果發(fā)現(xiàn)錯(cuò)誤,請(qǐng)留言轟炸哦!萬分感謝!
目錄
3.1 從感知機(jī)到神經(jīng)網(wǎng)絡(luò)
3.2 激活函數(shù)
3.3 多維數(shù)組的運(yùn)算
3.4 3層神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)
3.5 輸出層的設(shè)計(jì)
3.6 手寫數(shù)字識(shí)別
?CPU和GPU
? ? ? ? 對(duì)于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來說,GPU顯然更適合一點(diǎn)。兩者的區(qū)別可以這么理解,CPU相當(dāng)于5-6個(gè)大學(xué)教授,GPU相當(dāng)于100個(gè)高中生,顯然如果我們只是單純的想做1000到簡單的數(shù)學(xué)題的話,使用GPU顯然更合適。
?
3.1 從感知機(jī)到神經(jīng)網(wǎng)絡(luò)
3.1.1 神經(jīng)網(wǎng)絡(luò)的例子第 0 層對(duì)應(yīng)輸入層,第 1 層對(duì)應(yīng)中間層,第 2 層對(duì)應(yīng)輸出層。![]()
3.1.2 復(fù)習(xí)感知機(jī)?
3.1.3 激活函數(shù)登場(chǎng)? ? ? ? ? ? ?神經(jīng)網(wǎng)絡(luò)之所以要引入激活函數(shù),主要是為了增加模型的非線性表達(dá)能力。 h(x )函數(shù)會(huì)將輸入信號(hào)的總和轉(zhuǎn)換為輸出信號(hào),這種函數(shù) 一般稱為激活函數(shù) ( activationfunction )。如“激活”一詞所示,激活函數(shù)的作用在于決定如何來激活輸入信號(hào)的總和。![]()
3.2 激活函數(shù)
3.2.1 sigmoid函數(shù)
3.2.2 階躍函數(shù)的實(shí)現(xiàn)?
當(dāng)輸入超過 0 時(shí),輸出 1 ,否則輸出0 ??梢韵裣旅孢@樣簡單地實(shí)現(xiàn)階躍函數(shù)。def step_function(x): if x > 0: return 1 else: return 0 print("h(a)={0}".format(step_function(3.0))) 結(jié)果: h(a)=1 但不允許參數(shù)取NumPy數(shù)組,例如step_function(np.array([1.0, 2.0]))。為了便于后面的操作,我們把它修 改為支持NumPy數(shù)組的實(shí)現(xiàn)。為此,可以考慮下述實(shí)現(xiàn)。
支持NumPy數(shù)組的實(shí)現(xiàn)
前期準(zhǔn)備
import numpy as np x = np.array([-1.0, 1.0, 2.0]) print("x={0}".format(x)) y = x > 0 print("----------") print("y={0}".format(y)) print("----------") y = y.astype(np.int) print("轉(zhuǎn)化之后的y={0}".format(y))
對(duì)NumPy 數(shù)組進(jìn)行不等號(hào)運(yùn)算后,數(shù)組的各個(gè)元素都會(huì)進(jìn)行不等號(hào)運(yùn)算, 生成一個(gè)布爾型數(shù)組。這里,數(shù)組x 中大于 0 的元素被轉(zhuǎn)換為 True ,小于等 于0 的元素被轉(zhuǎn)換為 False ,從而生成一個(gè)新的數(shù)組 y 。 數(shù)組y是一個(gè)布爾型數(shù)組,但是我們想要的階躍函數(shù)是會(huì)輸出 int 型的0或1 的函數(shù)。因此,需要把數(shù)組 y 的元素類型從布爾型轉(zhuǎn)換為 int型。3.2.3 階躍函數(shù)的圖形np.arange(-5.0, 5.0, 0.1) 在 ? 5 . 0 到 5 . 0 的范圍內(nèi),以 0 . 1 為單位,生成 NumPy數(shù)組。import numpy as np import matplotlib.pylab as plt def step_function(x): return np.array(x > 0, dtype=np.int) x = np.arange(-5.0, 5.0, 0.1) y = step_function(x) print("y={0}".format(y)) plt.plot(x, y,color='red',label="step") plt.legend(loc='best') plt.title("Step Function") plt.ylim(-0.1, 1.1) # 指定y軸的范圍 plt.show()
?3.2.4 sigmoid函數(shù)的實(shí)現(xiàn)
def sigmoid(x): return 1 / (1 + np.exp(-x)) x = np.array([-1.0, 1.0, 2.0]) y = sigmoid(x) print("----------") print("y=sigmoid(x)={0}".format(y)) #結(jié)果: #之所以sigmoid函數(shù)的實(shí)現(xiàn)能支持NumPy數(shù)組
? ? ? ?之所以 sigmoid 函數(shù)的實(shí)現(xiàn)能支持 NumPy 數(shù)組,根據(jù)NumPy 的廣播功能,如果在標(biāo)量和 NumPy 數(shù)組 之間進(jìn)行運(yùn)算,則標(biāo)量會(huì)和NumPy 數(shù)組的各個(gè)元素進(jìn)行運(yùn)算。這里來看一個(gè)具體的例子。t = np.array([1.0, 2.0, 3.0]) print("----------") print("1.0 + t={0}".format(1.0 + t)) print("----------") print("1.0 / t={0}".format(1.0 / t)) #結(jié)果 #---------- #1.0 + t=[2. 3. 4.] #---------- #1.0 / t=[1. 0.5 0.33333333]
def sigmoid(x): return 1 / (1 + np.exp(-x)) x = np.arange(-5.0, 5.0, 0.1) y = sigmoid(x) plt.plot(x, y,color='red',label="sigmoid") plt.legend(loc='best') plt.title("sigmoid Function") plt.ylim(-0.1, 1.1) # 指定y軸的范圍 plt.show()
3.2.5 sigmoid函數(shù)和階躍函數(shù)的比較?
import numpy as np import matplotlib.pylab as plt #階躍函數(shù) def step_function(x): return np.array(x > 0, dtype=np.int) #sigmoid函數(shù) def sigmoid(x): return 1 / (1 + np.exp(-x)) x = np.arange(-5.0,5.0,0.1) y1 = step_function(x) y2=sigmoid(x) plt.xlabel("x") plt.ylabel("y") plt.plot(x, y1,label="step") plt.plot(x,y2,label="sigmoid") plt.legend(loc='best') plt.title("VS") plt.ylim(-0.1, 1.1) # 指定y軸的范圍 plt.show()
- ? ? ? ?首先注意到的是“平滑性”的不同。sigmoid函數(shù)是一條平 滑的曲線,輸出隨著輸入發(fā)生連續(xù)性的變化。而階躍函數(shù)以0為界,輸出發(fā)生急劇性的變化。
- ? ? ? 相對(duì)于階躍函數(shù)只能返回0或1,sigmoid函數(shù)可以返 回0.731 ...、0.880 ...等實(shí)數(shù)(這一點(diǎn)和剛才的平滑性有關(guān))。也就是說,感知機(jī)中神經(jīng)元之間流動(dòng)的是0或1的二元信號(hào),而神經(jīng)網(wǎng)絡(luò)中流動(dòng)的是連續(xù) 的實(shí)數(shù)值信號(hào)。
3.2.6 非線性函數(shù)? ? ? 階躍函數(shù)和 sigmoid 函數(shù)還有其他共同點(diǎn),就是兩者均為 非線性函數(shù)。 sigmoid函數(shù)是一條曲線,階躍函數(shù)是一條像階梯一樣的折線,兩者都屬于 非線性的函數(shù)。 神經(jīng)網(wǎng)絡(luò)的激活函數(shù)必須使用非線性函數(shù)。換句話說,激活函數(shù)不能使 用線性函數(shù)。為什么不能使用線性函數(shù)呢?因?yàn)槭褂镁€性函數(shù)的話,加深神 經(jīng)網(wǎng)絡(luò)的層數(shù)就沒有意義了。3.2.7 ReLU函數(shù)? ? ? ? ? ReLU 函數(shù)在輸入大于 0 時(shí),直接輸出該值;在輸入小于等于 0 時(shí),輸出0。 這里使用了 NumPy 的 maximum 函數(shù)。 maximum 函數(shù)會(huì)從輸入的數(shù)值中選 擇較大的那個(gè)值進(jìn)行輸出。![]()
?文章來源地址http://www.zghlxwxcb.cn/news/detail-484027.html
import numpy as np import matplotlib.pylab as plt def relu(x): return np.maximum(0, x) x = np.arange(-5.0, 5.0, 0.1) y = relu(x) plt.plot(x, y,color='red',label="relu") plt.legend(loc='best') plt.title("relu Function") plt.ylim(-0.1, 1.1) # 指定y軸的范圍 plt.show()
?
?除了上面介紹的解階躍函數(shù),在深度學(xué)習(xí)領(lǐng)域還存在著著很多其它的激活函數(shù)。比如tanh函數(shù),sigmoid函數(shù),ReLu,Leaky ReLu以及softmax函數(shù)等等。
3.3 多維數(shù)組的運(yùn)算
3.3.1 多維數(shù)組![]()
import numpy as np A = np.array([1, 2, 3, 4]) print("----------") print("A={0}".format(A)) print("----------") print("A的維度={0}".format(np.ndim(A))) print("----------") print("A的形狀={0}".format((A.shape))) print("----------") print("A的第一個(gè)元素={0}".format((A[0])))
?
#多維數(shù)組 import numpy as np B = np.array([[1,2], [3,4], [5,6]]) print("----------") print("B={0}".format(B)) print("----------") print("B的維度={0}".format(np.ndim(B))) print("----------") print("B的形狀={0}".format((B.shape))) print("----------") print("B的第一個(gè)元素={0}".format((B[0][0])))
?3.3.2 矩陣乘法
?
#3.3.2 矩陣乘法 A = np.array([[1,0], [-3,1]]) B = np.array([[1,2,3], [4,5,6]]) print("----------") print("A*B={0}".format(np.dot(A, B))) #結(jié)果: #---------- #A*B=[[ 1 2 3] #[ 1 -1 -3]]
?
?
?3.3.3 神經(jīng)網(wǎng)絡(luò)的內(nèi)積
簡單神經(jīng)網(wǎng)絡(luò)為對(duì)象。這個(gè)神經(jīng)網(wǎng)絡(luò)省略了偏置和激活函數(shù),只有權(quán)重。.?![]()
#?3.3.3 神經(jīng)網(wǎng)絡(luò)的內(nèi)積 X = np.array([1, 2]) W = np.array([[1, 3, 5], [2, 4, 6]]) Y = np.dot(X, W) print("----------") print("X*W={0}".format(Y)) #結(jié)果: #---------- #X*W=[ 5 11 17]
3.4 3層神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)
3.4.1 符號(hào)確認(rèn)?
?3.4.2 各層間信號(hào)傳遞的實(shí)現(xiàn)
下一層第一個(gè)神經(jīng)元的輸出
X是1*n的一個(gè)矩陣,n是該層神經(jīng)元的個(gè)數(shù)。
W是權(quán)重矩陣,(n*m)? n表示該層神經(jīng)元的個(gè)數(shù),m表示下一層神經(jīng)元的個(gè)數(shù)。
b是偏置項(xiàng),是1*m的一個(gè)矩陣? ? ?與下一層神經(jīng)元的個(gè)數(shù)有關(guān)。
從輸入層到第1層的信號(hào)傳遞
#從輸入層到第1層的信號(hào)傳遞 X = np.array([1.0, 0.5]) W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) B1 = np.array([0.1, 0.2, 0.3]) A1 = np.dot(X, W1) + B1 Z1 = sigmoid(A1) print("----------") print("加權(quán)和={0}".format(A1)) print("----------") print("激活函數(shù)處理={0}".format(Z1))
從第1層到第2層的信號(hào)傳遞
#從第1層到第2層的信號(hào)傳遞 W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]]) B2 = np.array([0.1, 0.2]) A2 = np.dot(Z1, W2) + B2 Z2 = sigmoid(A2) print("----------") print("加權(quán)和={0}".format(A2)) print("----------") print("激活函數(shù)處理={0}".format(Z2))
?從第2層到第3層的信號(hào)傳遞
#從第2層到第3層的信號(hào)傳遞 def identity_function(x): return x W3 = np.array([[0.1, 0.3], [0.2, 0.4]]) B3 = np.array([0.1, 0.2]) A3 = np.dot(Z2, W3) + B3 Y = identity_function(A3) # 或者Y = A3 print("----------") print("加權(quán)和={0}".format(A3)) print("----------") print("激活函數(shù)處理={0}".format(Y))
3.4.3 代碼實(shí)現(xiàn)小結(jié)?
? ? ? ? ?這里定義了 init_network() 和 forward() 函數(shù)。 init_network() 函數(shù)會(huì)進(jìn)行權(quán)重和偏置的初始化,并將它們保存在字典變量network 中。這個(gè)字典變量network 中保存了每一層所需的參數(shù)(權(quán)重和偏置)。 forward()函數(shù)中則封裝了將輸入信號(hào)轉(zhuǎn)換為輸出信號(hào)的處理過程。import numpy as np #定義激活函數(shù) def sigmod(x): return 1 / (1 + np.exp(-x)) def indentify_function(x): return x # 在本程序中使用numpy來實(shí)現(xiàn)一個(gè)簡單的神經(jīng)網(wǎng)絡(luò) # 定義好神經(jīng)網(wǎng)絡(luò)的初始化函數(shù) def init_network(): network = {} network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) network['B1'] = np.array([0.1, 0.2, 0.3]) network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]]) network['B2'] = np.array([0.1, 0.2]) network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]]) network['B3'] = np.array([0.1, 0.2]) return network def forward(network, x): W1 = network['W1'] W2 = network['W2'] W3 = network['W3'] B1 = network['B1'] B2 = network['B2'] B3 = network['B3'] a1 = np.dot(x, W1) + B1 z1 = sigmod(a1) a2 = np.dot(z1, W2) + B2 z2 = sigmod(a2) a3 = np.dot(z2, W3) + B3 y = indentify_function(a3) return y # 開始運(yùn)行神經(jīng)網(wǎng)絡(luò) network = init_network() x = np.array([1, 2]) y = forward(network, x=x) print("---最后的輸出---") print(y) #結(jié)果: #---最后的輸出--- #[0.32403126 0.71230655]
3.5 輸出層的設(shè)計(jì)
神經(jīng)網(wǎng)絡(luò)可以用在分類問題和回歸問題上,不過需要根據(jù)情況改變輸出層的激活函數(shù)。一般而言,回歸問題用恒等函數(shù),分類問題用softmax 函數(shù)。3.5.1 恒等函數(shù)和 softmax函數(shù)分類問題中使用的 softmax函數(shù), 設(shè)輸出層共有 n 個(gè)神經(jīng)元,計(jì)算第 k 個(gè)神經(jīng)元的輸出 。如softmax 函數(shù)的分子是輸入信號(hào) 的指數(shù)函數(shù),分母是所有輸入信號(hào)的指數(shù)函數(shù)的和。#softmax函數(shù) import numpy as np import matplotlib.pylab as plt def softmax(a): exp_a = np.exp(a) sum_exp_a = np.sum(exp_a) y = exp_a / sum_exp_a return y x = np.arange(-10.0, 10.0, 1) y = softmax(x) plt.plot(x, y,color='red',label="softmax") plt.legend(loc='best') plt.title("softmax Function") plt.ylim(-0.1, 1.1) # 指定y軸的范圍 plt.show()
3.5.2 實(shí)現(xiàn) softmax函數(shù)時(shí)的注意事項(xiàng)?
? ? 在計(jì)算機(jī)的運(yùn)算 上有一定的缺陷。這個(gè)缺陷就是溢出問題。softmax 函數(shù)的實(shí)現(xiàn)中要進(jìn)行指 數(shù)函數(shù)的運(yùn)算,但是此時(shí)指數(shù)函數(shù)的值很容易變得非常大。比如,的值 會(huì)超過20000 , 會(huì)變成一個(gè)后面有 40 多個(gè) 0 的超大值,的結(jié)果會(huì)返回 一個(gè)表示無窮大的inf。如果在這些超大值之間進(jìn)行除法運(yùn)算,結(jié)果會(huì)出現(xiàn)“不確定”的情況。![]()
?
a = np.array([1010, 1000, 990]) print("----------") print("softmax函數(shù)的運(yùn)算={0}".format(np.exp(a) / np.sum(np.exp(a)) )) c = np.max(a) # 1010 print("----------") print("改進(jìn)的softmax函數(shù)的運(yùn)算={0}".format(np.exp(a - c) / np.sum(np.exp(a - c))))
3.5.3 softmax函數(shù)的特征#3.5.3 softmax函數(shù)的特征 a = np.array([0.3, 2.9, 4.0]) y = softmax(a) print("----------") print("softmax函數(shù)的運(yùn)算={0}".format(y)) print("----------") print("輸出總和={0}".format(np.sum(y)))
? ? ? ?softmax 函數(shù)的輸出是 0.0到1.0 之間的實(shí)數(shù)。并且, softmax 函數(shù)的輸出值的總和是1 。輸出總和為 1 是 softmax 函數(shù)的一個(gè)重要性質(zhì)。正因?yàn)橛辛诉@個(gè)性質(zhì),我們才可以把softmax 函數(shù)的輸出解釋為“概率”。 比如,上面的例子可以解釋成y[0] 的概率是 0 . 018 (1. 8 % ), y[1] 的概率 是0 . 245 ( 24 . 5 % ), y[2] 的概率是 0 . 737 ( 73 . 7 % )。從概率的結(jié)果來看,可以 說“因?yàn)榈?/span> 2 個(gè)元素的概率最高,所以答案是第 2個(gè)類別”。而且,還可以回答“有74 % 的概率是第 2 個(gè)類別,有 25 % 的概率是第 1 個(gè)類別,有 1 % 的概 率是第0 個(gè)類別”。也就是說,通過使用 softmax 函數(shù),我們可以用概率的(統(tǒng)計(jì)的)方法處理問題。? ? ? ? ? ? 這里需要注意的是,即便使用了 softmax 函數(shù),各個(gè)元素之間的大小關(guān) 系也不會(huì)改變。這是因?yàn)橹笖?shù)函數(shù) 是單調(diào)遞增函數(shù)。實(shí)際上,上例中a 的各元素的大小關(guān)系和 y 的各元素的大小關(guān)系并沒有改變。比如, a 的最大值是第2 個(gè)元素, y 的最大值也仍是第 2 個(gè)元素。 一般而言,神經(jīng)網(wǎng)絡(luò)只把輸出值最大的神經(jīng)元所對(duì)應(yīng)的類別作為識(shí)別結(jié)果。 并且,即便使用softmax 函數(shù),輸出值最大的神經(jīng)元的位置也不會(huì)變。因此, 神經(jīng)網(wǎng)絡(luò)在進(jìn)行分類時(shí),輸出層的softmax 函數(shù)可以省略。在實(shí)際的問題中, 由于指數(shù)函數(shù)的運(yùn)算需要一定的計(jì)算機(jī)運(yùn)算量,因此輸出層的softmax 函數(shù) 一般會(huì)被省略。3.5.4 輸出層的神經(jīng)元數(shù)量輸出層的神經(jīng)元數(shù)量需要根據(jù)待解決的問題來決定。對(duì)于分類問題,輸出層的神經(jīng)元數(shù)量一般設(shè)定為類別的數(shù)量。3.6 手寫數(shù)字識(shí)別
? ? ? ?介紹完神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)之后,現(xiàn)在我們來試著解決實(shí)際問題。這里我們 來進(jìn)行手寫數(shù)字圖像的分類。假設(shè)學(xué)習(xí)已經(jīng)全部結(jié)束,我們使用學(xué)習(xí)到的參 數(shù),先實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的“推理處理”。這個(gè)推理處理也稱為神經(jīng)網(wǎng)絡(luò)的前向傳播( forward propagation)。3.6.1 MNIST數(shù)據(jù)集?數(shù)據(jù)集的介紹
? ? ? MNIST包含70000張手寫數(shù)字圖像:60000張用于訓(xùn)練;10000張用于測(cè)試。 28x28像素的灰度圖。?MNIST的圖像數(shù)據(jù)是28像素 × 28像素的灰度圖像(通道),各個(gè)像素的取值在0到255之間。每個(gè)圖像數(shù)據(jù)都相應(yīng)地標(biāo)有“7”“2”“1”等標(biāo)簽。 本書提供了便利的Python腳本mnist.py,該腳本支持從下載MNIST數(shù)據(jù) 集到將這些數(shù)據(jù)轉(zhuǎn)換成NumPy數(shù)組等處理(mnist.py在dataset目錄下)。使用 mnist.py時(shí),當(dāng)前目錄必須是ch01、ch02、ch03、…、ch08目錄中的一個(gè)。使 用mnist.py中的load_mnist()函數(shù),就可以按下述方式輕松讀入MNIST數(shù)據(jù)。
數(shù)字化 digitize
矩陣變換 reshape
歸一化 normalization?
獨(dú)熱編碼 one-hot?
問了防止因?yàn)橛行?shù)字很像,而造成訓(xùn)練不好的問題。
import sys, os sys.path.append(os.pardir) # 為了導(dǎo)入父目錄中的文件而進(jìn)行的設(shè)定 from dataset.mnist import load_mnist # 第一次調(diào)用會(huì)花費(fèi)幾分鐘 …… (x_train, t_train), (x_test, t_test) = load_mnist(flatten=True,normalize=False) # 輸出各個(gè)數(shù)據(jù)的形狀 print("-----訓(xùn)練集圖片的形狀-----") print(x_train.shape) # (60000, 784) print("-----訓(xùn)練集標(biāo)簽的形狀-----") print(t_train.shape) # (60000,) print("-----測(cè)試集圖片的形狀-----") print(x_test.shape) # (10000, 784) print("-----測(cè)試集標(biāo)簽的形狀-----") print(t_test.shape) # (10000,)
? ? ? ?load_mnist 函數(shù)以“ (訓(xùn)練圖像 ,訓(xùn)練標(biāo)簽 ),(測(cè)試圖像,測(cè)試標(biāo)簽 ) ”的形式返回讀入的MNIST 數(shù)據(jù)。此外,還可以像 load_mnist(normalize=True,? flatten=True,one_hot_label=False) 這 樣,設(shè) 置 3 個(gè) 參 數(shù)。第 1 個(gè)參數(shù)normalize設(shè)置是否將輸入圖像正規(guī)化為 0 . 0 ~ 1 . 0 的值。如果將該參數(shù)設(shè)置 為False ,則輸入圖像的像素會(huì)保持原來的 0 ~ 255 。第 2 個(gè)參數(shù) flatten 設(shè)置是否展開輸入圖像(變成一維數(shù)組)。如果將該參數(shù)設(shè)置為False ,則輸入圖 像為1 × 28 × 28 的三維數(shù)組;若設(shè)置為 True ,則輸入圖像會(huì)保存為由 784 個(gè) 元素構(gòu)成的一維數(shù)組。第3 個(gè)參數(shù) one_hot_label 設(shè)置是否將標(biāo)簽保存為 one-hot表示( one-hot representation )。 one-hot 表示是僅正確解標(biāo)簽為 1 ,其余 皆為0 的數(shù)組,就像 [0,0,1,0,0,0,0,0,0,0] 這樣。 one_hot_label 為 False 時(shí), 只是像7 、 2 這樣簡單保存正確解標(biāo)簽;當(dāng) one_hot_label 為 True 時(shí),標(biāo)簽則保存為one-hot 表示。# coding: utf-8 import sys, os sys.path.append(os.pardir) # 為了導(dǎo)入父目錄的文件而進(jìn)行的設(shè)定 import numpy as np from dataset.mnist import load_mnist from PIL import Image def img_show(img): pil_img = Image.fromarray(np.uint8(img)) pil_img.show() (x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False) img = x_train[0] label = t_train[0] print("-----標(biāo)簽-----") print(label) print("-----其它特征-----") print(img.shape) # (784,) img = img.reshape(28, 28) # 把圖像的形狀變?yōu)樵瓉淼某叽?print(img.shape) # (28, 28) img_show(img)
?
? ? ?這里需要注意的是, flatten=True 時(shí)讀入的圖像是以一列(一維) NumPy 數(shù)組的形式保存的。因此,顯示圖像時(shí),需要把它變?yōu)樵瓉淼?strong>28 像素 × 28 像素的形狀??梢酝?strong>reshape() 方法的參數(shù)指定期望的形狀,更改 NumPy 數(shù)組的形狀。此外,還需要把保存為NumPy 數(shù)組的圖像數(shù)據(jù)轉(zhuǎn)換為 PIL 用 的數(shù)據(jù)對(duì)象,這個(gè)轉(zhuǎn)換處理由Image.fromarray() 來完成。3.6.2 神經(jīng)網(wǎng)絡(luò)的推理處理? ? ? 神經(jīng)網(wǎng)絡(luò)的輸入層有784 個(gè)神經(jīng)元,輸出層有 10 個(gè)神經(jīng)元。輸入層的 784 這個(gè)數(shù)字來源于圖像大小的 28 × 28 = 784 ,輸出層的 10 這個(gè)數(shù)字來源于 10 類別分類(數(shù)字0 到 9 ,共 10 類別)。此外,這個(gè)神經(jīng)網(wǎng)絡(luò)有 2 個(gè)隱藏層,第 1 個(gè)隱藏層有 50個(gè)神經(jīng)元,第 2 個(gè)隱藏層有 100 個(gè)神經(jīng)元。這個(gè) 50 和 100 可以設(shè)置為任何值。 下面我們先定義get_data() 、 init_network() 、 predict() 這 3 個(gè)函數(shù)。# coding: utf-8 import sys, os sys.path.append(os.pardir) # 為了導(dǎo)入父目錄的文件而進(jìn)行的設(shè)定 import numpy as np import pickle from dataset.mnist import load_mnist def get_data(): (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False) return x_test, t_test def init_network(): with open("sample_weight.pkl", 'rb') as f: network = pickle.load(f) return network def predict(network, x): W1, W2, W3 = network['W1'], network['W2'], network['W3'] b1, b2, b3 = network['b1'], network['b2'], network['b3'] a1 = np.dot(x, W1) + b1 z1 = sigmoid(a1) a2 = np.dot(z1, W2) + b2 z2 = sigmoid(a2) a3 = np.dot(z2, W3) + b3 y = softmax(a3) return y x, t = get_data() network = init_network() accuracy_cnt = 0 for i in range(len(x)): y = predict(network, x[i]) p= np.argmax(y) # 獲取概率最高的元素的索引 if p == t[i]: accuracy_cnt += 1 print("Accuracy:" + str(float(accuracy_cnt) / len(x)))
? ? ? ? ?init_network()會(huì)讀入保存在pickle文件sample_weight.pkl中的學(xué)習(xí)到的權(quán)重參數(shù)。這個(gè)文件中以字典變量的形式保存了權(quán)重和偏置參數(shù)。剩余的2 個(gè)函數(shù),和前面介紹的代碼實(shí)現(xiàn)基本相同,無需再解釋?,F(xiàn)在,我們用這3 個(gè)函數(shù)來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的推理處理。然后,評(píng)價(jià)它的識(shí)別精度(accuracy), 即能在多大程度上正確分類。
? ? ? ?首先獲得 MNIST 數(shù)據(jù)集,生成網(wǎng)絡(luò)。接著,用 for 語句逐一取出保存在x 中的圖像數(shù)據(jù),用 predict() 函數(shù)進(jìn)行分類。 predict() 函數(shù)以 NumPy 數(shù)組的形式輸出各個(gè)標(biāo)簽對(duì)應(yīng)的概率。比如輸出[0.1, 0.3, 0.2, ..., 0.04] 的數(shù)組,該數(shù)組表示“0”的概率為 0.1,“1”的概率為0.3 ,等等。然后,我們?nèi)〕鲞@個(gè)概率列表中的最大值的索引(第幾個(gè)元素的概率最高),作為預(yù)測(cè)結(jié) 果??梢杂?/span> np.argmax(x) 函數(shù)取出數(shù)組中的最大值的索引, np.argmax(x) 將 獲取被賦給參數(shù)x 的數(shù)組中的最大值元素的索引。最后,比較神經(jīng)網(wǎng)絡(luò)所預(yù)測(cè)的答案和正確解標(biāo)簽,將回答正確的概率作為識(shí)別精度。執(zhí)行上面的代碼后,會(huì)顯示“Accuracy:0 . 9352 ”。這表示有 93 . 52 % 的數(shù)據(jù)被正確分類了。目前我們的目標(biāo)是運(yùn)行學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò),所以不討論識(shí)別精度本身,不過以后我們會(huì)花精力在神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和學(xué)習(xí)方法上,思考 如何進(jìn)一步提高這個(gè)精度。實(shí)際上,我們打算把精度提高到99 % 以上。 另外,在這個(gè)例子中,我們把load_mnist 函數(shù)的參數(shù) normalize 設(shè)置成了True。將 normalize 設(shè)置成 True 后,函數(shù)內(nèi)部會(huì)進(jìn)行轉(zhuǎn)換,將圖像的各個(gè)像 素值除以255 ,使得數(shù)據(jù)的值在 0 . 0 ~ 1 . 0 的范圍內(nèi)。像這樣把數(shù)據(jù)限定到某個(gè)范圍內(nèi)的處理稱為 正規(guī)化(normalization )。此外,對(duì)神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行某種既定的轉(zhuǎn)換稱為預(yù)處理 (pre-processing )。這里,作為對(duì)輸入圖像的一種預(yù)處理,我們進(jìn)行了正規(guī)化。3.6.3 批處理? ? ? ? 以上就是處理 MNIST 數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn),現(xiàn)在我們來關(guān)注輸入數(shù)據(jù)和權(quán)重參數(shù)的“形狀”。再看一下剛才的代碼實(shí)現(xiàn)。 下面我們使用Python 解釋器,輸出剛才的神經(jīng)網(wǎng)絡(luò)的各層的權(quán)重的形狀。x, _ = get_data() network = init_network() W1, W2, W3 = network['W1'], network['W2'], network['W3'] print("-----測(cè)試集x的形狀-----") print(x.shape) print("-----測(cè)試集第一張圖片的形狀-----") print(x[0].shape) print("-----第一層隱藏層權(quán)重的形狀-----") print(W1.shape) print("-----第二層隱藏層權(quán)重的形狀-----") print(W2.shape) print("-----第三層隱藏層權(quán)重的形狀-----") print(W3.shape)
?
我們通過上述結(jié)果來確認(rèn)一下多維數(shù)組的對(duì)應(yīng)維度的元素個(gè)數(shù)是否一致 (省略了偏置)。用圖表示的話,如圖 所示??梢园l(fā)現(xiàn),多維數(shù)組的對(duì)應(yīng) 維度的元素個(gè)數(shù)確實(shí)是一致的。此外,我們還可以確認(rèn)最終的結(jié)果是輸出了 元素個(gè)數(shù)為 10 的一維數(shù)組。從整體的處理流程來看 ,輸入一個(gè)由 784 個(gè)元素(原本是一 個(gè)28 × 28 的二維數(shù)組)構(gòu)成的一維數(shù)組后,輸出一個(gè)有 10 個(gè)元素的一維數(shù)組。 這是只輸入一張圖像數(shù)據(jù)時(shí)的處理流程。現(xiàn)在我們來考慮打包輸入多張圖像的情形。比如,我們想用 predict() 函數(shù)一次性打包處理100 張圖像。為此,可以把 x 的形狀改為 100 × 784 ,將 100張圖像打包作為輸入數(shù)據(jù) 。
輸入數(shù)據(jù)的形狀為 100 × 784 ,輸出數(shù)據(jù)的形狀為 100 × 10 。這表示輸入的 100 張圖像的結(jié)果被一次性輸出了。比如, x[0]和 y[0] 中保存了第 0 張圖像及其推理結(jié)果, x[1] 和 y[1] 中保存了第 1 張圖像及 其推理結(jié)果,等等。 這種打包式的輸入數(shù)據(jù)稱為批(batch)。# coding: utf-8 import sys, os sys.path.append(os.pardir) # 為了導(dǎo)入父目錄的文件而進(jìn)行的設(shè)定 import numpy as np import pickle from dataset.mnist import load_mnist def get_data(): (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False) return x_test, t_test def init_network(): with open("sample_weight.pkl", 'rb') as f: network = pickle.load(f) return network def predict(network, x): W1, W2, W3 = network['W1'], network['W2'], network['W3'] b1, b2, b3 = network['b1'], network['b2'], network['b3'] a1 = np.dot(x, W1) + b1 z1 = sigmoid(a1) a2 = np.dot(z1, W2) + b2 z2 = sigmoid(a2) a3 = np.dot(z2, W3) + b3 y = softmax(a3) return y x, t = get_data() network = init_network() batch_size = 100 # 批數(shù)量 accuracy_cnt = 0 for i in range(0, len(x), batch_size): x_batch = x[i:i+batch_size] y_batch = predict(network, x_batch) p = np.argmax(y_batch, axis=1) accuracy_cnt += np.sum(p == t[i:i+batch_size]) print("Accuracy:" + str(float(accuracy_cnt) / len(x)))
? ? ? ?我們來逐個(gè)解釋粗體的代碼部分。首先是 range() 函數(shù)。 range() 函數(shù)若指定range(start, end) ,則會(huì)生成一個(gè)由 start到end-1 之間的整數(shù)構(gòu)成的列表。若像range(start, end, step) 這樣指定 3 個(gè)整數(shù),則生成的列表中的下一個(gè)元素會(huì)增加step 指定的值。我們來看一個(gè)例子。![]()
?
在 range() 函數(shù)生成的列表的基礎(chǔ)上,通過 x[i:i+batch_size] 從輸入數(shù) 據(jù)中抽出批數(shù)據(jù)。x[i:i+batch_n] 會(huì)取出從第 i 個(gè)到第 i+batch_n 個(gè)之間的數(shù)據(jù)。 本例中是像x[0:100] 、 x[100:200] ……這樣,從頭開始以 100 為單位將數(shù)據(jù)提 取為批數(shù)據(jù)。 然后,通過 argmax() 獲取值最大的元素的索引。不過這里需要注意的是, 我們給定了參數(shù) axis=1 。這指定了在 100 × 10 的數(shù)組中,沿著第 1 維方向(以第1 維為軸)找到值最大的元素的索引(第 0維對(duì)應(yīng)第1 個(gè)維度)A。這里也來 看一個(gè)例子。、
文章來源:http://www.zghlxwxcb.cn/news/detail-484027.html
最后,我們比較一下以批為單位進(jìn)行分類的結(jié)果和實(shí)際的答案。為此, 需要在NumPy 數(shù)組之間使用比較運(yùn)算符( == )生成由 True/False 構(gòu)成的布爾型數(shù)組,并計(jì)算True 的個(gè)數(shù)。![]()
?
到了這里,關(guān)于0基礎(chǔ)入門---第3章---神經(jīng)網(wǎng)絡(luò)(前向傳播)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!