深度學(xué)習(xí)之權(quán)重初始化

這篇具有很好參考價(jià)值的文章主要介紹了深度學(xué)習(xí)之權(quán)重初始化。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

在深度學(xué)習(xí)中，神經(jīng)網(wǎng)絡(luò)的權(quán)重初始化方法( $w e i g h t$ $ini t ia l i z a t i o n$ )對(duì)模型的收斂速度和性能有著至關(guān)重要的影響。說(shuō)白了，神經(jīng)網(wǎng)絡(luò)其實(shí)就是對(duì)權(quán)重參數(shù) $w$ 的不停迭代更新，以達(dá)到更好的性能。因此，對(duì)權(quán)重 $w$ 的初始化則顯得至關(guān)重要，一個(gè)好的權(quán)重初始化雖然不能完全解決梯度消失和梯度爆炸的問(wèn)題，但是對(duì)于處理這兩個(gè)問(wèn)題是有很大的幫助的，并且十分有利于模型性能和收斂速度。

本文將介紹以下五種常見(jiàn)的權(quán)重初始化的方法：

權(quán)重初始化為 $0$
權(quán)重隨機(jī)初始化
$X a v i er$ $ini t ia l i z a t i o n$
$He$ $ini t ia l i z a t i o n$
預(yù)訓(xùn)練權(quán)重
權(quán)重初始化為 $0$

如果將權(quán)重初始化全部為 $0$ 的話(huà)，這樣的操作等同于等價(jià)于一個(gè)線性模型，將所有權(quán)重設(shè)為 $0$ 時(shí)，對(duì)于每一個(gè) $w$ 而言，損失函數(shù)的導(dǎo)數(shù)都是相同的，因此在隨后的迭代過(guò)程中所有權(quán)重都具有相同的值，這會(huì)使得隱藏單元變得對(duì)稱(chēng)，并繼續(xù)運(yùn)行設(shè)置的 $n$ 次的迭代，會(huì)導(dǎo)致網(wǎng)絡(luò)中同一個(gè)神經(jīng)元的不同權(quán)重都是一樣的。下面代碼為權(quán)重初始化為 $0$ 的代碼：

def initialize_parameters_zeros(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    parameters = {}
    np.random.seed(3)
    L = len(layers_dims)  # number of layers in the network
    for l in range(1, L):
        parameters['W' + str(l)] = np.zeros((layers_dims[l], layers_dims[l - 1]))
        parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))
    return parameters

讓我們來(lái)看看權(quán)重初始化為 $0$ 之后其 $cos t$ $f u n c t i o n$ 是如何變化的，從圖中可以看出，當(dāng)代價(jià)函數(shù)降到 $0.64$ （迭代 $1000$ 次）后，梯度逐漸消失，再訓(xùn)練迭代已經(jīng)不起什么作用了。
深度學(xué)習(xí)之權(quán)重初始化,深度學(xué)習(xí)基礎(chǔ),深度學(xué)習(xí),人工智能
權(quán)重隨機(jī)初始化

權(quán)重隨機(jī)初始化是比較常見(jiàn)的做法，即 $W$ 隨機(jī)初始化。隨機(jī)初始化的代碼如下：

def initialize_parameters_random(layers_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the size of each layer.
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    W1 -- weight matrix of shape (layers_dims[1], layers_dims[0])
                    b1 -- bias vector of shape (layers_dims[1], 1)
                    ...
                    WL -- weight matrix of shape (layers_dims[L], layers_dims[L-1])
                    bL -- bias vector of shape (layers_dims[L], 1)
    """
    np.random.seed(3)  # This seed makes sure your "random" numbers will be the as ours
    parameters = {}
    L = len(layers_dims)  # integer representing the number of layers
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.randn(layers_dims[l], layers_dims[l - 1])*0.01
        parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))
    return parameters

上述代碼中權(quán)重乘是因?yàn)橐?span id="n5n3t3z" class="katex--inline">隨機(jī)初始化到一個(gè)相對(duì)較小的值，因?yàn)槿绻?span id="n5n3t3z" class="katex--inline">很大的話(huà)，又相對(duì)較大，會(huì)導(dǎo)致非常大，這樣如果激活函數(shù)是，就會(huì)導(dǎo)致的輸出值或者，然后會(huì)導(dǎo)致一系列問(wèn)題（比如計(jì)算的時(shí)候，里是，這樣會(huì)有點(diǎn)麻煩）。隨機(jī)初始化后，隨著迭代次數(shù)的變化示意圖如下圖所示為
深度學(xué)習(xí)之權(quán)重初始化,深度學(xué)習(xí)基礎(chǔ),深度學(xué)習(xí),人工智能
能夠看出，的變化是比較正常的。但是隨機(jī)初始化也有缺點(diǎn)，其實(shí)是一個(gè)均值為，方差為的高斯分布中采樣。當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)增多時(shí)，會(huì)發(fā)現(xiàn)越往后面的層的激活函數(shù)（使用）的輸出值幾乎都接近于，極易出現(xiàn)梯度消失。如下圖所示：

深度學(xué)習(xí)之權(quán)重初始化,深度學(xué)習(xí)基礎(chǔ),深度學(xué)習(xí),人工智能

$X a v i er$ $ini t ia l i z a t i o n$

在使用以上兩種方法來(lái)初始化權(quán)重極易出現(xiàn)梯度消失的問(wèn)題，而 $X a v i er$ $ini t ia l i z a t i o n$ 出現(xiàn)就解決了上面問(wèn)題。其思想倒就是盡可能的讓輸入和輸出服從相同的分布，這樣就能夠避免后面層的激活函數(shù)的輸出值趨向于 $0$ 。本文主要介紹 $P y t orc h$ 當(dāng)中 $X a v i er$ 均勻分布和 $X a v i er$ 正態(tài)分布初始化這兩種方式。

我們來(lái)簡(jiǎn)單推導(dǎo)一下 $X a v i er$ 初始化的原理：首先我們定義一層的卷積運(yùn)算為如下公式，其中 ${n_i}$ 表示輸入的個(gè)數(shù)。

$y = w_1x_1 + ··· + w_{ni}x_{ni}+ b$

根據(jù)我們學(xué)過(guò)的概率論統(tǒng)計(jì)知識(shí)可以得到如下的方差公式：

$Var(w_ix_i)=E[w_i]^2Var(x_i) + E[x_i]^2Var(w_i) + Var(w_i)Var(x_i)$

當(dāng)我們假設(shè)輸入和輸入的權(quán)重的均值都是 $0$ (使用BN層以后很容易就可以滿(mǎn)足)時(shí)，上式可以簡(jiǎn)化為：

$Var(w_ix_i)=Var(w_i)Var(x_i)$

進(jìn)一步我們假設(shè)輸入 $x$ 和權(quán)重 $w$ 都是獨(dú)立同分布，則可以得到：

$Var(y) = n_iVar(w_i)Var(x_i)$

于是按照 $X a v i er$ 的要求保證輸入和輸出的方差要一致，則可以得到：

$Var(w_i) = \frac{1}{n_i}$

對(duì)于一個(gè)多層的網(wǎng)絡(luò)，某一層的方差可以用累積的形式表達(dá)：

$Var[z^i] = Var[x]\prod_{i^{}=0}^{i-1}n_i^Var[W^{i^`}]$

對(duì)于誤差反向傳播也有類(lèi)似的表達(dá)形式，如下所示，其中 $n_{i+1}$ 表示輸出個(gè)數(shù)

$Var[\frac{\partial Cost}{\partial s^i}] = Var[\frac{\partial Cost}{\partial s^d}]\prod_{i^{}=i}^n5n3t3zn_{i^+1}Var[W^{i^`}]$

綜上，為了保證前向傳播和反向傳播時(shí)每一層的方差一致，應(yīng)滿(mǎn)足：

$\forall_i ，n_iVar[W^i]=1$

$\forall_i ，n_{i+1}Var[W^i]=1$

但是，實(shí)際當(dāng)中輸入與輸出的個(gè)數(shù)往往不相等，于是為了均衡考量輸出和輸入，最終我們的權(quán)重的方差應(yīng)滿(mǎn)足如下要求：

$\forall_i ，Var[W^i]= \frac{2}{n_i + n_{i+1}}$

1、 $X a v i er$ 均勻分布初始化

對(duì)于均勻分布來(lái)說(shuō)，我們都知道區(qū)間 $[a, b]$ 的方差為：

$Var=\frac{(b-a)^2}{12}$

那么就需要將均勻分布的方差等于我們?cè)谏厦嫱茖?dǎo)出來(lái)的 $X a v i er$ 的權(quán)重方差，即：

$\frac{(b-a)^2}{12} = \frac{2}{n_i + n_{i+1}}$

經(jīng)過(guò)化解后 $(a + b = 0)$ 可以得到 $X a v i er$ 均勻初始化后權(quán)重的取值范圍為：

$U[-\frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}, \frac{\sqrt{6}}{\sqrt{n_i+n_{i+1}}}]$

原理我們講完了，現(xiàn)在來(lái)看一下在 $P y t orc h$ 中是如何調(diào)用 $X a v i er$ 均勻分布初始化的：

# tensor表示要初始化的張量，gain表示縮放因子
torch.nn.init.xavier_uniform(tensor, gain=1)

# 舉例說(shuō)明：
w = torch.Tensor(3, 5)
nn.init.xavier_uniform(w, gain=math.sqrt(2))

2、 $X a v i er$ 正態(tài)分布初始化

我們都知道均值為 $0$ ，標(biāo)準(zhǔn)差為 $\sigma$ 的正態(tài)分布方差為

$Var=\sigma^2$

同樣的，需要將正態(tài)分布的方差等于我們?cè)谏厦嫱茖?dǎo)出來(lái)的 $X a v i er$ 的權(quán)重方差，即：

$\sigma^2 = \frac{2}{n_i + n_{i+1}}$

經(jīng)過(guò)化解后可以得到 $X a v i er$ 正態(tài)分布初始化后權(quán)重的標(biāo)準(zhǔn)差為：

$\sigma = \sqrt{\frac{2}{n_i + n_{i+1}}}$

那么我們?cè)賮?lái)看一下在 $P y t orc h$ 中是如何調(diào)用 $X a v i er$ 正態(tài)分布初始化的：

# tensor表示要初始化的張量，gain表示縮放因子
torch.nn.init.xavier_normal(tensor, gain=1)

# 舉例說(shuō)明：
w = torch.Tensor(3, 5)
nn.init.xavier_normal(w)

3、 $X a v i er$ 權(quán)重初始化表現(xiàn)效果

如下圖 $4$ 所示為采用 $X a v i er$ $ini t ia l i z a t i o n$ 后每層的激活函數(shù)輸出值的分布，從圖中我們可以看出，深層的激活函數(shù)輸出值還是非常服從標(biāo)準(zhǔn)高斯分布。
深度學(xué)習(xí)之權(quán)重初始化,深度學(xué)習(xí)基礎(chǔ),深度學(xué)習(xí),人工智能
雖然 $X a v i er$ $ini t ia l i z a t i o n$ 能夠很好的適用于 $t an H$ 激活函數(shù)，但對(duì)于目前神經(jīng)網(wǎng)絡(luò)中最常用的 $R e LU$ 激活函數(shù)，還是無(wú)能能力，如下圖 $5$ 所示為采用 $R e LU$ 激活函數(shù)后， $X a v i er$ $ini t ia l i z a t i o n$ 初始化的每層激活函數(shù)輸出值的分布，從圖中可以看出當(dāng)達(dá)到 $5$ 、 $6$ 層后幾乎又開(kāi)始趨向于 $0$ ，更深層的話(huà)很明顯又會(huì)趨向于 $0$ 。
深度學(xué)習(xí)之權(quán)重初始化,深度學(xué)習(xí)基礎(chǔ),深度學(xué)習(xí),人工智能
由此可見(jiàn)， $X a v i er$ 權(quán)重初始化方式比較適用于 $t an H$ 和 $S i g m o i d$ 激活函數(shù)，而對(duì)于 $R e LU$ 這種非對(duì)稱(chēng)性的激活函數(shù)還是容易出現(xiàn)梯度消失的現(xiàn)象。

$He$ $ini t ia l i z a t i o n$

$He$ $ini t ia l i z a t i o n$ 是由何凱明大神提出的一種針對(duì) $R e LU$ 激活函數(shù)的初始化方法。 $He$ $ini t ia l i z a t i o n$ 的思想是：和 $X a v i er$ 初始化方式一樣，都希望初始化使得正向傳播時(shí)，狀態(tài)值的方差保持不變，反向傳播時(shí)，關(guān)于激活值的梯度的方差保持不變。由于小于 $0$ 的值經(jīng)過(guò) $R e LU$ 激活函數(shù)都會(huì)變成 $0$ ，而大于 $0$ 的值則保持原值。因此在 $R e LU$ 網(wǎng)絡(luò)中，假定每一層有一半的神經(jīng)元被激活，另一半為 $0$ ，所以，要保持 $v a r ian ce$ 不變，只需要在 $X a v i er$ 的基礎(chǔ)上再除以2即可。本文主要介紹 $P y t orc h$ 當(dāng)中 $He$ $ini t ia l i z a t i o n$ 均勻分布和 $He$ $ini t ia l i z a t i o n$ 正態(tài)分布初始化這兩種方式。

對(duì)于 $He$ $ini t ia l i z a t i o n$ 的推導(dǎo)來(lái)說(shuō)前面和 $X a v i er$ $ini t ia l i z a t i o n$ 是相似的，但在方差推到過(guò)程中，需要將式子左側(cè)除以 $2$ ，如下所示：

$\frac{1}{2}n_iVar(w_i)Var(x_i)$

為了保證輸出和輸入的方差一直，則可以得到權(quán)重的方差為：

$Var(w_i) = \frac{2}{n_i}$

對(duì)于 $B a c k w a r d$ 來(lái)說(shuō)和 $F or w a r d$ 思路是相似的，只不過(guò)需要考慮到鏈?zhǔn)角髮?dǎo)法則，這里不予以推導(dǎo)，只給出最終的結(jié)果為：

$Var(w_{i+1}) = \frac{2}{n_{i+1}}$

1、 $He$ $ini t ia l i z a t i o n$ 均勻分布初始化

和 $X a v i er$ 均勻分布初始化操作一樣我們得到 $He$ $ini t ia l i z a t i o n$ 的取值范圍為：

$U[-\frac{\sqrt{6}}{\sqrt{n_i+(a^2+1)}}, \frac{\sqrt{6}}{\sqrt{n_i+(a^2+1)}}]$

在 $P y t orc h$ 中 $He$ $ini t ia l i z a t i o n$ 也叫做 $kaimin g$ ，調(diào)用代碼如下：

# tensor表示要初始化的張量
# a表示這層之后使用的rectifier的斜率系數(shù)（ReLU的默認(rèn)值為0）
# mode可以為“fan_in”（默認(rèn)）或“fan_out”。
# “fan_in”保留前向傳播時(shí)權(quán)值方差的量級(jí)，“fan_out”保留反向傳播時(shí)的量級(jí)。
torch.nn.init.kaiming_uniform(tensor, a=0, mode='fan_in')

# 舉例說(shuō)明：
w = torch.Tensor(3, 5)
nn.init.kaiming_uniform(w, mode='fan_in')

2、 $He$ $ini t ia l i z a t i o n$ 正態(tài)分布初始化

和 $X a v i er$ 正態(tài)分布初始化操作一樣我們得到 $He$ $ini t ia l i z a t i o n$ 的標(biāo)準(zhǔn)差為：

$\sigma = \sqrt{\frac{2}{n_i + (a^2+1)}}$

在 $P y t orc h$ 中 $X a v i er$ 正態(tài)分布初始化的調(diào)用代碼如下：

# tensor表示要初始化的張量
# a表示這層之后使用的rectifier的斜率系數(shù)（ReLU的默認(rèn)值為0）
# mode可以為“fan_in”（默認(rèn)）或“fan_out”。
# “fan_in”保留前向傳播時(shí)權(quán)值方差的量級(jí)，“fan_out”保留反向傳播時(shí)的量級(jí)。
torch.nn.init.kaiming_normal(tensor, a=0, mode='fan_in')

# 舉例說(shuō)明：
w = torch.Tensor(3, 5)
nn.init.kaiming_normal(w, mode='fan_out')

3、 $He$ $ini t ia l i z a t i o n$ 權(quán)重初始化表現(xiàn)效果

如下圖 $6$ 所示為采用 $He$ $ini t ia l i z a t i o n$ 方式初始化權(quán)重后，隱藏層使用 $R e LU$ 時(shí)，激活函數(shù)的輸出值的分布情況，從圖中可知，針對(duì) $R e LU$ 激活函數(shù)， $He$ $ini t ia l i z a t i o n$ 效果是比 $X a v i er$ $ini t ia l i z a t i o n$ 好很多。
深度學(xué)習(xí)之權(quán)重初始化,深度學(xué)習(xí)基礎(chǔ),深度學(xué)習(xí),人工智能
由此可見(jiàn)， $He$ $ini t ia l i z a t i o n$ 權(quán)重初始化方式是非常適用于 $R e LU$ 激活函數(shù)。

預(yù)訓(xùn)練模型

目前更多的使用已經(jīng)針對(duì)相似任務(wù)已經(jīng)訓(xùn)練好的模型，稱(chēng)之為預(yù)訓(xùn)練模型。在訓(xùn)練開(kāi)始時(shí)就已經(jīng)有了非常好的初始化參數(shù)，只需要將最后的全連接層進(jìn)行凍結(jié)，訓(xùn)練其他部分即可。

總結(jié)

1、權(quán)重采用初始化為 $0$ 和隨機(jī)初始化都比較容易出現(xiàn)梯度消失的問(wèn)題，因此不常用。

2、 $X a v i er$ 權(quán)重初始化方式主要針對(duì)于 $t an H$ 和 $s i g m o i d$ 激活函數(shù)。