????????在訓練神經(jīng)網(wǎng)絡(luò)時,權(quán)重初始化是確保良好收斂的關(guān)鍵步驟之一。不合適的初始化方法可能會導致梯度消失或爆炸,特別是在深層網(wǎng)絡(luò)中。那么都有哪些神經(jīng)網(wǎng)絡(luò)的初始化參數(shù)方法呢?選擇它這些方法的原則是什么?
一、常用神經(jīng)網(wǎng)絡(luò)初始化參數(shù)方法
(1)隨機初始化
? ? ? ? 關(guān)于隨機初始化神經(jīng)網(wǎng)絡(luò)參數(shù)的方法,我在之前的文章中詳細寫到過,這里就不重點贅述。只做簡單回顧,如果大家想進一步了解可以點擊鏈接單獨看看。
????????隨機初始化參數(shù)分成兩種:一種是在一個均勻分布的區(qū)間內(nèi)隨機抽取,這種初始化方法確保參數(shù)具有一定的隨機性,避免所有神經(jīng)元開始時狀態(tài)過于相似。另一種則是在參數(shù)遵循均值為0、標準差為某個特定值的正態(tài)分布的區(qū)間中隨機抽取,這種初始化方法保證參數(shù)初始值圍繞零點呈鐘形分布,有助于防止參數(shù)值過大或過小導致的學習問題。
【機器學習300問】68、隨機初始化神經(jīng)網(wǎng)絡(luò)權(quán)重的好處?
(2)Xavier初始化
????????Xavier初始化方法的基本想法是保持每一層的輸入和輸出的方差相等,以避免在訓練過程中信號變得太?。ㄌ荻认В┗蛱螅ㄌ荻缺ǎ?。當使用Sigmoid或tanh等激活函數(shù)時,Xavier初始化尤其有效,因為這些激活函數(shù)在輸入較小時近似線性,且當激活函數(shù)在其線性區(qū)域中時,我們希望信號的方差保持不變。
????????具體來說,Xavier初始化方法會從一個均勻分布或正態(tài)分布中抽取初始化權(quán)重,這個分布的尺度為:
或均勻分布的區(qū)間為:
其中是輸入單元的數(shù)量,是輸出單元的數(shù)量。
(3)He初始化
????????He初始化專門針對使用ReLU及其變種作為激活函數(shù)的神經(jīng)網(wǎng)絡(luò)設(shè)計。He初始化基于Xavier初始化的思想,但考慮到ReLU激活函數(shù)僅對正半軸有非線性響應(即ReLU在其負區(qū)域的輸出為0)。
????????因此,He初始化將權(quán)重初始化為:
????????當從正態(tài)分布中抽取初始化權(quán)重時,這個分布的標準差應該設(shè)置為:
????????對于均勻分布來說,它的范圍是:
????????有的論文提出對于tanh函數(shù)來說常量1比常量2的效率更高,所以權(quán)重初始化公式為:
其中是輸入單元的數(shù)量。
二、選擇方法的原則是什么?
(1)不同的激活函數(shù)選擇不同的初始化參數(shù)方法
????????不同的激活函數(shù)對輸入信號的敏感度不同,因此需要不同的初始化策略來保持激活函數(shù)的輸入信號在一個合理的范圍內(nèi)。按激活函數(shù)來選取初始化參數(shù)的方法是主要的選取原則。
激活函數(shù) | 初始化參數(shù)方法 |
Sigmoid | Xavier初始化 |
Tanh | Xavier初始化或He初始化 |
Relu等 | He初始化 |
(2)分析神經(jīng)網(wǎng)絡(luò)的深度和網(wǎng)絡(luò)結(jié)構(gòu)
????????對于非常深的網(wǎng)絡(luò),需要特別小心地選擇初始化方法,因為信號必須通過許多層而不被衰減或增強太多。Xavier和He初始化通過考慮輸入和輸出節(jié)點數(shù),確保信號在多層網(wǎng)絡(luò)中傳遞時保持合理的幅度,避免梯度在反向傳播過程中變得過?。ㄏВ┗蜻^大(爆炸),從而提高深層網(wǎng)絡(luò)的訓練可行性。文章來源:http://www.zghlxwxcb.cn/news/detail-856482.html
????????不同網(wǎng)絡(luò)結(jié)構(gòu)(如全連接網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等)有不同的連接結(jié)構(gòu)和參數(shù)分布特點,可能受益于不同的初始化方法。例如,具有殘差連接的網(wǎng)絡(luò)如ResNet可能對初始化方法的選擇不那么敏感,因為殘差連接能幫助緩解梯度消失的問題。再例如,卷積層和循環(huán)層中的權(quán)重通常以矩陣形式存在,可能更適合采用正交初始化來確??臻g或時間上的獨立性。而對于全連接層,均勻或正態(tài)分布的隨機初始化可能更為常見。文章來源地址http://www.zghlxwxcb.cn/news/detail-856482.html
到了這里,關(guān)于【機器學習300問】78、都有哪些神經(jīng)網(wǎng)絡(luò)的初始化參數(shù)方法?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!