優(yōu)化算法
梯度下降類
- 小批量隨機梯度下降,通過平均梯度來減小方差
動量法
基礎(chǔ)
泄露平均法:用來取代梯度的計算
- β \beta β這個參數(shù)控制了取多久時間的平均值
上述推理構(gòu)成了”加速”梯度方法的基礎(chǔ),例如具有動量的梯度。
- 在優(yōu)化問題條件不佳的情況下(例如,有些方向的進展比其他方向慢得多,類似狹窄的峽谷)”加速”梯度還額外享受更有效的好處。
- 此外,它們允許我們對隨后的梯度計算平均值,以獲得更穩(wěn)定的下降方向。 誠然,即使是對于無噪聲凸問題,加速度這方面也是動量如此起效的關(guān)鍵原因之一。
動量法原理
-
動量法用過去梯度的平均值來替換梯度,這大大加快了收斂速度。
-
對于無噪聲梯度下降和嘈雜隨機梯度下降,動量法都是可取的。
-
動量法可以防止在隨機梯度下降的優(yōu)化過程停滯的問題。
-
由于對過去的數(shù)據(jù)進行了
指數(shù)降權(quán)
,有效梯度數(shù)為 1 1 ? β \frac{1}{1-\beta} 1?β1? -
在凸二次問題中,可以對動量法進行明確而詳細(xì)的分析。
-
動量法的實現(xiàn)非常簡單,但它需要我們存儲額外的狀態(tài)向量(動量)。
AdaGrad
稀疏特征與學(xué)習(xí)率
- 假設(shè)我們正在訓(xùn)練一個語言模型。 為了獲得良好的準(zhǔn)確性,我們大多希望在訓(xùn)練的過程中降低學(xué)習(xí)率
- 只有在這些不常見的特征出現(xiàn)時,與其相關(guān)的參數(shù)才會得到有意義的更新。
問題所在:
鑒于學(xué)習(xí)率下降,我們可能最終會面臨這樣的情況:常見特征的參數(shù)相當(dāng)迅速地收斂到最佳值,而對于不常見的特征,我們?nèi)匀狈ψ銐虻挠^測以確定其最佳值。 換句話說,學(xué)習(xí)率要么對于常見特征而言降低太慢,要么對于不常見特征而言降低太快。
- 一般而言,計算特征值和特征向量要比解決實際問題“貴”得多。
- 然準(zhǔn)確計算特征值可能會很昂貴,但即便只是大致猜測并計算它們,也可能已經(jīng)比不做任何事情好得多。 特別是,
我們可以使用的對角線條目并相應(yīng)地重新縮放它
。 這比計算特征值開銷小的多。
RMSProp
- 在優(yōu)化算法中,
泄露平均值
是指在每次迭代中,算法泄露的信息的平均值(這里泄露的是上一次梯度二次矩)。
Adam
- 核心點:使用
指數(shù)加權(quán)移動平均值
來估算梯度的動量和二次矩
- 注意初始化,v,s均等于0會有一個很大的初始偏差,故采用指數(shù)初始化
縮放梯度:
-
Adam算法也存在一些問題: 即使在凸環(huán)境下,當(dāng) s t s_t st?的二次矩估計值爆炸時,它可能無法收斂
-
Adam算法將許多優(yōu)化算法的功能結(jié)合到了相當(dāng)強大的更新規(guī)則中。
-
Adam算法在RMSProp算法基礎(chǔ)上創(chuàng)建的,還在小批量的隨機梯度上使用EWMA。文章來源:http://www.zghlxwxcb.cn/news/detail-635459.html
-
在估計動量和二次矩時,Adam算法使用偏差校正來調(diào)整緩慢的啟動速度文章來源地址http://www.zghlxwxcb.cn/news/detail-635459.html
到了這里,關(guān)于《動手學(xué)深度學(xué)習(xí)》優(yōu)化算法學(xué)習(xí)&習(xí)題的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!