国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<td id="gwc6e"><tbody id="gwc6e"></tbody></td>

<menu id="gwc6e"><center id="gwc6e"></center></menu>

<noscript id="gwc6e"></noscript>

機器學(xué)習(xí)&&深度學(xué)習(xí)——隨機梯度下降算法（及其優(yōu)化）

2年前作者：布布要成為最負責(zé)的男人分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了機器學(xué)習(xí)&&深度學(xué)習(xí)——隨機梯度下降算法（及其優(yōu)化）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

在我們沒有辦法得到解析解的時候，我們可以用過梯度下降來進行優(yōu)化，這種方法幾乎可以所有深度學(xué)習(xí)模型。
關(guān)于優(yōu)化的東西，我自己曾經(jīng)研究過智能排班算法和優(yōu)化，所以關(guān)于如何找局部最小值，以及如何跳出局部最小值的一些基本思想是有感觸的，隨機梯度算法和其優(yōu)化學(xué)起來倒也不難。

梯度下降法

梯度下降法是一個一階最優(yōu)化算法，通常稱為最速下降法，是通過函數(shù)當(dāng)前點對應(yīng)梯度的反方向，使用規(guī)定步長距離進行迭代搜索，從而找到函數(shù)的一個局部最小值的算法，最好的情況是找到全局最小值。

隨機梯度下降法

但是直接使用使用梯度下降法的話，每次更新參數(shù)都需要用到所有的樣本，樣本總量太大的話就會對算法速度影響很大，所以有了隨機梯度下降算法。
它是對梯度下降算法的一種改進，且每次只隨機取一部分樣本進行優(yōu)化，樣本數(shù)量一般是2的整數(shù)次冪，取值范圍32~256，以保證計算精度的同時提升計算速度，是優(yōu)化深度學(xué)習(xí)網(wǎng)絡(luò)中最常用的一類算法。
其在訓(xùn)練中，通常會使用一個固定的學(xué)習(xí)率進行訓(xùn)練，即：
$g_t=▽_{θ_{t-1}}f(θ_{t-1})\\ ▽_{θ_t}=-η*g_t\\ 其中，g_t是第t步的梯度，η是學(xué)習(xí)率$
隨機梯度下降算法在優(yōu)化時，完全依賴于當(dāng)前batch數(shù)據(jù)得到的梯度，而學(xué)習(xí)率則是調(diào)整梯度影響大小的參數(shù)，通過控制學(xué)習(xí)率η的大小，一定程度上可以控制網(wǎng)絡(luò)訓(xùn)練速度。

隨機梯度下降算法的問題

隨機梯度下降對大多數(shù)情況都很有效，但還存在缺陷：
1、很難確定合適的η，且所有的參數(shù)使用同樣的學(xué)習(xí)率可能并不是很有效。這種情況可以采用變化學(xué)習(xí)率的訓(xùn)練方式，如控制網(wǎng)絡(luò)在初期以大的學(xué)習(xí)率進行參數(shù)更新，后期以小的學(xué)習(xí)率進行參數(shù)更新（其實和遺傳算法中的交叉變異概率似的，大家可以去了解自適應(yīng)遺傳算法的思想，道理都是一樣的）
2、更容易收斂到局部最優(yōu)解，而且當(dāng)落入到局部最優(yōu)解的時候，不容易跳出。（其實也和遺傳算法可能遇到的問題類似，當(dāng)時是和模擬退火算法結(jié)合了，解決了過早收斂問題，實質(zhì)思想就是增大變異概率，變異了就很可能跳出局部最優(yōu)了）

標(biāo)準(zhǔn)動量優(yōu)化

動量通過模擬物體運動時的慣性來更新網(wǎng)絡(luò)中的參數(shù)，即更新時在一定程度上會考慮之前參數(shù)更新的方向，同時利用當(dāng)前batch計算得到的梯度，將兩者結(jié)合起來計算出最終參數(shù)需要更新的大小和方向。
在優(yōu)化時引入動量思想旨在加速學(xué)習(xí)，特別是面對小而連續(xù)且含有很多噪聲的梯度。利用動量不僅增加了學(xué)習(xí)參數(shù)的穩(wěn)定性，還會更快的學(xué)習(xí)到收斂的參數(shù)。
在引入動量后，網(wǎng)絡(luò)的參數(shù)更新方式：
$g_t=▽_{θ_{t-1}}f(θ_{t-1})\\ m_t=μ*m_{t-1}+g_t\\ ▽_{θ_t}=-η*m_t\\ m_t為當(dāng)前動量的累加\\ μ屬于動量因子，用于調(diào)整上一步動量對參數(shù)的重要程度$
在網(wǎng)絡(luò)更新初期，可利用上一次參數(shù)更新，此時下降方向一致，乘以較大的μ能夠進行很好的加速；在網(wǎng)絡(luò)更新后期，隨著梯度逐漸趨于0，在局部最小值來回震蕩的時候，利用動量使得更新幅度增大，跳出局部最優(yōu)解的陷阱。

Nesterov動量優(yōu)化

Nesterov項（Nesterov動量）是在梯度更新時做出的校正，以避免參數(shù)更新的太快，同時提高靈敏度。在動量中，之前累積的動量并不會影響當(dāng)前的梯度，所以Nesterov的改進就是讓之前的動量直接影響當(dāng)前的動量，即：
$g_t=▽_{θ_{t-1}}f(θ_{t-1}-η*μ*m_{t-1})\\ m_t=μ*m_{t-1}+g_t\\ ▽_{θ_t}=-η*m_t$
Nesterov動量與標(biāo)準(zhǔn)動量區(qū)別在于，在當(dāng)前batch梯度的計算上，Nesterov動量的梯度計算是在施加當(dāng)前速度之后的梯度。所以可以看成是在標(biāo)準(zhǔn)動量的方法上添加了一個校正因子，從而提高算法更新性能。
在訓(xùn)練開始的時候，參數(shù)可能離最最優(yōu)質(zhì)的較遠，需要較大學(xué)習(xí)率，經(jīng)過幾輪訓(xùn)練后，減小訓(xùn)練學(xué)習(xí)率 （其實就是和自適應(yīng)遺傳算法的思想類似）。因此也提出了很多自適應(yīng)學(xué)習(xí)率的算法Adadelta、RMSProp及adam等。文章來源地址http://www.zghlxwxcb.cn/news/detail-616562.html

到了這里，關(guān)于機器學(xué)習(xí)&&深度學(xué)習(xí)——隨機梯度下降算法（及其優(yōu)化）的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

機器學(xué)習(xí)筆記之優(yōu)化算法(十七)梯度下降法在強凸函數(shù)的收斂性分析
上一節(jié)介紹并證明了：梯度下降法在強凸函數(shù) 上的收斂速度滿足 Q mathcal Q Q -線性收斂。本節(jié)將介紹：在更強的條件下：函數(shù) f ( ? ) f(cdot) f ( ? ) 在其定義域內(nèi) 二階可微，梯度下降法在 f ( ? ) f(cdot) f ( ? ) 上的收斂速度存在什么樣的結(jié)論。關(guān)于梯度下降法在
2024年02月12日
瀏覽(35)
機器學(xué)習(xí)--決策樹、線性模型、隨機梯度下降
???♂? 個人主頁：@Lingxw_w的個人主頁 ???作者簡介：計算機科學(xué)與技術(shù)研究生在讀 ?? 希望大家多多支持，我們一起進步！?? 如果文章對你有幫助的話，歡迎評論 ??點贊???? 收藏 ??加關(guān)注+??? 目錄 ?一、決策樹二、線性模型三、隨機梯度下降決策樹（decision
2024年02月03日
瀏覽(34)
[機器學(xué)習(xí)] 1. 梯度下降 Gradient Descent 與隨機梯度下降 Stochastic Gradient Descent
ML Theory 太魔怔了?。。。?！從微積分課上我們學(xué)到對一個 (mathscr C^2) 函數(shù)，其二階泰勒展開的皮亞諾余項形式 [f(bm w\\\') = f(bm w) + langle nabla f(bm w), bm w\\\' - bm wrangle + o(|bm w\\\' - bm w|)] 這說明只要 (bm w\\\') 和 (bm w) 挨得足夠接近，我們就可以用 (f(bm w) + langle nabla f(
2024年02月08日
瀏覽(20)
機器學(xué)習(xí)筆記之優(yōu)化算法(十六)梯度下降法在強凸函數(shù)上的收斂性證明
本節(jié)將介紹：梯度下降法在強凸函數(shù) 上的收斂性，以及證明過程。凸函數(shù)與強凸函數(shù) 關(guān)于凸函數(shù) 的定義使用數(shù)學(xué)符號表示如下： ? x 1 , x 2 ∈ R n , ? λ ∈ ( 0 , 1 ) ? f [ λ ? x 2 + ( 1 ? λ ) ? x 1 ] ≤ λ ? f ( x 2 ) + ( 1 ? λ ) ? f ( x 1 ) forall x_1,x_2 in mathbb R^n, forall
2024年02月11日
瀏覽(28)
深入探討梯度下降：優(yōu)化機器學(xué)習(xí)的關(guān)鍵步驟（一）
在機器學(xué)習(xí)領(lǐng)域，梯度下降是一種核心的優(yōu)化算法，它被廣泛應(yīng)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)、線性回歸和其他機器學(xué)習(xí)模型中。本文將深入探討梯度下降的工作原理，并且進行簡單的代碼實現(xiàn) 梯度下降是一種迭代優(yōu)化算法，旨在尋找函數(shù)的局部最小值（或最大值）以最小化（或最大化
2024年02月10日
瀏覽(23)
深入探討梯度下降：優(yōu)化機器學(xué)習(xí)的關(guān)鍵步驟（二）
承接上篇，這篇主要有兩個重點，一個是 eta 參數(shù)的調(diào)解；一個是在sklearn中實現(xiàn)梯度下降在梯度下降算法中，學(xué)習(xí)率（通常用符號η表示，也稱為步長或?qū)W習(xí)速率）的選擇非常重要，因為它直接影響了算法的性能和收斂速度。學(xué)習(xí)率控制了每次迭代中模型參數(shù)更新的幅度。以
2024年02月09日
瀏覽(19)
機器學(xué)習(xí)：基于梯度下降算法的邏輯回歸實現(xiàn)和原理解析
當(dāng)涉及到二元分類問題時，邏輯回歸是一種常用的機器學(xué)習(xí)算法。它不僅簡單而且有效，通常是入門機器學(xué)習(xí)領(lǐng)域的第一步。本文將介紹邏輯回歸的基本概念、原理、應(yīng)用場景和代碼示例。邏輯回歸是一種用于解決二元分類問題的統(tǒng)計學(xué)習(xí)方法。盡管其名稱中包含\\\"回歸\\\"一詞
2024年02月09日
瀏覽(30)
每天五分鐘機器學(xué)習(xí):梯度下降算法和正規(guī)方程的比較
梯度下降算法和正規(guī)方程是兩種常用的機器學(xué)習(xí)算法，用于求解線性回歸問題。它們各自有一些優(yōu)點和缺點，下面將分別對它們進行詳細的討論。 1. 梯度下降算法是一種迭代的優(yōu)化算法，通過不斷迭代調(diào)整參數(shù)來逼近最優(yōu)解。它的基本思想是根據(jù)目標(biāo)函數(shù)的梯度方向，沿著負
2024年02月13日
瀏覽(14)
機器學(xué)習(xí)：基于梯度下降算法的線性擬合實現(xiàn)和原理解析
當(dāng)我們需要尋找數(shù)據(jù)中的趨勢、模式或關(guān)系時，線性擬合和梯度下降是兩個強大的工具。這兩個概念在統(tǒng)計學(xué)、機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域都起著關(guān)鍵作用。本篇博客將介紹線性擬合和梯度下降的基本原理，以及它們在實際問題中的應(yīng)用。線性擬合是一種用于找到數(shù)據(jù)集中線性
2024年02月10日
瀏覽(30)
優(yōu)化器（一）torch.optim.SGD-隨機梯度下降法
2024年02月02日
瀏覽(16)

<dd id="k6ws6"></dd>