国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機器學(xué)習(xí)&&深度學(xué)習(xí)——隨機梯度下降算法(及其優(yōu)化)

這篇具有很好參考價值的文章主要介紹了機器學(xué)習(xí)&&深度學(xué)習(xí)——隨機梯度下降算法(及其優(yōu)化)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

在我們沒有辦法得到解析解的時候,我們可以用過梯度下降來進行優(yōu)化,這種方法幾乎可以所有深度學(xué)習(xí)模型。
關(guān)于優(yōu)化的東西,我自己曾經(jīng)研究過智能排班算法和優(yōu)化,所以關(guān)于如何找局部最小值,以及如何跳出局部最小值的一些基本思想是有感觸的,隨機梯度算法和其優(yōu)化學(xué)起來倒也不難。

梯度下降法

梯度下降法是一個一階最優(yōu)化算法,通常稱為最速下降法,是通過函數(shù)當(dāng)前點對應(yīng)梯度的反方向,使用規(guī)定步長距離進行迭代搜索,從而找到函數(shù)的一個局部最小值的算法,最好的情況是找到全局最小值。

隨機梯度下降法

但是直接使用使用梯度下降法的話,每次更新參數(shù)都需要用到所有的樣本,樣本總量太大的話就會對算法速度影響很大,所以有了隨機梯度下降算法。
它是對梯度下降算法的一種改進,且每次只隨機取一部分樣本進行優(yōu)化,樣本數(shù)量一般是2的整數(shù)次冪,取值范圍32~256,以保證計算精度的同時提升計算速度,是優(yōu)化深度學(xué)習(xí)網(wǎng)絡(luò)中最常用的一類算法。
其在訓(xùn)練中,通常會使用一個固定的學(xué)習(xí)率進行訓(xùn)練,即:
g t = ▽ θ t ? 1 f ( θ t ? 1 ) ▽ θ t = ? η ? g t 其中, g t 是第 t 步的梯度, η 是學(xué)習(xí)率 g_t=▽_{θ_{t-1}}f(θ_{t-1})\\ ▽_{θ_t}=-η*g_t\\ 其中,g_t是第t步的梯度,η是學(xué)習(xí)率 gt?=θt?1??f(θt?1?)θt??=?η?gt?其中,gt?是第t步的梯度,η是學(xué)習(xí)率
隨機梯度下降算法在優(yōu)化時,完全依賴于當(dāng)前batch數(shù)據(jù)得到的梯度,而學(xué)習(xí)率則是調(diào)整梯度影響大小的參數(shù),通過控制學(xué)習(xí)率η的大小,一定程度上可以控制網(wǎng)絡(luò)訓(xùn)練速度。

隨機梯度下降算法的問題

隨機梯度下降對大多數(shù)情況都很有效,但還存在缺陷:
1、很難確定合適的η,且所有的參數(shù)使用同樣的學(xué)習(xí)率可能并不是很有效。這種情況可以采用變化學(xué)習(xí)率的訓(xùn)練方式,如控制網(wǎng)絡(luò)在初期以大的學(xué)習(xí)率進行參數(shù)更新,后期以小的學(xué)習(xí)率進行參數(shù)更新(其實和遺傳算法中的交叉變異概率似的,大家可以去了解自適應(yīng)遺傳算法的思想,道理都是一樣的)
2、更容易收斂到局部最優(yōu)解,而且當(dāng)落入到局部最優(yōu)解的時候,不容易跳出。(其實也和遺傳算法可能遇到的問題類似,當(dāng)時是和模擬退火算法結(jié)合了,解決了過早收斂問題,實質(zhì)思想就是增大變異概率,變異了就很可能跳出局部最優(yōu)了)

標(biāo)準(zhǔn)動量優(yōu)化

動量通過模擬物體運動時的慣性來更新網(wǎng)絡(luò)中的參數(shù),即更新時在一定程度上會考慮之前參數(shù)更新的方向,同時利用當(dāng)前batch計算得到的梯度,將兩者結(jié)合起來計算出最終參數(shù)需要更新的大小和方向。
在優(yōu)化時引入動量思想旨在加速學(xué)習(xí),特別是面對小而連續(xù)且含有很多噪聲的梯度。利用動量不僅增加了學(xué)習(xí)參數(shù)的穩(wěn)定性,還會更快的學(xué)習(xí)到收斂的參數(shù)。
在引入動量后,網(wǎng)絡(luò)的參數(shù)更新方式:
g t = ▽ θ t ? 1 f ( θ t ? 1 ) m t = μ ? m t ? 1 + g t ▽ θ t = ? η ? m t m t 為當(dāng)前動量的累加 μ 屬于動量因子,用于調(diào)整上一步動量對參數(shù)的重要程度 g_t=▽_{θ_{t-1}}f(θ_{t-1})\\ m_t=μ*m_{t-1}+g_t\\ ▽_{θ_t}=-η*m_t\\ m_t為當(dāng)前動量的累加\\ μ屬于動量因子,用于調(diào)整上一步動量對參數(shù)的重要程度 gt?=θt?1??f(θt?1?)mt?=μ?mt?1?+gt?θt??=?η?mt?mt?為當(dāng)前動量的累加μ屬于動量因子,用于調(diào)整上一步動量對參數(shù)的重要程度
在網(wǎng)絡(luò)更新初期,可利用上一次參數(shù)更新,此時下降方向一致,乘以較大的μ能夠進行很好的加速;在網(wǎng)絡(luò)更新后期,隨著梯度逐漸趨于0,在局部最小值來回震蕩的時候,利用動量使得更新幅度增大,跳出局部最優(yōu)解的陷阱。

Nesterov動量優(yōu)化

Nesterov項(Nesterov動量)是在梯度更新時做出的校正,以避免參數(shù)更新的太快,同時提高靈敏度。在動量中,之前累積的動量并不會影響當(dāng)前的梯度,所以Nesterov的改進就是讓之前的動量直接影響當(dāng)前的動量,即:
g t = ▽ θ t ? 1 f ( θ t ? 1 ? η ? μ ? m t ? 1 ) m t = μ ? m t ? 1 + g t ▽ θ t = ? η ? m t g_t=▽_{θ_{t-1}}f(θ_{t-1}-η*μ*m_{t-1})\\ m_t=μ*m_{t-1}+g_t\\ ▽_{θ_t}=-η*m_t gt?=θt?1??f(θt?1??η?μ?mt?1?)mt?=μ?mt?1?+gt?θt??=?η?mt?
Nesterov動量與標(biāo)準(zhǔn)動量區(qū)別在于,在當(dāng)前batch梯度的計算上,Nesterov動量的梯度計算是在施加當(dāng)前速度之后的梯度。所以可以看成是在標(biāo)準(zhǔn)動量的方法上添加了一個校正因子,從而提高算法更新性能。
在訓(xùn)練開始的時候,參數(shù)可能離最最優(yōu)質(zhì)的較遠,需要較大學(xué)習(xí)率,經(jīng)過幾輪訓(xùn)練后,減小訓(xùn)練學(xué)習(xí)率 (其實就是和自適應(yīng)遺傳算法的思想類似)。因此也提出了很多自適應(yīng)學(xué)習(xí)率的算法Adadelta、RMSProp及adam等。文章來源地址http://www.zghlxwxcb.cn/news/detail-616562.html

到了這里,關(guān)于機器學(xué)習(xí)&&深度學(xué)習(xí)——隨機梯度下降算法(及其優(yōu)化)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 機器學(xué)習(xí)筆記之優(yōu)化算法(十七)梯度下降法在強凸函數(shù)的收斂性分析

    上一節(jié)介紹并證明了: 梯度下降法 在 強凸函數(shù) 上的收斂速度滿足 Q mathcal Q Q -線性收斂 。 本節(jié)將介紹:在 更強 的條件下:函數(shù) f ( ? ) f(cdot) f ( ? ) 在其定義域內(nèi) 二階可微 , 梯度下降法 在 f ( ? ) f(cdot) f ( ? ) 上的收斂速度存在什么樣的結(jié)論。 關(guān)于 梯度下降法 在

    2024年02月12日
    瀏覽(35)
  • 機器學(xué)習(xí)--決策樹、線性模型、隨機梯度下降

    機器學(xué)習(xí)--決策樹、線性模型、隨機梯度下降

    ???♂? 個人主頁:@Lingxw_w的個人主頁 ???作者簡介:計算機科學(xué)與技術(shù)研究生在讀 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話, 歡迎評論 ??點贊???? 收藏 ??加關(guān)注+??? 目錄 ?一、決策樹 二、線性模型 三、隨機梯度下降 決策樹(decision

    2024年02月03日
    瀏覽(34)
  • [機器學(xué)習(xí)] 1. 梯度下降 Gradient Descent 與隨機梯度下降 Stochastic Gradient Descent

    ML Theory 太魔怔了?。。。?! 從微積分課上我們學(xué)到 對一個 (mathscr C^2) 函數(shù),其二階泰勒展開的皮亞諾余項形式 [f(bm w\\\') = f(bm w) + langle nabla f(bm w), bm w\\\' - bm wrangle + o(|bm w\\\' - bm w|)] 這說明只要 (bm w\\\') 和 (bm w) 挨得足夠接近,我們就可以用 (f(bm w) + langle nabla f(

    2024年02月08日
    瀏覽(20)
  • 機器學(xué)習(xí)筆記之優(yōu)化算法(十六)梯度下降法在強凸函數(shù)上的收斂性證明

    機器學(xué)習(xí)筆記之優(yōu)化算法(十六)梯度下降法在強凸函數(shù)上的收斂性證明

    本節(jié)將介紹: 梯度下降法 在 強凸函數(shù) 上的收斂性,以及 證明過程 。 凸函數(shù)與強凸函數(shù) 關(guān)于 凸函數(shù) 的定義使用 數(shù)學(xué)符號 表示如下: ? x 1 , x 2 ∈ R n , ? λ ∈ ( 0 , 1 ) ? f [ λ ? x 2 + ( 1 ? λ ) ? x 1 ] ≤ λ ? f ( x 2 ) + ( 1 ? λ ) ? f ( x 1 ) forall x_1,x_2 in mathbb R^n, forall

    2024年02月11日
    瀏覽(28)
  • 深入探討梯度下降:優(yōu)化機器學(xué)習(xí)的關(guān)鍵步驟(一)

    深入探討梯度下降:優(yōu)化機器學(xué)習(xí)的關(guān)鍵步驟(一)

    在機器學(xué)習(xí)領(lǐng)域,梯度下降是一種核心的優(yōu)化算法,它被廣泛應(yīng)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)、線性回歸和其他機器學(xué)習(xí)模型中。本文將深入探討梯度下降的工作原理,并且進行簡單的代碼實現(xiàn) 梯度下降是一種迭代優(yōu)化算法,旨在尋找函數(shù)的局部最小值(或最大值)以最小化(或最大化

    2024年02月10日
    瀏覽(23)
  • 深入探討梯度下降:優(yōu)化機器學(xué)習(xí)的關(guān)鍵步驟(二)

    深入探討梯度下降:優(yōu)化機器學(xué)習(xí)的關(guān)鍵步驟(二)

    承接上篇,這篇主要有兩個重點,一個是 eta 參數(shù)的調(diào)解;一個是在sklearn中實現(xiàn)梯度下降 在梯度下降算法中,學(xué)習(xí)率(通常用符號η表示,也稱為步長或?qū)W習(xí)速率)的選擇非常重要,因為它直接影響了算法的性能和收斂速度。學(xué)習(xí)率控制了每次迭代中模型參數(shù)更新的幅度。以

    2024年02月09日
    瀏覽(19)
  • 機器學(xué)習(xí):基于梯度下降算法的邏輯回歸實現(xiàn)和原理解析

    機器學(xué)習(xí):基于梯度下降算法的邏輯回歸實現(xiàn)和原理解析

    當(dāng)涉及到二元分類問題時,邏輯回歸是一種常用的機器學(xué)習(xí)算法。它不僅簡單而且有效,通常是入門機器學(xué)習(xí)領(lǐng)域的第一步。本文將介紹邏輯回歸的基本概念、原理、應(yīng)用場景和代碼示例。 邏輯回歸是一種用于解決二元分類問題的統(tǒng)計學(xué)習(xí)方法。盡管其名稱中包含\\\"回歸\\\"一詞

    2024年02月09日
    瀏覽(30)
  • 每天五分鐘機器學(xué)習(xí):梯度下降算法和正規(guī)方程的比較

    每天五分鐘機器學(xué)習(xí):梯度下降算法和正規(guī)方程的比較

    梯度下降算法和正規(guī)方程是兩種常用的機器學(xué)習(xí)算法,用于求解線性回歸問題。它們各自有一些優(yōu)點和缺點,下面將分別對它們進行詳細的討論。 1. 梯度下降算法是一種迭代的優(yōu)化算法,通過不斷迭代調(diào)整參數(shù)來逼近最優(yōu)解。它的基本思想是根據(jù)目標(biāo)函數(shù)的梯度方向,沿著負

    2024年02月13日
    瀏覽(14)
  • 機器學(xué)習(xí):基于梯度下降算法的線性擬合實現(xiàn)和原理解析

    機器學(xué)習(xí):基于梯度下降算法的線性擬合實現(xiàn)和原理解析

    當(dāng)我們需要尋找數(shù)據(jù)中的趨勢、模式或關(guān)系時,線性擬合和梯度下降是兩個強大的工具。這兩個概念在統(tǒng)計學(xué)、機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域都起著關(guān)鍵作用。本篇博客將介紹線性擬合和梯度下降的基本原理,以及它們在實際問題中的應(yīng)用。 線性擬合是一種用于找到數(shù)據(jù)集中線性

    2024年02月10日
    瀏覽(30)
  • 優(yōu)化器(一)torch.optim.SGD-隨機梯度下降法

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包