国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[機(jī)器學(xué)習(xí)] 1. 梯度下降 Gradient Descent 與隨機(jī)梯度下降 Stochastic Gradient Descent

這篇具有很好參考價(jià)值的文章主要介紹了[機(jī)器學(xué)習(xí)] 1. 梯度下降 Gradient Descent 與隨機(jī)梯度下降 Stochastic Gradient Descent。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ML Theory 太魔怔了?。。。?!

從微積分課上我們學(xué)到

  • 對(duì)一個(gè) \(\mathscr C^2\) 函數(shù),其二階泰勒展開(kāi)的皮亞諾余項(xiàng)形式

    \[f(\bm w') = f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w\rangle + o(\|\bm w' - \bm w\|) \]

    這說(shuō)明只要 \(\bm w'\)\(\bm w\) 挨得足夠接近,我們就可以用 \(f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle\) 來(lái)逼近 \(f(\bm w')\)。

現(xiàn)在我們想定量描述這個(gè)逼近過(guò)程,來(lái)說(shuō)明梯度下降 (gredient descent, GD) 的收斂性及其速率。因此考慮其拉格朗日余項(xiàng)

\[f(\bm w') = f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w\rangle + \frac{g(\bm \xi)}2 \|\bm w' - \bm w\|^2 \]

我們來(lái)定量描述 \(g\) 的性質(zhì)。

由于梯度下降要執(zhí)行多輪,因此會(huì)有不同的 \(\bm w, \bm w'\),所以性質(zhì)需要適用于所有位置。

定義 平滑性假設(shè) (Smoothness assumption) \(\exists L, \text{ s.t. } \forall \bm w, \bm w', |g(\bm \xi)| \leq L\)。換句話說(shuō),

\[|f(\bm w') - f(\bm w) - \langle \nabla f(\bm w), \bm w' - \bm w\rangle| \leq \frac{L}2 \|\bm w' - \bm w\|^2 \]

這個(gè)假設(shè)是非常自然的,其略強(qiáng)于 \(\mathscr C^2\)。在有界閉集上兩者等價(jià)。

平滑性是說(shuō)一個(gè)函數(shù)在每個(gè)點(diǎn)被一個(gè)二次函數(shù) bound 住,在梯度的視角下,這等價(jià)于其 Lipschitz 連續(xù),在 Hessian 矩陣的視角下,這等價(jià)于矩陣的 norm 被 bound 住。

命題 梯度 \(L\)-Lipschitz 連續(xù)等價(jià)于 \(\|\nabla^2 f(x)\| \leq L\),其中 \(|\nabla^2 f(x)|\) 表示 Hessian 矩陣的 Euclidean norm,即 \(\max_{\|x\| = 1} \|Hx\| = |\lambda|_{\max}\)。梯度 \(L\)-Lipschitz 連續(xù)表示

\[\|\nabla f(\bm w) - \nabla f(\bm w')\| \leq L \|\bm w - \bm w'\| \]

證明

  • \(\Leftarrow\)

    \[\begin{aligned} \|\nabla f(\bm w') - \nabla f(\bm w)\| &= \left\|\int^1_0 \nabla^2 f(\bm w + \tau(\bm w' - \bm w))(\bm w' - \bm w) \mathrm d \tau\right\| \\ &= \left\|\int^1_0 \nabla^2 f(\bm w + \tau(\bm w' - \bm w)) \mathrm d \tau \cdot (\bm w' - \bm w)\right\| \\ &\leq \left\|\int^1_0 \nabla^2 f(\bm w + \tau(\bm w' - \bm w))\mathrm d \tau\right\| \cdot \|\bm w' - \bm w\| \\ &\leq \int^1_0 \|\nabla^2 f(\bm w + \tau(\bm w' - \bm w))\|\mathrm d \tau \cdot \|\bm w' - \bm w\| \\ &\leq L\|\bm w' - \bm w\| \end{aligned}\]
  • \(\Rightarrow\)

    \[\|\nabla^2 f(\bm w)\| = \max_{\|\bm x\| = 1} \|H\bm x\| \leq \lim_{\alpha \to 0^+}\frac{\|\nabla f(\bm w + \alpha \bm v) - \nabla f(\bm w)\|}{\alpha} \leq L \]

    其中 \(\|\bm v\| = 1\)。

命題 \(L\)-平滑等價(jià)于梯度 \(L\)-Lipschitz 連續(xù)。

證明

  • \(\Leftarrow\)

    \[\begin{aligned} f(\bm w') &= f(\bm w) + \int^1_0 \langle \nabla f(\bm w + \tau(\bm w' - \bm w)), \bm w' - \bm w \rangle \mathrm d \tau \\ &= f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle + \int^1_0 \langle \nabla f(\bm w + \tau(\bm w' - \bm w)) - \nabla f(\bm w), \bm w' - \bm w \rangle \mathrm d \tau \\ &\leq f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle + \int^1_0 \|\nabla f(\bm w + \tau(\bm w' - \bm w)) - \nabla f(\bm w)\| \cdot \|\bm w' - \bm w \| \mathrm d \tau && \text{Cauchy-Schwarz} \\ &\leq f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle + \int^1_0 L\tau\|\bm w' - \bm w\| \cdot \|\bm w' - \bm w \| \mathrm d \tau \\ &= f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle + \frac L2\|\bm w' - \bm w\|^2 \\ \end{aligned}\]
  • \(\Rightarrow\):考慮 \(f\) 的 Lagrange 余項(xiàng)的 Taylor 展開(kāi)

    \[f(\bm w') = f(\bm w) + \langle f(\bm w), \bm w' - \bm w \rangle + \frac 12 \langle\nabla^2 f(\bm \xi)(\bm w' - \bm w), \bm w' - \bm w \rangle \]
    \[|f(\bm w')- f(\bm w) - \langle \nabla f(\bm w), \bm w' - \bm w\rangle| = \frac 12 |\langle \nabla^2 f(\bm \xi)(\bm w' - \bm w), \bm w' - \bm w \rangle|\leq \frac L2\|\bm w' - \bm w\|^2 \]

    \(\bm w' = \bm w + t \bm v, \|\bm v\| = 1\),有

    \[|\langle \nabla^2 f(\bm w + t \bm v) \bm v, \bm v\rangle| \leq L \]

    \(t \to 0^+\),由于 \(f\)\(\mathscr C^2\) 函數(shù),可得

    \[|\langle \nabla^2 f(\bm w) \bm v, \bm v\rangle| \leq L \]

    注意到 \(\nabla^2 f(\bm w)\) 是一個(gè) self-adjoint 的矩陣,因此

    \[\max_{\bm v} \|\nabla^2 f(\bm w)\bm v\|_2 = \max_{\bm v} \langle \nabla^2 f(\bm w) \bm v, \bm v\rangle = |\lambda|_{\max} \]

    根據(jù)上一條命題,該命題得證。

回到梯度下降中。對(duì)平滑的 \(f\),有

\[\begin{cases} f(\bm w') \leq f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle + \frac L2 \| \bm w' - \bm w \|^2 \\ f(\bm w') \geq f(\bm w) + \langle \nabla f(\bm w), \bm w' - \bm w \rangle - \frac L2 \| \bm w' - \bm w \|^2 \\ \end{cases}\]

這給出了一個(gè)從 \(\bm w\) 出發(fā),走到某個(gè) \(\bm w'\)\(f\) 的上下界,就像這樣(靈魂畫(huà)手 yy)

下界并不重要,我們關(guān)心的是上界。在 \(\bm w, \bm w'\) 足夠接近時(shí),\(f\) 總是下降的,定量地,假設(shè)在梯度下降中采取學(xué)習(xí)速率 \(\eta\),\(\bm w' = \bm w - \eta \nabla f(\bm w)\),

\[\begin{aligned} f(\bm w') - f(\bm w) &\leq \langle \nabla f(\bm w), \bm w' - \bm w \rangle + \frac L2 \|\bm w' - \bm w\|^2 \\ &= \langle \nabla f(\bm w), - \eta \nabla f(\bm w)\rangle + \frac{L\eta^2}2 \|\nabla f(\bm w)\|^2 \\ &= -\eta\left(1 - \frac{L\eta}2\right) \|\nabla f(\bm w)\|^2 \end{aligned}\]

因此當(dāng) \(\eta < \frac 2L\) 時(shí),式子總是 \(< 0\) 的,這保證我們每次梯度下降都會(huì)有進(jìn)步。

但是這個(gè)假設(shè)還是不夠。首先它可能會(huì)落入局部最優(yōu),其次雖然每次都有進(jìn)步,但是全局的收斂速度沒(méi)有保證??紤] \(f(x) = \mathrm{sigmoid}(x)\),從 \(x\) 很大的開(kāi)始向中間靠攏,速度是負(fù)指數(shù)級(jí)的。這要求我們給函數(shù)更多的整體性質(zhì)。

定義 一個(gè)函數(shù) \(f\) 是凸的,如果 \(f(t\bm x_1 + (1 - t)\bm x_2) \leq tf(\bm x_1) + (1 - t)f(\bm x_2),\ t \in [0, 1]\)。

其有若干個(gè)等價(jià)定義,這是微積分課上講過(guò)的。

命題\(f\)\(\mathscr C^2\) 函數(shù),則凸等價(jià)于 \(\nabla^2 f(\bm w)\) 半正定。

也就是說(shuō),凸性和平滑性一個(gè)保證的是 \(|\lambda|_{\max}\) 的界,一個(gè)保證的是 \(\lambda_{\min}\) 的符號(hào)。

凸性能夠保證收斂速度。

命題 \(\bm w^* = \operatorname{argmin}_{\bm w} f(\bm w)\),采用學(xué)習(xí)速率 \(\eta \leq \frac 1L\) 進(jìn)行 \(t\) 輪梯度下降時(shí),有

\[f(\bm w_t) \leq f(\bm w^*) + \frac 1{2\eta t}\|\bm w_0 - \bm w^*\|^2 \]

證明 考慮裂項(xiàng)法

\[\begin{aligned} f(\bm w_{i+1}) &\leq f(\bm w_i) - \eta\left(1 - \frac{L\eta}2\right) \|\nabla f(\bm w_i)\|^2 && \text{Smoothness}\\ &\leq f(\bm w_i) - \frac \eta 2\|\nabla f(\bm w_i)\|^2 \\ &\leq f(\bm w^*) + \langle \nabla f(\bm w_i), \bm w_i - \bm w^*\rangle - \frac \eta 2 \|\nabla f(\bm w_i)\|^2 && \text{Convexity} \\ &= f(\bm w^*) - \frac 1{\eta} \langle \bm w_{i+1} - \bm w_i, \bm w_i - \bm w^*\rangle - \frac 1{2\eta} \|\bm w_i - \bm w_{i+1}\|^2 && \text{梯度下降} \\ &= f(\bm w^*) + \frac 1{2 \eta} \|\bm w_i - \bm w^*\|^2 - \frac 1{2\eta}(\|\bm w_i - \bm w^*\|^2 - 2 \langle \bm w_i - \bm w_{i+1}, \bm w_i - \bm w^* \rangle + \|\bm w_i - \bm w_{i+1}\|^2) && 配方 \\ &= f(\bm w^*) + \frac 1{2 \eta} \|\bm w_i - \bm w^*\|^2 - \frac 1{2\eta} \|(\bm w_i - \bm w_{i+1}) - (\bm w_i - \bm w^*)\|^2 \\ &= f(\bm w^*) + \frac 1{2 \eta} (\|\bm w_i - \bm w^*\|^2 - \|\bm w_{i+1} - \bm w^*\|^2) \end{aligned}\]
\[\sum_{i=0}^{t - 1} (f(\bm w_{i+1}) - f(\bm w^*)) \leq \frac 1{2\eta} (\|\bm w_0 - \bm w^*\|^2 - \|\bm w_t - \bm w^*\|^2) \leq \frac 1{2\eta} \|\bm w_0 - \bm w^*\|^2 \]

由于 \(f(\bm w_i)\) 不升,

\[f(\bm w_t) \leq f(\bm w^*) + \frac 1{2\eta t}\|\bm w_0 - \bm w^*\|^2 \]

令總訓(xùn)練輪數(shù)

\[T = \frac{L\|\bm w_0 - \bm w^*\|^2}{2 \epsilon} \]

即可得到 \(f(\bm w_t) \leq f(\bm w^*) + \epsilon\)。

接下來(lái)考慮一個(gè)很常用的技巧,隨機(jī)梯度下降 (stochastic gradient descent, SGD)。如果我們每次都僅選取小批量數(shù)據(jù)計(jì)算梯度,那么便要考慮收斂性的問(wèn)題。

\[\bm w_{t+1} = \bm w_t - \eta \bm G_t \]
\[\mathbb E[\bm G_t] = \nabla f(\bm w_t) \]

其中

\[\nabla f(\bm w, \bm X, \bm Y) = \frac 1N\sum_i \nabla l(\bm w, x_i, y_i) \]
\[\bm G_t = \frac 1{|S|} \sum_{i \in S} \nabla l(\bm w, x_i, y_i) \]

如果采取隨機(jī)選取 \(S\) 的策略,我們可以不再考慮 \(\bm G_t\) 的由來(lái),而是僅把其當(dāng)作一個(gè)隨機(jī)變量對(duì)待。

命題 \(f\) 是一個(gè)凸的 \(L\)-平滑函數(shù),\(\bm w^* = \operatorname{argmin}_{\bm w} f(\bm w)\),采用學(xué)習(xí)速率 \(\eta \leq \frac 1L\) 且使得 \(\mathrm{Var}(\bm G_t) \leq \sigma^2\) 進(jìn)行 \(t\) 輪梯度下降時(shí),有

\[\mathbb E[f(\overline{\bm w_t})] \leq f(\bm w^*) + \frac{\|\bm w_0 - \bm w^*\|^2}{2t\eta} + \eta \sigma^2 \]

其中 \(\overline {\bm w_i} = \frac 1t \sum_{i=1}^t \bm w_i\)

證明 考慮轉(zhuǎn)化為和 GD 類(lèi)似的形式。一次項(xiàng)用期望的線性性,二次項(xiàng)用方差 \(\mathrm{Var}(\bm G_t) = \mathbb E\|\bm G_t\|^2 - (\mathbb E \bm G_t)^2 = \mathbb E\|\bm G_t\|^2 - \|\nabla f(\bm w_i)\|^2\)。由此不斷轉(zhuǎn)化 \(\bm G_i\)\(\nabla f(\bm w_i)\),分離固定部分和隨機(jī)部分。

\[\begin{aligned} E[f(\bm w_{i+1})] &\leq f(\bm w_i) + \mathbb E\langle \nabla f(\bm w_i), \bm w_{i+1} - \bm w_i \rangle + \frac L2\mathbb E\|\bm w_{i+1} - \bm w_i\|^2 && \text{Smoothness} \\ &= f(\bm w_i) + \langle \nabla f(\bm w_i), \mathbb E(\bm w_{i+1} - \bm w_i) \rangle + \frac L2\mathbb E\|\bm w_{i+1} - \bm w_i\|^2 && 期望的線性性 \\ &= f(\bm w_i) - \eta \langle \nabla f(\bm w_i), \nabla f(\bm w_i) \rangle + \frac{L\eta^2}2 \mathbb E\|\bm G_i\|^2 \\ &= f(\bm w_i) - \eta \langle \nabla f(\bm w_i), \nabla f(\bm w_i) \rangle + \frac{L\eta^2}2(\|\nabla f(\bm w_i) \|^2 + \mathrm{Var}(\bm G_i)) && \mathrm{Var}(\bm G_t) = \mathbb E\|\bm G_t\|^2 - \|\nabla f(\bm w_i)\|^2 \\ &\leq f(\bm w_i) - \eta \left(1 - \frac{L \eta}2\right) \|\nabla f(\bm w_i)\|^2 + \frac{L\eta^2}2 \sigma^2 \\ &\leq f(\bm w_i) - \frac \eta 2 \|\nabla f(\bm w_i)\|^2 + \frac \eta 2 \sigma^2 && \eta < \frac 1L \\ &\leq f(\bm w^*) + \langle \nabla f(\bm w_i), \bm w_i - \bm w^* \rangle - \frac \eta 2\|\nabla f(\bm w_i)\|^2 + \frac \eta 2\sigma^2 \\ &\leq f(\bm w^*) - \frac 1 \eta\mathbb E\langle \bm w_{i+1} - \bm w_i, \bm w_i - \bm w^* \rangle - \frac \eta 2\|\bm G_i\|^2 + \eta\sigma^2 && \|\nabla f(\bm w_i)\|^2 = \mathbb E\|\bm G_i\|^2 - \mathrm{Var}(\bm G_i) \\ &= \frac 1{2\eta} \mathbb E(\|\bm w_i - \bm w^*\|^2 - \|\bm w_{i+1} - \bm w^*\|^2) + \eta \sigma^2 && 同 \text{ GD} \\ \end{aligned}\]
\[\begin{aligned} \mathbb E[f(\overline{\bm w_t})] - f(\bm w^*) &= \mathbb Ef\left(\frac 1t\sum_{i=1}^t \bm w_t\right) - f(\bm w^*) \\ &\leq \frac 1t\mathbb E\left(\sum_{i=1}^t f(\bm w_i)\right) - f(\bm w^*) && \text{Jensen's Ineq} \\ &\leq \frac 1t\sum_{i=0}^{t - 1} (\mathbb Ef(\bm w_{i+1}) - f(\bm w^*)) \\ &\leq \frac 1{2\eta t}(\|\bm w_0 - \bm w^*\|^2 - \mathbb E\|\bm w_t - \bm w^*\|^2) + \eta \sigma^2 \\ &\leq \frac 1{2\eta t}\|\bm w_0 - \bm w^*\|^2 + \eta \sigma^2 \end{aligned}\]

\[T = \frac{2 \|\bm w_0 - \bm w^*\|^2 \sigma^2}{\epsilon^2}, \eta = \frac \epsilon {2\sigma^2} \]

即可得到 \(\mathbb Ef(\overline{\bm w_t}) \leq f(\bm w^*) + \epsilon\)

也就是說(shuō),誤差項(xiàng)是不隨 \(t\) 改變的,因此只能通過(guò)縮小學(xué)習(xí)速率降低誤差。這導(dǎo)致 GD 有 \(\frac 1T\) 的收斂速率時(shí) SGD 只有 \(\frac 1{\sqrt T}\) 的收斂速率。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-711711.html

到了這里,關(guān)于[機(jī)器學(xué)習(xí)] 1. 梯度下降 Gradient Descent 與隨機(jī)梯度下降 Stochastic Gradient Descent的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【Matlab算法】梯度下降法(Gradient Descent)(附MATLAB完整代碼)

    【Matlab算法】梯度下降法(Gradient Descent)(附MATLAB完整代碼)

    梯度下降法 是一種用于最小化函數(shù)的迭代優(yōu)化算法。其基本思想是通過(guò)計(jì)算函數(shù)的梯度 (導(dǎo)數(shù)),找到函數(shù)的最小值點(diǎn)。在梯度下降法中,參數(shù)(或變量)沿著負(fù)梯度的方向進(jìn)行更新,以降低函數(shù)值。 以下是梯度下降法的基本描述: 選擇初始點(diǎn): 選擇一個(gè)初始點(diǎn)作為優(yōu)化的起

    2024年01月19日
    瀏覽(24)
  • 機(jī)器學(xué)習(xí)&&深度學(xué)習(xí)——隨機(jī)梯度下降算法(及其優(yōu)化)

    在我們沒(méi)有辦法得到解析解的時(shí)候,我們可以用過(guò)梯度下降來(lái)進(jìn)行優(yōu)化,這種方法幾乎可以所有深度學(xué)習(xí)模型。 關(guān)于優(yōu)化的東西,我自己曾經(jīng)研究過(guò)智能排班算法和優(yōu)化,所以關(guān)于如何找局部最小值,以及如何跳出局部最小值的一些基本思想是有感觸的,隨機(jī)梯度算法和其優(yōu)

    2024年02月15日
    瀏覽(24)
  • 機(jī)器學(xué)習(xí)--決策樹(shù)、線性模型、隨機(jī)梯度下降

    機(jī)器學(xué)習(xí)--決策樹(shù)、線性模型、隨機(jī)梯度下降

    ???♂? 個(gè)人主頁(yè):@Lingxw_w的個(gè)人主頁(yè) ???作者簡(jiǎn)介:計(jì)算機(jī)科學(xué)與技術(shù)研究生在讀 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+??? 目錄 ?一、決策樹(shù) 二、線性模型 三、隨機(jī)梯度下降 決策樹(shù)(decision

    2024年02月03日
    瀏覽(34)
  • 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)——使用paddle實(shí)現(xiàn)隨機(jī)梯度下降算法SGD對(duì)波士頓房?jī)r(jià)數(shù)據(jù)進(jìn)行線性回歸和預(yù)測(cè)

    機(jī)器學(xué)習(xí)與深度學(xué)習(xí)——使用paddle實(shí)現(xiàn)隨機(jī)梯度下降算法SGD對(duì)波士頓房?jī)r(jià)數(shù)據(jù)進(jìn)行線性回歸和預(yù)測(cè)

    隨機(jī)梯度下降(SGD)也稱為增量梯度下降,是一種迭代方法,用于優(yōu)化可微分目標(biāo)函數(shù)。該方法通過(guò)在小批量數(shù)據(jù)上計(jì)算損失函數(shù)的梯度而迭代地更新權(quán)重與偏置項(xiàng)。SGD在高度非凸的損失表面上遠(yuǎn)遠(yuǎn)超越了樸素梯度下降法,這種簡(jiǎn)單的爬山法技術(shù)已經(jīng)主導(dǎo)了現(xiàn)代的非凸優(yōu)化。

    2024年02月03日
    瀏覽(32)
  • [機(jī)器學(xué)習(xí)] 3. 鏡像下降 Mirror Descent 與線性耦合 Linear Coupling

    ML Theory 太魔怔了?。。。?! 我們來(lái)考慮更快的下降算法。 對(duì) (L) -smooth 的 Gradient Descent,我們有兩種視角來(lái)看它。一種是局部視角,梯度方向相近的點(diǎn)的函數(shù)值一定會(huì)下降,另一種是全局視角,用一個(gè)二次函數(shù)為整個(gè) (f) 提供了一個(gè) lowerbound。當(dāng)局部梯度的范數(shù)很大時(shí),函

    2024年02月08日
    瀏覽(18)
  • 機(jī)器學(xué)習(xí)梯度下降法筆記

    梯度下降法(Gradient Descent)是一種常用的優(yōu)化算法,用于在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中最小化或最大化一個(gè)函數(shù)的值。在機(jī)器學(xué)習(xí)中,梯度下降法常用于調(diào)整模型的參數(shù),使得模型能夠更好地?cái)M合訓(xùn)練數(shù)據(jù)。 這個(gè)優(yōu)化算法的基本思想是通過(guò)迭代的方式,不斷調(diào)整參數(shù)的值,使得

    2024年02月15日
    瀏覽(21)
  • 機(jī)器學(xué)習(xí)——線性回歸、梯度下降

    機(jī)器學(xué)習(xí)——線性回歸、梯度下降

    監(jiān)督學(xué)習(xí) :學(xué)習(xí)數(shù)據(jù)帶有標(biāo)簽 無(wú)監(jiān)督學(xué)習(xí) :沒(méi)有任何的標(biāo)簽,或者有相同的標(biāo)簽 其他:強(qiáng)化學(xué)習(xí)、推薦系統(tǒng)等 還是房?jī)r(jià)預(yù)測(cè)的例子, 訓(xùn)練集如下: 定義各個(gè)變量的含義如下: m——代表訓(xùn)練集中實(shí)例的數(shù)量 x——代表特征/輸入變量 y——代表目標(biāo)變量/輸出變量 (x,y)——代

    2024年02月07日
    瀏覽(25)
  • 機(jī)器學(xué)習(xí)——梯度下降法

    機(jī)器學(xué)習(xí)——梯度下降法

    問(wèn):梯度下降法一定能求得最小值??? 答: 在某些情況下,梯度下降法可以找到函數(shù)的最小值,但并非總是如此。這取決于函數(shù)的形狀和梯度下降法的參數(shù)設(shè)置。如果函數(shù)具有多個(gè)局部最小值,梯度下降法可能會(huì)收斂到其中一個(gè)局部最小值,而不是全局最小值。此外,如

    2023年04月08日
    瀏覽(21)
  • 機(jī)器學(xué)習(xí)_梯度下降

    機(jī)器學(xué)習(xí)_梯度下降

    計(jì)算梯度向量其幾何意義,就是函數(shù)變化的方向,而且是變化最快的方向。對(duì)于函數(shù)f(x),在點(diǎn)(xo,yo),梯度向量的方向也就是y值增加最快的方向。也就是說(shuō),沿著梯度向量的方向 △f(xo),能找到函數(shù)的最大值。反過(guò)來(lái)說(shuō),沿著梯度向量相反的方向,也就是 -△f(xo)的方向,梯度

    2024年01月19日
    瀏覽(43)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包